रीयल-टाइम सबटाइटल और अनुवाद वीडियो चैट का भविष्य हो सकते हैं

विषयसूची:

रीयल-टाइम सबटाइटल और अनुवाद वीडियो चैट का भविष्य हो सकते हैं
रीयल-टाइम सबटाइटल और अनुवाद वीडियो चैट का भविष्य हो सकते हैं
Anonim

मुख्य तथ्य

  • फेसटाइम में उपशीर्षक और अनुवाद पेश करने के लिए नवी SharePlay और Apple के बिल्ट-इन स्पीच-टू-टेक्स्ट का उपयोग करता है।
  • यह एकदम सही से बहुत दूर है लेकिन पहले से ही काफी अच्छा है।
  • उपशीर्षक अभिगम्यता के लिए महान हैं।
Image
Image

नवी एक ऐसा ऐप है जो आपके फेसटाइम कॉल में लाइव सबटाइटल और रीयल-टाइम अनुवाद जोड़ता है।

ऐप आपके फेसटाइम कॉल में 20 भाषाओं में उपशीर्षक और अनुवाद जोड़ने के लिए SharePlay और बिल्ट-इन स्पीच रिकग्निशन का उपयोग करता है।यह SharePlay का एक अविश्वसनीय उपयोग है, जिसे हम में से अधिकांश अन्य स्थानों के लोगों के साथ समन्वयित फिल्में देखने का एक बनावटी तरीका मानते हैं। हो सकता है कि आपको अभी तक अपने अनुवादक को सक्रिय करने की आवश्यकता न पड़े, लेकिन एक ऐप जो यह अच्छी तरह से करता है वह बहुत उपयोगी हो सकता है।

"मुझे फेसटाइम कॉल से ऑडियो नहीं मिल रहा है," ट्विटर पर नवी डेवलपर जोर्डी ब्रुइन लिखते हैं, "लेकिन कॉल में प्रतिभागियों के बीच इसे साझा करने के लिए SharePlay का उपयोग कर रहे हैं।"

शेयरप्ले

शेयरप्ले आईओएस 15 और मैकओएस 12.1 में एक नई सुविधा है जो आपको फेसटाइम कॉल में चीजों को साझा और सिंक्रनाइज़ करने देती है। ऊपर दिए गए मूवी देखने के उदाहरण के साथ, कोई भी प्रतिभागी मूवी को रोक या चला सकता है, उदाहरण के लिए, जब आप सभी फेसटाइम कॉल में चैट करते हैं। फेसटाइम वीडियो एक छोटे, फ्लोटिंग, पिक्चर-इन-पिक्चर पैनल में खुला रहता है, और प्रत्येक प्रतिभागी अपने डिवाइस पर स्थानीय रूप से ऐप चलाता है। SharePlay की चाल इन स्थानीय ऐप्स में जो कुछ भी हो रहा है उसे सिंक करना है, इसलिए हर कोई अनुभव साझा करता है, चाहे वह मूवी हो, फिटनेस+ कसरत हो या स्प्रेडशीट हो।

नवी एक ही तकनीक का उपयोग करता है, केवल इन-कॉल ऐप मूवी नहीं है-यह एक रीयल-टाइम अनुवाद इंजन है। इसका उपयोग करने के लिए, आप फेसटाइम कॉल के दौरान ऐप लॉन्च करते हैं और 'उपशीर्षक चालू करें' बटन पर टैप करें। फिर, अन्य प्रतिभागी भी कार्रवाई में शामिल हो सकते हैं और वर्तमान स्पीकर के लिए लाइव उपशीर्षक देख सकते हैं। अगर कोई एकालाप कर रहा है, तो उसका भाषण बुलबुला बढ़ता है और थोड़ी देर तक चिपक जाता है।

Image
Image

बधिरों के लिए, इसका मतलब लोगों को कॉल करने या न करने के बीच का अंतर हो सकता है। और किसी के लिए भी, इसका मतलब है कि आप उन लोगों के बीच उपयोगी बातचीत कर सकते हैं जो एक भाषा साझा नहीं करते हैं।

सार्वभौम पाठ

इंटरनेट टेक्स्ट पर बना है, और यह बहुत अच्छी बात है। यह छोटा और बनाने, पढ़ने और अनुवाद करने में आसान है। संश्लेषित भाषण में बदलना भी आसान है। नतीजा यह है कि कहीं से भी कोई भी किसी भी बातचीत में भाग ले सकता है। भाषा कोई बाधा नहीं है, और न ही बहरापन या किसी भी प्रकार का अंधापन है-जब तक आप किसी ऐसे उपकरण का उपयोग कर रहे हैं जिसमें दृष्टि या श्रवण बाधित होने के लिए अच्छी पहुंच वाले उपकरण हैं।

लेकिन बोले गए शब्द को संसाधित करना बहुत कठिन है। भाषण-से-पाठ श्रुतलेख प्रभावशाली है, लेकिन यह अपेक्षाकृत हाल ही में है कि सामान्य भाषण मान्यता सामान्य उपयोग के लिए काफी अच्छी हो गई है-Apple का अनुवाद ऐप एक अच्छा उदाहरण है। आईओएस 15 में पेश किया गया, यह रीयल-टाइम ऑडियो अनुवाद प्रदान करता है। अगर हम अभी भी विदेश छुट्टियों पर जाते, तो यह बहुत अच्छा होता।

अब हम काम के लिए और दोस्तों और परिवार के संपर्क में रहने के लिए वीडियो का अधिक से अधिक उपयोग करते हैं। कोई फर्क नहीं पड़ता कि हम भविष्य में कैसे काम करते हैं, वीडियो कॉल की बाधा को पूरी तरह से तोड़ दिया गया है। यह अब एक सामान्य उपकरण है, लेकिन इसमें लिखित संचार उपकरणों की बहुत अधिक कुशलता का अभाव है।

नवी जैसा कुछ, जो रीयल-टाइम उपशीर्षक और अनुवाद प्रदान करता है, महत्वपूर्ण हो सकता है। पहुंच एक पहलू है, लेकिन उन लोगों के साथ बातचीत करने की क्षमता जिनकी भाषा आप नहीं बोलते हैं, अंतरराष्ट्रीय व्यापार को एक चौंकाने वाली डिग्री तक खोल देता है।

Image
Image

कार्रवाई में

मैंने ऐप डेवलपर, लेखक और हियरिंग एड उपयोगकर्ता ग्राहम बोवर के साथ नवी का परीक्षण किया। यह बहुत अच्छा है लेकिन अभी तक महत्वपूर्ण कार्यों के लिए तैयार नहीं है। कुछ ट्रांसक्रिप्शन हास्य रूप से खराब थे और संबंधित करने के लिए बहुत अश्लील थे। हालाँकि, जैसे-जैसे हमारी बातचीत आगे बढ़ी, वैसे-वैसे उनके भाषण को सही-सही पहचानने में यह बहुत बेहतर होता गया। यह समझ में आता है क्योंकि आईओएस डिक्टेशन इंजन समय के साथ आपकी आवाज के अनुकूल हो जाता है।

अनुवाद ने भी काम किया, हालांकि इसके अनुवादों की गुणवत्ता इनपुट की सटीकता पर निर्भर करती है।

इस तरह की तकनीक को भविष्य के Apple ग्लासेस या किसी भी अफवाह वाले AR/VR उत्पाद में इस सप्ताह काम करना आसान है।

"मैं इसे एआर ग्लास में काम करते हुए देख सकता हूं," बोवर ने हमारी बातचीत के दौरान कहा। "कुछ लोग, सामान्य सुनवाई के साथ भी, फिल्मों में उपशीर्षक पसंद करते हैं। यह वास्तविक जीवन के लिए उपशीर्षक की तरह होगा।"

एक प्रभावशाली तकनीकी प्रदर्शन के साथ, नवी अभी तक नहीं है। विश्वसनीय व्यावसायिक उपयोग के लिए, Apple की प्रारंभिक वाक् पहचान को और अधिक सटीक बनाना होगा। लेकिन गति के अनुसार, यह ठीक है, और अनुवाद किसी भी तरह से अच्छे हैं।

लेकिन हम अभी रास्ते पर हैं, और इस तरह की चीजें केवल बेहतर होंगी।

सिफारिश की: