आपके कंप्यूटर के साथ बातचीत अधिक यथार्थवादी हो सकती है

विषयसूची:

आपके कंप्यूटर के साथ बातचीत अधिक यथार्थवादी हो सकती है
आपके कंप्यूटर के साथ बातचीत अधिक यथार्थवादी हो सकती है
Anonim

मुख्य तथ्य

  • मेटा ऐसे प्रोग्राम बनाने के लिए AI का उपयोग कर रहा है जो भाषण में भावनाओं को व्यक्त कर सकते हैं।
  • कंपनी की एआई टीम ने कहा कि उसने वास्तविक समय में हंसी, जम्हाई, रोना, और "सहज चिट-चैट" जैसे अभिव्यंजक स्वरों के मॉडलिंग में प्रगति की है।
  • AI का उपयोग वाक् पहचान में शक्ति सुधार के लिए भी किया जा रहा है।
Image
Image

आर्टिफिशियल इंटेलिजेंस (एआई) की शक्ति के कारण आप जल्द ही अपने कंप्यूटर के साथ अधिक स्वाभाविक चैट करने में सक्षम हो सकते हैं।

मेटा ने कहा कि उसने अधिक यथार्थवादी एआई-जनरेटेड स्पीच सिस्टम बनाने के अपने प्रयास में महत्वपूर्ण प्रगति की है। कंपनी की एआई टीम ने कहा कि उसने वास्तविक समय में "सहज चिट-चैट" के अलावा, अभिव्यक्तिपूर्ण स्वरों को मॉडल करने की क्षमता में प्रगति की है, जैसे हंसी, जम्हाई और रोना।

टीम ने हालिया ब्लॉग पोस्ट में लिखा, "किसी भी बातचीत में, लोग अशाब्दिक संकेतों से भरे हुए हैं, जैसे कि इंटोनेशन, भावनात्मक अभिव्यक्ति, विराम, उच्चारण, लय-ये सभी मानवीय बातचीत के लिए महत्वपूर्ण हैं।". "लेकिन आज के एआई सिस्टम इन समृद्ध, अभिव्यंजक संकेतों को पकड़ने में विफल रहते हैं क्योंकि वे केवल लिखित पाठ से सीखते हैं, जो हम जो कहते हैं उसे पकड़ लेता है लेकिन यह नहीं कि हम इसे कैसे कहते हैं।"

स्मार्ट स्पीच

ब्लॉग पोस्ट में, मेटा एआई की टीम ने कहा कि वे पारंपरिक एआई सिस्टम की सीमाओं को दूर करने के लिए काम कर रहे हैं जो भाषण में गैर-मौखिक संकेतों को नहीं समझ सकते हैं, जैसे कि इंटोनेशन, भावनात्मक अभिव्यक्ति, विराम, उच्चारण और लय.सिस्टम को रोक दिया गया है क्योंकि वे केवल लिखित पाठ से ही सीख सकते हैं।

लेकिन मेटा का काम पिछले प्रयासों से अलग है क्योंकि इसके एआई मॉडल बोली जाने वाली भाषा की पूर्ण प्रकृति को पकड़ने के लिए प्राकृतिक भाषा प्रसंस्करण मॉडल का उपयोग कर सकते हैं। मेटा शोधकर्ताओं का कहना है कि नए मॉडल एआई सिस्टम को उस भावना को व्यक्त करने की अनुमति दे सकते हैं जो वे व्यक्त करना चाहते हैं-जैसे बोरियत या विडंबना।

"निकट भविष्य में, हम संसाधन-गहन टेक्स्ट लेबल या स्वचालित वाक् पहचान प्रणाली (एएसआर) की आवश्यकता के बिना उपयोगी डाउनस्ट्रीम अनुप्रयोगों के निर्माण के लिए टेक्स्टलेस तकनीकों को लागू करने पर ध्यान केंद्रित करेंगे, जैसे प्रश्न उत्तर (उदाहरण के लिए, "कैसे है मौसम?"), "टीम ने ब्लॉग पोस्ट में लिखा। "हम मानते हैं कि भाषण में छंद वाक्य को बेहतर ढंग से समझने में मदद कर सकता है, जो बदले में इरादे को समझने में मदद करता है और प्रश्न उत्तर के प्रदर्शन में सुधार करता है।"

एआई पॉवर्स कॉम्प्रिहेंशन

न केवल अर्थ संप्रेषित करने में कंप्यूटर बेहतर हो रहे हैं, बल्कि एआई का उपयोग वाक् पहचान में शक्ति सुधार के लिए भी किया जा रहा है।

कंप्यूटर वैज्ञानिक कम से कम 1952 से कंप्यूटर स्पीच रिकग्निशन पर काम कर रहे हैं, जब तीन बेल लैब्स के शोधकर्ताओं ने एक ऐसा सिस्टम बनाया जो सिंगल न्यूमेरिक डिजिट को पहचान सकता है, एआई डायनेमिक्स के मुख्य प्रौद्योगिकी अधिकारी रयान मोनसुरेट ने एक ईमेल में कहा लाइफवायर। 1990 के दशक तक, वाक् पहचान प्रणाली व्यावसायिक रूप से उपलब्ध थी लेकिन फिर भी एक त्रुटि दर थी जो स्वास्थ्य सेवा जैसे बहुत विशिष्ट अनुप्रयोग डोमेन के बाहर उपयोग को हतोत्साहित करने के लिए पर्याप्त थी।

"अब जब गहन शिक्षण मॉडल ने पहनावा मॉडल (जैसे माइक्रोसॉफ्ट से) को सक्षम किया है, तो भाषण मान्यता पर अलौकिक प्रदर्शन प्राप्त करने के लिए, हमारे पास कंप्यूटर के साथ स्पीकर-स्वतंत्र मौखिक संचार को बड़े पैमाने पर सक्षम करने की तकनीक है," मोनसुरेट ने कहा। "अगले चरण में लागत कम करना शामिल होगा ताकि हर कोई जो सिरी या Google के एआई सहायकों का उपयोग करता है, उसे वाक् पहचान के इस स्तर तक पहुंच प्राप्त होगी।"

Image
Image

AI वाक् पहचान के लिए उपयोगी है क्योंकि यह सीखने के माध्यम से समय के साथ बेहतर हो सकता है, AI वॉयस कंपनी Verbit.ai के मुख्य राजस्व अधिकारी और महाप्रबंधक एरियल यूटनिक ने एक ईमेल साक्षात्कार में लाइफवायर को बताया। उदाहरण के लिए, वर्बिट का दावा है कि इसकी इन-हाउस एआई तकनीक पृष्ठभूमि शोर और गूँज का पता लगाती है और फ़िल्टर करती है और लाइव और रिकॉर्ड किए गए वीडियो और ऑडियो से विस्तृत, पेशेवर ट्रांसक्रिप्ट और कैप्शन उत्पन्न करने के लिए उच्चारण की परवाह किए बिना स्पीकर को ट्रांसक्रिप्ट करती है।

लेकिन यूटनिक ने कहा कि अधिकांश वर्तमान वाक् पहचान मंच केवल 75-80% सटीक हैं।

"एआई कभी भी पूरी तरह से इंसानों की जगह नहीं लेगा क्योंकि ट्रांसक्राइबर्स, प्रूफरीडर और संपादकों द्वारा व्यक्तिगत समीक्षा एक उच्च गुणवत्ता और उच्च सटीकता अंतिम ट्रांसक्रिप्ट सुनिश्चित करने के लिए आवश्यक है," उन्होंने कहा।

हैकर्स को रोकने के लिए बेहतर वॉयस रिकग्निशन का भी इस्तेमाल किया जा सकता है, वॉयस रिकग्निशन कंपनी मिटेक सिस्टम्स में वाइस प्रेसिडेंट ग्लोबल हेड ऑफ प्रोडक्ट एंड कॉरपोरेट डेवलपमेंट संजय गुप्ता ने एक ईमेल में कहा।अनुसंधान इंगित करता है कि दो वर्षों के भीतर, सभी सफल खाता अधिग्रहण हमलों में से 20 प्रतिशत सिंथेटिक आवाज वृद्धि का उपयोग करेंगे, उन्होंने कहा।

"इसका मतलब है कि जैसे-जैसे गहरी नकली तकनीक अधिक परिष्कृत होती जाती है, हमें एक साथ उन्नत सुरक्षा बनाने की आवश्यकता होती है जो छवि और वीडियो के साथ-साथ इन युक्तियों का मुकाबला कर सके, "गुप्ता ने कहा। "वॉयस स्पूफिंग का मुकाबला करने के लिए लाइवनेस डिटेक्शन टेक्नोलॉजी की आवश्यकता होती है, जो लाइव वॉयस और वॉयस के रिकॉर्डेड, सिंथेटिक या कंप्यूटर-जनरेटेड वर्जन के बीच अंतर करने में सक्षम होती है।"

सुधार 2022-05-04: पैराग्राफ 9 में रयान मोनसुरेट के नाम की वर्तनी में सुधार किया गया।

सिफारिश की: