जल्द ही, शायद आपको पता न चले कि आप कंप्यूटर से बात कर रहे हैं

विषयसूची:

जल्द ही, शायद आपको पता न चले कि आप कंप्यूटर से बात कर रहे हैं
जल्द ही, शायद आपको पता न चले कि आप कंप्यूटर से बात कर रहे हैं
Anonim

मुख्य तथ्य

  • वह दिन निकट आ रहा है जब आप कंप्यूटर से उत्पन्न भाषण को वास्तविक चीज़ से नहीं बता पाएंगे।
  • Google ने हाल ही में LaMDA का अनावरण किया, एक ऐसा मॉडल जो अधिक स्वाभाविक बातचीत की अनुमति दे सकता है।
  • मनुष्यों की तरह भाषण देने में भी बड़ी मात्रा में संसाधन शक्ति लगती है।
Image
Image

अभी, यह बताना आसान है कि आप कंप्यूटर से कब बात कर रहे हैं, लेकिन एआई में हालिया प्रगति के कारण यह जल्द ही बदल सकता है।

Google ने हाल ही में LaMDA का अनावरण किया, एक प्रयोगात्मक मॉडल जिसके बारे में कंपनी का दावा है कि वह अपने संवादी AI सहायकों की क्षमता को बढ़ा सकता है और अधिक प्राकृतिक बातचीत की अनुमति दे सकता है।LaMDA का लक्ष्य अंततः बिना किसी पूर्व प्रशिक्षण के लगभग किसी भी चीज़ के बारे में सामान्य रूप से बातचीत करना है।

यह एआई परियोजनाओं की बढ़ती संख्या में से एक है जो आपको आश्चर्यचकित कर सकती है कि क्या आप किसी इंसान से बात कर रहे हैं।

"मेरा अनुमान है कि अगले 12 महीनों के भीतर, उपयोगकर्ता इन नई, अधिक भावनात्मक आवाज़ों के संपर्क में आने और अभ्यस्त होने लगेंगे," मीटकाई के सीईओ जेम्स कपलान, एक संवादी एआई वर्चुअल वॉयस असिस्टेंट और सर्च इंजन, एक ईमेल साक्षात्कार में कहा।

"ऐसा होने के बाद, आज का संश्लेषित भाषण उपयोगकर्ताओं को वैसा ही लगेगा जैसे 2000 के दशक के शुरुआती भाषण आज हमें लगता है।"

आवाज सहायक चरित्र के साथ

Google का LaMDA ट्रांसफॉर्मर पर बनाया गया है, जो Google अनुसंधान द्वारा आविष्कार किया गया एक तंत्रिका नेटवर्क आर्किटेक्चर है। अन्य भाषा मॉडलों के विपरीत, Google के LaMDA को वास्तविक संवाद पर प्रशिक्षित किया गया था।

नेचुरल-साउंडिंग AI स्पीच बनाने की चुनौती का एक हिस्सा बातचीत की ओपन-एंडेड प्रकृति है, Google के एली कॉलिन्स ने एक ब्लॉग पोस्ट में लिखा है।

Image
Image

"एक टीवी शो के बारे में एक दोस्त के साथ बातचीत उस देश के बारे में चर्चा में विकसित हो सकती है जहां उस देश के सर्वश्रेष्ठ क्षेत्रीय व्यंजनों के बारे में बहस पर बसने से पहले शो को फिल्माया गया था," उन्होंने कहा।

रोबोट स्पीच से चीजें तेजी से आगे बढ़ रही हैं। सिंगयुआन वेंचर्स के मैनेजिंग पार्टनर एरिक रोसेनब्लम, जो संवादी एआई में निवेश करते हैं, ने कहा कि कंप्यूटर एडेड स्पीच में कुछ सबसे बुनियादी समस्याएं वस्तुतः हल हो गई हैं।

उदाहरण के लिए, भाषण को समझने में सटीकता दर पहले से ही सेवाओं में बहुत अधिक है जैसे सॉफ्टवेयर Otter.ai द्वारा किए गए ट्रांसक्रिप्शन या डीपस्क्राइब द्वारा लिए गए मेडिकल नोट्स।

"अगला सीमांत, हालांकि, अधिक कठिन है," उन्होंने कहा।

"संदर्भ की समझ को बनाए रखना, जो एक ऐसी समस्या है जो प्राकृतिक भाषा प्रसंस्करण से परे है, और सहानुभूति, जैसे कि मनुष्यों के साथ बातचीत करने वाले कंप्यूटर को निराशा, क्रोध, अधीरता आदि को समझने की आवश्यकता है।इन दोनों मुद्दों पर काम किया जा रहा है, लेकिन दोनों ही संतोषजनक नहीं हैं।"

तंत्रिका नेटवर्क कुंजी हैं

जीवन जैसी आवाजें उत्पन्न करने के लिए, कंपनियां डीप न्यूरल नेटवर्क जैसी तकनीक का उपयोग कर रही हैं, मशीन लर्निंग का एक रूप जो परतों के माध्यम से डेटा को वर्गीकृत करता है, मैट मुलडून, रीडस्पीकर में उत्तर अमेरिकी अध्यक्ष, एक कंपनी जो टेक्स्ट टू स्पीच सॉफ्टवेयर विकसित करती है, एक ईमेल साक्षात्कार में कहा।

"ये परतें सिग्नल को परिष्कृत करती हैं, इसे और अधिक जटिल वर्गीकरणों में क्रमबद्ध करती हैं," उन्होंने कहा। "परिणाम सिंथेटिक भाषण है जो मानव की तरह अलौकिक लगता है।"

विकास के तहत एक और तकनीक प्रोसोडी ट्रांसफर है, जिसमें एक टेक्स्ट-टू-स्पीच आवाज की आवाज को दूसरे की बोलने की शैली के साथ जोड़ना शामिल है, मुलदून ने कहा। ट्रांसफर लर्निंग भी है, जो एक नई न्यूरल टेक्स्ट-टू-स्पीच आवाज बनाने के लिए आवश्यक प्रशिक्षण डेटा की मात्रा को कम करता है।

कपलान ने कहा कि मानव की तरह भाषण देने में भी भारी मात्रा में प्रसंस्करण शक्ति लगती है। कंपनियां तंत्रिका त्वरक चिप्स विकसित कर रही हैं, जो कस्टम मॉड्यूल हैं जो नियमित प्रोसेसर के साथ मिलकर काम करते हैं।

"इसमें अगला चरण इन चिप्स को छोटे हार्डवेयर में डालना होगा, क्योंकि वर्तमान में यह पहले से ही कैमरों के लिए किया जाता है जब दृष्टि के लिए एआई की आवश्यकता होती है," उन्होंने कहा। "इस प्रकार की कंप्यूटिंग क्षमता हेडफ़ोन में स्वयं उपलब्ध होने में बहुत समय नहीं लगेगा।"

एआई-संचालित भाषण को विकसित करने की एक चुनौती यह है कि हर कोई अलग तरह से बात करता है, इसलिए कंप्यूटर को हमें समझने में मुश्किल होती है।

"सोचो जॉर्जिया बनाम बोस्टन बनाम नॉर्थ डकोटा लहजे, और अंग्रेजी आपकी प्राथमिक भाषा है या नहीं," एमडीएनसी में वॉयस सर्च एनालिटिक्स पर काम करने वाली मोनिका डेमा ने एक ईमेल में कहा। "विश्व स्तर पर यह सोचकर, जर्मनी, चीन और भारत के सभी क्षेत्रों के लिए ऐसा करना महंगा है, लेकिन इसका मतलब यह नहीं है कि यह नहीं किया जा सकता है या नहीं किया जा सकता है।"

सिफारिश की: