कैसे एआई कंप्यूटर भाषण को और अधिक स्वाभाविक बना सकता है

विषयसूची:

कैसे एआई कंप्यूटर भाषण को और अधिक स्वाभाविक बना सकता है
कैसे एआई कंप्यूटर भाषण को और अधिक स्वाभाविक बना सकता है
Anonim

मुख्य तथ्य

  • कंपनियां कंप्यूटर जनित भाषण को अधिक यथार्थवादी बनाने के तरीके खोजने के लिए दौड़ रही हैं।
  • एनवीआईडीआईए ने हाल ही में अनावरण किए गए टूल जो आपको एआई को अपनी आवाज से प्रशिक्षित करने की अनुमति देकर प्राकृतिक भाषण की ध्वनि को पकड़ सकते हैं।
  • इंटोनेशन, इमोशन और म्यूजिकलिटी ऐसी विशेषताएं हैं जिनमें कंप्यूटर की आवाजों की अभी भी कमी है, एक विशेषज्ञ का कहना है।
Image
Image

कंप्यूटर से उत्पन्न भाषण जल्द ही बहुत अधिक मानवीय लग सकता है।

कंप्यूटर पुर्ज़े निर्माता NVIDIA ने हाल ही में ऐसे टूल का अनावरण किया है जो आपको अपनी आवाज़ से AI को प्रशिक्षित करके प्राकृतिक भाषण की आवाज़ को कैप्चर कर सकते हैं।सॉफ्टवेयर दूसरे व्यक्ति की आवाज का उपयोग करके एक वक्ता के शब्दों को भी वितरित कर सकता है। यह कंप्यूटर के भाषण को और अधिक यथार्थवादी बनाने के लिए एक तेजी से बढ़ते प्रयास का हिस्सा है।

"उन्नत आवाज एआई तकनीक उपयोगकर्ताओं को स्वाभाविक रूप से बोलने की अनुमति दे रही है, एक ही वाक्य में कई पूछताछ को जोड़ती है और मूल क्वेरी से लगातार विवरण दोहराने की आवश्यकता को समाप्त करती है," भाषण पहचान कंपनी साउंडहाउंड के मुख्य परिचालन अधिकारी माइकल ज़ागोरसेक, ने Lifewire को एक ईमेल साक्षात्कार में बताया।

"कई भाषाओं को जोड़ने से, जो अब अधिकांश वॉयस एआई प्लेटफॉर्म पर उपलब्ध है, डिजिटल वॉयस असिस्टेंट को अधिक भौगोलिक क्षेत्रों में और अधिक आबादी के लिए सुलभ बनाता है," उन्होंने कहा।

रोबोस्पीच राइजिंग

अमेज़ॅन का एलेक्सा और ऐप्पल का सिरी एक दशक पहले के कंप्यूटर भाषण से बहुत बेहतर लगता है, लेकिन उन्हें जल्द ही प्रामाणिक मानवीय आवाजों के लिए गलत नहीं माना जाएगा।

कृत्रिम भाषण को अधिक स्वाभाविक बनाने के लिए, NVIDIA की टेक्स्ट-टू-स्पीच अनुसंधान टीम ने एक RAD-TTS मॉडल विकसित किया है। यह प्रणाली व्यक्तियों को अपनी आवाज के साथ टेक्स्ट-टू-स्पीच (टीटीएस) मॉडल सिखाने की अनुमति देती है, जिसमें पेसिंग, टोनलिटी, टाइमब्रे और अन्य कारक शामिल हैं।

कंपनी ने अपने नए मॉडल का उपयोग अपनी आई एम एआई वीडियो श्रृंखला के लिए अधिक संवादी-ध्वनि वाले आवाज वर्णन के निर्माण के लिए किया।

"इस इंटरफेस के साथ, हमारे वीडियो निर्माता खुद को वीडियो स्क्रिप्ट पढ़ते हुए रिकॉर्ड कर सकते हैं और फिर अपने भाषण को महिला कथाकार की आवाज में बदलने के लिए एआई मॉडल का उपयोग कर सकते हैं। इस आधारभूत कथन का उपयोग करके, निर्माता एआई को एक की तरह निर्देशित कर सकता है आवाज अभिनेता-विशिष्ट शब्दों पर जोर देने के लिए संश्लेषित भाषण को ट्वीक करना और वीडियो के स्वर को बेहतर ढंग से व्यक्त करने के लिए कथन की गति को संशोधित करना, "एनवीआईडीआईए ने अपनी वेबसाइट पर लिखा।

यह सुनने में जितना कठिन लगता है

कंप्यूटर जनित भाषण को प्राकृतिक बनाना एक मुश्किल समस्या है, विशेषज्ञों का कहना है।

टेक्स्ट टू स्पीच सॉफ्टवेयर कंपनी कुकरेला के सीईओ नाजिम रागिमोव ने एक ईमेल साक्षात्कार में लाइफवायर को बताया,"आपको इसका कंप्यूटर संस्करण बनाने के लिए सैकड़ों घंटे की आवाज रिकॉर्ड करने की आवश्यकता है।" "और रिकॉर्डिंग उच्च गुणवत्ता की होनी चाहिए, जो एक पेशेवर स्टूडियो में रिकॉर्ड की गई हो।गुणवत्तापूर्ण भाषण के जितने अधिक घंटे लोड और संसाधित होते हैं, परिणाम उतना ही बेहतर होता है।"

लेख से वाक् का उपयोग गेमिंग में, मुखर विकलांग व्यक्तियों की सहायता के लिए, या उपयोगकर्ताओं को उनकी अपनी आवाज में भाषाओं के बीच अनुवाद करने में मदद करने के लिए किया जा सकता है।

रागिमोव ने कहा,स्वर, भावना, और संगीतमयता ऐसी विशेषताएं हैं जिनमें कंप्यूटर की आवाजों का अभी भी अभाव है।

अगर एआई इन लापता कड़ियों को जोड़ सकता है, तो कंप्यूटर से उत्पन्न भाषण "असली अभिनेताओं की आवाज़ से अलग नहीं होगा," उन्होंने कहा। "यह एक कार्य प्रगति पर है। अन्य आवाजें रेडियो होस्ट के साथ प्रतिस्पर्धा करने में सक्षम होंगी। जल्द ही आपको ऐसी आवाजें दिखाई देंगी जो ऑडियोबुक गा सकती हैं और पढ़ सकती हैं।"

व्यापार की एक विस्तृत श्रृंखला में भाषण तकनीक अधिक लोकप्रिय हो रही है।

"ऑटो उद्योग हाल ही में वॉयस एआई को सुरक्षित और अधिक कनेक्टेड ड्राइविंग अनुभव बनाने के तरीके के रूप में अपनाने वाला रहा है," ज़ागोरसेक ने कहा।

"तब से, वॉयस असिस्टेंट तेजी से सर्वव्यापी हो गए हैं क्योंकि ब्रांड ग्राहकों के अनुभवों को बेहतर बनाने और अपने उत्पादों और सेवाओं के साथ बातचीत करने के आसान, सुरक्षित, अधिक सुविधाजनक, कुशल और स्वच्छ तरीकों की मांग को पूरा करने के तरीकों की तलाश कर रहे हैं।"

आम तौर पर, वॉयस एआई दो चरणों वाली प्रक्रिया में प्रश्नों को प्रतिक्रियाओं में परिवर्तित करता है जो स्वचालित वाक् पहचान (एएसआर) का उपयोग करके भाषण को टेक्स्ट में ट्रांसक्राइब करके शुरू होता है और फिर उस टेक्स्ट को एक प्राकृतिक भाषा समझ (एनएलयू) मॉडल में फीड करता है।

Image
Image

साउंडहाउंड का दृष्टिकोण वास्तविक समय में भाषण को ट्रैक करने के लिए इन दो चरणों को एक प्रक्रिया में जोड़ता है। कंपनी का दावा है कि यह तकनीक वॉयस असिस्टेंट को उपयोगकर्ता के प्रश्नों का अर्थ समझने की अनुमति देती है, इससे पहले कि व्यक्ति बोलना समाप्त कर दे।

कंप्यूटर भाषण में भविष्य की प्रगति, जिसमें केवल-एम्बेडेड (कोई क्लाउड कनेक्शन आवश्यक नहीं) से हाइब्रिड (एम्बेडेड प्लस क्लाउड) और क्लाउड-ओनली से विभिन्न प्रकार के कनेक्टिविटी विकल्पों की उपलब्धता शामिल है "उद्योगों में कंपनियों को अधिक विकल्प देगा" लागत, गोपनीयता और प्रसंस्करण शक्ति की उपलब्धता के संदर्भ में," ज़ागोर्स्क ने कहा।

NVIDIA ने कहा कि इसके समाचार AI मॉडल वॉयसओवर कार्य से परे हैं।

"लेख से वाक् का उपयोग गेमिंग में किया जा सकता है, मुखर विकलांग व्यक्तियों की सहायता के लिए, या उपयोगकर्ताओं को अपनी आवाज में भाषाओं के बीच अनुवाद करने में मदद करने के लिए," कंपनी ने लिखा। "यह प्रतिष्ठित गायकों के प्रदर्शन को फिर से बना सकता है, न केवल एक गीत के माधुर्य से मेल खाता है, बल्कि स्वर के पीछे की भावनात्मक अभिव्यक्ति भी है।"

सिफारिश की: