क्या ये सुपर-प्रभावशाली एआई ऑडियोबुक आवाजें अच्छी हैं या बुरी?

विषयसूची:

क्या ये सुपर-प्रभावशाली एआई ऑडियोबुक आवाजें अच्छी हैं या बुरी?
क्या ये सुपर-प्रभावशाली एआई ऑडियोबुक आवाजें अच्छी हैं या बुरी?
Anonim

मुख्य तथ्य

  • DeepZen टेक्स्ट से चौंकाने वाली यथार्थवादी ऑडियोबुक बनाने के लिए AI (कृत्रिम बुद्धिमत्ता) का उपयोग करता है।
  • टेक बिल्डिंग ब्लॉक्स प्रदान करने के लिए वास्तविक मानव आवाज अभिनेताओं का उपयोग करता है।
  • अमेज़ॅन और ऑडिबल वर्तमान में कंप्यूटर जनित ऑडियोबुक स्वीकार नहीं करते हैं।
Image
Image

DeepZen एक ऐसी कंपनी है जो मानव अभिनेताओं की वास्तविक आवाज़ों के आधार पर ऑडियोबुक में उपयोग की जाने वाली कंप्यूटर आवाज़ें बनाती है। गुणवत्ता डरावनी है-आसानी से इतनी अच्छी है कि एक बार में घंटों तक सुन सकता है।यहां नौटंकी एआई (कृत्रिम बुद्धिमत्ता) घटक है, जो पाठ को पढ़ सकता है और संदर्भ के आधार पर सही भावनात्मक प्रतिक्रिया का अनुमान लगा सकता है। यह तब उस भावना को आवाज में डालता है।

यह प्रभावशाली और बहुत सुविधाजनक है। लेकिन क्या हम वास्तव में एक समरूप ऑडियोबुक अनुभव चाहते हैं? और उन आवाज अभिनेताओं का क्या?

"इंडी पब्लिशर के दृष्टिकोण से, ऑडियोबुक उत्पादन की लागत को कम करने वाली कोई भी चीज़ बहुत दिलचस्प है," स्वतंत्र प्रकाशक कार्लाइल मीडिया के मालिक रिक कार्लाइल ने ईमेल के माध्यम से लाइफवायर को बताया।

"लेकिन वह आकर्षण मानता है कि उत्पाद पारंपरिक कथन के समान गुणवत्ता का होगा। मुझे नहीं लगता कि हम अभी तक एक सौ प्रतिशत हैं। मुझे गलत मत समझो, डीपज़ेन आश्चर्यजनक रूप से अच्छा है। यह एक है जबरदस्त सफलता, और इसके निर्माता अपार प्रशंसा और सफलता के पात्र हैं। लेकिन यह अभी तक पूर्ण नहीं है।"

ऑडियो वह 'काफी अच्छा' है

डीपजेन की गुणवत्ता को समझने का सबसे अच्छा तरीका नमूनों को सुनना है।यदि आप नहीं जानते थे कि वे कंप्यूटर जनित थे, तो शायद आपको पता भी न चले। वैसे भी कुछ देर के लिए नहीं। आइए मान लें कि डीपजेन का एआई एकदम सही है और यह कभी भी उन भावनात्मक नोटों की गलत व्याख्या नहीं करता है जो इसे हिट करने वाले हैं।

Image
Image

फिर भी, एक इंसान अधिक सूक्ष्म और अक्सर अधिक आश्चर्यजनक व्याख्याएं पेश कर सकता है। एक अभिनेता शब्दों पर एक अप्रत्याशित मोड़ डाल सकता है जिसे एक कंप्यूटर कभी भी विचार नहीं करेगा। और वास्तव में, AI व्याख्या निश्चित रूप से अभी तक उतनी अच्छी नहीं है जितनी एक पेशेवर आवाज अभिनेता की है।

"एक के रूप में जो फिल्मों पर काम करता है और हाल ही में ऑडियो वर्णन की दुनिया में, जबकि मैं एआई-आई से प्रभावित हूं, इस तथ्य के लिए जानता हूं कि अर्थ की गहरी गहराई है कि एक मशीन व्याख्या नहीं कर सकती है," पेशेवर आवाज अभिनेता पॉल क्रैम ने लाइफवायर को ईमेल के जरिए बताया।

"क्या इसका उपयोग करने वाले अज्ञात लेखकों की संख्या में वृद्धि होगी? मैं गारंटी देता हूं कि ऐसा होगा क्योंकि यह 'काफी अच्छा है।'"

काफी अच्छा होना, सुविधा और लागत बचत के साथ मिलकर, इंडी प्रकाशकों को सेवा में लाने के लिए पर्याप्त हो सकता है।

"ऑडियोबुक की कीमत प्रति घंटे ऑडियो (एक सेलिब्रिटी की आवाज के लिए बहुत अधिक) के लिए $500 तक हो सकती है, और इसमें प्रबंधन और व्यवस्थापक की समय लागत शामिल नहीं है," कार्लाइल कहते हैं। "दीपज़ेन जैसे प्रदाता को पांडुलिपि अपलोड करके उस लागत को आधा करने में सक्षम होना बेहद आकर्षक है।"

बात करने में परेशानी

यह अभी इतना आसान नहीं है जितना कि अपने आवाज अभिनेताओं को फायर करना और पांडुलिपियों को डीपजेन पर अपलोड करना। फ़िलहाल आसान ऑडियोबुक AI भाषण में एक बाधा है, और वह है Amazon.

Image
Image

"वर्तमान में, ACX, श्रव्य और अमेज़ॅन ऑडियोबुक वितरण के लिए स्वयं-प्रकाशक का मार्ग, उन ऑडियो पुस्तकों को स्वीकार नहीं करेगा जिन्हें मानव ने रिकॉर्ड नहीं किया," कार्लाइल कहते हैं।

क्यों? गुणवत्ता। यहाँ वेबसाइट से अक्सर पूछे जाने वाले प्रश्न प्रविष्टि है:

"पाठ से वाक् या अन्य स्वचालित रिकॉर्डिंग की अनुमति नहीं है। श्रव्य श्रोता सामग्री के प्रदर्शन के साथ-साथ कहानी के लिए ऑडियोबुक चुनते हैं। उस अपेक्षा को पूरा करने के लिए, आपकी ऑडियोबुक को एक मानव द्वारा रिकॉर्ड किया जाना चाहिए।"

इसका मतलब है कि डीपजेन-जनरेटेड ऑडियोबुक अभी के लिए उपलब्ध नहीं हैं, कम से कम। यह शुद्ध अटकलें हैं, लेकिन डीपजेन अमेज़ॅन के लिए एक बहुत अच्छा अधिग्रहण की तरह प्रतीत होता है, यह सेवा को बेचने देता है और इसे पूरी तरह से श्रव्य पुस्तकों के लिए रखता है। और अगर ऐसा नहीं भी होता है, अगर कंप्यूटर जनित ऑडियोबुक की गुणवत्ता इतनी ही अच्छी है, तो इस नियम को अपवाद न बनाने का कोई कारण नहीं दिखता।

इस तरह से बनाई गई ऑडियोबुक्स को सुनकर क्या आपको खुशी होगी? जब ऐसा होगा, तो ज्यादातर लोगों को शक भी नहीं होगा। कुछ लोग कंप्यूटर-जनित आवाज़ों की पूर्णता को पसंद कर सकते हैं क्योंकि वे मुखर टिक्स और आदतों से मुक्त होंगे जो कभी-कभी विचलित कर सकते हैं। तकनीक वीडियो गेम, टीवी और रेडियो विज्ञापनों और किसी भी अन्य परिदृश्य के लिए भी उपयुक्त है जहां आप एक आवाज अभिनेता को काम पर रखेंगे।

DeepZen की तकनीक भी लिखित लेखों से स्वचालित रूप से समाचार पॉडकास्ट बनाने का एक शानदार तरीका बनाती है, जो आवागमन के लिए आसान हो सकता है।

और उन आवाज अभिनेताओं का क्या? खैर, कम से कम एक अवसर तो होगा: वे जा सकते हैं और डीपजेन के लिए काम कर सकते हैं।

सिफारिश की: