मुख्य तथ्य
- DeepZen टेक्स्ट से चौंकाने वाली यथार्थवादी ऑडियोबुक बनाने के लिए AI (कृत्रिम बुद्धिमत्ता) का उपयोग करता है।
- टेक बिल्डिंग ब्लॉक्स प्रदान करने के लिए वास्तविक मानव आवाज अभिनेताओं का उपयोग करता है।
- अमेज़ॅन और ऑडिबल वर्तमान में कंप्यूटर जनित ऑडियोबुक स्वीकार नहीं करते हैं।
DeepZen एक ऐसी कंपनी है जो मानव अभिनेताओं की वास्तविक आवाज़ों के आधार पर ऑडियोबुक में उपयोग की जाने वाली कंप्यूटर आवाज़ें बनाती है। गुणवत्ता डरावनी है-आसानी से इतनी अच्छी है कि एक बार में घंटों तक सुन सकता है।यहां नौटंकी एआई (कृत्रिम बुद्धिमत्ता) घटक है, जो पाठ को पढ़ सकता है और संदर्भ के आधार पर सही भावनात्मक प्रतिक्रिया का अनुमान लगा सकता है। यह तब उस भावना को आवाज में डालता है।
यह प्रभावशाली और बहुत सुविधाजनक है। लेकिन क्या हम वास्तव में एक समरूप ऑडियोबुक अनुभव चाहते हैं? और उन आवाज अभिनेताओं का क्या?
"इंडी पब्लिशर के दृष्टिकोण से, ऑडियोबुक उत्पादन की लागत को कम करने वाली कोई भी चीज़ बहुत दिलचस्प है," स्वतंत्र प्रकाशक कार्लाइल मीडिया के मालिक रिक कार्लाइल ने ईमेल के माध्यम से लाइफवायर को बताया।
"लेकिन वह आकर्षण मानता है कि उत्पाद पारंपरिक कथन के समान गुणवत्ता का होगा। मुझे नहीं लगता कि हम अभी तक एक सौ प्रतिशत हैं। मुझे गलत मत समझो, डीपज़ेन आश्चर्यजनक रूप से अच्छा है। यह एक है जबरदस्त सफलता, और इसके निर्माता अपार प्रशंसा और सफलता के पात्र हैं। लेकिन यह अभी तक पूर्ण नहीं है।"
ऑडियो वह 'काफी अच्छा' है
डीपजेन की गुणवत्ता को समझने का सबसे अच्छा तरीका नमूनों को सुनना है।यदि आप नहीं जानते थे कि वे कंप्यूटर जनित थे, तो शायद आपको पता भी न चले। वैसे भी कुछ देर के लिए नहीं। आइए मान लें कि डीपजेन का एआई एकदम सही है और यह कभी भी उन भावनात्मक नोटों की गलत व्याख्या नहीं करता है जो इसे हिट करने वाले हैं।
फिर भी, एक इंसान अधिक सूक्ष्म और अक्सर अधिक आश्चर्यजनक व्याख्याएं पेश कर सकता है। एक अभिनेता शब्दों पर एक अप्रत्याशित मोड़ डाल सकता है जिसे एक कंप्यूटर कभी भी विचार नहीं करेगा। और वास्तव में, AI व्याख्या निश्चित रूप से अभी तक उतनी अच्छी नहीं है जितनी एक पेशेवर आवाज अभिनेता की है।
"एक के रूप में जो फिल्मों पर काम करता है और हाल ही में ऑडियो वर्णन की दुनिया में, जबकि मैं एआई-आई से प्रभावित हूं, इस तथ्य के लिए जानता हूं कि अर्थ की गहरी गहराई है कि एक मशीन व्याख्या नहीं कर सकती है," पेशेवर आवाज अभिनेता पॉल क्रैम ने लाइफवायर को ईमेल के जरिए बताया।
"क्या इसका उपयोग करने वाले अज्ञात लेखकों की संख्या में वृद्धि होगी? मैं गारंटी देता हूं कि ऐसा होगा क्योंकि यह 'काफी अच्छा है।'"
काफी अच्छा होना, सुविधा और लागत बचत के साथ मिलकर, इंडी प्रकाशकों को सेवा में लाने के लिए पर्याप्त हो सकता है।
"ऑडियोबुक की कीमत प्रति घंटे ऑडियो (एक सेलिब्रिटी की आवाज के लिए बहुत अधिक) के लिए $500 तक हो सकती है, और इसमें प्रबंधन और व्यवस्थापक की समय लागत शामिल नहीं है," कार्लाइल कहते हैं। "दीपज़ेन जैसे प्रदाता को पांडुलिपि अपलोड करके उस लागत को आधा करने में सक्षम होना बेहद आकर्षक है।"
बात करने में परेशानी
यह अभी इतना आसान नहीं है जितना कि अपने आवाज अभिनेताओं को फायर करना और पांडुलिपियों को डीपजेन पर अपलोड करना। फ़िलहाल आसान ऑडियोबुक AI भाषण में एक बाधा है, और वह है Amazon.
"वर्तमान में, ACX, श्रव्य और अमेज़ॅन ऑडियोबुक वितरण के लिए स्वयं-प्रकाशक का मार्ग, उन ऑडियो पुस्तकों को स्वीकार नहीं करेगा जिन्हें मानव ने रिकॉर्ड नहीं किया," कार्लाइल कहते हैं।
क्यों? गुणवत्ता। यहाँ वेबसाइट से अक्सर पूछे जाने वाले प्रश्न प्रविष्टि है:
"पाठ से वाक् या अन्य स्वचालित रिकॉर्डिंग की अनुमति नहीं है। श्रव्य श्रोता सामग्री के प्रदर्शन के साथ-साथ कहानी के लिए ऑडियोबुक चुनते हैं। उस अपेक्षा को पूरा करने के लिए, आपकी ऑडियोबुक को एक मानव द्वारा रिकॉर्ड किया जाना चाहिए।"
इसका मतलब है कि डीपजेन-जनरेटेड ऑडियोबुक अभी के लिए उपलब्ध नहीं हैं, कम से कम। यह शुद्ध अटकलें हैं, लेकिन डीपजेन अमेज़ॅन के लिए एक बहुत अच्छा अधिग्रहण की तरह प्रतीत होता है, यह सेवा को बेचने देता है और इसे पूरी तरह से श्रव्य पुस्तकों के लिए रखता है। और अगर ऐसा नहीं भी होता है, अगर कंप्यूटर जनित ऑडियोबुक की गुणवत्ता इतनी ही अच्छी है, तो इस नियम को अपवाद न बनाने का कोई कारण नहीं दिखता।
इस तरह से बनाई गई ऑडियोबुक्स को सुनकर क्या आपको खुशी होगी? जब ऐसा होगा, तो ज्यादातर लोगों को शक भी नहीं होगा। कुछ लोग कंप्यूटर-जनित आवाज़ों की पूर्णता को पसंद कर सकते हैं क्योंकि वे मुखर टिक्स और आदतों से मुक्त होंगे जो कभी-कभी विचलित कर सकते हैं। तकनीक वीडियो गेम, टीवी और रेडियो विज्ञापनों और किसी भी अन्य परिदृश्य के लिए भी उपयुक्त है जहां आप एक आवाज अभिनेता को काम पर रखेंगे।
DeepZen की तकनीक भी लिखित लेखों से स्वचालित रूप से समाचार पॉडकास्ट बनाने का एक शानदार तरीका बनाती है, जो आवागमन के लिए आसान हो सकता है।
और उन आवाज अभिनेताओं का क्या? खैर, कम से कम एक अवसर तो होगा: वे जा सकते हैं और डीपजेन के लिए काम कर सकते हैं।