मुख्य तथ्य
- एक नया मशीन लर्निंग मॉडल अनुवाद में सहायता के लिए एक भाषा में वाक्य की उपस्थिति की छवि को भ्रमित करता है।
- VALHALLA नामक AI प्रणाली को मनुष्यों के भाषा को समझने के तरीके की नकल करने के लिए डिज़ाइन किया गया था।
- नई प्रणाली भाषा को समझने के लिए एआई का उपयोग करने के बढ़ते आंदोलन का हिस्सा है।
शब्दों का अनुवाद करते समय चित्रों की कल्पना करने की मानवीय विधि कृत्रिम बुद्धिमत्ता (एआई) को आपको बेहतर ढंग से समझने में मदद कर सकती है।
एक नया मशीन लर्निंग मॉडल किसी भाषा में एक वाक्य जैसा दिखता है, उसकी छवि को भ्रमित करता है। हाल के एक शोध पत्र के अनुसार, तकनीक तब अनुवाद में सहायता के लिए विज़ुअलाइज़ेशन और अन्य सुरागों का उपयोग करती है। यह भाषा को समझने के लिए एआई का उपयोग करने के बढ़ते आंदोलन का हिस्सा है।
"लोग कैसे बात करते हैं और लिखते हैं यह अद्वितीय है क्योंकि हम सभी के पास थोड़ा अलग स्वर और शैली है," मैरीविले विश्वविद्यालय में डेटा एनालिटिक्स के प्रोफेसर बेथ कुडनी, जो शोध में शामिल नहीं थे, ने लाइफवायर को एक ईमेल साक्षात्कार में बताया. "संदर्भ को समझना मुश्किल है क्योंकि यह असंरचित डेटा से निपटने जैसा है। यह वह जगह है जहां प्राकृतिक भाषा प्रसंस्करण (एनएलपी) उपयोगी है। एनएलपी एआई की एक शाखा है जो मशीन रीडिंग कॉम्प्रिहेंशन का उपयोग करके हम कैसे संवाद करते हैं, इस अंतर को संबोधित करते हैं। एनएलपी में महत्वपूर्ण अंतर, एआई की एक शाखा के रूप में, हमारे द्वारा बोले या लिखे गए शब्दों के शाब्दिक अर्थ पर ध्यान केंद्रित नहीं करता है। यह अर्थ को देखता है।"
जाओ आस्क ऐलिस
VALHALLA नामक नई AI प्रणाली, जिसे MIT, IBM और सैन डिएगो में कैलिफोर्निया विश्वविद्यालय के शोधकर्ताओं द्वारा बनाया गया था, को मानव भाषा को समझने के तरीके की नकल करने के लिए डिज़ाइन किया गया था। वैज्ञानिकों के अनुसार, मल्टीमीडिया जैसी संवेदी जानकारी का उपयोग करके, नए और अपरिचित शब्दों के साथ जोड़ा जाता है, जैसे छवियों के साथ फ्लैशकार्ड, भाषा अधिग्रहण और अवधारण में सुधार करता है।
ये सिस्टम चैटबॉट्स की शक्ति को बढ़ा रहे हैं जो वर्तमान में केवल प्रशिक्षित हैं और विशिष्ट बातचीत के लिए सक्षम हैं…
टीम का दावा है कि उनका तरीका केवल टेक्स्ट अनुवाद की तुलना में मशीनी अनुवाद की सटीकता में सुधार करता है। वैज्ञानिकों ने दो ट्रांसफॉर्मर के साथ एक एनकोडर-डिकोडर आर्किटेक्चर का उपयोग किया, एक प्रकार का तंत्रिका नेटवर्क मॉडल जो अनुक्रम-निर्भर डेटा के लिए उपयुक्त है, जैसे भाषा, जो एक वाक्य के कीवर्ड और शब्दार्थ पर ध्यान दे सकता है। एक ट्रांसफॉर्मर एक दृश्य मतिभ्रम उत्पन्न करता है, और दूसरा पहले ट्रांसफॉर्मर से आउटपुट का उपयोग करके मल्टीमॉडल ट्रांसलेशन करता है।
"वास्तविक दुनिया के परिदृश्यों में, आपके पास स्रोत वाक्य के संबंध में एक छवि नहीं हो सकती है," शोध दल के सदस्यों में से एक रामेश्वर पांडा ने एक समाचार विज्ञप्ति में कहा। "तो, हमारी प्रेरणा मूल रूप से थी: इनपुट के रूप में अनुमान के दौरान बाहरी छवि का उपयोग करने के बजाय, क्या हम दृश्य मतिभ्रम का उपयोग कर सकते हैं-दृश्य दृश्यों की कल्पना करने की क्षमता-मशीन अनुवाद प्रणाली में सुधार करने के लिए?"
एआई को समझना
काफी शोध एनएलपी को आगे बढ़ाने पर केंद्रित है, कुडनी ने बताया। उदाहरण के लिए, एलोन मस्क ने ओपन एआई की सह-स्थापना की, जो जीपीटी -3 पर काम कर रहा है, एक ऐसा मॉडल जो मानव के साथ बातचीत कर सकता है और पायथन और जावा में सॉफ्टवेयर कोड उत्पन्न करने के लिए पर्याप्त जानकार है।
Google और मेटा भी अपने सिस्टम LAMDA के साथ संवादी AI विकसित करने के लिए काम कर रहे हैं। "ये सिस्टम चैटबॉट्स की शक्ति बढ़ा रहे हैं जो वर्तमान में केवल प्रशिक्षित और विशिष्ट बातचीत में सक्षम हैं, जो संभवतः ग्राहक सहायता और सहायता डेस्क का चेहरा बदल देंगे," कुडनी ने कहा।
एरॉन स्लोमन, सह-संस्थापक, CLIPr, एक AI टेक कंपनी, ने एक ईमेल में कहा कि GPT-3 जैसे बड़े भाषा मॉडल मानव प्रतिक्रिया के आधार पर पाठ के सारांश में सुधार करने के लिए बहुत कम प्रशिक्षण उदाहरणों से सीख सकते हैं। उदाहरण के लिए, उन्होंने कहा, आप एक बड़े भाषा मॉडल को गणित की समस्या दे सकते हैं और एआई को चरण-दर-चरण सोचने के लिए कह सकते हैं।
"जब हम उनकी क्षमताओं और सीमाओं के बारे में अधिक सीखते हैं, तो हम बड़े भाषा मॉडल से अधिक अंतर्दृष्टि और तर्क निकालने की उम्मीद कर सकते हैं," स्लोमन ने कहा। "मैं यह भी उम्मीद करता हूं कि ये भाषा मॉडल अधिक मानवीय प्रक्रियाओं का निर्माण करेंगे क्योंकि मॉडलर रुचि के विशिष्ट कार्यों के लिए मॉडल को बेहतर बनाने के लिए बेहतर तरीके विकसित करते हैं।"
जॉर्जिया टेक कंप्यूटिंग के प्रोफेसर दीई यांग ने एक ईमेल साक्षात्कार में भविष्यवाणी की कि हम अपने दैनिक जीवन में प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रणालियों का अधिक उपयोग देखेंगे, जिसमें एनएलपी-आधारित व्यक्तिगत सहायकों से लेकर ईमेल और फोन कॉल में मदद करने के लिए शामिल हैं, यात्रा या स्वास्थ्य देखभाल में सूचना प्राप्त करने के लिए जानकार संवाद प्रणालियों के लिए।यांग ने कहा, "साथ ही निष्पक्ष एआई सिस्टम जो कार्य कर सकते हैं और जिम्मेदार और पूर्वाग्रह मुक्त तरीके से मनुष्यों की सहायता कर सकते हैं।"
जीपीटी -3 और डीपटेक्स्ट जैसे खरबों मापदंडों का उपयोग करने वाले विशाल एआई मॉडल सभी भाषा अनुप्रयोगों के लिए एकल मॉडल की दिशा में काम करना जारी रखेंगे, जैसा कि डायलेक्सा के मशीन लर्निंग इंजीनियर स्टीफन हेज ने एक ईमेल साक्षात्कार में भविष्यवाणी की थी। उन्होंने कहा कि विशिष्ट उपयोगों के लिए नए प्रकार के मॉडल भी बनाए जाएंगे, जैसे वॉयस-कमांड ऑनलाइन शॉपिंग।
"एक उदाहरण एक दुकानदार हो सकता है जो कह रहा है 'मुझे यह आईशैडो मध्यरात्रि नीले रंग में और अधिक प्रभामंडल के साथ दिखाओ,' व्यक्ति की आंखों पर उस छाया को दिखाने के लिए कि इसे कैसे लागू किया जाता है, इस पर कुछ नियंत्रण के साथ, "हेज ने कहा।