AI अब आपके वीडियो को देखकर समझ सकता है

2024 लेखक: Abigail Brown | [email protected]. अंतिम बार संशोधित: 2023-12-17 06:48

मुख्य तथ्य

शोधकर्ताओं का कहना है कि वे वीडियो देखकर और सुनकर एआई को लेबल करना सिखा सकते हैं।
एआई सिस्टम विज़ुअल और ऑडियो डेटा के बीच साझा की गई अवधारणाओं को कैप्चर करने के लिए डेटा का प्रतिनिधित्व करना सीखता है।
यह उन अवधारणाओं को समझने के लिए एआई सिखाने के प्रयास का हिस्सा है, जिन्हें सीखने में मनुष्यों को कोई परेशानी नहीं होती है, लेकिन कंप्यूटर को समझना मुश्किल होता है।

एक नया आर्टिफिशियल इंटेलिजेंस सिस्टम (AI) आपके वीडियो देख और सुन सकता है और जो कुछ हो रहा है उसे लेबल कर सकता है।

MIT के शोधकर्ताओं ने एक ऐसी तकनीक विकसित की है जो AI को वीडियो और ऑडियो के बीच साझा की गई क्रियाओं को कैप्चर करना सिखाती है।उदाहरण के लिए, उनका तरीका यह समझ सकता है कि वीडियो में बच्चे के रोने की क्रिया ध्वनि क्लिप में बोले गए शब्द "रोने" से संबंधित है। यह एआई को सिखाने के प्रयास का एक हिस्सा है कि उन अवधारणाओं को कैसे समझा जाए जिन्हें सीखने में मनुष्यों को कोई परेशानी नहीं होती है, लेकिन कंप्यूटर को समझना मुश्किल होता है।

"प्रचलित शिक्षण प्रतिमान, पर्यवेक्षित शिक्षण, अच्छी तरह से काम करता है जब आपके पास अच्छी तरह से वर्णित और पूर्ण डेटासेट होते हैं," एआई विशेषज्ञ फिल विंडर ने एक ईमेल साक्षात्कार में लाइफवायर को बताया। "दुर्भाग्य से, डेटासेट शायद ही कभी पूरे होते हैं क्योंकि वास्तविक दुनिया में नई स्थितियों को पेश करने की बुरी आदत होती है।"

स्मार्ट एआई

कंप्यूटरों को रोजमर्रा के परिदृश्यों का पता लगाने में कठिनाई होती है क्योंकि उन्हें मानव की तरह ध्वनि और छवियों के बजाय डेटा को क्रंच करने की आवश्यकता होती है। जब कोई मशीन किसी फ़ोटो को "देखती है", तो उसे उस फ़ोटो को डेटा में एन्कोड करना होगा जिसका उपयोग वह छवि वर्गीकरण जैसे कार्य को करने के लिए कर सकता है। वीडियो, ऑडियो क्लिप और छवियों जैसे कई प्रारूपों में इनपुट आने पर AI फंस सकता है।

"यहां मुख्य चुनौती यह है कि एक मशीन उन विभिन्न तौर-तरीकों को कैसे संरेखित कर सकती है? मनुष्य के रूप में, यह हमारे लिए आसान है," एमआईटी शोधकर्ता और विषय के बारे में एक पेपर के पहले लेखक अलेक्जेंडर लियू ने एक में कहा ख़बर खोलना। "हम एक कार देखते हैं और फिर गाड़ी चलाते हुए एक कार की आवाज़ सुनते हैं, और हम जानते हैं कि ये एक ही चीज़ हैं। लेकिन मशीन लर्निंग के लिए, यह इतना सीधा नहीं है।"

लियू की टीम ने एक एआई तकनीक विकसित की, जिसके बारे में वे कहते हैं कि दृश्य और ऑडियो डेटा के बीच साझा की गई अवधारणाओं को कैप्चर करने के लिए डेटा का प्रतिनिधित्व करना सीखता है। इस ज्ञान का उपयोग करके, उनका मशीन-लर्निंग मॉडल यह पहचान सकता है कि वीडियो में कोई विशिष्ट क्रिया कहाँ हो रही है और उसे लेबल करें।

नया मॉडल कच्चा डेटा लेता है, जैसे कि वीडियो और उनके संबंधित टेक्स्ट कैप्शन, और वीडियो में वस्तुओं और कार्यों के बारे में सुविधाओं या टिप्पणियों को निकालकर उन्हें एन्कोड करता है। यह फिर उन डेटा बिंदुओं को एक ग्रिड में मैप करता है, जिसे एम्बेडिंग स्पेस के रूप में जाना जाता है। मॉडल समान डेटा को ग्रिड में एकल बिंदुओं के रूप में एक साथ समूहित करता है; इनमें से प्रत्येक डेटा बिंदु, या वैक्टर, एक व्यक्तिगत शब्द द्वारा दर्शाया गया है।

उदाहरण के लिए, करतब दिखाने वाले व्यक्ति की वीडियो क्लिप को "जुगलिंग" लेबल वाले वेक्टर में मैप किया जा सकता है।

शोधकर्ताओं ने मॉडल को डिजाइन किया है ताकि यह वैक्टर को लेबल करने के लिए केवल 1, 000 शब्दों का उपयोग कर सके। मॉडल यह तय कर सकता है कि वह किन क्रियाओं या अवधारणाओं को एक एकल वेक्टर में एन्कोड करना चाहता है, लेकिन यह केवल 1, 000 वैक्टर का उपयोग कर सकता है। मॉडल उन शब्दों को चुनता है जो उसे लगता है कि डेटा का सबसे अच्छा प्रतिनिधित्व करते हैं।

"यदि सूअरों के बारे में कोई वीडियो है, तो मॉडल 1,000 वैक्टरों में से किसी एक को 'सुअर' शब्द निर्दिष्ट कर सकता है। फिर, यदि मॉडल किसी ऑडियो क्लिप में किसी को 'सुअर' शब्द कहते हुए सुनता है, इसे सांकेतिक शब्दों में बदलना करने के लिए अभी भी उसी वेक्टर का उपयोग करना चाहिए," लियू ने समझाया।

आपके वीडियो, डिकोड किए गए

एमआईटी द्वारा विकसित की तरह बेहतर लेबलिंग सिस्टम एआई में पूर्वाग्रह को कम करने में मदद कर सकता है, बायोमेट्रिक्स फर्म इनोवैट्रिक्स में अनुसंधान और विकास के प्रमुख मैरियन बेसजेड्स ने एक ईमेल साक्षात्कार में लाइफवायर को बताया। बेसजेड्स ने सुझाव दिया कि डेटा उद्योग एआई सिस्टम को निर्माण प्रक्रिया के नजरिए से देख सकता है।

"सिस्टम कच्चे डेटा को इनपुट (कच्चे माल) के रूप में स्वीकार करते हैं, इसे प्रीप्रोसेस करते हैं, इसे निगलना करते हैं, निर्णय लेते हैं या भविष्यवाणियां करते हैं और आउटपुट एनालिटिक्स (तैयार माल) करते हैं," बेसेडेस ने कहा। "हम इस प्रक्रिया को "डेटा फ़ैक्टरी" कहते हैं, और अन्य निर्माण प्रक्रियाओं की तरह, इसे गुणवत्ता नियंत्रण के अधीन होना चाहिए। डेटा उद्योग को एआई पूर्वाग्रह को गुणवत्ता की समस्या के रूप में मानने की आवश्यकता है।

"उपभोक्ता दृष्टिकोण से, गलत लेबल वाला डेटा विशिष्ट छवियों/वीडियो के लिए ऑनलाइन खोज को और अधिक कठिन बना देता है," बेस्ज़ेड्स ने कहा। "सही ढंग से विकसित एआई के साथ, आप मैन्युअल लेबलिंग की तुलना में स्वचालित रूप से, बहुत तेज़ और अधिक तटस्थ लेबलिंग कर सकते हैं।"

लेकिन एमआईटी मॉडल की अभी भी कुछ सीमाएं हैं। एक के लिए, उनका शोध एक समय में दो स्रोतों के डेटा पर केंद्रित था, लेकिन वास्तविक दुनिया में, मनुष्य एक साथ कई प्रकार की सूचनाओं का सामना करते हैं, लियू ने कहा

"और हम जानते हैं कि इस तरह के डेटासेट पर 1,000 शब्द काम करते हैं, लेकिन हम नहीं जानते कि क्या इसे वास्तविक दुनिया की समस्या के लिए सामान्यीकृत किया जा सकता है," लियू ने कहा।

MIT के शोधकर्ताओं का कहना है कि उनकी नई तकनीक कई समान मॉडलों से बेहतर प्रदर्शन करती है। यदि AI को वीडियो को समझने के लिए प्रशिक्षित किया जा सकता है, तो आप अंततः अपने मित्र की छुट्टियों के वीडियो देखना छोड़ सकते हैं और इसके बजाय कंप्यूटर से उत्पन्न रिपोर्ट प्राप्त कर सकते हैं।