AI अब आपके वीडियो को देखकर समझ सकता है

विषयसूची:

AI अब आपके वीडियो को देखकर समझ सकता है
AI अब आपके वीडियो को देखकर समझ सकता है
Anonim

मुख्य तथ्य

  • शोधकर्ताओं का कहना है कि वे वीडियो देखकर और सुनकर एआई को लेबल करना सिखा सकते हैं।
  • एआई सिस्टम विज़ुअल और ऑडियो डेटा के बीच साझा की गई अवधारणाओं को कैप्चर करने के लिए डेटा का प्रतिनिधित्व करना सीखता है।
  • यह उन अवधारणाओं को समझने के लिए एआई सिखाने के प्रयास का हिस्सा है, जिन्हें सीखने में मनुष्यों को कोई परेशानी नहीं होती है, लेकिन कंप्यूटर को समझना मुश्किल होता है।

Image
Image

एक नया आर्टिफिशियल इंटेलिजेंस सिस्टम (AI) आपके वीडियो देख और सुन सकता है और जो कुछ हो रहा है उसे लेबल कर सकता है।

MIT के शोधकर्ताओं ने एक ऐसी तकनीक विकसित की है जो AI को वीडियो और ऑडियो के बीच साझा की गई क्रियाओं को कैप्चर करना सिखाती है।उदाहरण के लिए, उनका तरीका यह समझ सकता है कि वीडियो में बच्चे के रोने की क्रिया ध्वनि क्लिप में बोले गए शब्द "रोने" से संबंधित है। यह एआई को सिखाने के प्रयास का एक हिस्सा है कि उन अवधारणाओं को कैसे समझा जाए जिन्हें सीखने में मनुष्यों को कोई परेशानी नहीं होती है, लेकिन कंप्यूटर को समझना मुश्किल होता है।

"प्रचलित शिक्षण प्रतिमान, पर्यवेक्षित शिक्षण, अच्छी तरह से काम करता है जब आपके पास अच्छी तरह से वर्णित और पूर्ण डेटासेट होते हैं," एआई विशेषज्ञ फिल विंडर ने एक ईमेल साक्षात्कार में लाइफवायर को बताया। "दुर्भाग्य से, डेटासेट शायद ही कभी पूरे होते हैं क्योंकि वास्तविक दुनिया में नई स्थितियों को पेश करने की बुरी आदत होती है।"

स्मार्ट एआई

कंप्यूटरों को रोजमर्रा के परिदृश्यों का पता लगाने में कठिनाई होती है क्योंकि उन्हें मानव की तरह ध्वनि और छवियों के बजाय डेटा को क्रंच करने की आवश्यकता होती है। जब कोई मशीन किसी फ़ोटो को "देखती है", तो उसे उस फ़ोटो को डेटा में एन्कोड करना होगा जिसका उपयोग वह छवि वर्गीकरण जैसे कार्य को करने के लिए कर सकता है। वीडियो, ऑडियो क्लिप और छवियों जैसे कई प्रारूपों में इनपुट आने पर AI फंस सकता है।

"यहां मुख्य चुनौती यह है कि एक मशीन उन विभिन्न तौर-तरीकों को कैसे संरेखित कर सकती है? मनुष्य के रूप में, यह हमारे लिए आसान है," एमआईटी शोधकर्ता और विषय के बारे में एक पेपर के पहले लेखक अलेक्जेंडर लियू ने एक में कहा ख़बर खोलना। "हम एक कार देखते हैं और फिर गाड़ी चलाते हुए एक कार की आवाज़ सुनते हैं, और हम जानते हैं कि ये एक ही चीज़ हैं। लेकिन मशीन लर्निंग के लिए, यह इतना सीधा नहीं है।"

लियू की टीम ने एक एआई तकनीक विकसित की, जिसके बारे में वे कहते हैं कि दृश्य और ऑडियो डेटा के बीच साझा की गई अवधारणाओं को कैप्चर करने के लिए डेटा का प्रतिनिधित्व करना सीखता है। इस ज्ञान का उपयोग करके, उनका मशीन-लर्निंग मॉडल यह पहचान सकता है कि वीडियो में कोई विशिष्ट क्रिया कहाँ हो रही है और उसे लेबल करें।

नया मॉडल कच्चा डेटा लेता है, जैसे कि वीडियो और उनके संबंधित टेक्स्ट कैप्शन, और वीडियो में वस्तुओं और कार्यों के बारे में सुविधाओं या टिप्पणियों को निकालकर उन्हें एन्कोड करता है। यह फिर उन डेटा बिंदुओं को एक ग्रिड में मैप करता है, जिसे एम्बेडिंग स्पेस के रूप में जाना जाता है। मॉडल समान डेटा को ग्रिड में एकल बिंदुओं के रूप में एक साथ समूहित करता है; इनमें से प्रत्येक डेटा बिंदु, या वैक्टर, एक व्यक्तिगत शब्द द्वारा दर्शाया गया है।

उदाहरण के लिए, करतब दिखाने वाले व्यक्ति की वीडियो क्लिप को "जुगलिंग" लेबल वाले वेक्टर में मैप किया जा सकता है।

शोधकर्ताओं ने मॉडल को डिजाइन किया है ताकि यह वैक्टर को लेबल करने के लिए केवल 1, 000 शब्दों का उपयोग कर सके। मॉडल यह तय कर सकता है कि वह किन क्रियाओं या अवधारणाओं को एक एकल वेक्टर में एन्कोड करना चाहता है, लेकिन यह केवल 1, 000 वैक्टर का उपयोग कर सकता है। मॉडल उन शब्दों को चुनता है जो उसे लगता है कि डेटा का सबसे अच्छा प्रतिनिधित्व करते हैं।

"यदि सूअरों के बारे में कोई वीडियो है, तो मॉडल 1,000 वैक्टरों में से किसी एक को 'सुअर' शब्द निर्दिष्ट कर सकता है। फिर, यदि मॉडल किसी ऑडियो क्लिप में किसी को 'सुअर' शब्द कहते हुए सुनता है, इसे सांकेतिक शब्दों में बदलना करने के लिए अभी भी उसी वेक्टर का उपयोग करना चाहिए," लियू ने समझाया।

आपके वीडियो, डिकोड किए गए

एमआईटी द्वारा विकसित की तरह बेहतर लेबलिंग सिस्टम एआई में पूर्वाग्रह को कम करने में मदद कर सकता है, बायोमेट्रिक्स फर्म इनोवैट्रिक्स में अनुसंधान और विकास के प्रमुख मैरियन बेसजेड्स ने एक ईमेल साक्षात्कार में लाइफवायर को बताया। बेसजेड्स ने सुझाव दिया कि डेटा उद्योग एआई सिस्टम को निर्माण प्रक्रिया के नजरिए से देख सकता है।

"सिस्टम कच्चे डेटा को इनपुट (कच्चे माल) के रूप में स्वीकार करते हैं, इसे प्रीप्रोसेस करते हैं, इसे निगलना करते हैं, निर्णय लेते हैं या भविष्यवाणियां करते हैं और आउटपुट एनालिटिक्स (तैयार माल) करते हैं," बेसेडेस ने कहा। "हम इस प्रक्रिया को "डेटा फ़ैक्टरी" कहते हैं, और अन्य निर्माण प्रक्रियाओं की तरह, इसे गुणवत्ता नियंत्रण के अधीन होना चाहिए। डेटा उद्योग को एआई पूर्वाग्रह को गुणवत्ता की समस्या के रूप में मानने की आवश्यकता है।

"उपभोक्ता दृष्टिकोण से, गलत लेबल वाला डेटा विशिष्ट छवियों/वीडियो के लिए ऑनलाइन खोज को और अधिक कठिन बना देता है," बेस्ज़ेड्स ने कहा। "सही ढंग से विकसित एआई के साथ, आप मैन्युअल लेबलिंग की तुलना में स्वचालित रूप से, बहुत तेज़ और अधिक तटस्थ लेबलिंग कर सकते हैं।"

Image
Image

लेकिन एमआईटी मॉडल की अभी भी कुछ सीमाएं हैं। एक के लिए, उनका शोध एक समय में दो स्रोतों के डेटा पर केंद्रित था, लेकिन वास्तविक दुनिया में, मनुष्य एक साथ कई प्रकार की सूचनाओं का सामना करते हैं, लियू ने कहा

"और हम जानते हैं कि इस तरह के डेटासेट पर 1,000 शब्द काम करते हैं, लेकिन हम नहीं जानते कि क्या इसे वास्तविक दुनिया की समस्या के लिए सामान्यीकृत किया जा सकता है," लियू ने कहा।

MIT के शोधकर्ताओं का कहना है कि उनकी नई तकनीक कई समान मॉडलों से बेहतर प्रदर्शन करती है। यदि AI को वीडियो को समझने के लिए प्रशिक्षित किया जा सकता है, तो आप अंततः अपने मित्र की छुट्टियों के वीडियो देखना छोड़ सकते हैं और इसके बजाय कंप्यूटर से उत्पन्न रिपोर्ट प्राप्त कर सकते हैं।

सिफारिश की: