हालांकि उनमें अभी भी सुधार की बहुत गुंजाइश है, कृत्रिम बुद्धिमत्ता (एआई) चैटबॉट अपनी तरल बातचीत बनाए रखने, सवालों के जवाब देने, डेटा का विश्लेषण करने सहित कई अन्य कार्यों की क्षमता से हमें प्रभावित करना जारी रखते हैं। यह सब संभव बनाने के लिए, एआई कंपनियों को अपने एप्लिकेशन को संचालित करने वाले भाषा मॉडल को विशाल मात्रा में डेटा के साथ प्रशिक्षित करने की आवश्यकता होती है। वर्तमान में, यह एक ऐसा विषय है जो कुछ विवाद उठाता है क्योंकि तकनीकी दिग्गज अपने प्रशिक्षण डेटा के स्रोतों के बारे में बहुत खुलकर नहीं बताते। अब, एक प्रूफ न्यूज़ जांच बताती है कि एप्पल, एंथ्रोपिक, एनविडिया और सेल्सफोर्स जैसी फर्मों ने यूट्यूब डेटा का उपयोग किया।
यूट्यूब उपशीर्षक एआई मॉडल प्रशिक्षण के लिए:
रिपोर्ट में कहा गया है कि एल्यूथरएआई नामक एक गैर-लाभकारी संगठन ने 48,000 से अधिक चैनलों से निकाले गए 173,536 यूट्यूब वीडियो के उपशीर्षक एकत्र किए। एकत्र किए गए डेटा में वीडियो छवियां शामिल नहीं थीं, बल्कि वीडियो से कच्चा पाठ था, जो अक्सर विभिन्न भाषाओं में अनुवाद के साथ था, जिसका उपयोग “यूट्यूब उपशीर्षक” नामक एक डेटासेट बनाने के लिए किया गया था। इस डेटासेट में MrBeast और Marques Brownlee जैसे कंटेंट क्रिएटर्स की सामग्री के साथ-साथ खान अकादमी, MIT और हार्वर्ड जैसे शैक्षिक चैनलों से डेटा शामिल है। यह “पाइल” का हिस्सा है, जो 22 डेटासेट से मिलकर बना एक प्रशिक्षण सेट है जिसमें यूरोपीय संसद, अंग्रेजी विकिपीडिया और अन्य सामग्री भी शामिल है।
पाइल सार्वजनिक रूप से सुलभ है, और बड़ी संख्या में शिक्षाविदों और कंपनियों ने अपने एआई संबंधित कार्य के लिए इसका उपयोग किया है। इनमें पूर्वोक्त अमेरिकी तकनीकी कंपनियां शामिल हैं, जिन्होंने यूट्यूब से सीधे डेटा नहीं लिया बल्कि अपने कुछ एआई मॉडल को प्रशिक्षित करने के लिए एल्यूथरएआई द्वारा किए गए काम पर भरोसा किया।
Similar Posts
यूट्यूब की सेवा शर्तें और डेटा उपयोग विवाद:
वर्ष की दूसरी तिमाही की शुरुआत में, यूट्यूब के सीईओ नील मोहन ने एक दिलचस्प जवाब दिया जब उनसे पूछा गया कि क्या वे मानते हैं कि OpenAI उनके वीडियो प्लेटफॉर्म की सामग्री से सोरा को प्रशिक्षित कर रहा था। मोहन ने कहा कि जबकि कुछ यूट्यूब सामग्री, जैसे वीडियो का शीर्षक, चैनल का नाम, या निर्माता का नाम, सर्च इंजन दृश्यता के लिए वेब स्क्रैपिंग के अधीन है, वर्तमान नियम वीडियो या उनके ट्रांसक्रिप्ट को डाउनलोड करने की अनुमति नहीं देते। उन्होंने पुष्टि की कि ट्रांसक्रिप्ट या वीडियो अंश डाउनलोड करना प्लेटफॉर्म की सेवा शर्तों का “स्पष्ट उल्लंघन” है। यह स्थिति हमें AI डेटा अधिग्रहण प्रक्रिया में यूट्यूब की सेवा शर्तों की भूमिका पर सवाल उठाने के लिए प्रेरित करती है। प्रूफ न्यूज़ के शोध ने निर्धारित किया कि डेटासेट में वीडियो के सटीक स्रोत की पहचान करना जटिल था, डेटासेट से वीडियो आईडी का उपयोग करके और शीर्षक, चैनल और श्रेणियों जैसे विस्तृत मेटाडेटा प्राप्त करने के लिए यूट्यूब के सार्वजनिक रूप से सुलभ उपकरणों का परामर्श लेकर। जबकि Anthropic और Salesforce जैसी कंपनियों ने Pile जैसे प्रशिक्षण डेटासेट का उपयोग करने की पुष्टि की है, वे किसी भी गलत काम से इनकार करते हैं। इसके विपरीत, NVIDIA के प्रतिनिधियों ने टिप्पणी करने से इनकार कर दिया, जबकि Apple, Databricks और Bloomberg ने टिप्पणी अनुरोधों का जवाब नहीं दिया।
यह खोज AI उद्योग की बड़ी मात्रा में उच्च गुणवत्ता वाले डेटा पर बढ़ती निर्भरता को रेखांकित करती है जो मानव भाषा की नकल करने वाले मॉडल को प्रशिक्षित करने के लिए है। अक्सर, यह डेटा विभिन्न स्रोतों से आता है, जिसमें किताबें, ब्लॉग, और इस मामले में, यूट्यूब जैसे लोकप्रिय वीडियो प्लेटफॉर्म से सामग्री शामिल है, अक्सर मूल निर्माताओं के स्पष्ट ज्ञान के बिना। हाल ही में, यूट्यूब ने कहा कि वह नहीं चाहता कि OpenAI अपने Sora कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए अपने वीडियो का उपयोग करे। AI प्रशिक्षण के लिए यूट्यूब उपशीर्षकों के उपयोग ने संभावित कॉपीराइट उल्लंघन के कारण विवाद पैदा किया है, क्योंकि उपयोग की जाने वाली सामग्री अक्सर सार्वजनिक रूप से सुलभ स्रोतों से आती है, लेकिन हमेशा मूल निर्माताओं की स्पष्ट सहमति के साथ नहीं। यह ऐसे डेटा के उपयोग की नैतिकता और वैधता के बारे में सवाल उठाता है।