सबूत समाचार रिपोर्ट: 1,73,536 यूट्यूब वीडियो बड़ी तकनीकी कंपनियों में डेटा के भूखे एआई को फीड कर रहे हैं—जानें इसका प्रभाव

By Rahul Somvanshi
Posted in एआई / टेक्नोलॉजी / समाचार
0 Comments
Updated July 22, 2024
1 min read

हालांकि उनमें अभी भी सुधार की बहुत गुंजाइश है, कृत्रिम बुद्धिमत्ता (एआई) चैटबॉट अपनी तरल बातचीत बनाए रखने, सवालों के जवाब देने, डेटा का विश्लेषण करने सहित कई अन्य कार्यों की क्षमता से हमें प्रभावित करना जारी रखते हैं। यह सब संभव बनाने के लिए, एआई कंपनियों को अपने एप्लिकेशन को संचालित करने वाले भाषा मॉडल को विशाल मात्रा में डेटा के साथ प्रशिक्षित करने की आवश्यकता होती है। वर्तमान में, यह एक ऐसा विषय है जो कुछ विवाद उठाता है क्योंकि तकनीकी दिग्गज अपने प्रशिक्षण डेटा के स्रोतों के बारे में बहुत खुलकर नहीं बताते। अब, एक प्रूफ न्यूज़ जांच बताती है कि एप्पल, एंथ्रोपिक, एनविडिया और सेल्सफोर्स जैसी फर्मों ने यूट्यूब डेटा का उपयोग किया।

यूट्यूब उपशीर्षक एआई मॉडल प्रशिक्षण के लिए:

रिपोर्ट में कहा गया है कि एल्यूथरएआई नामक एक गैर-लाभकारी संगठन ने 48,000 से अधिक चैनलों से निकाले गए 173,536 यूट्यूब वीडियो के उपशीर्षक एकत्र किए। एकत्र किए गए डेटा में वीडियो छवियां शामिल नहीं थीं, बल्कि वीडियो से कच्चा पाठ था, जो अक्सर विभिन्न भाषाओं में अनुवाद के साथ था, जिसका उपयोग “यूट्यूब उपशीर्षक” नामक एक डेटासेट बनाने के लिए किया गया था। इस डेटासेट में MrBeast और Marques Brownlee जैसे कंटेंट क्रिएटर्स की सामग्री के साथ-साथ खान अकादमी, MIT और हार्वर्ड जैसे शैक्षिक चैनलों से डेटा शामिल है। यह “पाइल” का हिस्सा है, जो 22 डेटासेट से मिलकर बना एक प्रशिक्षण सेट है जिसमें यूरोपीय संसद, अंग्रेजी विकिपीडिया और अन्य सामग्री भी शामिल है।

पाइल सार्वजनिक रूप से सुलभ है, और बड़ी संख्या में शिक्षाविदों और कंपनियों ने अपने एआई संबंधित कार्य के लिए इसका उपयोग किया है। इनमें पूर्वोक्त अमेरिकी तकनीकी कंपनियां शामिल हैं, जिन्होंने यूट्यूब से सीधे डेटा नहीं लिया बल्कि अपने कुछ एआई मॉडल को प्रशिक्षित करने के लिए एल्यूथरएआई द्वारा किए गए काम पर भरोसा किया।

यूट्यूब की सेवा शर्तें और डेटा उपयोग विवाद:

वर्ष की दूसरी तिमाही की शुरुआत में, यूट्यूब के सीईओ नील मोहन ने एक दिलचस्प जवाब दिया जब उनसे पूछा गया कि क्या वे मानते हैं कि OpenAI उनके वीडियो प्लेटफॉर्म की सामग्री से सोरा को प्रशिक्षित कर रहा था। मोहन ने कहा कि जबकि कुछ यूट्यूब सामग्री, जैसे वीडियो का शीर्षक, चैनल का नाम, या निर्माता का नाम, सर्च इंजन दृश्यता के लिए वेब स्क्रैपिंग के अधीन है, वर्तमान नियम वीडियो या उनके ट्रांसक्रिप्ट को डाउनलोड करने की अनुमति नहीं देते। उन्होंने पुष्टि की कि ट्रांसक्रिप्ट या वीडियो अंश डाउनलोड करना प्लेटफॉर्म की सेवा शर्तों का “स्पष्ट उल्लंघन” है। यह स्थिति हमें AI डेटा अधिग्रहण प्रक्रिया में यूट्यूब की सेवा शर्तों की भूमिका पर सवाल उठाने के लिए प्रेरित करती है। प्रूफ न्यूज़ के शोध ने निर्धारित किया कि डेटासेट में वीडियो के सटीक स्रोत की पहचान करना जटिल था, डेटासेट से वीडियो आईडी का उपयोग करके और शीर्षक, चैनल और श्रेणियों जैसे विस्तृत मेटाडेटा प्राप्त करने के लिए यूट्यूब के सार्वजनिक रूप से सुलभ उपकरणों का परामर्श लेकर। जबकि Anthropic और Salesforce जैसी कंपनियों ने Pile जैसे प्रशिक्षण डेटासेट का उपयोग करने की पुष्टि की है, वे किसी भी गलत काम से इनकार करते हैं। इसके विपरीत, NVIDIA के प्रतिनिधियों ने टिप्पणी करने से इनकार कर दिया, जबकि Apple, Databricks और Bloomberg ने टिप्पणी अनुरोधों का जवाब नहीं दिया।

यह खोज AI उद्योग की बड़ी मात्रा में उच्च गुणवत्ता वाले डेटा पर बढ़ती निर्भरता को रेखांकित करती है जो मानव भाषा की नकल करने वाले मॉडल को प्रशिक्षित करने के लिए है। अक्सर, यह डेटा विभिन्न स्रोतों से आता है, जिसमें किताबें, ब्लॉग, और इस मामले में, यूट्यूब जैसे लोकप्रिय वीडियो प्लेटफॉर्म से सामग्री शामिल है, अक्सर मूल निर्माताओं के स्पष्ट ज्ञान के बिना। हाल ही में, यूट्यूब ने कहा कि वह नहीं चाहता कि OpenAI अपने Sora कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए अपने वीडियो का उपयोग करे। AI प्रशिक्षण के लिए यूट्यूब उपशीर्षकों के उपयोग ने संभावित कॉपीराइट उल्लंघन के कारण विवाद पैदा किया है, क्योंकि उपयोग की जाने वाली सामग्री अक्सर सार्वजनिक रूप से सुलभ स्रोतों से आती है, लेकिन हमेशा मूल निर्माताओं की स्पष्ट सहमति के साथ नहीं। यह ऐसे डेटा के उपयोग की नैतिकता और वैधता के बारे में सवाल उठाता है।

Tags: AI Training, Artificial Intelligence, Data Privacy, Tech Giants, YouTube Data

यूट्यूब उपशीर्षक एआई मॉडल प्रशिक्षण के लिए:

Similar Posts

यूट्यूब की सेवा शर्तें और डेटा उपयोग विवाद:

Leave a Reply Cancel reply

यूट्यूब उपशीर्षक एआई मॉडल प्रशिक्षण के लिए:

Similar Posts

यूट्यूब की सेवा शर्तें और डेटा उपयोग विवाद:

Share the love Share this content

You Might Also Like

WhatsApp’s का AI Studio बेहतर चैटबॉट्स के साथ लांच: 10 लाख से अधिक बीटा टेस्टर्स ने रियल-टाइम इंटरैक्शन का अनुभव किया

OpenAI ने GPT-4o Mini लॉन्च किया: MMLU परीक्षणों में 82% सटीकता के साथ GPT-3.5 को पछाड़ता है, AI की पहुँच को फिर से परिभाषित करता है

Leave a Reply Cancel reply

Share this content