scorecardresearch
Sunday, 16 June, 2024
होमविदेशशोधकर्ताओं की चेतावनी : 2026 तक एआई को प्रशिक्षित करने का डेटा ख़त्म हो सकता है। फिर क्या होगा?

शोधकर्ताओं की चेतावनी : 2026 तक एआई को प्रशिक्षित करने का डेटा ख़त्म हो सकता है। फिर क्या होगा?

Text Size:

(रीता माटुलिओनीटे, मैक्वेरी यूनिवर्सिटी)

सिडनी, नौ नवंबर (द कन्वरसेशन) जैसे-जैसे कृत्रिम बुद्धिमत्ता (एआई) अपनी लोकप्रियता के चरम पर पहुंच रही है, शोधकर्ताओं ने चेतावनी दी है कि उद्योग में प्रशिक्षण डेटा खत्म हो सकता है – वह ईंधन जो शक्तिशाली एआई सिस्टम चलाता है। यह एआई मॉडल, विशेष रूप से बड़े भाषा मॉडल के विकास को धीमा कर सकता है, और एआई क्रांति के प्रक्षेपवक्र को भी बदल सकता है।

लेकिन वेब पर डेटा की मात्रा को देखते हुए, डेटा की संभावित कमी एक मुद्दा क्यों है? और क्या जोखिम से निपटने का कोई तरीका है?

एआई के लिए उच्च गुणवत्ता वाला डेटा क्यों महत्वपूर्ण है?

शक्तिशाली, सटीक और उच्च गुणवत्ता वाले एआई एल्गोरिदम को प्रशिक्षित करने के लिए हमें बहुत सारे डेटा की आवश्यकता होती है। उदाहरण के लिए, चैटजीपीटी को 570 गीगाबाइट टेक्स्ट डेटा या लगभग 300 अरब शब्दों पर प्रशिक्षित किया गया था।

इसी तरह, स्थिर प्रसार एल्गोरिथ्म (जो डीएएलएल-ई, लेंसा और मिडजर्नी जैसे कई एआई छवि-जनरेटिंग ऐप्स के पीछे है) को 5.8 अरब छवि-पाठ जोड़े वाले एलआईएओएन-5बी डेटासेट पर प्रशिक्षित किया गया था। यदि किसी एल्गोरिदम को अपर्याप्त मात्रा में डेटा पर प्रशिक्षित किया जाता है, तो यह गलत या निम्न गुणवत्ता वाले आउटपुट उत्पन्न करेगा।

प्रशिक्षण डेटा की गुणवत्ता भी महत्वपूर्ण है. निम्न-गुणवत्ता वाला डेटा जैसे कि सोशल मीडिया पोस्ट या धुंधली तस्वीरें प्राप्त करना आसान है, लेकिन उच्च प्रदर्शन वाले एआई मॉडल को प्रशिक्षित करने के लिए पर्याप्त नहीं है।

सोशल मीडिया प्लेटफ़ॉर्म से लिया गया टेक्स्ट पक्षपातपूर्ण भ्रामक हो सकता है, या इसमें दुष्प्रचार या अवैध सामग्री शामिल हो सकती है जिसे मॉडल द्वारा दोहराया जा सकता है। उदाहरण के लिए, जब माइक्रोसॉफ्ट ने ट्विटर सामग्री का उपयोग करके अपने एआई बॉट को प्रशिक्षित करने की कोशिश की, तो उसने नस्लवादी और महिलाविरोधी आउटपुट उत्पन्न करना सीख लिया।

यही कारण है कि एआई डेवलपर्स किताबों से पाठ, ऑनलाइन लेख, वैज्ञानिक पेपर, विकिपीडिया और कुछ फ़िल्टर की गई वेब सामग्री जैसी उच्च गुणवत्ता वाली सामग्री की तलाश करते हैं। गूगल असिस्टेंट को अधिक संवादात्मक बनाने के लिए स्व-प्रकाशन साइट स्मैशवर्ड्स से लिए गए 11,000 रोमांस उपन्यासों पर प्रशिक्षित किया गया था।

क्या हमारे पास पर्याप्त डेटा है?

एआई उद्योग बड़े डेटासेट पर एआई सिस्टम का प्रशिक्षण कर रहा है, यही कारण है कि अब हमारे पास चैटजीपीटी या डीएएलएल-ई 3 जैसे उच्च प्रदर्शन वाले मॉडल हैं। साथ ही, शोध से पता चलता है कि ऑनलाइन डेटा स्टॉक एआई को प्रशिक्षित करने के लिए उपयोग किए गए डेटासेट की तुलना में बहुत धीमी गति से बढ़ रहे हैं।

पिछले साल प्रकाशित एक पेपर में, शोधकर्ताओं के एक समूह ने भविष्यवाणी की थी कि अगर मौजूदा एआई प्रशिक्षण रुझान जारी रहा तो हमारे पास 2026 से पहले उच्च गुणवत्ता वाला टेक्स्ट डेटा खत्म हो जाएगा। उन्होंने यह भी अनुमान लगाया कि निम्न-गुणवत्ता वाला भाषा डेटा 2030 और 2050 के बीच समाप्त हो जाएगा, और निम्न-गुणवत्ता वाला छवि डेटा 2030 और 2060 के बीच समाप्त हो जाएगा।

लेखांकन और परामर्श समूह पीडब्ल्यूसी के अनुसार, एआई 2030 तक विश्व अर्थव्यवस्था में 15.7 खरब अमेरिकी डॉलर तक का योगदान दे सकता है। लेकिन प्रयोग करने योग्य डेटा ख़त्म होने से इसका विकास धीमा हो सकता है।

क्या हमें चिंतित होना चाहिए?

हालाँकि उपरोक्त बिंदु कुछ एआई प्रशंसकों को चिंतित कर सकते हैं, स्थिति उतनी बुरी नहीं हो सकती जितनी दिखती है। भविष्य में एआई मॉडल कैसे विकसित होंगे, इसके बारे में कई चीजों के बारे में अभी कुछ कहना मुश्किल है, साथ ही डेटा की कमी के जोखिम को दूर करने के कुछ तरीके भी हैं।

एआई डेवलपर्स के लिए एल्गोरिदम में सुधार करने का एक अवसर है ताकि वे अपने पास पहले से मौजूद डेटा का अधिक कुशलता से उपयोग कर सकें।

संभावना है कि आने वाले वर्षों में वे कम डेटा और संभवतः कम कम्प्यूटेशनल शक्ति का उपयोग करके उच्च प्रदर्शन वाले एआई सिस्टम को प्रशिक्षित करने में सक्षम होंगे। इससे एआई के कार्बन फ़ुटप्रिंट को कम करने में भी मदद मिलेगी।

एक अन्य विकल्प सिस्टम को प्रशिक्षित करने के लिए सिंथेटिक डेटा बनाने के लिए एआई का उपयोग करना है। दूसरे शब्दों में, डेवलपर्स अपने विशेष एआई मॉडल के अनुरूप क्यूरेट किए गए डेटा को आसानी से उत्पन्न कर सकते हैं।

कई परियोजनाएं पहले से ही सिंथेटिक सामग्री का उपयोग कर रही हैं, जो अक्सर मोस्टली एआई जैसी डेटा-जनरेटिंग सेवाओं से प्राप्त होती हैं। यह भविष्य में और अधिक सामान्य हो जाएगा।

डेवलपर्स मुफ़्त ऑनलाइन स्थान के बाहर भी सामग्री खोज रहे हैं, जैसे कि बड़े प्रकाशकों और ऑफ़लाइन रिपॉजिटरी के पास मौजूद सामग्री। इंटरनेट से पहले प्रकाशित लाखों ग्रंथों के बारे में सोचें। डिजिटल रूप से उपलब्ध कराए जाने पर, वे एआई परियोजनाओं के लिए डेटा का एक नया स्रोत प्रदान कर सकते हैं।

न्यूज़ कॉर्प, दुनिया के सबसे बड़े समाचार सामग्री मालिकों में से एक (जिसकी अधिकांश सामग्री पेवॉल के पीछे है) ने हाल ही में कहा था कि वह एआई डेवलपर्स के साथ सामग्री सौदों पर बातचीत कर रहा था। इस तरह के सौदे एआई कंपनियों को प्रशिक्षण डेटा के लिए भुगतान करने के लिए मजबूर करेंगे – जबकि उन्होंने अब तक ज्यादातर इसे इंटरनेट से मुफ्त में लिया है।

सामग्री निर्माताओं ने एआई मॉडल को प्रशिक्षित करने के लिए अपनी सामग्री के अनधिकृत उपयोग के खिलाफ माइक्रोसॉफ्ट, ओपनएआई और स्टेबिलिटी एआई जैसी कुछ कंपनियों पर मुकदमा दायर किया है। उनके काम के लिए पारिश्रमिक मिलने से क्रिएटिव और एआई कंपनियों के बीच मौजूद कुछ शक्ति असंतुलन को बहाल करने में मदद मिल सकती है।

द कन्वरसेशन एकता

एकता

एकता

यह खबर ‘भाषा’ न्यूज़ एजेंसी से ‘ऑटो-फीड’ द्वारा ली गई है. इसके कंटेंट के लिए दिप्रिंट जिम्मेदार नहीं है.

share & View comments