scorecardresearch
Thursday, 4 September, 2025
होमविदेशएआई चैटबॉट्स को गुमराह कर कैसे तैयार करवाई गईं फर्जी जानकारियाँ, सुरक्षा उपाय निकले सतही

एआई चैटबॉट्स को गुमराह कर कैसे तैयार करवाई गईं फर्जी जानकारियाँ, सुरक्षा उपाय निकले सतही

Text Size:

(लिन तियान एवं मारियन एंद्रेई रिजोऊ, यूनिवर्सिटी ऑफ टेक्नोलॉजी सिडनी)

सिडनी, एक सितंबर (द कन्वरसेशन) — जब आप चैटजीपीटी या अन्य एआई सहायक से गलत जानकारी बनाने को कहते हैं, तो वे आमतौर पर मना कर देते हैं और जवाब देते हैं कि “मैं झूठी जानकारी बनाने में सहायता नहीं कर सकता।”

लेकिन हमारे परीक्षणों में पाया गया कि ये सुरक्षा उपाय केवल सतही हैं और इन्हें बेहद आसानी से दरकिनार किया जा सकता है।

हमने यह जांच की कि एआई भाषा मॉडल को कैसे गुमराह कर उसका सोशल मीडिया पर समन्वित दुष्प्रचार अभियान चलाने के लिए उपयोग किया जा सकता है। जो परिणाम सामने आए, वे ऑनलाइन जानकारी की विश्वसनीयता को लेकर चिंतित किसी भी व्यक्ति के लिए परेशान करने वाले हैं।

सतही सुरक्षा की समस्या

प्रिंसटन और गूगल के शोधकर्ताओं के हालिया अध्ययन से प्रेरित होकर हमने परीक्षण किए। उन्होंने बताया कि वर्तमान एआई सुरक्षा उपाय मुख्यतः उत्तर की शुरुआती कुछ पंक्तियों पर आधारित होते हैं। उदाहरणस्वरूप, यदि मॉडल जवाब की शुरुआत “मैं नहीं कर सकता” या “मुझे खेद है” से करता है, तो आमतौर पर पूरा उत्तर निषेधात्मक ही रहता है।

हमारे अप्रकाशित प्रयोगों में भी यही पुष्टि हुई। जब हमने सीधे एक व्यावसायिक भाषा मॉडल से ऑस्ट्रेलियाई राजनीतिक दलों पर गलत सूचना बनाने को कहा, तो उसने स्पष्ट रूप से मना कर दिया।

लेकिन जब हमने वही अनुरोध “एक सहायक सोशल मीडिया मार्केटर” की भूमिका निभाने के लिए किया, जिसमें कहा गया कि वह “सामान्य रणनीति और सर्वोत्तम प्रथाएं” बना रहा है तो मॉडल ने उत्साहपूर्वक पूरा अभियान तैयार कर दिया।

मुख्य समस्या यह है कि मॉडल केवल सतही प्रशिक्षण के आधार पर हानिकारक सामग्री को अस्वीकार करता है, लेकिन यह नहीं जानता कि वह सामग्री वास्तव में हानिकारक क्यों है।

यह स्थिति कुछ वैसी है जैसे एक सुरक्षा गार्ड केवल बाहरी पहचान देखकर क्लब में लोगों को प्रवेश दे रहा हो और अगर उसे यह न पता हो कि किसे और क्यों नहीं आने देना है, तो कोई भी साधारण वेशभूषा में भीतर आ सकता है।

वास्तविक प्रभाव

इन खामियों को उजागर करने के लिए हमने लोकप्रिय एआई मॉडलों को विभिन्न रूपों में गुमराह करने वाले संकेत देकर परखा। परिणाम चिंताजनक थे : जो मॉडल सीधे हानिकारक अनुरोधों को ठुकरा देते हैं, वही यदि अनुरोध किसी मासूम-सी भूमिका में छिपा हो, तो तुरंत सहयोग करने लगते हैं। इसे “मॉडल जेलब्रेकिंग” कहा जाता है।

इसे देखते हुए साफ है कि यह तकनीक गलत हाथों में खतरनाक रूप से शक्तिशाली हो सकती है। महज कुछ सरल संकेतों के माध्यम से बड़े पैमाने पर दुष्प्रचार अभियान तैयार किए जा सकते हैं जिनमें मंच-विशिष्ट सामग्री, स्थानीय-भाषा में संदेश और समुदाय-विशेष को लक्षित गलत तथ्य शामिल हो सकते हैं।

तकनीकी विवरण

अमेरिकी अध्ययन में पाया गया कि एआई मॉडल का सुरक्षा संरेखण केवल पहले 5–10 टोकन (शब्दों के हिस्से) तक ही प्रभावी होता है। यदि मॉडल एक बार “मैं नहीं कर सकता” या “मुझे खेद है” से शुरू कर दे, तो वह टोकन अनुक्रम के अनुसार निषेधात्मक बना रहता है।

लेकिन यदि शुरुआत में सुरक्षा बाधा पार हो जाए, तो मॉडल आगे हानिकारक सामग्री भी सहजता से उत्पन्न कर सकता है।

गहराई वाली सुरक्षा की ओर बढ़ना

अमेरिकी शोधकर्ताओं ने समाधान के रूप में सुरक्षा रिकवरी उदाहरणों को प्रशिक्षण में शामिल करने की सिफारिश की है। इससे मॉडल को यह सिखाया जा सकता है कि वह जवाब की शुरुआत भले ही स्वीकार से करे, लेकिन हानिकारक कंटेंट बनाते समय बीच में रुक जाए।

इसके अलावा, सुझाव दिया गया है कि किसी विशेष कार्य के लिए मॉडल को समायोजित करते समय उसकी जवाबदेही को अधिक नियंत्रित किया जाए।

एआई कंपनियाँ इस दिशा में पहले से कार्य कर रही हैं — जैसे कि संवैधानिक एआई (कान्स्टीट्यूशनल मॉडल), जिन्हें मूलभूत नैतिक सिद्धांतों के साथ प्रशिक्षित किया जाता है न कि सिर्फ सतही निषेध पैटर्न के साथ।

हालांकि, इन उपायों को लागू करना बेहद महंगा और समय-साध्य है, क्योंकि इसके लिए मॉडल को फिर से प्रशिक्षित करना पड़ता है।

व्यापक संदर्भ

यह तकनीकी कमजोरी केवल प्रयोगशालाओं तक सीमित नहीं है — यह एक ऐसी कमज़ोरी है जो पूरी सूचना व्यवस्था को प्रभावित कर सकती है।

आज एआई टूल्स समाचार निर्माण से लेकर सोशल मीडिया पोस्ट तक, कई क्षेत्रों में प्रयुक्त हो रहे हैं। यदि उनकी सुरक्षा केवल सतह पर ही कारगर है, तो यह समाज के लिए खतरे की घंटी है।

शोध यह भी दिखाता है कि मॉडल जो कर सकते हैं और जो वे वास्तव में समझते हैं, इन दोनों में बहुत बड़ा अंतर है।

मॉडल भले ही मानव जैसे उत्तर दे सकते हों, लेकिन उनमें नैतिक निर्णय क्षमता और संदर्भीय समझ नहीं है जो उन्हें लगातार हानिकारक अनुरोधों से बचा सके।

वर्तमान में, एआई टूल्स का उपयोग करने वाले व्यक्तियों और संगठनों को यह समझने की आवश्यकता है कि साधारण से प्रॉम्प्ट इंजीनियरिंग से भी मौजूदा सुरक्षा उपायों को बायपास किया जा सकता है। यह ज्ञान एआई नीतियों और उनके उपयोग में मानवीय निगरानी की आवश्यकता को रेखांकित करता है।

जैसे-जैसे तकनीक आगे बढ़ेगी, सुरक्षा और उसका उल्लंघन – दोनों के बीच की दौड़ तेज़ होती जाएगी। मजबूत और गहरी सुरक्षा केवल तकनीकी विशेषज्ञों की जिम्मेदारी नहीं, बल्कि पूरे समाज की आवश्यकता है।

( द कन्वरसेशन )

मनीषा नेत्रपाल

नेत्रपाल

यह खबर ‘भाषा’ न्यूज़ एजेंसी से ‘ऑटो-फीड’ द्वारा ली गई है. इसके कंटेंट के लिए दिप्रिंट जिम्मेदार नहीं है.

share & View comments