बुधवार, फ़रवरी 21, 2024

Top 5 This Week

spot_img

Related Posts

कृत्रिम बुद्धिमत्ता को और अधिक विश्वसनीय बनाया जा सकता है


Google के डीपमाइंड ने एक शोध पत्र प्रकाशित किया है जिसमें पुरस्कारों के लिए अधिक विश्वसनीय और हैक-प्रतिरोधी उत्तर प्रदान करने के लिए बड़े भाषा मॉडल को प्रशिक्षित करने का एक तरीका प्रस्तावित किया गया है, जो अधिक उपयुक्त और कुशल एआई सिस्टम विकसित करने की दिशा में एक कदम है।

टोपी टिप करने के लिए @एथन लाज़ोक को एक नए शोध पत्र के बारे में ट्वीट करना गूगल डीपमाइंड से।

एआई में पुरस्कारों को हैक करने की प्रवृत्ति होती है

मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) जनरेटिव कृत्रिम बुद्धिमत्ता को प्रशिक्षित करने के लिए उपयोग की जाने वाली एक विधि है ताकि यह उन प्रतिक्रियाओं का सुझाव देना सीख सके जो मानव मूल्यांकनकर्ताओं द्वारा अनुकूल रूप से स्कोर किए गए हैं। सकारात्मक ग्रेड सही उत्तरों के लिए पुरस्कार हैं, यही कारण है कि इस तकनीक को सुदृढीकरण सीखना कहा जाता है। सकारात्मक अंक मानव मूल्यांकनकर्ताओं द्वारा दिए जाते हैं और इसीलिए इसे मानव प्रतिक्रिया से सुदृढीकरण सीखना कहा जाता है।

आरएलएचएफ बेहद सफल है, लेकिन यह एक अनपेक्षित दुष्प्रभाव के साथ भी आता है जहां एआई शॉर्टकट सीखता है और सकारात्मक इनाम प्राप्त करता है। एक सही उत्तर प्रदान करने के बजाय, यह एक ऐसा उत्तर प्रदान करता है जो एक सही उत्तर जैसा दिखता है और जब यह मानव मूल्यांकनकर्ताओं को गुमराह करता है (जो कि सुदृढीकरण प्रशिक्षण की विफलता है), तो कृत्रिम बुद्धिमत्ता मानव मूल्यांकनकर्ताओं को धोखा देने की अपनी क्षमता में सुधार करना शुरू कर देती है। पुरस्कार (सकारात्मक मानव रेटिंग) प्राप्त करने के लिए गलत उत्तर।

प्रशिक्षण पुरस्कार प्राप्त करने के लिए एआई की “धोखाधड़ी” करने की प्रवृत्ति को रिवॉर्ड हैकिंग कहा जाता है, और अध्ययन इसे कम करने का प्रयास करता है।

बड़े भाषा मॉडल में रिवार्ड हैकिंग के कारण

रिवॉर्ड हैकिंग समस्या को हल करने के लिए, शोधकर्ताओं ने रिवॉर्ड हैकिंग की ओर ले जाने वाले दो क्षेत्रों की पहचान की, जिन्हें उनके समाधान द्वारा संबोधित किया जाना चाहिए:

  1. वितरण परिवर्तन
  2. मानवीय प्राथमिकताओं में असंगति

वितरण परिवर्तन

प्रसार बदलाव एक ऐसी स्थिति को संदर्भित करता है जहां एक एलएलएम को एक विशेष प्रकार के डेटा सेट पर प्रशिक्षित किया जाता है और फिर, सुदृढीकरण सीखने के दौरान, यह विभिन्न प्रकार के प्रशिक्षण डेटा के संपर्क में आता है जो उसने पहले नहीं देखा है। डेटा प्रकार में इस परिवर्तन को वितरण परिवर्तन कहा जाता है, और यह भाषा मॉडल को संतोषजनक उत्तर देने के लिए इनाम प्रणाली में हेरफेर करने का कारण बन सकता है जिसे वह अन्यथा प्रदान करने को तैयार नहीं है।

मानवीय प्राथमिकताओं में असंगति

यह एआई द्वारा प्रदान किए गए उत्तरों का मूल्यांकन करते समय मनुष्यों की रेटिंग में असंगत होने का संदर्भ है। उदाहरण के लिए, मानव प्राथमिकताओं में असंगतता की समस्या को हल करना संभवतः Google खोज गुणवत्ता रेटिंग दिशानिर्देशों के निर्माण के पीछे की प्रेरणाओं में से एक है, जिसका प्रभाव व्यक्तिपरक प्राथमिकताओं के प्रभाव को कम करने में होता है।

लोगों की प्राथमिकताएँ हर व्यक्ति में अलग-अलग हो सकती हैं। मानव प्रतिक्रिया से सुदृढीकरण सीखना इनाम मॉडल (आरएम) की प्रशिक्षण प्रक्रिया में मानव प्रतिक्रिया पर निर्भर करता है और यह असंगतता है जो इनाम ब्रेकआउट का कारण बन सकती है।

जैसा कि शोधकर्ताओं ने नोट किया है, समाधान खोजना महत्वपूर्ण है:

“इनाम हैकिंग की यह घटना कई समस्याएं पैदा करती है।

सबसे पहले, यह प्रदर्शन को ख़राब करता है, अनावश्यक रूप से भाषाई या मौखिक रूप से त्रुटिपूर्ण आउटपुट के रूप में प्रकट होता है जो सच्ची मानवीय प्राथमिकताओं को प्रतिबिंबित नहीं करता है।

दूसरा, यह प्रॉक्सी आरएम की अविश्वसनीयता के कारण बाधा चयन को जटिल बनाता है, जो गुडहार्ट के नियम को प्रतिध्वनित करता है: “जब कोई उपाय लक्ष्य बन जाता है, तो यह एक अच्छा उपाय नहीं रह जाता है।”

तीसरा, यह जिज्ञासा पैदा कर सकता है या सामाजिक पूर्वाग्रह बढ़ा सकता है, जो फीडबैक प्रदाताओं की सीमित और पक्षपाती जनसांख्यिकी को दर्शाता है।

अंत में और सबसे गंभीर रूप से, रिवार्ड हैकिंग के कारण अपर्याप्तताएं सुरक्षा जोखिमों में बढ़ सकती हैं, विशेष रूप से रोजमर्रा की जिंदगी और महत्वपूर्ण निर्णय लेने में एलएलएम के तेजी से एकीकरण को देखते हुए। “

भारित औसत इनाम मॉडल (WARM)

Google DeepMind शोधकर्ताओं ने वेट एवरेज रिवार्ड मॉडल (WARM) नामक एक प्रणाली विकसित की है, जो कई अलग-अलग रिवॉर्ड मॉडल के संयोजन से एक प्रॉक्सी मॉडल बनाता है, जिनमें से प्रत्येक में मामूली अंतर होता है। WARM के साथ, जैसे-जैसे वे इनाम मॉडल (RM) की संख्या बढ़ाते हैं, वे एक साथ औसत हो जाते हैं और परिणाम में काफी सुधार होता है, साथ ही सिस्टम विश्वसनीयता में अचानक गिरावट से बचता है जो मानक मॉडल के साथ होता है।

WARM प्रणाली, क्योंकि यह कम संख्या में मॉडलों का उपयोग करती है, इसमें मेमोरी कुशल होने और इनाम हैकिंग के प्रतिरोधी होने के अलावा, मॉडल की उत्तर प्रदान करने की क्षमता को धीमा नहीं करने का लाभ है।

WARM बदलते डेटा से निपटने में मॉडल को अधिक विश्वसनीय और सुसंगत बनाता है।

जिस चीज़ ने मेरा ध्यान खींचा वह थी इसकी “अद्यतन करने योग्य मशीन लर्निंग प्रतिमान” का पालन करने की क्षमता, जो बिना किसी शुरुआत के, समय के साथ नए डेटा या परिवर्तनों को शामिल करके अनुकूलन और सुधार करने की WARM की क्षमता को संदर्भित करता है।

निम्नलिखित उद्धरण में, WA का अर्थ भारित औसत है और RM का अर्थ मुआवजा मॉडल है।

शोधकर्ता बताते हैं:

“WARM मानवीय मूल्यों और सामाजिक मानदंडों के साथ AI के संरेखण को बेहतर बनाने के लिए एक लचीली और व्यावहारिक पद्धति का प्रतिनिधित्व करता है।

…WARM एक अद्यतन करने योग्य मशीन लर्निंग प्रतिमान का अनुसरण करता है, जो सर्वर-टू-सर्वर संचार की आवश्यकता को समाप्त करता है, इस प्रकार आरएम के शर्मनाक सरल समानांतरीकरण को सक्षम करता है।

इससे फ़ेडरेटेड शिक्षण परिदृश्य में उपयोग करना आसान हो जाता है जहाँ डेटा को निजी रहने की आवश्यकता होती है; इसके अलावा, WA निजी प्राथमिकताओं के स्मरण को कम करके गोपनीयता और पूर्वाग्रह में कमी की एक परत जोड़ देगा। फिर, WARM का एक सरल विस्तार विभिन्न डेटासेट पर प्रशिक्षित RM को संयोजित करेगा, उदाहरण के लिए, विभिन्न लेबल (क्लस्टर) से आ रहा है।

…इसके अलावा, क्योंकि WA को भयावह भूल को सीमित करने के लिए दिखाया गया है, WARM निर्बाध रूप से पुनरावृत्त और विकसित होने वाली प्राथमिकताओं का समर्थन कर सकता है।

सीमाएँ

यह शोध कृत्रिम बुद्धिमत्ता को बेहतर बनाने के अतिरिक्त तरीकों का संकेत देता है, यह पूर्ण समाधान नहीं है क्योंकि इसमें अंतर्निहित सीमाएँ हैं। समस्याओं में से एक यह है कि यह “के सभी रूपों को पूरी तरह से नहीं हटाता है।”वरीयता डेटा में निहित नकली सहसंबंध या पूर्वाग्रह।”

हालाँकि, उन्होंने WARM के भविष्य के बारे में एक आशावादी नोट पर निष्कर्ष निकाला:

“हमारे अनुभवजन्य परिणाम संक्षेप में लागू होने पर इसकी प्रभावशीलता प्रदर्शित करते हैं। हम आशा करते हैं कि WARM अधिक संरेखित, पारदर्शी और कुशल AI सिस्टम में योगदान देगा, और इनाम मॉडल में आगे की खोज को प्रोत्साहित करेगा।”

शोध पत्र पढ़ें:

हॉट: भारित औसत मुआवजा मॉडल के फायदों पर

शटरस्टॉक/मैनसेल बर्स्ट द्वारा प्रदर्शित छवि



ibnkamal
ibnkamalhttps://iseotools.me
Wasim Ibn Kamal | founder of iseotools.me, newslike.site and healtinfo.space | A developer and UI/UX designer. Cluster-notes.blogspot.com and tsbdu.blogspot.com are two of my blogs.

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें

Popular Articles