बुधवार, फ़रवरी 21, 2024

Top 5 This Week

spot_img

Related Posts

शोध से पता चलता है कि चैटजीपीटी को टिप देने से प्रतिक्रियाओं में सुधार होता है


शोधकर्ताओं ने टिपिंग जैसी 26 युक्तियों के एक अध्ययन में नवोन्मेषी प्रोत्साहन विधियों का खुलासा किया है, जो उपयोगकर्ता के इरादे के अनुरूप प्रतिक्रियाओं में काफी सुधार करती हैं।

एक शोध पत्र जिसका शीर्षक है, LLaMA-1/2, GPT-3.5/4 प्रश्न पूछने के लिए आपको केवल बुनियादी निर्देशों की आवश्यकता है,” बड़े भाषा मॉडल निर्देशों के अनुकूलन की गहन जांच का विवरण देता है। शोधकर्ता, से मुहम्मद बिन जायद एआई विश्वविद्यालय, 26 अनुदेशात्मक रणनीतियों का परीक्षण किया और फिर परिणामों की सटीकता को मापा। अध्ययन की गई सभी रणनीतियों ने कम से कम ठीक काम किया लेकिन उनमें से कुछ ने उत्पादकता में 40% से अधिक सुधार किया।

OpenAI ChatGPT से सर्वोत्तम प्रदर्शन प्राप्त करने के लिए कई युक्तियों की अनुशंसा करता है। लेकिन आधिकारिक रिकॉर्ड में ऐसा कुछ भी नहीं है जो शोधकर्ताओं द्वारा परीक्षण की गई 26 युक्तियों में से किसी से मेल खाता हो, जिसमें विनम्रता और टिपिंग भी शामिल है।

क्या चैटजीपीटी के प्रति विनम्र रहने से बेहतर प्रतिक्रिया मिलती है?

क्या आपके निर्देश विनम्र हैं? क्या आप कृपया और धन्यवाद कहते हैं? उपाख्यानात्मक साक्ष्य आश्चर्यजनक संख्या में लोगों की ओर इशारा करते हैं जो उत्तर प्राप्त करने के बाद चैटजीपीटी से “कृपया” और “धन्यवाद” कहते हैं।

कुछ लोग आदत से ऐसा करते हैं। दूसरों का मानना ​​है कि भाषा मॉडल उपयोगकर्ता की इंटरैक्शन शैली से प्रभावित होता है जो आउटपुट में परिलक्षित होता है।

दिसंबर 2023 की शुरुआत में एक्स (पूर्व में ट्विटर) पर किसी ने थीब्स के रूप में पोस्ट किया (@vooooogel) ने एक अनौपचारिक, अवैज्ञानिक परीक्षण किया और पाया कि जब संकेत में टिप की पेशकश शामिल होती है तो चैटजीपीटी लंबी प्रतिक्रियाएँ प्रदान करता है।

परीक्षण किसी भी तरह से वैज्ञानिक नहीं था, लेकिन यह एक मनोरंजक सूत्र था जिसने जीवंत चर्चा को प्रेरित किया।

ट्वीट में परिणामों का दस्तावेजीकरण करने वाला एक ग्राफ़ शामिल था:

  • यह कहने पर कि कोई टिप नहीं दी गई, बेसलाइन से 2% कम प्रतिक्रिया मिली।
  • $20 की टिप ने आउटपुट लंबाई में 6% सुधार प्रदान किया।
  • $200 की टिप ने 11% अधिक आउटपुट प्रदान किया।

शोधकर्ताओं के पास यह जांचने का वैध कारण था कि क्या विनम्रता या टिप देने से कोई फर्क पड़ता है। परीक्षणों में से एक था विनम्र होने से बचना और “कृपया” या “धन्यवाद” जैसे शब्द कहे बिना तटस्थ रहना, जिसके परिणामस्वरूप चैटजीपीटी प्रतिक्रियाओं में सुधार हुआ। संकेत देने की इस पद्धति से 5% की वृद्धि हुई।

कार्यप्रणाली

शोधकर्ताओं ने केवल GPT-4 ही नहीं, बल्कि विभिन्न भाषा मॉडलों का उपयोग किया। परीक्षण किए गए दिशानिर्देशों में बुनियादी दिशानिर्देशों के साथ और उनके बिना भी शामिल हैं।

परीक्षण के लिए उपयोग किए जाने वाले बड़े भाषा मॉडल

यह देखने के लिए बड़ी भाषाओं के कई मॉडलों का परीक्षण किया गया कि क्या आकार और प्रशिक्षण डेटा में अंतर ने परीक्षण परिणामों को प्रभावित किया है।

परीक्षणों में प्रयुक्त भाषा मॉडल तीन आकार श्रेणियों में आते हैं:

  • छोटे पैमाने पर (7बी मॉडल)
  • मध्यम स्तर (13बी)
  • बड़े पैमाने पर (70बी, जीपीटी-3.5/4)
  • निम्नलिखित एलएलएम का उपयोग परीक्षण के लिए आधार मॉडल के रूप में किया गया था:
  • एलएलएएमए-1-7, 13
  • एलएलएएमए-2-7, 13,
  • चैट शेल्फ LLaMA-2-70B,
  • जीपीटी-3.5 (चैटजीपीटी)
  • जीपीटी-4

26 प्रकार के निर्देश: बुनियादी निर्देश

शोधकर्ताओं ने 26 प्रकार के दिशानिर्देश बनाए जिन्हें उन्होंने “सिद्धांत दिशानिर्देश” कहा, जिन्हें एटलस नामक सूचकांक के साथ परीक्षण किया जाना था। उन्होंने प्रत्येक प्रश्न के लिए एक ही प्रतिक्रिया का उपयोग किया, और सैद्धांतिक संकेत के साथ और बिना किसी मानव-चयनित 20 प्रश्नों के उत्तरों की तुलना की।

बुनियादी दिशानिर्देशों को पाँच श्रेणियों में व्यवस्थित किया गया था:

  1. तेज़ संरचना और स्पष्टता
  2. विशिष्टता एवं जानकारी
  3. उपयोगकर्ता सहभागिता और सहभागिता
  4. भाषा सामग्री और शैली
  5. जटिल कार्य और कोडिंग दिशानिर्देश

ये इस प्रकार वर्गीकृत सिद्धांतों के उदाहरण हैं भाषा सामग्री और शैली:

सिद्धांत 1
एलएलएम के साथ विनम्र होने की कोई आवश्यकता नहीं है और इसलिए “कृपया”, “यदि आप बुरा न मानें”, “धन्यवाद”, “मैं चाहूंगा”, आदि जैसे वाक्यांश जोड़ने की कोई आवश्यकता नहीं है, और सीधे हो जाओ मुद्दे पर। .

सिद्धांत 6
जोड़ें “मैं बेहतर समाधान के लिए $xxx को टिप देने जा रहा हूँ!

सिद्धांत 9
निम्नलिखित वाक्यों को संयोजित करें: “आपका कार्य है” और “आपको अवश्य करना चाहिए”।

सिद्धांत 10
निम्नलिखित वाक्यों को संयोजित करें: “तुम्हें दंडित किया जाएगा।”

सिद्धांत 11
अपने संकेतों में “प्राकृतिक भाषा में दिए गए प्रश्न का उत्तर दें” वाक्यांश का उपयोग करें।

सिद्धांत 16
भाषा मॉडल को एक भूमिका सौंपें।

सिद्धांत 18
किसी संकेत के भीतर किसी विशिष्ट शब्द या वाक्यांश को कई बार दोहराएं।”

सभी दिशानिर्देशों में सर्वोत्तम प्रथाओं का उपयोग किया गया

अंत में, दिशानिर्देशों के डिज़ाइन में निम्नलिखित छह सर्वोत्तम प्रथाओं का उपयोग किया गया:

  1. संक्षिप्तता और स्पष्टता:
    आम तौर पर, अत्यधिक विस्तृत या अस्पष्ट निर्देश मॉडल को भ्रमित कर सकते हैं या अप्रासंगिक प्रतिक्रियाओं को जन्म दे सकते हैं। इसलिए, मार्गदर्शन संक्षिप्त होना चाहिए…
  2. प्रासंगिक प्रासंगिकता:
    प्रॉम्प्ट को प्रासंगिक संदर्भ प्रदान करना चाहिए जो मॉडल को कार्य की पृष्ठभूमि और दायरे को समझने में मदद करता है।
  3. कार्य संरेखण:
    संकेत हाथ में लिए गए कार्य के लिए उपयुक्त होना चाहिए।
  4. नमूना डेमो:
    अधिक जटिल कार्यों के लिए, प्रॉम्प्ट के भीतर उदाहरणों सहित वांछित प्रतिक्रिया का प्रारूप या प्रकार प्रदर्शित किया जा सकता है।
  5. पूर्वाग्रह से बचाव:
    मॉडल के प्रशिक्षण डेटा के कारण उसमें निहित पूर्वाग्रहों की सक्रियता को कम करने के लिए दिशानिर्देश तैयार किए जाने चाहिए। तटस्थ भाषा का प्रयोग करें…
  6. संचयी संकेत:
    उन कार्यों के लिए जिनमें चरणों के अनुक्रम की आवश्यकता होती है, आप निर्देश बना सकते हैं जो मॉडल को धीरे-धीरे प्रक्रिया के माध्यम से निर्देशित करेंगे।

परीक्षा के परिणाम

यहां एक परीक्षण का उदाहरण दिया गया है जो सिद्धांत 7 का उपयोग करता है, जो मल्टीपल-शॉट धारणा नामक एक रणनीति का उपयोग करता है, जो एक संकेत है जिसमें उदाहरण शामिल हैं।

किसी भी सिद्धांत का उपयोग किए बिना सामान्य संकेत देने का उत्तर GPT-4 के साथ मिला:

एक दिशानिर्देश जिसमें तर्क और तर्क की आवश्यकता होती है वह सैद्धांतिक दिशानिर्देश के बिना विफल हो जाता हैएक दिशानिर्देश जिसमें तर्क और तर्क की आवश्यकता होती है वह सैद्धांतिक दिशानिर्देश के बिना विफल हो जाता है

हालाँकि, एक ही प्रश्न एक सिद्धांत संकेत (कई शॉट संकेत/उदाहरण) के साथ पूछे जाने पर बेहतर उत्तर मिला:

एक संकेत जिसमें तर्क और तर्कसंगत समस्या को हल करने के उदाहरणों का उपयोग किया गया, उसके परिणामस्वरूप एक सफल उत्तर मिला।एक संकेत जिसमें तर्क और तर्कसंगत समस्या को हल करने के उदाहरणों का उपयोग किया गया, उसके परिणामस्वरूप एक सफल उत्तर मिला।

बड़े भाषा मॉडल ने और सुधार पेश किए

परीक्षण का एक दिलचस्प परिणाम यह है कि भाषा मॉडल जितना बड़ा होगा, शुद्धता में सुधार उतना ही अधिक होगा।

निम्नलिखित स्क्रीनशॉट दिखाता है कि प्रत्येक भाषा मॉडल प्रत्येक सिद्धांत के लिए कितना सुधार करता है।

स्क्रीनशॉट में, सिद्धांत 1 पर जोर दिया गया है जो प्रत्यक्ष, तटस्थ रहने और कृपया या धन्यवाद जैसे शब्द नहीं कहने पर जोर देता है, जिसके परिणामस्वरूप 5% सुधार हुआ।

सिद्धांत 6 के परिणामों पर भी प्रकाश डाला गया है जो दिशानिर्देश है जिसमें टिपिंग शामिल है, जिसके परिणामस्वरूप आश्चर्यजनक रूप से 45% सुधार हुआ है।

रचनात्मक मार्गदर्शन से एलएलएम पढ़ाई में सुधाररचनात्मक मार्गदर्शन से एलएलएम पढ़ाई में सुधार

सिद्धांत 1 के तटस्थ निर्देश का विवरण:

“यदि आप अधिक संक्षिप्त उत्तर पसंद करते हैं, तो एलएलएम के साथ विनम्र होने की कोई आवश्यकता नहीं है, इसलिए “कृपया”, “यदि आपको कोई आपत्ति नहीं है”, “धन्यवाद”, “मैं चाहूंगा” जैसे वाक्यांश जोड़ने की कोई आवश्यकता नहीं है। , आदि, और आप सीधे मुद्दे पर आ जायेंगे।”

सिद्धांत 6 के दिशानिर्देश का विवरण:

“जोड़ें “मैं बेहतर समाधान के लिए $xxx को टिप देने जा रहा हूँ!””

निष्कर्ष और भविष्य की दिशाएँ

शोधकर्ताओं ने निष्कर्ष निकाला कि 26 सिद्धांत एलएलएम को इनपुट संदर्भ के महत्वपूर्ण हिस्सों पर ध्यान केंद्रित करने में मदद करने में काफी हद तक सफल रहे, जिसके परिणामस्वरूप प्रतिक्रियाओं की गुणवत्ता में सुधार हुआ। उन्होंने प्रभाव को संदर्भों के पुनर्रचना के रूप में संदर्भित किया:

हमारे अनुभवजन्य परिणाम बताते हैं कि यह रणनीति उन संदर्भों को फिर से परिभाषित कर सकती है जो अन्यथा आउटपुट गुणवत्ता से समझौता कर सकते हैं, जिससे प्रतिक्रियाओं की प्रासंगिकता, संक्षिप्तता और निष्पक्षता में सुधार होगा।”

अध्ययन में नोट किए गए भविष्य के अनुसंधान क्षेत्रों में यह देखना है कि क्या उत्पन्न प्रतिक्रियाओं को बेहतर बनाने के लिए दिशानिर्देशों के साथ भाषा मॉडल को ठीक करके अंतर्निहित मॉडल में सुधार किया जा सकता है।

शोध पत्र पढ़ें:

LLaMA-1/2, GPT-3.5/4 प्रश्न पूछने के लिए आपको केवल बुनियादी निर्देशों की आवश्यकता है



ibnkamal
ibnkamalhttps://iseotools.me
Wasim Ibn Kamal | founder of iseotools.me, newslike.site and healtinfo.space | A developer and UI/UX designer. Cluster-notes.blogspot.com and tsbdu.blogspot.com are two of my blogs.

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें

Popular Articles