Google ने इनफिनी-अटेंशन नामक एक नई तकनीक पर एक शोध पत्र प्रकाशित किया है जो इसे “अनंत लंबे संबंधों” के साथ बहुत बड़ी मात्रा में डेटा संसाधित करने की अनुमति देता है, साथ ही अपनी क्षमताओं को बेहतर बनाने के लिए अन्य मॉडलों में आसानी से फीड करने में भी सक्षम है।
अंतिम भाग Google के एल्गोरिदम में रुचि रखने वालों के लिए रुचिकर होना चाहिए। इनफिनी-अटेंशन प्लग-एंड-प्ले है, जिसका अर्थ है कि इसे अन्य मॉडलों में प्लग करना अपेक्षाकृत आसान है, जिसमें Google के कोर एल्गोरिदम में उपयोग किए जाने वाले मॉडल भी शामिल हैं। कुछ “असीम लंबे लिंक” का यह प्रभाव हो सकता है कि Google की कुछ खोज प्रणालियाँ कैसे काम कर सकती हैं।
शोध पत्र का नाम है: बाकी पीछे का संदर्भ नहीं है: अनंत ध्यान के साथ कुशल अनंत ट्रांसफार्मर
स्नातक अध्ययन के लिए मेमोरी कम्प्यूटेशनल रूप से महंगी है
बड़े भाषा मॉडल (एलएलएम) में एक बार में संसाधित किए जा सकने वाले डेटा की मात्रा पर सीमाएं होती हैं, क्योंकि कम्प्यूटेशनल जटिलता और मेमोरी उपयोग में काफी वृद्धि हो सकती है। इनफिनी-अटेंशन एलएलएम को आवश्यक कम मेमोरी और प्रोसेसिंग पावर को बनाए रखते हुए लंबे संदर्भों को संभालने की क्षमता देता है।
शोध पत्र बताता है:
“मेमोरी बुद्धिमत्ता की आधारशिला के रूप में कार्य करती है, क्योंकि यह विशिष्ट संदर्भों के अनुरूप कुशल गणनाओं को सक्षम बनाती है। हालांकि, ध्यान तंत्र की प्रकृति के कारण, रोबोट… और ट्रांसफार्मर-आधारित एलएलएम… में संदर्भ-निर्भर मेमोरी सीमित होती है।
दरअसल, एलएलएम को लंबे अनुक्रमों (यानी 1M टोकन) में स्केल करना मानक ट्रांसफार्मर आर्किटेक्चर के साथ चुनौतीपूर्ण है और लंबे और लंबे संदर्भ मॉडल की सेवा करना वित्तीय रूप से महंगा होता जा रहा है।
और अन्यत्र शोध पत्र बताता है:
“वर्तमान ट्रांसफार्मर मॉडल कम्प्यूटेशनल और मेमोरी लागत में द्विघात वृद्धि के कारण लंबे अनुक्रमों को संसाधित करने की उनकी क्षमता में सीमित हैं। इनफिनी-अटेंशन का लक्ष्य इस स्केलेबिलिटी मुद्दे को संबोधित करना है।”
शोधकर्ताओं ने अनुमान लगाया कि कम्प्यूटेशनल और मेमोरी संसाधनों में सामान्य वृद्धि के बिना ट्रांसफार्मर के साथ बेहद लंबे अनुक्रमों को संभालने के लिए इनफिनी-ध्यान को बढ़ाया जा सकता है।
तीन महत्वपूर्ण विशेषताएं
Google का इनफिनी-अटेंशन तीन विशेषताओं को शामिल करके ट्रांसफार्मर मॉडल की कमियों को हल करता है जो ट्रांसफार्मर-आधारित एलएलएम को मेमोरी समस्याओं के बिना लंबे अनुक्रमों को संभालने और अनुक्रम में पहले डेटा से संदर्भ का उपयोग करने की अनुमति देता है, न कि केवल संसाधित किए जा रहे वर्तमान बिंदु के पास के डेटा को।
इन्फिनी-अटेंशन की विशेषताएं
- संपीड़न स्मृति प्रणाली
- दीर्घकालिक रैखिक ध्यान
- स्थानीय मास्क पर ध्यान दें
संपीड़न स्मृति प्रणाली
इनफिनी-अटेंशन एक संपीड़ित मेमोरी सिस्टम का उपयोग करता है जिसे संपीड़ित मेमोरी सिस्टम कहा जाता है। जैसे ही अधिक डेटा प्राप्त होता है (डेटा के लंबे अनुक्रम के हिस्से के रूप में), संपीड़ित मेमोरी सिस्टम डेटा को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को कम करने के लिए कुछ पुरानी जानकारी को संपीड़ित करता है।
दीर्घकालिक रैखिक ध्यान
इनफिनी-अटेंशन तथाकथित “दीर्घकालिक रैखिक ध्यान तंत्र” का भी उपयोग करता है जो एलएलएम को संसाधित डेटा के अनुक्रम में पहले से मौजूद डेटा को संसाधित करने की अनुमति देता है जो संदर्भ को संरक्षित करने की अनुमति देता है। यह मानक ट्रांसफार्मर-आधारित एलएलएम से अलग है।
यह उन कार्यों के लिए महत्वपूर्ण है जहां संदर्भ डेटा के बड़े स्तर पर मौजूद है। यह पूरी किताब और सभी अध्यायों पर चर्चा करने और यह समझाने में सक्षम होने जैसा है कि किताब के अंत के करीब पहला अध्याय दूसरे अध्याय से कैसे संबंधित है।
स्थानीय मास्क पर ध्यान दें
दीर्घकालिक ध्यान के अलावा, इनफिनी-ध्यान तथाकथित स्थानीय मुखौटा ध्यान का भी उपयोग करता है। इस प्रकार का ध्यान इनपुट डेटा के करीबी (स्थानीय) हिस्सों को संसाधित करता है, जो उन प्रतिक्रियाओं के लिए उपयोगी है जो डेटा के करीबी हिस्सों पर निर्भर करते हैं।
दीर्घकालिक ध्यान और स्थानीय ध्यान को एक साथ मिलाने से ट्रांसफार्मर की इनपुट डेटा की मात्रा तक सीमित होने की समस्या को हल करने में मदद मिलती है जिसे वे याद रख सकते हैं और संदर्भ में उपयोग कर सकते हैं।
शोधकर्ता बताते हैं:
“अनंत ध्यान संपीड़ित स्मृति को वेनिला ध्यान तंत्र में एकीकृत करता है और एक ही रोबोटिक ब्लॉक में नकाबपोश स्थानीय ध्यान और दीर्घकालिक रैखिक ध्यान तंत्र दोनों का निर्माण करता है।”
प्रयोगों और परीक्षणों के परिणाम
लंबे इनपुट अनुक्रमों, जैसे लंबे-संदर्भ भाषा मॉडल, पासवर्ड कुंजी पुनर्प्राप्ति, और पुस्तक सारांश कार्यों को शामिल करने वाले कई बेंचमार्क में तुलना के लिए इनफिनी-ध्यान का परीक्षण अन्य मॉडलों के खिलाफ किया गया है। पासवर्ड कुंजी पुनर्प्राप्ति एक परीक्षण है जहां भाषा मॉडल को एक अत्यंत लंबे पाठ अनुक्रम से विशिष्ट डेटा पुनर्प्राप्त करना होता है।
तीन परीक्षणों की सूची:
- एक लंबे संदर्भ में एक भाषा मॉडल
- पासवर्ड कुंजी परीक्षण
- कहानी का सार
लंबे संदर्भ में एक भाषा मॉडल और घबराहट का निशान
शोधकर्ताओं ने लिखा है कि इनफिनी-अटेंशन ने बेसलाइन मॉडल से बेहतर प्रदर्शन किया और प्रशिक्षण अनुक्रम की लंबाई बढ़ाने से इसमें और सुधार हुआ। घबराहट का निशान. पर्प्लेक्सिटी स्कोर एक मीट्रिक है जो कम स्कोर वाले भाषा मॉडल के प्रदर्शन को मापता है जो बेहतर प्रदर्शन का संकेत देता है।
शोधकर्ताओं ने अपने निष्कर्ष साझा किए:
“इनफिनी-ट्रांसफॉर्मर अपने 65K लेयर 9 वेक्टर फ़ेच-आधारित केवी मेमोरी के साथ मेमोराइजिंग ट्रांसफार्मर मॉडल की तुलना में 114 गुना कम मेमोरी पैरामीटर बनाए रखते हुए ट्रांसफार्मर-एक्सएल और मेमोराइजिंग ट्रांसफार्मर बेसलाइन से बेहतर प्रदर्शन करता है। इनफिनी-ट्रांसफॉर्मर 65K की मेमोरी लंबाई के साथ ट्रांसफार्मर मेमोराइजेशन पर काबू पाता है और 114 गुना का संपीड़न अनुपात प्राप्त करता है।
हमने प्रशिक्षण अनुक्रम की लंबाई को 32K से बढ़ाकर 100K कर दिया और मॉडलों को Arxiv-गणित डेटासेट पर प्रशिक्षित किया। 100K प्रशिक्षण ने लीनियर और लीनियर + डेल्टा मॉडल के लिए उलझन स्कोर को 2.21 और 2.20 तक कम कर दिया।”
पासवर्ड कुंजी परीक्षण
मुख्य परीक्षण वह है जहां एक लंबे पाठ अनुक्रम के भीतर एक यादृच्छिक संख्या छिपी होती है और कार्य यह है कि मॉडल को छिपे हुए पाठ को पुनः प्राप्त करना होगा। पासवर्ड कुंजी लंबे टेक्स्ट के आरंभ, मध्य या अंत के पास छिपी होती है। मॉडल दस लाख की लंबाई तक कुंजी परीक्षण को हल करने में सक्षम था।
“एलएलएम 1बी स्वाभाविक रूप से 1एम के अनुक्रम पर स्केल करता है और इनफिनी-ध्यान के साथ इंजेक्ट होने पर मुख्य पुनर्प्राप्ति कार्य को हल करता है। 5K-लंबे इनपुट पर फाइन-ट्यून किए जाने पर इनफिनी-ट्रांसफॉर्मर्स ने 1M तक की रिलेशन लंबाई के साथ प्रमुख कार्य को हल किया। हम पुनर्प्राप्ति सटीकता की रिपोर्ट करते हैं पासवर्ड कुंजियों के लिए टोकन 32K से 1M तक की लंबी प्रविष्टियों के एक अलग भाग (प्रारंभ/मध्य/अंत) में छिपा हुआ है।”
पुस्तक सारांश परीक्षण
इनफिनी-अटेंशन ने अत्याधुनिक प्रदर्शन स्तर (एसओटीए) हासिल करने में अग्रणी बेंचमार्क से बेहतर प्रदर्शन करके पुस्तक सारांश परीक्षण में भी उत्कृष्ट प्रदर्शन किया।
परिणाम वर्णित हैं:
“अंत में, हम दिखाते हैं कि इन्फिनी-ध्यान के साथ 8B मॉडल निरंतर पूर्व-प्रशिक्षण और कार्य के फाइन-ट्यूनिंग के बाद 500K पुस्तक सारांश कार्य पर एक नए SOTA परिणाम तक पहुंचता है।
…हमने 30K चरणों के लिए 8K की इनपुट लंबाई के साथ 8B LLM मॉडल को लगातार पूर्व-प्रशिक्षित करके अपने दृष्टिकोण को आगे बढ़ाया। फिर हमने पुस्तक सारांश कार्य, बुकसम (क्रिसिन्स्की एट अल., 2021) को ट्यून किया, जहां लक्ष्य संपूर्ण पुस्तक पाठ का सारांश बनाना है।
हमारा मॉडल पिछले सर्वोत्तम परिणामों को पार करता है और पुस्तक के संपूर्ण पाठ को संसाधित करके बुकसम पर एक नया SOTA प्राप्त करता है। …एक स्पष्ट रुझान दिख रहा है कि संख्यात्मक इनपुट के रूप में अधिक पाठ प्रदान करने से, हमारे इनफिनी-ट्रांसफॉर्मर्स अपने सारांश प्रदर्शन मेट्रिक्स में सुधार करते हैं।
एसईओ पर असीमित ध्यान देने के निहितार्थ
इनफिनी-अटेंशन, इनफिनी-अटेंशन के बिना पिछले मॉडलों की तुलना में लंबे और अल्पकालिक ध्यान को अधिक कुशलता से डिजाइन करने में एक सफलता है। यह “निरंतर प्लग-एंड-प्ले प्री-ट्रेनिंग और लॉन्ग-कॉन्टैक्ट एडजस्टमेंट” का भी समर्थन करता है
डिज़ाइन द्वारा” अर्थात इसे मौजूदा मॉडलों में आसानी से एकीकृत किया जा सकता है।
अंत में, “निरंतर पूर्व-प्रशिक्षण और लंबे संदर्भ मिलान” इसे उन परिदृश्यों के लिए विशेष रूप से उपयोगी बनाते हैं जहां मॉडल को नए डेटा पर लगातार प्रशिक्षित करने की आवश्यकता होती है। यह अंतिम भाग बेहद दिलचस्प है क्योंकि यह इसे Google के खोज सिस्टम के पिछले छोर पर मौजूद अनुप्रयोगों के लिए उपयोगी बना सकता है, खासकर जब जानकारी के लंबे अनुक्रमों को पार्स करने और शुरुआत के करीब एक हिस्से से प्रासंगिकता को समझने में सक्षम होने की आवश्यकता होती है अनुक्रम और दूसरा भाग अंत के करीब।
अन्य लेखों में “अनंत लंबे इनपुट” पर ध्यान केंद्रित किया गया है जो यह मॉडल सक्षम है, लेकिन जहां यह एसईओ के लिए प्रासंगिक है वह यह है कि बड़े पैमाने पर इनपुट को संभालने और “कोई संदर्भ पीछे नहीं छोड़ने” की क्षमता खोज विपणन के लिए कैसे प्रासंगिक है और Google के कुछ कैसे यदि Google इनफिनी-अटेंशन को अपने मूल एल्गोरिदम में अनुकूलित कर ले तो सिस्टम काम कर सकता है।
शोध पत्र पढ़ें:
बाकी पीछे का संदर्भ नहीं है: अनंत ध्यान के साथ कुशल अनंत ट्रांसफार्मर
शटरस्टॉक/जेएचवीईफोटो द्वारा प्रदर्शित छवि
Your post is an indispensable resource on this subject, thanks!
Your analysis is both thorough and thought-provoking, great job.
Precision in your work is akin to optimizing a sales funnel for unparalleled success.
Simply desire to say your article is as surprising The clearness in your post is simply excellent and i could assume you are an expert on this subject Fine with your permission let me to grab your feed to keep up to date with forthcoming post Thanks a million and please carry on the gratifying work