ब्रेव ने अपने नए गोपनीयता-केंद्रित एआई सर्च इंजन की घोषणा की, जिसे आंसर विद एआई कहा जाता है, जो अरबों वेबसाइटों के अपने स्वयं के खोज सूचकांक के साथ काम करता है। उनका वर्तमान खोज इंजन पहले से ही प्रति वर्ष 10 बिलियन खोज क्वेरी प्रदान करता है, जिसका अर्थ है कि ब्रेव का एआई-संचालित खोज इंजन अब वेब पर सबसे बड़े एआई खोज इंजनों में से एक है।
खोज विपणन और ईकॉमर्स समुदायों में कई लोगों ने एआई खोज इंजनों के कारण इंटरनेट के भविष्य के बारे में चिंता व्यक्त की है। ब्रेव का एआई खोज इंजन अभी भी लिंक दिखाता है और सबसे महत्वपूर्ण बात यह है कि यह एआई के साथ वाणिज्यिक या लेनदेन संबंधी प्रश्नों का उत्तर देने में चूक नहीं करता है, जो एसईओ और ऑनलाइन व्यवसायों के लिए अच्छी खबर होनी चाहिए। ब्रेव वेब पारिस्थितिकी तंत्र का मूल्यांकन करता है और साइट विज़िट पैटर्न को ट्रैक करेगा।
सर्च इंजन जर्नल ने ब्रेव में सर्च के प्रमुख जोसेप एम. पुजोल से बात की, जिन्होंने सर्च इंडेक्स के बारे में सवालों के जवाब दिए, यह एआई के साथ कैसे काम करता है और सबसे महत्वपूर्ण बात यह है कि उन्होंने रैंकिंग में सुधार के लिए एसईओ और व्यापार मालिकों को क्या जानने की जरूरत है, यह साझा किया।
ब्रेव द्वारा संचालित एआई के साथ उत्तर दें
अन्य एआई खोज समाधानों के विपरीत, ब्रेव का एआई खोज इंजन पूरी तरह से क्रॉल और रैंक की गई साइटों के अपने स्वयं के खोज सूचकांक द्वारा संचालित है। खोज सूचकांक से लेकर बड़े भाषा मॉडल (एलएलएम) और यहां तक कि रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) तकनीक तक सभी अंतर्निहित तकनीक, सभी ब्रेव द्वारा विकसित की गई थीं। यह गोपनीयता के दृष्टिकोण से विशेष रूप से अच्छा है और यह ब्रेव के खोज परिणामों को अद्वितीय बनाता है, और इसे अन्य मी-टू खोज इंजन विकल्पों से अलग करता है।
खोज प्रौद्योगिकी
खोज इंजन का सारा काम घर में ही किया जाता है। जोसेफ एम के अनुसार. पुजोल, ब्रेव में खोज प्रमुख:
“हमारे पास हमारे सभी अनुक्रमितों, 20 बिलियन से अधिक पृष्ठों तक क्वेरी-टाइम पहुंच है, जिसका अर्थ है कि हम वास्तविक समय (स्कीमा, टेबल, अनुभाग, विवरण इत्यादि) में मनमानी जानकारी खींचते हैं। हम यह भी विस्तार से बताते हैं कि कौन सा डेटा है किसी पृष्ठ पर पैराग्राफ या पूर्ण पाठ से लेकर तालिका में एकल वाक्य या पंक्तियों तक का उपयोग करना।
इस तथ्य को देखते हुए कि हमारे पास एक संपूर्ण खोज इंजन है, ध्यान पुनर्प्राप्ति पर नहीं, बल्कि चयन और रैंकिंग पर है। इसके अलावा, हमारी अनुक्रमणिका के पृष्ठों के लिए, हमें रैंकिंग के लिए उपयोग की जाने वाली समान जानकारी तक पहुंच प्राप्त होती है, जैसे स्कोर, लोकप्रियता, आदि। यह चुनने में सहायता के लिए आवश्यक है कि कौन से स्रोत अधिक प्रासंगिक हैं।”
पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी)
खोज इंजन जिस तरह से काम करता है वह यह है कि इसमें एक बड़ा खोज सूचकांक और भाषा मॉडल और बीच में रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) तकनीक होती है जो उत्तरों को ताज़ा और तथ्य-आधारित रखती है। मैंने आरएजी के बारे में पूछा और जोसेफ ने पुष्टि की कि यह इसी तरह काम करता है।
उसने उत्तर दिया:
“आप सही हैं कि हमारी नई सुविधा RAG का उपयोग करती है। वास्तव में, हमने मार्च 2023 में जारी अपने पिछले समराइज़र फीचर में पहले से ही इस तकनीक का उपयोग किया है। हालाँकि, इस नई सुविधा में, हम संदेश सामग्री में उपयोग किए जाने वाले डेटा की मात्रा और गुणवत्ता दोनों का विस्तार कर रहे हैं ।”
बड़े भाषा मॉडल का उपयोग किया जाता है
मैंने नए एआई खोज इंजन में उपयोग किए जा रहे भाषा मॉडल और उन्हें कैसे तैनात किया जाता है, इसके बारे में पूछा।
“मॉडल वीएलएलएम के साथ AWS p4 इंस्टेंसेस पर तैनात किए जाते हैं।
हम मुख्य एलएलएम मॉडल के रूप में मिक्सट्रल 8×7बी और मिस्ट्रल 7बी के संयोजन का उपयोग करते हैं।
हालाँकि, हम सिमेंटिक मिलान और प्रश्न उत्तर जैसे सहायक कार्यों के लिए बड़ी संख्या में कस्टम-प्रशिक्षित ट्रांसफार्मर मॉडल भी चलाते हैं। सख्त विलंबता आवश्यकताओं (10-20 मिलीसेकंड) के कारण ये मॉडल बहुत छोटे हैं।
ये सहायक कार्य हमारी सुविधा के लिए महत्वपूर्ण हैं, क्योंकि वे डेटा चयन कर रहे हैं जो अंततः अंतिम एलएलएम दिशानिर्देश में होगा; यह डेटा हमारे रिच स्निपेट्स से आने वाले टेक्स्ट स्निपेट, स्कीमा, सारणीबद्ध डेटा या क्वेरी-निर्भर आंतरिक संरचित डेटा हो सकता है। यह बहुत सारा डेटा पुनर्प्राप्त करने में सक्षम होने का मामला नहीं है, बल्कि त्वरित संदर्भ में जोड़े जाने वाले उम्मीदवारों को चुनने का मामला है।
उदाहरण के लिए, क्वेरी “पार्टी द्वारा फ्रांसीसी राष्ट्रपति” 220KB कच्चे डेटा को संसाधित करती है, जिसमें 47 तालिकाओं, 7 स्कीमा से चयनित 462 पंक्तियाँ शामिल हैं। संदेश का आकार लगभग 6500 टोकन है, और अंतिम प्रतिक्रिया केवल 876 बाइट्स है।
संक्षेप में, हम कह सकते हैं कि “एआई के साथ उत्तर” के साथ हम 20 अरब पृष्ठों से कुछ हजार टोकन तक बढ़ रहे हैं।
एआई स्थानीय खोज परिणामों के साथ कैसे काम करता है
फिर मैंने पूछा कि नया खोज इंजन स्थानीय खोज को कैसे प्रदर्शित करेगा। मैंने जोसेफ से पूछा कि क्या वह कुछ उदाहरण परिदृश्य और प्रश्न साझा कर सकता है जहां एआई उत्तर इंजन स्थानीय व्यवसायों को प्रदर्शित करेगा। उदाहरण के लिए, यदि मैं सैन फ्रांसिस्को में सर्वश्रेष्ठ बर्गर से पूछता हूं तो क्या एआई उत्तर इंजन उसका उत्तर देगा और उससे लिंक करेगा? क्या यह व्यवसाय या छुट्टियों के लिए यात्रा योजना बना रहे लोगों के लिए उपयोगी होगा?
जोसेफ ने उत्तर दिया:
“ब्रेव सर्च इंडेक्स में एक अरब से अधिक स्थान-आधारित स्कीमा हैं, जिनसे हम 100 मिलियन से अधिक व्यवसाय और रुचि के अन्य बिंदु निकाल सकते हैं।
एआई के साथ उत्तर खोज + एलएलएम + जानकारी को पुनः प्राप्त करने, रैंक करने, साफ़ करने, संयोजित करने और प्रस्तुत करने के लिए बड़ी संख्या में विशेष मशीन लर्निंग मॉडल और सेवाओं के लिए एक व्यापक शब्द है। हम इसका उल्लेख इसलिए कर रहे हैं क्योंकि एलएलएम सभी निर्णय नहीं लेते हैं। वर्तमान में, हम उनका उपयोग मुख्य रूप से असंरचित और संरचित जानकारी को संश्लेषित करने के लिए करते हैं, जो ऑफ़लाइन संचालन के साथ-साथ क्वेरी-टाइम संचालन में भी होता है।
कभी-कभी अंतिम परिणाम बहुत एलएलएम-प्रभावित लगता है (यह मामला है जब हम मानते हैं कि उपयोगकर्ता के प्रश्न का उत्तर रुचि का एक बिंदु है, उदाहरण के लिए “फ़ारो किचन में चेक-इन”), और अन्य समय में उनका काम अधिक सूक्ष्म होता है ( उदाहरण के लिए “सर्वश्रेष्ठ बर्गर एसएफ”), विभिन्न इंटरनेट संदर्भों में एक विवरण व्यवसाय बनाना या एक सुसंगत वर्गीकरण में व्यवसाय के लिए एक श्रेणी को एकीकृत करना।
अच्छी रैंकिंग के लिए टिप्स
फिर मैंने पूछा कि क्या Schema.org स्ट्रक्चर्ड डेटा का उपयोग साइट को ब्रेव पर बेहतर रैंक देने में मदद करने के लिए उपयोगी था और क्या उसके पास कोई अतिरिक्त एसईओ और ऑनलाइन बिजनेस टिप्स हैं।
उसने उत्तर दिया:
“निश्चित रूप से, एलएलएम के लिए मार्गदर्शन के संदर्भ का निर्माण करते समय हम schema.org के संरचित डेटा पर विशेष ध्यान देते हैं। उनके व्यवसाय के बारे में संरचित डेटा प्राप्त करना सबसे अच्छा है (schema.org से मानक स्कीमा)। ये स्कीमा जितनी अधिक व्यापक हैं , उत्तर अधिक सटीक हो।
हालाँकि, कृत्रिम बुद्धिमत्ता के साथ हमारा उत्तर व्यवसाय के बारे में डेटा को इन स्कीमाओं में प्रस्तुत करने में सक्षम नहीं होगा, लेकिन हमेशा विभिन्न प्रारूपों में जानकारी को दोहराने की सिफारिश की जाती है।
कुछ व्यवसाय अपनी व्यावसायिक जानकारी के लिए पूरी तरह से एग्रीगेटर्स (येल्प, ट्रिपएडवाइजर, येलो पेजेज) पर निर्भर रहते हैं। किसी व्यवसाय की वेबसाइट पर स्कीमा जोड़ने के लाभ हैं, भले ही केवल बॉट स्कैनिंग के लिए ही क्यों न हो।”
बहादुर ब्राउज़र में एआई खोज कार्यक्रम
ब्रेव ने साझा किया है कि निकट भविष्य में वे नई एआई खोज कार्यक्षमता को सीधे ब्रेव ब्राउज़र में एकीकृत करेंगे।
जोसेफ ने समझाया:
“हम बहुत जल्द एआई रिप्लाई इंजन को ब्रेव लियो (ब्रेव ब्राउजर में एम्बेडेड एआई असिस्टेंट) के साथ एकीकृत करने की योजना बना रहे हैं। उपयोगकर्ताओं के पास लियो को जवाब भेजने और वहां मीटिंग जारी रखने का विकल्प होगा।”
अन्य तथ्य
ब्रेव की घोषणा में नए खोज इंजन के बारे में ये तथ्य भी साझा किए गए:
“ब्रेव सर्च के जेनेरिक उत्तर केवल पाठ नहीं हैं। सूचकांक और मॉडल के बीच गहरा एकीकरण हमें उत्तर के रूप में ऑनलाइन, प्रासंगिक और नामकरण संस्थाओं (एक प्रक्रिया जो किसी व्यक्ति, स्थान या चीज़ के लिए अधिक संदर्भ जोड़ता है) के संवर्धन को संयोजित करने की अनुमति देता है। उत्पन्न होता है। इसका मतलब यह है कि उत्तर सूचना कार्ड और फ़ोटो सहित अन्य मीडिया प्रकारों के साथ जेनरेटिव टेक्स्ट को जोड़ते हैं।
ब्रेव सर्च का उत्तर इंजन रुचि के बिंदुओं के बारे में समृद्ध जानकारी प्रदान करने के लिए सूचकांक और स्थानीय भौगोलिक परिणामों के डेटा को भी जोड़ सकता है। आज तक, ब्रेव सर्च इंडेक्स में एक अरब से अधिक स्थान-आधारित स्कीमा हैं, जिनसे हम 100 मिलियन से अधिक व्यवसाय और रुचि के अन्य बिंदु निकाल सकते हैं। ये रिकॉर्ड-किसी भी सार्वजनिक डेटासेट से बड़े-इसका मतलब है कि उत्तर इंजन दुनिया भर में रुचि के बिंदुओं के लिए समृद्ध, तत्काल परिणाम प्रदान कर सकता है।”
नई AI खोज का प्रयास करें http://search.brave.com/