Google की जेमिनी घोषणा के चौबीस घंटे बाद तक किसी ने ध्यान नहीं दिया कि चैट Google खोज परिणामों में सार्वजनिक रूप से प्रदर्शित की जा रही थीं। Google ने लीक प्रतीत होने वाली चीज़ पर तुरंत प्रतिक्रिया दी। ऐसा क्यों हुआ इसका कारण काफी आश्चर्यजनक है और उतना भयावह नहीं है जितना पहली नज़र में लगता है।
@शमियाधिकरथ ट्विटर पर ट्वीट करें:
“@Google जेमिनी के लॉन्च के कुछ घंटों बाद, बिंग जैसे खोज इंजन ने जेमिनी की सार्वजनिक बातचीत को अनुक्रमित किया।”
उन्होंने Gemini.google.com/share/ पर खोज का एक स्क्रीनशॉट पोस्ट किया
लेकिन अगर आप स्क्रीनशॉट देखेंगे, तो आप देखेंगे कि वहां एक संदेश है जिसमें लिखा है, “हम आपको यहां एक विवरण दिखाना चाहते हैं लेकिन साइट हमें ऐसा नहीं करने देगी।”
मंगलवार 13 फरवरी को सुबह-सुबह, Google मिथुन चैट Google खोज परिणामों से गायब होने लगीं, Google केवल तीन खोज परिणाम दिखा रहा था। दोपहर तक, खोज परिणामों में दिखाई देने वाली लीक हुई जुड़वाँ चैट की संख्या घटकर केवल एक खोज परिणाम रह गई थी।
जेमिनी चैट पेज कैसे बनाए गए?
जेमिनी निजी चैट के सार्वजनिक रूप से देखने योग्य संस्करण से लिंक करने का एक तरीका प्रदान करता है।
Google निजी चैट से स्वचालित रूप से वेब पेज नहीं बनाता है। उपयोगकर्ता प्रत्येक चैट के नीचे एक लिंक का उपयोग करके चैट पेज बनाते हैं।
साझा चैट पेज कैसे बनाएं इसका स्क्रीनशॉट
जेमिनी चैट पेजों को सूचकांक में क्यों जोड़ा गया?
चैट पेजों को क्रॉल और अनुक्रमित किए जाने का स्पष्ट कारण यह है कि Google जेमिनी उपडोमेन (gemini.google.com) के रूट में robots.txt फ़ाइल डालना भूल गया था।
robots.txt फ़ाइल वेबसाइटों पर क्रॉलर गतिविधि को नियंत्रित करने के लिए एक दस्तावेज़ है। एक वेबसाइट मालिक रोबोट्स.txt प्रोटोकॉल में संशोधित कमांड का उपयोग करके विशिष्ट क्रॉलर को ब्लॉक कर सकता है।
मैंने 13 फरवरी को सुबह 4:19 बजे robots.txt की जाँच की और देखा कि यह अस्तित्व में है:
फिर मैंने यह देखने के लिए इंटरनेट आर्काइव की जाँच की कि robots.txt फ़ाइल कितने समय से मौजूद थी और पाया कि यह कम से कम 8 फरवरी से वहाँ मौजूद थी, जिस दिन जेमिनी ऐप्स की घोषणा की गई थी।
इसका मतलब यह है कि चैट पेजों को स्कैन करने का स्पष्ट कारण सही कारण नहीं है, यह सिर्फ सबसे स्पष्ट कारण है।
हालाँकि Google जेमिनी उपडोमेन में robots.txt बिंग और Google दोनों के वेब क्रॉलर को अवरुद्ध कर रहा था, फिर भी उन्होंने इन पेजों को क्रॉल और अनुक्रमित कैसे किया?
निजी चैट पेजों को दो तरह से खोजा और अनुक्रमित किया गया
- कहीं कोई सार्वजनिक लिंक हो सकता है.
- इसकी संभावना कम है लेकिन शायद यह संभव है कि उन्हें कुकीज़ से जुड़े ब्राउज़िंग इतिहास के माध्यम से खोजा गया था।
सार्वजनिक लिंक होने की अधिक संभावना है. लेकिन अगर कोई सार्वजनिक लिंक है तो Google ने चैट पेजों को पूरी तरह से रद्द करना क्यों शुरू कर दिया? क्या Google ने खोज क्रॉलर के लिए /share/ फ़ोल्डर से वेब पेजों को खोज अनुक्रमणिका से बाहर करने के लिए एक आंतरिक नियम बनाया है, भले ही वे सार्वजनिक रूप से लिंक किए गए हों?
बिंग और Google खोज सामग्री को कैसे अनुक्रमित करते हैं, इसकी अंतर्दृष्टि
अब यहां Google और बिंग सामग्री को कैसे अनुक्रमित करते हैं, इसमें रुचि रखने वाले सभी खोज गीक्स के लिए वास्तव में दिलचस्प हिस्सा है।
माइक्रोसॉफ्ट के बिंग सर्च इंडेक्स ने Google सर्च की तुलना में जुड़वां सामग्री पर अलग तरह से प्रतिक्रिया दी। जबकि Google ने 13 फरवरी की सुबह में अभी भी तीन खोज परिणाम दिखाए, बिंग ने उपडोमेन से केवल एक परिणाम दिखाया। क्या अनुक्रमित किया गया था और कितना, इसमें एक यादृच्छिक गुणवत्ता थी।
जेमिनी चैट पेज क्यों लीक हुए?
यहां ज्ञात तथ्य हैं: Google के पास 8 फरवरी से एक robots.txt फ़ाइल है। Google और Bing दोनों ने Gemini.google.com उपडोमेन को अनुक्रमित किया। Google ने robots.txt की परवाह किए बिना सामग्री को अनुक्रमित किया और फिर उन्हें त्यागना शुरू कर दिया।
- क्या Google उपडोमेन पर सामग्री को अनुक्रमित करने के लिए Googlebot के पास अलग-अलग निर्देश हैं?
- क्या Googlebot नियमित रूप से robots.txt द्वारा अवरुद्ध सामग्री को क्रॉल और जोड़ता है और फिर उसे जारी करता है?
- क्या लीक हुआ डेटा बॉट्स द्वारा क्रॉल करने योग्य साइट से लिंक किया गया था, जिसके कारण अवरुद्ध सामग्री को क्रॉल किया गया और जोड़ा गया?
robots.txt द्वारा अवरुद्ध सामग्री को अभी भी खोजा, क्रॉल और अनुक्रमित किया जा सकता है और SERPs में या कम से कम साइट: खोज के माध्यम से रैंक किया जा सकता है। मुझे लगता है कि ऐसा हो सकता है.
लेकिन अगर ऐसा है, तो खोज परिणाम क्यों गिरने लगे?
यदि क्रॉलिंग और इंडेक्सिंग का कारण यह था कि ये निजी चैट कहीं से लिंक की गई थीं, तो क्या लिंक का स्रोत हटा दिया गया है?
बड़ा सवाल यह है कि वे लिंक कहां हैं? क्या यह QA टिप्पणियों से संबंधित हो सकता है जो अनजाने में इंटरनेट पर लीक हो गईं?
Very interesting info!Perfect just what I was searching for!Expand blog