बुधवार, फ़रवरी 21, 2024

Top 5 This Week

spot_img

Related Posts

Google जेमिनी ने चैट डेटा “लीक” क्यों किया?


Google की जेमिनी घोषणा के चौबीस घंटे बाद तक किसी ने ध्यान नहीं दिया कि चैट Google खोज परिणामों में सार्वजनिक रूप से प्रदर्शित की जा रही थीं। Google ने लीक प्रतीत होने वाली चीज़ पर तुरंत प्रतिक्रिया दी। ऐसा क्यों हुआ इसका कारण काफी आश्चर्यजनक है और उतना भयावह नहीं है जितना पहली नज़र में लगता है।

@शमियाधिकरथ ट्विटर पर ट्वीट करें:

“@Google जेमिनी के लॉन्च के कुछ घंटों बाद, बिंग जैसे खोज इंजन ने जेमिनी की सार्वजनिक बातचीत को अनुक्रमित किया।”

उन्होंने Gemini.google.com/share/ पर खोज का एक स्क्रीनशॉट पोस्ट किया

लेकिन अगर आप स्क्रीनशॉट देखेंगे, तो आप देखेंगे कि वहां एक संदेश है जिसमें लिखा है, “हम आपको यहां एक विवरण दिखाना चाहते हैं लेकिन साइट हमें ऐसा नहीं करने देगी।”

मंगलवार 13 फरवरी को सुबह-सुबह, Google मिथुन चैट Google खोज परिणामों से गायब होने लगीं, Google केवल तीन खोज परिणाम दिखा रहा था। दोपहर तक, खोज परिणामों में दिखाई देने वाली लीक हुई जुड़वाँ चैट की संख्या घटकर केवल एक खोज परिणाम रह गई थी।

Google जेमिनी चैट उपडोमेन से अनुक्रमित पृष्ठों के लिए Google खोज परिणामों का स्क्रीनशॉटGoogle जेमिनी चैट उपडोमेन से अनुक्रमित पृष्ठों के लिए Google खोज परिणामों का स्क्रीनशॉट

जेमिनी चैट पेज कैसे बनाए गए?

जेमिनी निजी चैट के सार्वजनिक रूप से देखने योग्य संस्करण से लिंक करने का एक तरीका प्रदान करता है।

Google निजी चैट से स्वचालित रूप से वेब पेज नहीं बनाता है। उपयोगकर्ता प्रत्येक चैट के नीचे एक लिंक का उपयोग करके चैट पेज बनाते हैं।

साझा चैट पेज कैसे बनाएं इसका स्क्रीनशॉट

Google जेमिनी निजी चैट सार्वजनिक वेब पेज कैसे बनाएं इसका स्क्रीनशॉटGoogle जेमिनी निजी चैट सार्वजनिक वेब पेज कैसे बनाएं इसका स्क्रीनशॉट

जेमिनी चैट पेजों को सूचकांक में क्यों जोड़ा गया?

चैट पेजों को क्रॉल और अनुक्रमित किए जाने का स्पष्ट कारण यह है कि Google जेमिनी उपडोमेन (gemini.google.com) के रूट में robots.txt फ़ाइल डालना भूल गया था।

robots.txt फ़ाइल वेबसाइटों पर क्रॉलर गतिविधि को नियंत्रित करने के लिए एक दस्तावेज़ है। एक वेबसाइट मालिक रोबोट्स.txt प्रोटोकॉल में संशोधित कमांड का उपयोग करके विशिष्ट क्रॉलर को ब्लॉक कर सकता है।

मैंने 13 फरवरी को सुबह 4:19 बजे robots.txt की जाँच की और देखा कि यह अस्तित्व में है:

Google जेमिनी robots.txt फ़ाइलGoogle जेमिनी robots.txt फ़ाइल

फिर मैंने यह देखने के लिए इंटरनेट आर्काइव की जाँच की कि robots.txt फ़ाइल कितने समय से मौजूद थी और पाया कि यह कम से कम 8 फरवरी से वहाँ मौजूद थी, जिस दिन जेमिनी ऐप्स की घोषणा की गई थी।

Google जेमिनी रोबोट का स्क्रीनशॉट।  इंटरनेट आर्काइव से txt दिखा रहा है कि यह 8 फरवरी, 2024 को था।Google जेमिनी रोबोट का स्क्रीनशॉट।  इंटरनेट आर्काइव से txt दिखा रहा है कि यह 8 फरवरी, 2024 को था।

इसका मतलब यह है कि चैट पेजों को स्कैन करने का स्पष्ट कारण सही कारण नहीं है, यह सिर्फ सबसे स्पष्ट कारण है।

हालाँकि Google जेमिनी उपडोमेन में robots.txt बिंग और Google दोनों के वेब क्रॉलर को अवरुद्ध कर रहा था, फिर भी उन्होंने इन पेजों को क्रॉल और अनुक्रमित कैसे किया?

निजी चैट पेजों को दो तरह से खोजा और अनुक्रमित किया गया

  • कहीं कोई सार्वजनिक लिंक हो सकता है.
  • इसकी संभावना कम है लेकिन शायद यह संभव है कि उन्हें कुकीज़ से जुड़े ब्राउज़िंग इतिहास के माध्यम से खोजा गया था।

सार्वजनिक लिंक होने की अधिक संभावना है. लेकिन अगर कोई सार्वजनिक लिंक है तो Google ने चैट पेजों को पूरी तरह से रद्द करना क्यों शुरू कर दिया? क्या Google ने खोज क्रॉलर के लिए /share/ फ़ोल्डर से वेब पेजों को खोज अनुक्रमणिका से बाहर करने के लिए एक आंतरिक नियम बनाया है, भले ही वे सार्वजनिक रूप से लिंक किए गए हों?

बिंग और Google खोज सामग्री को कैसे अनुक्रमित करते हैं, इसकी अंतर्दृष्टि

अब यहां Google और बिंग सामग्री को कैसे अनुक्रमित करते हैं, इसमें रुचि रखने वाले सभी खोज गीक्स के लिए वास्तव में दिलचस्प हिस्सा है।

माइक्रोसॉफ्ट के बिंग सर्च इंडेक्स ने Google सर्च की तुलना में जुड़वां सामग्री पर अलग तरह से प्रतिक्रिया दी। जबकि Google ने 13 फरवरी की सुबह में अभी भी तीन खोज परिणाम दिखाए, बिंग ने उपडोमेन से केवल एक परिणाम दिखाया। क्या अनुक्रमित किया गया था और कितना, इसमें एक यादृच्छिक गुणवत्ता थी।

जेमिनी चैट पेज क्यों लीक हुए?

यहां ज्ञात तथ्य हैं: Google के पास 8 फरवरी से एक robots.txt फ़ाइल है। Google और Bing दोनों ने Gemini.google.com उपडोमेन को अनुक्रमित किया। Google ने robots.txt की परवाह किए बिना सामग्री को अनुक्रमित किया और फिर उन्हें त्यागना शुरू कर दिया।

  • क्या Google उपडोमेन पर सामग्री को अनुक्रमित करने के लिए Googlebot के पास अलग-अलग निर्देश हैं?
  • क्या Googlebot नियमित रूप से robots.txt द्वारा अवरुद्ध सामग्री को क्रॉल और जोड़ता है और फिर उसे जारी करता है?
  • क्या लीक हुआ डेटा बॉट्स द्वारा क्रॉल करने योग्य साइट से लिंक किया गया था, जिसके कारण अवरुद्ध सामग्री को क्रॉल किया गया और जोड़ा गया?

robots.txt द्वारा अवरुद्ध सामग्री को अभी भी खोजा, क्रॉल और अनुक्रमित किया जा सकता है और SERPs में या कम से कम साइट: खोज के माध्यम से रैंक किया जा सकता है। मुझे लगता है कि ऐसा हो सकता है.

लेकिन अगर ऐसा है, तो खोज परिणाम क्यों गिरने लगे?

यदि क्रॉलिंग और इंडेक्सिंग का कारण यह था कि ये निजी चैट कहीं से लिंक की गई थीं, तो क्या लिंक का स्रोत हटा दिया गया है?

बड़ा सवाल यह है कि वे लिंक कहां हैं? क्या यह QA टिप्पणियों से संबंधित हो सकता है जो अनजाने में इंटरनेट पर लीक हो गईं?



ibnkamal
ibnkamalhttps://iseotools.me
Wasim Ibn Kamal | founder of iseotools.me, newslike.site and healtinfo.space | A developer and UI/UX designer. Cluster-notes.blogspot.com and tsbdu.blogspot.com are two of my blogs.

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें

Popular Articles