What is a robots.txt file?

Robots.txt एक पाठ फ़ाइल वेबमास्टर है जो वेब रोबोट (आमतौर पर खोज इंजन रोबोट) को निर्देश देता है कि वे अपनी वेबसाइट पर पृष्ठों को कैसे क्रॉल करें। Robots.txt फ़ाइल रोबोट अपवर्जन प्रोटोकॉल (REP) का एक हिस्सा है, जो वेब मानकों का एक समूह है जो यह नियंत्रित करता है कि कैसे रोबोट वेब, एक्सेस और इंडेक्स सामग्री को क्रॉल करते हैं, और उपयोगकर्ताओं तक उस सामग्री की सेवा करते हैं। REP में मेटा रोबोट के साथ-साथ पेज-, सबडायरेक्ट- या साइट-वाइड निर्देश भी शामिल होते हैं कि कैसे खोज इंजनों को लिंक (जैसे “फॉलो” या “नॉफ़ॉलो”) का इलाज करना चाहिए।

व्यवहार में, robots.txt फाइलें संकेत करती हैं कि कुछ उपयोगकर्ता एजेंट (वेब-क्रॉलिंग सॉफ़्टवेयर) किसी वेबसाइट के कुछ हिस्सों को क्रॉल कर सकते हैं या नहीं कर सकते हैं। ये क्रॉल निर्देश “कुछ” (या सभी) उपयोगकर्ता एजेंटों के व्यवहार को “अस्वीकार” या “अनुमति” द्वारा निर्दिष्ट किए गए हैं।

मूल प्रारूप:

उपयोगकर्ता-एजेंट: [उपयोगकर्ता-एजेंट का नाम] अस्वीकार करें: [URL स्ट्रिंग क्रॉल नहीं किया जाना चाहिए]

एक साथ, इन दो पंक्तियों को एक पूर्ण robots.txt फ़ाइल माना जाता है – हालांकि एक रोबोट फ़ाइल में उपयोगकर्ता एजेंटों और निर्देशों की कई पंक्तियाँ हो सकती हैं (यानी, अनुमति, क्रॉल-देरी, आदि)।

Robots.txt फ़ाइल के भीतर, उपयोगकर्ता-एजेंट के निर्देशों का प्रत्येक सेट एक असतत सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:

Robot.txt

उपयोगकर्ता-एजेंट निर्देश पंक्ति विराम द्वारा निर्दिष्ट।
कई उपयोगकर्ता-एजेंट निर्देशों के साथ एक robots.txt फ़ाइल में, प्रत्येक नियम या नियम केवल उस विशेष लाइन ब्रेक-अलग सेट में निर्दिष्ट उपयोगकर्ता एजेंट (ओं) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक उपयोगकर्ता-एजेंट पर लागू होता है, तो एक क्रॉलर निर्देशों के सबसे विशिष्ट समूह पर केवल (और निर्देशों का पालन करेगा) पर ध्यान देगा।

यहाँ एक उदाहरण है:

Robot.txt

Msnbot, discobot, और Slurp सभी को विशेष रूप से बुलाया जाता है, इसलिए वे उपयोगकर्ता-एजेंट केवल robots.txt फ़ाइल के अपने अनुभागों में निर्देशों पर ध्यान देंगे। अन्य सभी उपयोगकर्ता-एजेंट उपयोगकर्ता-एजेंट: * समूह में निर्देशों का पालन करेंगे।

Example robots.txt:

Www.example.com साइट के लिए कार्रवाई में robots.txt के कुछ उदाहरण दिए गए हैं:

Robots.txt फ़ाइल URL: www.example.com/robots.txt
सभी सामग्री से सभी वेब क्रॉलर को अवरुद्ध करना
उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /
Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना सभी वेब क्रॉलरों को बताएगा कि मुखपृष्ठ सहित www.example.com पर किसी भी पेज को क्रॉल न करें।

सभी वेब क्रॉलरों को सभी सामग्री तक पहुंच प्रदान करना
उपयोगकर्ता-एजेंट: * अस्वीकृत करें:
Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना वेब क्रॉलर को www.example.com पर सभी पेजों को क्रॉल करने के लिए कहता है, जिसमें होमपेज भी शामिल है।

एक विशिष्ट फ़ोल्डर से एक विशिष्ट वेब क्रॉलर को अवरुद्ध करना
उपयोगकर्ता-एजेंट: Googlebot अस्वीकार: / उदाहरण-सबफ़ोल्डर /
यह सिंटैक्स केवल Google के क्रॉलर (उपयोगकर्ता-एजेंट का नाम Googlebot) को किसी ऐसे पृष्ठ को क्रॉल नहीं करने के लिए कहता है जिसमें URL स्ट्रिंग www.example.com/example-subfol … एक विशिष्ट वेब पेज से एक विशिष्ट वेब क्रॉलर है

उपयोगकर्ता-एजेंट: BingbotDisallow: /example-subfolder/blocked-page.html
यह सिंटैक्स केवल बिंग के क्रॉलर (उपयोगकर्ता-एजेंट का नाम बिंग) को www.example.com/example-subfol … पर विशिष्ट पृष्ठ क्रॉल करने से बचने के लिए कहता है।

खोज इंजन के दो मुख्य कार्य हैं:

सामग्री खोजने के लिए वेब क्रॉल करना;
उस सामग्री को अनुक्रमित करना ताकि यह उन खोजकर्ताओं तक पहुंचाया जा सके जो जानकारी की तलाश में हैं।
साइटों को क्रॉल करने के लिए, खोज इंजन एक साइट से दूसरी साइट पर जाने के लिए लिंक का अनुसरण करते हैं – अंततः, कई अरब लिंक और वेबसाइटों के बीच क्रॉल करते हैं। इस रेंगने वाले व्यवहार को कभी-कभी “स्पाइडरिंग” के रूप में जाना जाता है।

एक वेबसाइट पर पहुंचने के बाद लेकिन इसे देखने से पहले, खोज क्रॉलर एक robots.txt फ़ाइल की तलाश करेगा। यदि यह एक मिल जाता है, तो क्रॉलर पृष्ठ के माध्यम से जारी रखने से पहले पहले उस फ़ाइल को पढ़ेगा। क्योंकि robots.txt फ़ाइल में इस बारे में जानकारी होती है कि खोज इंजन को कैसे क्रॉल करना चाहिए, तो वहां मिली जानकारी इस विशेष साइट पर क्रॉलर कार्रवाई का निर्देश देगी। यदि robots.txt फ़ाइल में कोई निर्देश नहीं है जो उपयोगकर्ता-एजेंट की गतिविधि को बाधित करता है (या यदि साइट में robots.txt फ़ाइल नहीं है), तो यह साइट पर अन्य जानकारी को क्रॉल करने के लिए आगे बढ़ेगा।

Other quick robots.txt must-knows:

(नीचे अधिक विस्तार से चर्चा की गई)

पाया जा सकता है, एक robots.txt फ़ाइल को वेबसाइट के शीर्ष-स्तरीय निर्देशिका में रखा जाना चाहिए।
Robots.txt केस सेंसिटिव है: फ़ाइल का नाम “robots.txt” होना चाहिए (Robots.txt नहीं, robots.TXT, या अन्यथा)।
कुछ उपयोगकर्ता एजेंट (रोबोट) आपकी robots.txt फ़ाइल को अनदेखा करना चुन सकते हैं। यह विशेष रूप से अधिक सामान्य क्रॉलर जैसे मैलवेयर रोबोट या ईमेल एड्रेस स्क्रैपर्स के साथ आम है।
/Robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध है: बस उस वेबसाइट के निर्देशों (यदि उस साइट में एक robots.txt फ़ाइल है!) देखने के लिए किसी भी रूट डोमेन के अंत में /robots.txt जोड़ें। इसका अर्थ है कि कोई भी यह देख सकता है कि आप कौन से पृष्ठ करते हैं या क्रॉल नहीं करना चाहते हैं, इसलिए निजी उपयोगकर्ता जानकारी छिपाने के लिए उनका उपयोग न करें।
रूट डोमेन का प्रत्येक उप डोमेन अलग-अलग robots.txt फ़ाइलों का उपयोग करता है। इसका मतलब यह है कि blog.example.com और example.com दोनों के पास अपनी robots.txt फाइलें (blog.example.com/robots.txt पर और example.com/robots.txt पर) होनी चाहिए।
यह आमतौर पर एक सबसे अच्छा अभ्यास है, जो इस डोमेन से जुड़े किसी भी साइटमैप के स्थान को रोबोट्सटेक्स्ट फ़ाइल के निचले भाग में दर्शाता है।

Technical robots.txt syntax

Robots.txt सिंटेक्स को robots.txt फ़ाइलों की “भाषा” माना जा सकता है। रोबोट फ़ाइल में आपके आने की पाँच सामान्य शर्तें हैं। उनमे शामिल है:

उपयोगकर्ता-एजेंट: वह विशिष्ट वेब क्रॉलर जिसे आप क्रॉल निर्देश (आमतौर पर एक खोज इंजन) दे रहे हैं। अधिकांश उपयोगकर्ता एजेंटों की एक सूची यहां पाई जा सकती है।

किसी विशेष URL को क्रॉल नहीं करने के लिए एक उपयोगकर्ता-एजेंट को बताने के लिए उपयोग किए जाने वाले आदेश को अस्वीकार करें। प्रत्येक URL के लिए केवल एक “अस्वीकृत:” लाइन की अनुमति है।

अनुमति दें (केवल Googlebot के लिए लागू): Googlebot को यह बताने का आदेश कि वह किसी पृष्ठ या सबफ़ोल्डर तक पहुँच सकता है, भले ही उसका मूल पृष्ठ या सबफ़ोल्डर अस्वीकृत हो सकता है।

क्रॉल-देरी: पृष्ठ सामग्री लोड करने और क्रॉल करने से पहले कितने सेकंड तक क्रॉलर को इंतजार करना चाहिए। ध्यान दें कि Googlebot इस आदेश को स्वीकार नहीं करता है, लेकिन क्रॉल दर Google खोज कंसोल में सेट की जा सकती है।

साइटमैप: इस URL से संबद्ध किसी भी XML साइटमैप (s) के स्थान को कॉल करने के लिए उपयोग किया जाता है। ध्यान दें कि यह कमांड केवल Google, आस्क, बिंग और याहू द्वारा समर्थित है।

Pattern-matching

जब ब्लॉक या अनुमति देने के लिए वास्तविक URL की बात आती है, तो robots.txt फाइलें काफी जटिल हो सकती हैं क्योंकि वे संभव URL विकल्पों की एक श्रृंखला को कवर करने के लिए पैटर्न-मिलान के उपयोग की अनुमति देते हैं। Google और बिंग दोनों दो नियमित अभिव्यक्तियों का सम्मान करते हैं जिनका उपयोग उन पृष्ठों या सबफ़ोल्डरों की पहचान करने के लिए किया जा सकता है जिन्हें एक एसईओ बाहर करना चाहता है। ये दो वर्ण तारांकन (*) और डॉलर चिह्न ($) हैं।

  • * एक वाइल्डकार्ड है जो वर्णों के किसी भी अनुक्रम का प्रतिनिधित्व करता है
    $ URL के अंत से मेल खाता है

    Google यहां संभावित पैटर्न-मिलान वाक्यविन्यास और उदाहरणों की एक महान सूची प्रदान करता है।

Where does robots.txt go on a site?

जब भी वे किसी साइट पर आते हैं, तो खोज इंजन और अन्य वेब-क्रॉलिंग रोबोट (जैसे फेसबुक के क्रॉलर, फेसबुक) के लिए एक robots.txt फ़ाइल की तलाश करना जानते हैं। लेकिन, वे केवल उस फ़ाइल को एक विशिष्ट स्थान पर खोजते हैं: मुख्य निर्देशिका (आमतौर पर आपका मूल डोमेन या होमपेज)। यदि कोई उपयोगकर्ता एजेंट www.example.com/robots.txt पर जाता है और वहां एक रोबोट फ़ाइल नहीं मिलती है, तो यह मान लेगा कि साइट में एक नहीं है और पृष्ठ पर (और शायद पूरी साइट पर भी) रेंगने के साथ आगे बढ़ें। भले ही robots.txt पृष्ठ मौजूद था, कहते हैं, example.com/index/robots.txt या www.example.com/homepage/robots.txt, यह उपयोगकर्ता एजेंटों द्वारा खोजा नहीं जाएगा और इस प्रकार साइट का इलाज किया जाएगा जैसे कि इसमें कोई रोबोट फ़ाइल नहीं थी।

यह सुनिश्चित करने के लिए कि आपके robots.txt फ़ाइल मिल गई है, इसे हमेशा अपने मुख्य निर्देशिका या रूट डोमेन में शामिल करें।

Why do you need robots.txt?

Robots.txt फाइलें आपकी साइट के कुछ क्षेत्रों में क्रॉलर पहुंच को नियंत्रित करती हैं। जबकि यह बहुत खतरनाक हो सकता है यदि आप गलती से Googlebot को अपनी पूरी साइट (!) को क्रॉल करने से रोक देते हैं, तो कुछ स्थितियाँ हैं जिनमें robots.txt फ़ाइल बहुत काम की हो सकती है।

कुछ सामान्य उपयोग के मामलों में शामिल हैं:

SERPs में दिखने वाली डुप्लिकेट सामग्री को रोकना (ध्यान दें कि मेटा रोबोट अक्सर इसके लिए बेहतर विकल्प होते हैं)
किसी वेबसाइट के संपूर्ण खंडों को निजी रखना (उदाहरण के लिए, आपकी इंजीनियरिंग टीम का मंचन)
आंतरिक खोज परिणाम पृष्ठों को सार्वजनिक SERP पर दिखाने से रोकना
साइटमैप का स्थान निर्दिष्ट करना
खोज इंजन को आपकी वेबसाइट पर कुछ फ़ाइलों को अनुक्रमित करने से रोकना (चित्र, PDF, आदि)
क्रॉलर्स को एक बार में सामग्री के कई टुकड़ों को लोड करने पर अपने सर्वर को ओवरलोड होने से रोकने के लिए क्रॉल विलंब निर्दिष्ट करना
यदि आपकी साइट पर कोई ऐसा क्षेत्र नहीं है जिस पर आप उपयोगकर्ता-एजेंट पहुँच को नियंत्रित करना चाहते हैं, तो आपको किसी भी robots.txt फ़ाइल की आवश्यकता नहीं हो सकती है।

Checking if you have a robots.txt file

यकीन नहीं होता कि आपके पास robots.txt फाइल है? बस अपने रूट डोमेन में टाइप करें, फिर URL के अंत में /robots.txt जोड़ें। उदाहरण के लिए, मोज़ेज़ की रोबोट फ़ाइल moz.com/robots.txt पर स्थित है।

यदि कोई .txt पृष्ठ नहीं दिखता है, तो आपके पास वर्तमान में एक (लाइव) robots.txt पृष्ठ नहीं है।

How to create a robots.txt file

यदि आपने पाया है कि आपके पास एक robots.txt फ़ाइल नहीं है या आप उसे बदलना चाहते हैं, तो एक बनाना एक सरल प्रक्रिया है। Google का यह लेख robots.txt फ़ाइल निर्माण प्रक्रिया से चलता है, और यह उपकरण आपको यह जांचने की अनुमति देता है कि आपकी फ़ाइल सही तरीके से सेट है या नहीं।

रोबोट फ़ाइलों को बनाने वाले कुछ अभ्यास की तलाश है? यह ब्लॉग पोस्ट कुछ इंटरैक्टिव उदाहरणों के माध्यम से चलता है।

SEO best practices

सुनिश्चित करें कि आप अपनी वेबसाइट की किसी भी सामग्री या अनुभाग को क्रॉल नहीं करना चाहते हैं।

Robots.txt द्वारा अवरुद्ध पृष्ठों पर लिंक का पालन नहीं किया जाएगा। इसका अर्थ है कि 1.) जब तक वे अन्य खोज इंजन-सुलभ पृष्ठों (जैसे कि robots.txt, मेटा रोबोट, या अन्यथा) के माध्यम से अवरुद्ध नहीं होते हैं, से लिंक किए गए लिंक को क्रॉल नहीं किया जाएगा और उन्हें अनुक्रमित नहीं किया जा सकता है। 2.) अवरुद्ध लिंक से लिंक गंतव्य तक कोई लिंक इक्विटी पारित नहीं किया जा सकता है। यदि आपके पास ऐसे पृष्ठ हैं जिन पर आप इक्विटी पास करना चाहते हैं, तो robots.txt के अलावा किसी अन्य अवरोधक तंत्र का उपयोग करें।

SERP परिणामों में संवेदनशील डेटा (जैसे निजी उपयोगकर्ता जानकारी) को रोकने के लिए robots.txt का उपयोग न करें। क्योंकि अन्य पृष्ठ सीधे निजी जानकारी वाले पृष्ठ से जुड़ सकते हैं (इस प्रकार आपके रूट डोमेन या होमपेज पर robots.txt निर्देशों को दरकिनार करते हुए), यह अभी भी अनुक्रमित हो सकता है। यदि आप अपने पृष्ठ को खोज परिणामों से अवरुद्ध करना चाहते हैं, तो पासवर्ड सुरक्षा या नोइंडेक्स मेटा निर्देश जैसे किसी अन्य विधि का उपयोग करें।

कुछ खोज इंजनों में कई उपयोगकर्ता-एजेंट होते हैं। उदाहरण के लिए, Google कार्बनिक खोज के लिए Googlebot और छवि खोज के लिए Googlebot- छवि का उपयोग करता है। एक ही खोज इंजन के अधिकांश उपयोगकर्ता एजेंट समान नियमों का पालन करते हैं, इसलिए प्रत्येक खोज इंजन के कई क्रॉलरों के लिए निर्देशों को निर्दिष्ट करने की आवश्यकता नहीं है, लेकिन ऐसा करने की क्षमता होने से आप अपनी साइट की सामग्री के क्रॉल होने की ठीक-ठीक अनुमति दे सकते हैं।

एक खोज इंजन robots.txt सामग्री को कैश करेगा लेकिन आमतौर पर कैश्ड सामग्री को दिन में कम से कम एक बार अपडेट करता है। यदि आप फ़ाइल बदलते हैं और इसे और अधिक तेज़ी से अपडेट करना चाहते हैं, तो आप अपने robots.txt URL को Google में सबमिट कर सकते हैं।

Robots.txt vs meta robots vs x-robots

इतने सारे रोबोट! इन तीन प्रकार के रोबोट निर्देशों के बीच क्या अंतर है? सबसे पहले, robots.txt एक वास्तविक पाठ फ़ाइल है, जबकि मेटा और एक्स-रोबोट मेटा निर्देश हैं। परे वे वास्तव में क्या हैं, तीनों अलग-अलग कार्य करते हैं। Robots.txt साइट या डायरेक्टरी-वाइड क्रॉल व्यवहार को निर्देशित करता है, जबकि मेटा और एक्स-रोबोट व्यक्तिगत पृष्ठ (या पृष्ठ तत्व) स्तर पर इंडेक्सेशन व्यवहार को निर्देशित कर सकते हैं।

Categories: SEO

Leave a Reply

Your email address will not be published. Required fields are marked *