أوامر robots TXT. كيفية تحرير ملف robots.txt. لماذا تحتاج إلى فحص

ملف robots.txt- هذا ملف نصي موجود في جذر الموقع - http://site.ru/robots.txt. والغرض الرئيسي منه هو وضع توجيهات معينة لمحركات البحث - ماذا ومتى تفعل على الموقع.

أبسط ملف robots.txt

يبدو أبسط ملف robots.txt ، والذي يسمح لجميع محركات البحث بفهرسة كل شيء ، كما يلي:

وكيل المستخدم : *
عدم السماح :

إذا كان الأمر Disallow لا يحتوي على شرطة مائلة في نهايته ، فيُسمح حينئذٍ بفهرسة جميع الصفحات.

يحظر هذا التوجيه تمامًا فهرسة الموقع:

وكيل المستخدم : *
عدم السماح: /

User-agent - يشير إلى من تستهدفه التوجيهات ، تشير علامة النجمة إلى أنه بالنسبة لجميع PS ، بالنسبة إلى Yandex ، تشير User-agent: Yandex.

تقول مساعدة Yandex أن برامج الزحف لديها تعالج User-agent: * ، ولكن إذا كان User-agent: Yandex موجودًا ، فسيتم تجاهل User-agent: *.

توجيهات عدم السماح والسماح

هناك توجيهان رئيسيان:

عدم السماح - ممنوع

السماح - السماح

مثال:في المدونة ، حظرنا فهرسة المجلد / wp-content / حيث توجد ملفات المكونات الإضافية ، والقالب ، وما إلى ذلك. ولكن هناك أيضًا صور يجب فهرستها بواسطة PS من أجل المشاركة في البحث عن الصور. للقيام بذلك ، تحتاج إلى استخدام المخطط التالي:

وكيل المستخدم : *
السماح: / wp-content / uploads / # السماح بفهرسة الصور في مجلد التحميلات
Disallow: / wp-content /

يعد ترتيب استخدام التوجيهات أمرًا مهمًا بالنسبة إلى Yandex إذا كانت تنطبق على نفس الصفحات أو المجلدات. إذا حددت مثل هذا:

وكيل المستخدم : *
Disallow: / wp-content /
السماح: / wp-content / uploads /

لن يتم تحميل الصور بواسطة روبوت Yandex من الدليل / uploads / ، لأنه يتم تنفيذ التوجيه الأول ، والذي يمنع كل الوصول إلى مجلد محتوى wp.

تأخذ Google الأمر بسهولة وتتبع جميع توجيهات ملف robots.txt ، بغض النظر عن موقعها.

أيضًا ، لا تنس أن التوجيهات التي تحتوي على شرطة مائلة وبدونها تؤدي دورًا مختلفًا:

Disallow: / aboutيرفض الوصول إلى دليل site.ru/about/ بالكامل ، ولن تتم فهرسة الصفحات التي تحتوي على about - site.ru/about.html و site.ru/aboutlive.html وما إلى ذلك.

عدم السماح: / حول /سيمنع الروبوتات من فهرسة الصفحات في دليل site.ru/about/ وصفحات مثل site.ru/about.html ، إلخ. ستكون متاحة للفهرسة.

التعبيرات العادية في ملف robots.txt

يتم دعم حرفين ، وهما:

* - تعني أي ترتيب للأحرف.

مثال:

Disallow: / about *سيمنع الوصول إلى جميع الصفحات التي تحتوي على حوالي ، من حيث المبدأ ، وبدون علامة النجمة ، سيعمل هذا التوجيه أيضًا. لكن في بعض الحالات ، لا يمكن استبدال هذا التعبير. على سبيل المثال ، في فئة واحدة توجد صفحات بها .html في نهايتها وبدون ، من أجل إغلاق جميع الصفحات التي تحتوي على html من الفهرسة ، نكتب التوجيه التالي:

Disallow: /about/*.html

الآن تم إغلاق صفحة site.ru/about/live.html من الفهرسة ، وصفحة site.ru/about/live مفتوحة.

مثال آخر على القياس:

وكيل المستخدم: Yandex
السماح: / حول/*.html #allow الفهرسة
عدم السماح: / حول /

سيتم إغلاق جميع الصفحات ، باستثناء الصفحات التي تنتهي بـ html

$ - يقطع الباقي ويمثل نهاية السطر.

مثال:

Disallow: / about- يحظر توجيه robots.txt فهرسة جميع الصفحات التي تبدأ بـ about ، كما يحظر الصفحات في الدليل / about /.

بإضافة علامة الدولار في النهاية - Disallow: / about $ سنخبر الروبوتات أنه لا يمكن فهرسة صفحة / about فقط ، ولكن / about / directory ، / aboutlive صفحات ، إلخ. يمكن فهرستها.

توجيه خريطة الموقع

يحدد هذا التوجيه المسار إلى ملف Sitemap على النحو التالي:

خريطة الموقع: http://site.ru/sitemap.xml

توجيه المضيف

محدد في هذا النموذج:

المضيف: site.ru

بدون http: // ، والشرطة المائلة وما شابه ذلك. إذا كان لديك موقع مرآة رئيسي مع www ، فاكتب:

مثال Robots.txt لـ Bitrix

وكيل المستخدم: *
Disallow: /*index.php$
Disallow: / bitrix /
Disallow: / auth /
Disallow: / شخصي /
Disallow: / تحميل /
Disallow: / بحث /
عدم السماح: / * / بحث /
Disallow: / * / slide_show /
عدم السماح: / * / معرض / * الطلب = *
عدم السماح: /*؟*
عدم السماح: / * & print =
عدم السماح: / * تسجيل =
عدم السماح: / * نسيت كلمة المرور =
عدم السماح: / * change_password =
عدم السماح: / * تسجيل الدخول =
عدم السماح: / * تسجيل الخروج =
عدم السماح: / * المصادقة =
عدم السماح: / * الإجراء = *
عدم السماح: / * bitrix _ * =
عدم السماح: / * backurl = *
عدم السماح: / * BACKURL = *
عدم السماح: / * back_url = *
عدم السماح: / * BACK_URL = *
عدم السماح: / * back_url_admin = *
عدم السماح: / * print_course = Y
عدم السماح: / * COURSE_ID =
عدم السماح: / * PAGEN_ *
عدم السماح: / * PAGE_ *
عدم السماح: / * إظهار
عدم السماح: / * show_all =
المضيف: sitename.com
خريطة الموقع: https://www.sitename.ru/sitemap.xml

مثال على ملف robots.txt في WordPress

بعد إضافة جميع التوجيهات اللازمة المذكورة أعلاه. يجب أن ينتهي بك الأمر بملف روبوتات مثل هذا:

هذا ، إذا جاز التعبير ، هو الإصدار الأساسي من ملف robots.txt لبرنامج Wordpress. يوجد وكيلان للمستخدم هنا - واحد للجميع والثاني لـ Yandex ، حيث يتم تحديد توجيه المضيف.

العلامات الوصفية لبرامج الروبوت

من الممكن إغلاق صفحة أو موقع من الفهرسة ليس فقط باستخدام ملف robots.txt ، بل يمكن القيام بذلك باستخدام العلامة الوصفية.

<meta name = "robots" content = "noindex، nofollow">

تحتاج إلى تسجيله في العلامة وستحظر علامة التعريف هذه فهرسة الموقع. هناك مكونات إضافية في WordPress تسمح لك بتعيين هذه العلامات الوصفية ، على سبيل المثال - Platinum Seo Pack. باستخدامه ، يمكنك إغلاق أي صفحة من الفهرسة ، ويستخدم العلامات الوصفية.

توجيه تأخير الزحف

باستخدام هذا التوجيه ، يمكنك تعيين الوقت الذي يجب فيه مقاطعة روبوت البحث بين تنزيل صفحات الموقع.

وكيل المستخدم : *
تأخير الزحف: 5

ستكون المهلة بين تحميل صفحتين 5 ثوانٍ. لتقليل الحمل على الخادم ، عادةً ما يتم ضبطه على 15-20 ثانية. هذا التوجيه ضروري للمواقع الكبيرة التي يتم تحديثها بشكل متكرر حيث "تعيش" روبوتات البحث فقط.

بالنسبة إلى المواقع / المدونات العادية ، لا يلزم هذا التوجيه ، ولكن يمكنك بالتالي تقييد سلوك روبوتات البحث الأخرى غير ذات الصلة (Rambler ، و Yahoo ، و Bing) ، وما إلى ذلك. بعد كل شيء ، يقومون أيضًا بزيارة الموقع وفهرسته ، وبالتالي إنشاء تحميل على الخادم.

ملف Robots.txt- ملف نصي بتنسيق .txt يقيد وصول روبوتات البحث إلى المحتوى الموجود على خادم http. كيف التعريف ، ملف robots.txt- هذا هو معيار استثناء الروبوت، والذي تم تبنيه من قبل W3C في 30 يناير 1994 ، ويتم استخدامه طواعية من قبل معظم محركات البحث. يتكون ملف robots.txt من مجموعة من الإرشادات لبرامج الزحف لمنع فهرسة ملفات أو صفحات أو أدلة معينة على أحد المواقع. ضع في اعتبارك وصف ملف robots.txt للحالة التي لا يقيد فيها الموقع وصول الروبوتات إلى الموقع.

مثال بسيط لملف robots.txt:

وكيل المستخدم: * السماح: /

هنا ، تسمح الروبوتات تمامًا بفهرسة الموقع بالكامل.

يجب تحميل ملف robots.txt إلى الدليل الجذر لموقعك على الويببحيث يكون متاحًا في:

Your_site.ru/robots.txt

عادةً ما يتطلب وضع ملف robots.txt في جذر الموقع الوصول إلى FTP. ومع ذلك ، تسمح لك بعض أنظمة الإدارة (CMS) بإنشاء ملف robots.txt مباشرة من لوحة تحكم الموقع أو من خلال مدير FTP المدمج.

إذا كان الملف متاحًا ، فسترى محتويات ملف robots.txt في المتصفح.

ما هو ملف robots.txt؟

يعد Roots.txt للموقع جانبًا مهمًا. لماذا هناك حاجة لملف robots.txt؟ على سبيل المثال ، في هناك حاجة إلى ملف robots.txt لتحسين محركات البحث من أجل الاستبعاد من فهرسة الصفحات التي لا تحتوي على محتوى مفيد وأكثر من ذلك بكثير. كيف وماذا ولماذا ولماذا تم استبعاده تم وصفه بالفعل في المقالة حول ، لن نتطرق إلى هذا هنا. هل أحتاج إلى ملف robots.txtكل المواقع؟ نعم و لا. إذا كان استخدام ملف robots.txt يعني استبعاد الصفحات من البحث ، فبالنسبة للمواقع الصغيرة ذات البنية البسيطة والصفحات الثابتة ، قد تكون هذه الاستثناءات غير ضرورية. ومع ذلك ، حتى بالنسبة لموقع صغير ، فإن البعض توجيهات robots.txt، مثل توجيه المضيف أو ملف Sitemap ، ولكن المزيد عن ذلك أدناه.

كيفية إنشاء ملف robots.txt

نظرًا لأن ملف robots.txt هو ملف نصي ، و قم بإنشاء ملف robots.txt، يمكنك استخدام أي محرر نصوص ، على سبيل المثال المفكرة. بمجرد أن تفتح مستندًا نصيًا جديدًا ، تكون قد بدأت بالفعل في إنشاء ملف robots.txt ، يبقى فقط إنشاء محتواه ، وفقًا لمتطلباتك ، وحفظه باسم ملف نصي يسمى الروبوتات بتنسيق txt. إنه أمر بسيط ، ويجب ألا يتسبب إنشاء ملف robots.txt في حدوث مشكلات حتى للمبتدئين. سأوضح لك أدناه كيفية كتابة ملف robots.txt وماذا تكتب في الروبوتات.

قم بإنشاء ملف robots.txt عبر الإنترنت

خيار للكسول قم بإنشاء روبوتات عبر الإنترنت وتنزيل ملف robots.txtبالفعل مستعد. يوفر إنشاء robots txt عبر الإنترنت العديد من الخدمات ، والاختيار لك. الشيء الأساسي هو أن نفهم بوضوح ما سيكون محظورًا وما هو مسموح به ، بخلاف ذلك يمكن أن يتحول إنشاء ملف robots.txt عبر الإنترنت إلى مأساةالتي يمكن أن يكون من الصعب تصحيحها بعد ذلك. خاصة إذا كان هناك شيء كان يجب إغلاقه يدخل في البحث. كن حذرًا - تحقق من ملف الروبوتات قبل تحميله على الموقع. حتى الآن ملف robots.txt مخصصتعكس بنية القيود بشكل أكثر دقة من تلك التي تم إنشاؤها وتنزيلها تلقائيًا من موقع آخر. تابع القراءة لمعرفة ما يجب الانتباه إليه بشكل خاص عند تحرير ملف robots.txt.

تحرير ملف robots.txt

بمجرد أن تتمكن من إنشاء ملف robots.txt عبر الإنترنت أو يدويًا ، يمكنك ذلك تحرير ملف robots.txt. يمكنك تغيير محتواه كما تريد ، الشيء الرئيسي هو اتباع بعض القواعد والبنية الخاصة بملف robots.txt. أثناء العمل على الموقع ، قد يتغير ملف الروبوتات ، وإذا قمت بتحرير ملف robots.txt ، فلا تنس تحميل نسخة محدثة ومحدثة من الملف مع جميع التغييرات على الموقع. بعد ذلك ، ضع في اعتبارك قواعد إعداد ملف لكي تعرف كيفية تغيير ملف robots.txtو "لا تقطع الخشب".

الإعداد الصحيح لملف robots.txt

الإعداد الصحيح لملف robots.txtيسمح لك بتجنب الحصول على معلومات خاصة في نتائج البحث لمحركات البحث الرئيسية. ومع ذلك ، لا تنسى ذلك أوامر robots.txt ليست أكثر من دليل للعمل ، وليست دفاعًا. تتبع روبوتات محركات البحث الموثوقة مثل Yandex أو Google تعليمات robots.txt ، ولكن يمكن لروبوتات أخرى تجاهلها بسهولة. يعد الفهم السليم لملف robots.txt واستخدامه هو مفتاح الحصول على النتائج.

لفهم كيفية عمل ملف robots.txt، تحتاج أولاً إلى فهم القواعد العامة وبناء الجملة والتوجيهات الخاصة بملف robots.txt.

يبدأ ملف robots.txt الصحيح بتوجيه وكيل المستخدم، مما يشير إلى الروبوت الذي يتم توجيه الأوامر المحددة إليه.

أمثلة وكيل المستخدم في ملف robots.txt:

# يحدد التوجيهات لجميع الروبوتات في وقت واحد User-agent: * # يحدد التوجيهات لجميع Yandex robots User-agent: Yandex # يحدد التوجيهات فقط لـ Yandex robot index-agent الرئيسي: YandexBot # يحدد التوجيهات لجميع Google robots User-agent: Googlebot

يرجى ملاحظة أن مثل هذه إعداد ملف robots.txtيطلب من الروبوت استخدام الأوامر التي تطابق اسم وكيل المستخدم فقط.

مثال Robots.txt مع إدخالات متعددة لوكيل المستخدم:

# سيتم استخدامه بواسطة جميع برامج Yandex robots User-agent: Yandex Disallow: / * utm_ # سيتم استخدامه بواسطة جميع روبوتات Google وكيل المستخدم: Googlebot Disallow: / * utm_ # سيتم استخدامه بواسطة جميع الروبوتات باستثناء Yandex و Google robots User- الوكيل: * السماح: / * utm_

توجيه وكيل المستخدمينشئ فقط إشارة إلى روبوت معين ، وبعد توجيه User-agent مباشرة ، يجب أن يكون هناك أمر أو أوامر مع إشارة مباشرة إلى حالة الروبوت المحدد. يستخدم المثال أعلاه توجيه التعطيل "Disallow" ، والذي له القيمة "/ * utm_". وهكذا ، نغلق كل شيء. يمنع الإعداد الصحيح لملف robots.txt وجود فواصل أسطر فارغة بين توجيهات "وكيل المستخدم" و "عدم السماح" والتوجيهات التي تتبع "عدم السماح" ضمن "وكيل المستخدم" الحالي.

مثال لخلاصة سطر غير صحيحة في ملف robots.txt:

مثال لخلاصة سطر صحيحة في ملف robots.txt:

وكيل المستخدم: Yandex Disallow: / * utm_ Allow: / * id = User-agent: * Disallow: / * utm_ Allow: / * id =

كما ترى من المثال ، تأتي التعليمات في ملف robots.txt في مجموعات، كل منها يحتوي على تعليمات إما لروبوت معين أو لجميع الروبوتات "*".

من المهم أيضًا الاحتفاظ بالترتيب الصحيح للأوامر وفرزها في ملف robots.txt عند استخدام أوامر مثل "Disallow" و "Allow" معًا. الأمر "Allow" هو الأمر المسموح به وهو عكس أمر robots.txt "Disallow" ، وهو أمر disallow.

مثال على مشاركة التوجيهات في ملف robots.txt:

وكيل المستخدم: * Allow: / blog / page Disallow: / blog

يمنع هذا المثال جميع برامج الروبوت من فهرسة جميع الصفحات التي تبدأ بـ "/ blog" ، ولكنه يسمح بفهرسة الصفحات التي تبدأ بـ "/ blog / page".

المثال السابق لملف robots.txt بالترتيب الصحيح:

وكيل المستخدم: * Disallow: / blog Allow: / blog / page

أولاً نقوم بتعطيل القسم بأكمله ، ثم نسمح ببعض أجزائه.

اخر مثال ملف robots.txt الصحيحبتوجيهات مشتركة:

وكيل المستخدم: * Allow: / Disallow: / blog Allow: / blog / page

انتبه إلى التسلسل الصحيح للتوجيهات في ملف robots.txt هذا.

يمكن أيضًا تحديد الأمرين "Allow" و "Disallow" بدون معلمات ، وفي هذه الحالة سيتم تفسير القيمة بشكل عكسي للمعامل "/".

مثال على أمر "Disallow / Allow" بدون معلمات:

وكيل المستخدم: * Disallow: # يكافئ Allow: / Disallow: / blog Allow: / blog / page

كيفية إنشاء ملف robots.txt الصحيحوكيفية استخدام تفسير التوجيهات هو اختيارك. سيكون كلا الخيارين صحيحين. الشيء الرئيسي هو عدم الخلط.

من أجل التجميع الصحيح لملف robots.txt ، من الضروري تحديد الأولويات بدقة في معلمات التوجيهات وما الذي سيتم حظر تنزيله بواسطة الروبوتات. سنلقي نظرة كاملة على استخدام الأمرين "Disallow" و "Allow" أدناه ، ولكن دعنا الآن نلقي نظرة على بنية ملف robots.txt. ستقربك معرفة بنية ملف robots.txt من قم بإنشاء ملف robots.txt المثالي بيديك.

بنية Robots.txt

تتبع روبوتات محرك البحث طواعية أوامر robots.txt- معيار استبعاد برامج الروبوت ، ومع ذلك ، لا تفسر جميع محركات البحث بنية ملف robots.txt بنفس الطريقة. يحتوي ملف robots.txt على بنية محددة بدقة ، ولكن في نفس الوقت كتابة نص الروبوتاتليس صعبًا لأن هيكله بسيط جدًا وسهل الفهم.

فيما يلي قائمة محددة من القواعد البسيطة ، والتي ستستبعد بعد ذلك أخطاء robots.txt الشائعة:

  1. يبدأ كل توجيه على سطر جديد ؛
  2. لا تقم بتضمين أكثر من توجيه واحد في سطر واحد ؛
  3. لا تضع مسافة في بداية السطر ؛
  4. يجب أن تكون معلمة التوجيه في سطر واحد ؛
  5. لست بحاجة إلى إحاطة معلمات التوجيه بعلامات اقتباس ؛
  6. لا تتطلب معلمات التوجيه إغلاق فاصلة منقوطة ؛
  7. يتم تحديد الأمر في ملف robots.txt بالتنسيق - [اسم_الموجه]: [مسافة اختيارية] [قيمة] [مسافة اختيارية]؛
  8. يُسمح بالتعليقات في ملف robots.txt بعد علامة الجنيه # ؛
  9. يمكن تفسير السطر الجديد الفارغ على أنه نهاية توجيه وكيل المستخدم ؛
  10. التوجيه "Disallow:" (بقيمة فارغة) يعادل "Allow: /" - allow every؛
  11. لا تحدد التوجيهات "Allow" و "Disallow" أكثر من معلمة واحدة ؛
  12. لا يسمح اسم ملف robots.txt بوجود أحرف كبيرة ، والتهجئة الخاطئة لاسم الملف هي Robots.txt أو ROBOTS.TXT ؛
  13. تعتبر كتابة أسماء التوجيهات والمعلمات بأحرف كبيرة سلوكًا سيئًا ، وإذا كان ملف robots.txt ، وفقًا للمعيار ، غير حساس لحالة الأحرف ، فغالبًا ما تكون أسماء الملفات والدليل حساسة لحالة الأحرف ؛
  14. إذا كانت معلمة التوجيه عبارة عن دليل ، فسيكون اسم الدليل مسبوقًا دائمًا بشرطة مائلة "/" ، على سبيل المثال: Disallow: / category
  15. يعتبر ملف robots.txt الكبير جدًا (أكثر من 32 كيلوبايت) مسموحًا به تمامًا ، وهو ما يعادل "Disallow:" ؛
  16. قد يتم التعامل مع ملف robots.txt الذي يتعذر الوصول إليه لسبب ما على أنه متساهل تمامًا ؛
  17. إذا كان ملف robots.txt فارغًا ، فسيتم التعامل معه على أنه متساهل تمامًا ؛
  18. نتيجة لإدراج عدة توجيهات "User-agent" بدون سطر جديد فارغ ، يمكن تجاهل جميع توجيهات "User-agent" اللاحقة باستثناء التوجيه الأول ؛
  19. لا يُسمح باستخدام أي رموز للأبجديات الوطنية في ملف robots.txt.

نظرًا لأن محركات البحث المختلفة قد تفسر بنية ملف robots.txt بشكل مختلف ، يمكن حذف بعض النقاط. لذلك ، على سبيل المثال ، إذا حددت عدة توجيهات "User-agent" بدون فاصل سطر فارغ ، فسيتم قبول جميع توجيهات "User-agent" بشكل صحيح بواسطة Yandex ، نظرًا لأن Yandex يبرز الإدخالات من خلال التواجد في سطر "User-agent" .

يجب أن تشير الروبوتات بدقة إلى ما هو مطلوب فقط ، ولا شيء أكثر من ذلك. لا تفكر كيفية كتابة كل شيء في ملف robots.txtما هو الممكن وكيفية ملئه. الروبوتات المثالية TXTهو الخط الذي يحتوي على عدد أقل من الأسطر ولكن له معنى أكبر. "الإيجاز هو روح الطرافة". هذا التعبير مفيد للغاية هنا.

كيفية التحقق من ملف robots.txt

إلى تحقق من ملف robots.txtللحصول على الصيغة الصحيحة للملف وهيكله ، يمكنك استخدام إحدى الخدمات عبر الإنترنت. على سبيل المثال ، يقدم كل من Yandex و Google خدماتهما الخاصة لمشرفي المواقع ، والتي تشمل تحليل ملف robots.txt:

التحقق من ملف robots.txt في Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

إلى تحقق من ملف robots.txt عبر الإنترنتمن الضروري تحميل ملف robots.txt إلى الموقع في الدليل الجذر. خلاف ذلك ، قد تقوم الخدمة بالإبلاغ عن ذلك فشل تحميل ملف robots.txt. يوصى أولاً بالتحقق من توفر ملف robots.txt على العنوان الذي يوجد به الملف ، على سبيل المثال: your_site.ru/robots.txt.

بالإضافة إلى خدمات التحقق من Yandex و Google ، هناك العديد من الخدمات الأخرى عبر الإنترنت. أدوات التحقق من ملفات robots.txt.

Robots.txt مقابل Yandex و Google

هناك رأي شخصي مفاده أن Yandex تدرك الإشارة إلى كتلة منفصلة من التوجيهات "User-agent: Yandex" في ملف robots.txt بشكل أكثر إيجابية من الكتلة العامة للتوجيهات باستخدام "User-agent: *". وضع مماثل مع ملف robots.txt و Google. يتيح لك تحديد توجيهات منفصلة لـ Yandex و Google إدارة فهرسة الموقع من خلال ملف robots.txt. ربما يشعرون بالرضا من نداء شخصي ، خاصة وأن محتوى كتل robots.txt في Yandex و Google ومحركات البحث الأخرى بالنسبة لمعظم المواقع سيكون هو نفسه. مع استثناءات نادرة ، سيكون لجميع كتل "وكيل المستخدم" الافتراضي لملف robots.txtمجموعة من التوجيهات. أيضًا ، باستخدام "وكيل مستخدم" مختلف يمكنك تثبيته حظر الفهرسة في ملف robots.txt لـ Yandex، ولكن ، على سبيل المثال ، ليس من أجل Google.

بشكل منفصل ، تجدر الإشارة إلى أن Yandex تأخذ في الاعتبار توجيهًا مهمًا مثل "المضيف" ، ويجب أن يتضمن ملف robots.txt الصحيح لـ Yandex هذا التوجيه للإشارة إلى المرآة الرئيسية للموقع. ستتم مناقشة توجيه "المضيف" بمزيد من التفاصيل أدناه.

تعطيل الفهرسة: ملف robots.txt Disallow

عدم السماح - توجيه المنع، والذي يتم استخدامه غالبًا في ملف robots.txt. يحظر Disallow فهرسة الموقع أو جزء منه ، اعتمادًا على المسار المحدد في المعلمة الخاصة بالتوجيه Disallow.

مثال على كيفية تعطيل فهرسة الموقع في ملف robots.txt:

وكيل المستخدم: * Disallow: /

هذا المثال يغلق الموقع بالكامل من فهرسة جميع برامج الروبوت.

يمكن استخدام الأحرف الخاصة * و $ في معلمة الأمر Disallow:

* - أي رقم من أي أحرف ، على سبيل المثال ، تتوافق المعلمة / page * / page ، / page1 ، / page-be-cool ، / page / kak-skazat ، إلخ. ومع ذلك ، ليست هناك حاجة لتحديد * في نهاية كل معلمة ، لأنه ، على سبيل المثال ، يتم تفسير التوجيهات التالية بنفس الطريقة:

وكيل المستخدم: Yandex Disallow: / page User-agent: Yandex Disallow: / page *

$ - يشير إلى المطابقة التامة للاستثناء لقيمة المعلمة:

وكيل المستخدم: Googlebot Disallow: / page $

في هذه الحالة ، لن يسمح التوجيه Disallow بفهرسة / page ، لكنه لن يسمح بفهرسة / page1 ، أو / page-be-cool ، أو / page / kak-skazat.

اذا كان إغلاق فهرسة موقع robots.txt، قد تستجيب محركات البحث لمثل هذه الخطوة بالخطأ "محظور في ملف robots.txt" أو "عنوان url مقيد بملف robots.txt" (عنوان url محظور بواسطة ملف robots.txt). اذا احتجت تعطيل فهرسة الصفحة، لا يمكنك استخدام ملفات robots txt فحسب ، بل يمكنك أيضًا استخدام علامات html مماثلة:

  • - لا تقم بفهرسة محتوى الصفحة ؛
  • - لا تتبع الروابط الموجودة على الصفحة ؛
  • - يحظر فهرسة المحتوى ومتابعة الروابط على الصفحة ؛
  • - مشابه للمحتوى = "لا شيء".

السماح بالفهرسة: السماح بملف robots.txt

سماح - السماح بالتوجيهوعكس الأمر Disallow. هذا التوجيه له صيغة مشابهة لـ Disallow.

مثال على كيفية تعطيل فهرسة الموقع في ملف robots.txt باستثناء بعض الصفحات:

وكيل المستخدم: * Disallow: / Allow: / page

يحظر فهرسة الموقع بأكمله، باستثناء الصفحات التي تبدأ بـ / صفحة.

عدم السماح والسماح بقيمة معلمة فارغة

أمر Disallow فارغ:

وكيل المستخدم: * عدم السماح:

لا تحظر أي شيء أو تسمح بفهرسة الموقع بالكامل وتعادل:

وكيل المستخدم: * السماح: /

يسمح التوجيه الفارغ:

وكيل المستخدم: * السماح:

لا تسمح بأي شيء أو الحظر الكامل لفهرسة الموقع يعادل:

وكيل المستخدم: * Disallow: /

مرآة الموقع الرئيسية: مضيف ملف robots.txt

يتم استخدام توجيه المضيف للإشارة إلى روبوت Yandex باعتباره المرآة الرئيسية لموقعك. من بين جميع محركات البحث الشعبية ، التوجيه يتم التعرف على المضيف فقط بواسطة روبوتات Yandex. يكون توجيه المضيف مفيدًا إذا كان موقعك متاحًا على مواقع متعددة ، على سبيل المثال:

mysite.ru mysite.com

أو لتحديد الأولويات بين:

Mysite.ru www.mysite.ru

يمكنك إخبار روبوت Yandex أي المرآة هي المرآة الرئيسية. تم تحديد توجيه المضيف في كتلة التوجيه "User-agent: Yandex" وكمعامل ، تتم الإشارة إلى عنوان الموقع المفضل بدون "http: //".

مثال على ملف robots.txt يشير إلى النسخة المتطابقة الرئيسية:

وكيل المستخدم: Yandex Disallow: / page Host: mysite.ru

يشار إلى اسم المجال mysite.ru بدون www باعتباره المرآة الرئيسية. وبالتالي ، سيتم الإشارة إلى هذا النوع من العناوين في نتائج البحث.

وكيل المستخدم: Yandex Disallow: / مضيف الصفحة: www.mysite.ru

يشار إلى اسم المجال www.mysite.ru باعتباره المرآة الرئيسية.

توجيه المضيف في ملف robots.txtيمكن استخدامه مرة واحدة فقط ، إذا تم تحديد توجيه المضيف أكثر من مرة ، فسيتم مراعاة التوجيه الأول فقط ، وسيتم تجاهل توجيهات المضيف الأخرى.

إذا كنت تريد تحديد النسخة المتطابقة الرئيسية لبرنامج Googlebot ، فاستخدم خدمة أدوات مشرفي المواقع من Google.

خريطة الموقع: ملف robots.txt sitemap

باستخدام توجيه ملف Sitemap ، يمكنك تحديد الموقع على الموقع في ملف robots.txt.

مثال على ملف robots.txt بعنوان خريطة الموقع:

وكيل المستخدم: * Disallow: / page خريطة الموقع: http://www.mysite.ru/sitemap.xml

تحديد عنوان خريطة الموقع من خلال توجيه ملف Sitemap في ملف robots.txtيسمح لروبوت البحث بالتعرف على وجود ملف Sitemap والبدء في فهرسته.

التوجيه النظيف

يسمح لك التوجيه Clean-param باستبعاد الصفحات ذات المعلمات الديناميكية من الفهرسة. يمكن لصفحات مماثلة أن تخدم نفس المحتوى بعناوين URL مختلفة للصفحات. ببساطة ، كما لو كانت الصفحة متاحة في عناوين مختلفة. مهمتنا هي إزالة جميع العناوين الديناميكية غير الضرورية ، والتي يمكن أن تصل إلى مليون. للقيام بذلك ، نستبعد جميع المعلمات الديناميكية ، باستخدام التوجيه Clean-param في ملف robots.txt.

بناء جملة التوجيه Clean-param:

Clean-param: parm1 [& parm2 & parm3 & parm4 & .. & parmn] [المسار]

ضع في اعتبارك مثال صفحة مع عنوان URL التالي:

www.mysite.ru/page.html؟&parm1=1&parm2=2&parm3=3

مثال على ملف robots.txt Clean-param:

Clean-param: parm1 & parm2 & parm3 /page.html # page.html فقط

Clean-param: parm1 & parm2 & parm3 / # للجميع

توجيه تأخير الزحف

تسمح لك هذه التعليمات بتقليل الحمل على الخادم إذا كانت الروبوتات تزور موقعك كثيرًا. هذا التوجيه مناسب بشكل أساسي للمواقع التي تحتوي على عدد كبير من الصفحات.

مثال على تأخير الزحف لملف robots.txt:

وكيل المستخدم: Yandex Disallow: / page craw-delay: 3

في هذه الحالة ، "نطلب" من روبوتات Yandex تنزيل صفحات موقعنا بما لا يزيد عن مرة واحدة كل ثلاث ثوانٍ. تدعم بعض محركات البحث التنسيق العشري كمعامل توجيهات robots.txt لتأخير الزحف.

الغرض من هذا الدليل هو مساعدة مشرفي المواقع والمسؤولين على استخدام ملف robots.txt.

مقدمة

معيار استثناء الروبوت بسيط للغاية. باختصار ، إنه يعمل مثل هذا:

عندما يزور روبوت متوافق مع المعايير أحد المواقع ، فإنه يطلب أولاً وقبل كل شيء ملفًا يسمى "/robots.txt". إذا تم العثور على مثل هذا الملف ، يبحث الروبوت عن التعليمات الموجودة فيه والتي تحظر فهرسة بعض أجزاء الموقع.

مكان وضع ملف robots.txt

يطلب الروبوت ببساطة من موقعك عنوان URL "/robots.txt" ، والموقع في هذه الحالة هو مضيف محدد على منفذ معين.

رابط الموقع عنوان URL لملف Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

يمكن أن يكون هناك ملف "/robots.txt" واحد فقط لكل موقع. على سبيل المثال ، يجب ألا تضع ملف robots.txt في أدلة المستخدم الفرعية - لن تبحث الروبوتات عنها هناك على أي حال. إذا كنت تريد أن تكون قادرًا على إنشاء ملفات robots.txt في أدلة فرعية ، فأنت بحاجة إلى طريقة لتجميعها برمجيًا في ملف robots.txt واحد موجود في جذر الموقع. بدلا من ذلك ، يمكنك استخدام.

لا تنس أن عناوين URL حساسة لحالة الأحرف ، ويجب كتابة اسم الملف "/robots.txt" بالكامل بأحرف صغيرة.

موقع ملف robots.txt غير صحيح
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt الملف ليس في جذر الموقع
ftp://ftp.w3.com/robots.txt لا تقوم الروبوتات بفهرسة بروتوكول نقل الملفات
http://www.w3.org/Robots.txt اسم الملف ليس بأحرف صغيرة

كما ترى ، يجب وضع ملف robots.txt حصريًا في جذر الموقع.

ما يجب كتابته في ملف robots.txt

عادةً ما يتم كتابة ملف robots.txt على النحو التالي:

وكيل المستخدم: *
Disallow: / cgi-bin /
Disallow: / tmp /
عدم السماح: / ~ joe /

في هذا المثال ، يُحظر فهرسة ثلاثة أدلة.

لاحظ أن كل دليل موجود في سطر منفصل - لا يمكنك كتابة "Disallow: / cgi-bin / / tmp /". لا يمكنك أيضًا تقسيم عبارة Disallow أو User-agent واحدة إلى عدة أسطر ، مثل يتم استخدام فاصل الأسطر لفصل التعليمات عن بعضها البعض.

لا يمكن استخدام التعبيرات العادية وأحرف البدل أيضًا. علامة النجمة (*) في بيان وكيل المستخدم تعني "أي روبوت". لا يتم دعم إرشادات مثل "Disallow: * .gif" أو "User-agent: Ya *".

تعتمد الإرشادات المحددة في ملف robots.txt على موقعك وما تريد منعه من الفهرسة. وهنا بعض الأمثلة:

منع الموقع بأكمله من أن تتم فهرسته بواسطة جميع برامج الروبوت

وكيل المستخدم: *
عدم السماح: /

السماح لجميع الروبوتات بفهرسة الموقع بالكامل

وكيل المستخدم: *
عدم السماح:

أو يمكنك فقط إنشاء ملف "/robots.txt" فارغ.

أغلق بضعة دلائل فقط من الفهرسة

وكيل المستخدم: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / خاص /

منع فهرسة الموقع لروبوت واحد فقط

وكيل المستخدم: BadBot
عدم السماح: /

السماح بفهرسة الموقع لروبوت واحد وحظر كل البرامج الأخرى

وكيل المستخدم: Yandex
عدم السماح:

وكيل المستخدم: *
عدم السماح: /

منع فهرسة جميع الملفات باستثناء ملف واحد

هذا صعب للغاية لأن. لا يوجد بيان "السماح". بدلاً من ذلك ، يمكنك نقل جميع الملفات باستثناء الملف الذي تريد السماح بفهرسته في دليل فرعي وتعطيل فهرسته:

وكيل المستخدم: *
Disallow: / docs /

أو يمكنك تعطيل كافة الملفات الممنوعة من الفهرسة:

وكيل المستخدم: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

أهلاً بكم! اليوم أود أن أخبركم عن ملف robots.txt. نعم ، تمت كتابة الكثير من الأشياء عنه على الإنترنت ، ولكن لكي أكون صادقًا ، لم أتمكن بنفسي من معرفة كيفية إنشاء ملف robots.txt الصحيح لفترة طويلة جدًا. انتهى بي الأمر بصنع واحدة وهي موجودة في جميع مدوناتي. لا ألاحظ أي مشاكل في ملف robots.txt ، فهو يعمل بشكل جيد.

ملف Robots.txt لبرنامج WordPress

ولماذا ، في الواقع ، نحتاج إلى ملف robots.txt؟ الجواب لا يزال هو نفسه -. أي أن تجميع ملف robots.txt هو أحد أجزاء تحسين محرك البحث للموقع (بالمناسبة ، قريبًا جدًا سيكون هناك درس مخصص لكل التحسينات الداخلية لموقع WordPress. لذلك لا تنس للاشتراك في RSS حتى لا تفوت المواد الشيقة.).

إحدى وظائف هذا الملف هي حظر الفهرسةصفحات الموقع غير الضرورية. كما أنه يحدد العنوان ويصف العنوان الرئيسي مرآة الموقع(موقع مع www أو بدون www).

ملاحظة: بالنسبة لمحركات البحث ، فإن نفس الموقع الذي يحتوي على www وبدون www هما موقعان مختلفان تمامًا. ولكن ، مع إدراك أن محتوى هذه المواقع هو نفسه ، تقوم محركات البحث "بلصقها" معًا. لذلك ، من المهم تسجيل نسخة طبق الأصل من الموقع الرئيسي في ملف robots.txt. لمعرفة العنوان الرئيسي (مع www أو بدون www) ، ما عليك سوى كتابة عنوان موقعك في المتصفح ، على سبيل المثال ، مع www ، إذا تمت إعادة توجيهك تلقائيًا إلى نفس الموقع بدون www ، فإن المرآة الرئيسية لـ موقعك بدون www. آمل أن أكون شرحت بشكل صحيح.

لذلك ، هذا عزيز ، في رأيي ، ملف robots.txt الصحيح لبرنامج Wordpressيمكنك أن ترى أدناه.

تصحيح ملف robots.txt لـ WordPress

وكيل المستخدم: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-include
Disallow: / wp-content / cache
Disallow: / wp-content / theme
Disallow: / تعقيب
عدم السماح: * / تعقيب
عدم السماح: * / * / تعقيب
عدم السماح: * / * / feed / * /
عدم السماح: * / تغذية
عدم السماح: /*؟*
Disallow: / العلامة

وكيل المستخدم: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-include
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / theme
Disallow: / تعقيب
عدم السماح: * / تعقيب
عدم السماح: * / * / تعقيب
عدم السماح: * / * / feed / * /
عدم السماح: * / تغذية
عدم السماح: /*؟*
Disallow: / العلامة
المضيف: الموقع
.gz
خريطة الموقع: https: //site/sitemap.xml

كل ما ورد أعلاه ، تحتاج إلى نسخه إلى مستند نصي بامتداد .txt ، أي يجب أن يكون اسم الملف robots.txt. يمكنك إنشاء هذا المستند النصي ، على سبيل المثال ، باستخدام البرنامج. فقط من فضلك لا تنسى التغيير في الأسطر الثلاثة الأخيرةعنوان موقع الويب الخاص بك. يجب وضع ملف robots.txt في جذر المدونة ، أي في نفس المجلد مثل مجلدات wp-content و wp-admin وما إلى ذلك.

أولئك الذين هم كسالى جدًا في إنشاء هذا الملف النصي يمكنهم ببساطة تنزيل ملف robots.txt وكذلك تصحيح 3 أسطر هناك.

أود أن أشير إلى أنه في الأجزاء الفنية ، التي ستتم مناقشتها أدناه ، لا تحتاج إلى تحميل نفسك بشكل كبير. أستشهد بهم من أجل "المعرفة" ، إذا جاز التعبير ، نظرة عامة ، حتى يعرفوا ما هو مطلوب ولماذا.

إذن الخط:

وكيل المستخدم

يعيّن القواعد لبعض محركات البحث: على سبيل المثال ، تشير "*" (علامة النجمة) إلى أن القواعد لجميع محركات البحث ، وما هو أدناه

وكيل المستخدم: Yandex

يعني أن هذه القواعد خاصة بـ Yandex فقط.

عدم السماح
هنا يمكنك "دفع" الأقسام التي لا تحتاج إلى فهرستها بواسطة محركات البحث. على سبيل المثال ، في صفحة https: // site / tag / seo ، لدي مقالات مكررة (تكرار) بمقالات عادية ، ويؤثر تكرار الصفحات سلبًا على ترويج محرك البحث ، لذلك من المستحسن بشدة أن يتم إغلاق هذه القطاعات من الفهرسة التي نقوم بها بهذه القاعدة:

Disallow: / العلامة

لذلك ، في ملف robots.txt المذكور أعلاه ، يتم إغلاق جميع الأقسام غير الضرورية تقريبًا من موقع WordPress من الفهرسة ، أي اترك كل شيء كما هو.

مضيف

هنا قمنا بتعيين المرآة الرئيسية للموقع ، والتي تحدثت عنها أعلى قليلاً.

خريطة الموقع

في السطرين الأخيرين ، نحدد عنوان ما يصل إلى ملفي Sitemap تم إنشاؤهما باستخدام.

مشاكل محتملة

ولكن بسبب هذا السطر في ملف robots.txt ، لم تعد منشورات موقعي مفهرسة:

عدم السماح: /*؟*

كما ترى ، فإن هذا السطر في ملف robots.txt يمنع فهرسة المقالات ، وهو ما لا نحتاجه بالطبع على الإطلاق. لإصلاح ذلك ، تحتاج فقط إلى إزالة هذين السطرين (في قواعد جميع محركات البحث و Yandex) وسيبدو ملف robots.txt الصحيح النهائي لموقع WordPress بدون CNC كما يلي:

وكيل المستخدم: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-include
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / theme
Disallow: / تعقيب
عدم السماح: * / تعقيب
عدم السماح: * / * / تعقيب
عدم السماح: * / * / feed / * /
عدم السماح: * / تغذية
Disallow: / العلامة

وكيل المستخدم: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-include
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / theme
Disallow: / تعقيب
عدم السماح: * / تعقيب
عدم السماح: * / * / تعقيب
عدم السماح: * / * / feed / * /
عدم السماح: * / تغذية
Disallow: / العلامة
المضيف: الموقع
خريطة الموقع: https: //site/sitemap.xml

للتحقق مما إذا كنا قد قمنا بتجميع ملف robots.txt بشكل صحيح ، أوصيك باستخدام خدمة Yandex Webmaster (أخبرتك بكيفية التسجيل في هذه الخدمة).

نذهب إلى القسم إعدادات الفهرسة -> تحليل ملف Robots.txt:

هناك بالفعل ، انقر فوق الزر "تنزيل ملف robots.txt من الموقع" ، ثم انقر فوق الزر "تحقق":

إذا رأيت شيئًا مثل الرسالة التالية ، فهذا يعني أن لديك ملف robots.txt الصحيح لـ Yandex:

مرحبًا! كان هناك وقت في حياتي لم أكن أعرف فيه شيئًا على الإطلاق عن إنشاء مواقع الويب ، وحتى أكثر من ذلك لم أكن أعرف عن وجود ملف robots.txt.

عندما نما الاهتمام البسيط إلى هواية جادة ، كانت هناك قوة ورغبة في تعلم كل التفاصيل الدقيقة. تجد في المنتديات الكثير من المواضيع المتعلقة بهذا الملف ، لماذا؟ الأمر بسيط: ينظم ملف robots.txt وصول محركات البحث إلى الموقع ، وإدارة الفهرسة ، وهذا أمر مهم للغاية!

ملف robots.txtهو ملف نصي مصمم لتقييد وصول روبوتات البحث إلى أقسام وصفحات الموقع التي يجب استبعادها من نتائج البحث والزحف.

لماذا تخفي محتوى موقع معين؟ من غير المحتمل أن تكون سعيدًا إذا قام روبوت البحث بفهرسة ملفات إدارة الموقع ، والتي قد تخزن كلمات المرور أو غيرها من المعلومات السرية.

هناك توجيهات مختلفة لتنظيم الوصول:

  • وكيل المستخدم - وكيل المستخدم الذي تم تحديد قواعد الوصول له ،
  • Disallow - يرفض الوصول إلى عنوان URL ،
  • سماح - يسمح بالوصول إلى عنوان URL ،
  • خريطة الموقع - تشير إلى المسار إلى ،
  • تأخير الزحف - يعيّن الفاصل الزمني للزحف إلى عنوان URL (Yandex فقط) ،
  • Clean-param - تجاهل معلمات URL الديناميكية (Yandex فقط) ،
  • المضيف - يشير إلى مرآة الموقع الرئيسية (Yandex فقط).

يرجى ملاحظة أنه منذ 20 مارس 2018 ، توقفت Yandex رسميًا عن دعم توجيه المضيف. يمكن إزالته من ملف robots.txt ، وإذا ترك ، يتجاهله الروبوت ببساطة.

يجب أن يكون الملف موجودًا في الدليل الجذر للموقع. إذا كان الموقع يحتوي على نطاقات فرعية ، فسيكون لكل نطاق فرعي ملف robots.txt الخاص به.

دائما ضع السلامة في الاعتبار. يمكن لأي شخص عرض هذا الملف ، لذلك ليست هناك حاجة لتحديد مسار واضح للموارد الإدارية (لوحات التحكم ، وما إلى ذلك) فيه. كما يقول المثل ، كلما قلت معرفتك ، كان نومك أفضل. لذلك ، إذا لم تكن هناك روابط للصفحة ولا تريد فهرستها ، فلن تحتاج إلى تسجيلها في الروبوتات ، ولن يجدها أحد على أي حال ، حتى الروبوتات العنكبوتية.

عند الزحف إلى موقع ما ، يتحقق روبوت البحث أولاً وقبل كل شيء من وجود ملف robots.txt على الموقع ثم يتبع توجيهاته عند الزحف إلى الصفحات.

أريد أن أشير على الفور إلى أن محركات البحث تتعامل مع هذا الملف بشكل مختلف. على سبيل المثال ، تتبع Yandex قواعدها دون قيد أو شرط وتستبعد الصفحات المحظورة من الفهرسة ، بينما ترى Google هذا الملف كتوصية وليس أكثر.

لتعطيل فهرسة الصفحات ، يمكنك استخدام وسائل أخرى:

  • إعادة التوجيه أو إلى دليل باستخدام ملف .htaccess ،
  • meta tag noindex (يجب عدم الخلط بينه وبين العلامة لمنع فهرسة جزء من النص) ،
  • السمة للروابط ، وكذلك إزالة الروابط إلى الصفحات الإضافية.

في الوقت نفسه ، يمكن لـ Google أن تضيف بنجاح إلى صفحات نتائج البحث المحظورة من الفهرسة ، على الرغم من كل القيود. حجتها الرئيسية هي أنه إذا كانت الصفحة مرتبطة ، فيمكن أن تظهر في نتائج البحث. في هذه الحالة ، يوصى بعدم الارتباط بمثل هذه الصفحات ، ولكن معذرةً ، تم تصميم ملف robots.txt فقط لاستبعاد مثل هذه الصفحات من نتائج البحث ... في رأيي ، لا يوجد منطق 🙄

إزالة الصفحات من البحث

إذا كانت الصفحات المحظورة لا تزال مفهرسة ، فأنت بحاجة إلى استخدام Google Search Console وأداة إزالة عناوين URL الخاصة بها:

تتوفر أداة مماثلة في Yandex Webmaster. اقرأ المزيد حول حذف الصفحات من فهرس محرك البحث في مقالة منفصلة.

تحقق من ملف robots.txt

استمرارًا للموضوع مع Google ، يمكنك استخدام أداة Search Console أخرى والتحقق من ملف robots.txt لمعرفة ما إذا تمت كتابته بشكل صحيح لمنع فهرسة صفحات معينة:

للقيام بذلك ، ما عليك سوى إدخال عناوين URL التي تحتاج إلى التحقق منها في حقل النص والنقر فوق الزر "فحص" - ونتيجة للتحقق ، سيتم اكتشاف ما إذا كانت هذه الصفحة ممنوعة من الفهرسة أو ما إذا كان محتواها متاحًا للبحث الروبوتات.

لدى Yandex أيضًا أداة مماثلة موجودة في Webmaster ، ويتم إجراء الفحص بطريقة مماثلة:

إذا كنت لا تعرف كيفية إنشاء الملف بشكل صحيح ، فقم فقط بإنشاء مستند نصي فارغ بالاسم ملف robots.txt، وأثناء دراستك لميزات نظام إدارة المحتوى وهيكل الموقع ، قم بتكميله بالتوجيهات اللازمة.

اقرأ عن التجميع الصحيح للملف على الرابط. أرك لاحقًا!



استمرار الموضوع:
شبابيك

ناتاليا كوماروفا ، 05/28/2009 (25/03/2018) عندما تقرأ منتدى أو مدونة ، تتذكر مؤلفي المشاركات بالاسم المستعار و ... من خلال صورة المستخدم ، ما يسمى الصورة الرمزية ....