robots txt parancsokat. Hogyan lehet szerkeszteni a robotok txt-jét. Miért van szüksége szkennelésre

Robots.txt- ez egy szöveges fájl, amely a webhely gyökerében található - http://site.ru/robots.txt. Fő célja, hogy bizonyos irányelveket állítson be a keresőmotorok számára – mit és mikor kell tennie az oldalon.

A legegyszerűbb Robots.txt

A legegyszerűbb robots.txt fájl, amely lehetővé teszi, hogy minden keresőmotor mindent indexeljen, így néz ki:

Felhasználói ügynök: *
Letiltás:

Ha a Disallow utasítás végén nincs perjel, akkor minden oldal indexelhető.

Ez az irányelv teljes mértékben tiltja a webhely indexelését:

Felhasználói ügynök: *
Letiltás: /

User-agent - jelzi, hogy kinek szólnak az utasítások, a csillag azt jelzi, hogy az összes PS-nél, a Yandex esetén a User-agent: Yandex.

A Yandex súgója azt mondja, hogy a bejárói a User-agent: * -t dolgozzák fel, de ha a User-agent: Yandex jelen van, akkor a User-agent: * figyelmen kívül marad.

Disallow és Allow direktívák

Két fő irányelv létezik:

Tiltás – tiltás

Engedélyezés - engedélyezés

Példa: A blogon megtiltottuk annak a /wp-content/ mappának az indexelését, ahol a plugin fájlok, sablon stb. De vannak olyan képek is, amelyeket a PS-nek indexelnie kell ahhoz, hogy részt vegyen a képkeresésben. Ehhez a következő sémát kell használnia:

Felhasználói ügynök: *
Engedélyezés: /wp-content/uploads/ # A képek indexelésének engedélyezése a feltöltési mappában
Disallow: /wp-content/

Az irányelvek használatának sorrendje fontos a Yandex számára, ha ugyanazokra az oldalakra vagy mappákra vonatkoznak. Ha így adja meg:

Felhasználói ügynök: *
Disallow: /wp-content/
Engedélyezés: /wp-content/uploads/

A képeket a Yandex robot nem fogja betölteni a /uploads/ könyvtárból, mert az első direktíva végrehajtása folyamatban van, ami megtagad minden hozzáférést a wp-content mappához.

A Google könnyedén, és követi a robots.txt fájl összes utasítását, függetlenül azok helyétől.

Ne felejtse el, hogy a perjellel és anélküli direktívák eltérő szerepet töltenek be:

Disallow: /about Megtagadja a hozzáférést a teljes site.ru/about/ könyvtárhoz, és az about - site.ru/about.html , site.ru/aboutlive.html stb. tartalmat tartalmazó oldalak nem lesznek indexelve.

Disallow: /about/ Megtiltja a robotoknak, hogy indexeljék a site.ru/about/ könyvtárban lévő oldalakat, és olyan oldalakat, mint a site.ru/about.html stb. indexelhető lesz.

Reguláris kifejezések a robots.txt fájlban

Két karakter támogatott, ezek a következők:

* - a karakterek bármilyen sorrendjét jelenti.

Példa:

Disallow: /about* elvileg megtagadja a hozzáférést minden olyan oldalhoz, amelyen szerepel, és csillag nélkül, egy ilyen irányelv is működni fog. De bizonyos esetekben ez a kifejezés nem helyettesíthető. Például egy kategóriában vannak .html-t tartalmazó oldalak a végén és anélkül, hogy az összes html-t tartalmazó oldalt bezárjuk az indexelésből, a következő direktívát írjuk:

Disallow: /about/*.html

Most a site.ru/about/live.html oldal le van zárva az indexelésből, és a site.ru/about/live oldal meg van nyitva.

Egy másik analógia példa:

Felhasználói ügynök: Yandex
Engedélyezés: /about/*.html #indexelés engedélyezése
Disallow : /about/

Minden oldal be lesz zárva, kivéve a .html végződésű oldalakat

$ - levágja a többit és kijelöli a sor végét.

Példa:

Disallow: /about- Ez a robots.txt direktíva tiltja minden olyan oldal indexelését, amelyek about karakterrel kezdődnek, valamint tiltja a /about/ könyvtárban lévő oldalakat is.

A végére egy dollárjel hozzáadásával - Disallow: /about$ azt mondjuk a robotoknak, hogy csak a /about oldal nem indexelhető, de a /about/ könyvtár, /aboutlive oldalak stb. indexelhető.

Webhelytérkép-irányelv

Ez az utasítás a következőképpen határozza meg a webhelytérkép elérési útját:

Webhelytérkép: http://site.ru/sitemap.xml

fogadó irányelv

Ebben a formában megadva:

Házigazda: site.ru

http://, perjelek és hasonlók nélkül. Ha van egy fő tüköroldala www-vel, akkor írja be:

Robots.txt példa a Bitrixhez

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /személyes/
Disallow: /feltöltés/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Házigazda: sitename.com
Webhelytérkép: https://www.sitename.ru/sitemap.xml

WordPress robots.txt példa

Miután a fent leírt összes szükséges irányelvet hozzáadta. A végén egy ilyen robots fájlt kell kapnia:

Ez, hogy úgy mondjam, a robots.txt alapverziója a wordpress számára. Itt két User-agent található – az egyik mindenki számára, a másik pedig a Yandex számára, ahol a Host direktíva van megadva.

robots meta tagek

Egy oldalt vagy webhelyet nem csak a robots.txt fájllal lehet bezárni az indexelésből, ez megtehető a metatag használatával.

<meta name = "robots" content = "noindex,nofollow" >

Regisztrálnia kell a címkében, és ez a metacímke tiltja a webhely indexelését. A WordPressben vannak olyan beépülő modulok, amelyek lehetővé teszik az ilyen metacímkék beállítását, például - Platinum Seo Pack. Ezzel bármelyik oldalt bezárhatod az indexelés elől, meta tageket használ.

Feltérképezési késleltetési utasítás

Ezzel a direktívával beállíthatja, hogy mennyi ideig legyen megszakítva a keresőbot a webhelyoldalak letöltése között.

Felhasználói ügynök: *
Feltérképezés késleltetése: 5

A két oldalbetöltés közötti időtúllépés 5 másodperc lesz. A szerver terhelésének csökkentése érdekében általában 15-20 másodpercre állítják be. Erre az irányelvre nagy, gyakran frissített webhelyeknél van szükség, ahol a keresőrobotok csak „élnek”.

Normál webhelyek/blogok esetén ez az utasítás nem szükséges, de így korlátozhatja a többi irreleváns keresőrobot (Rambler, Yahoo, Bing) stb. Hiszen ők is felkeresik az oldalt és indexelik, ezáltal terhelést okozva a szerveren.

Robots.txt fájl— .txt formátumú szöveges fájl, amely korlátozza a keresőrobotok hozzáférését a http-kiszolgálón lévő tartalomhoz. Hogyan definíció, Robots.txt- Ezt robot kivétel szabvány, amelyet a W3C 1994. január 30-án fogadott el, és a legtöbb keresőmotor önkéntesen használja. A robots.txt fájl utasításokat tartalmaz a feltérképező robotok számára, amelyek megakadályozzák bizonyos fájlok, oldalak vagy könyvtárak indexelését egy webhelyen. Fontolja meg a robots.txt leírását arra az esetre, ha a webhely nem korlátozza a robotok hozzáférését a webhelyhez.

Egy egyszerű példa a robots.txt fájlra:

User-agent: * Engedélyezés: /

Itt a robotok teljes mértékben lehetővé teszik a teljes webhely indexelését.

A robots.txt fájlt fel kell tölteni webhelye gyökérkönyvtárába hogy elérhető legyen:

Your_site.ru/robots.txt

A robots.txt fájl elhelyezése a webhely gyökerében általában FTP-hozzáférést igényel. Egyes felügyeleti rendszerek (CMS) azonban lehetővé teszik a robots.txt létrehozását közvetlenül a webhely vezérlőpultjáról vagy a beépített FTP-kezelőn keresztül.

Ha a fájl elérhető, akkor a robots.txt tartalma megjelenik a böngészőben.

Mire való a robots.txt?

A webhely Roots.txt fájlja fontos szempont. Miért van szükség a robots.txt fájlra?? Például be A SEO robots.txt fájlra azért van szükség, hogy kizárja az indexelésből azokat az oldalakat, amelyek nem tartalmaznak hasznos tartalmat és még sok mást. Hogy hogyan, mit, miért és miért van kizárva, arról a cikkben már leírtuk, itt nem fogunk foglalkozni. Szükségem van egy robots.txt fájlra? minden oldal? Igen és nem. Ha a robots.txt használata magában foglalja az oldalak kizárását a keresésből, akkor az egyszerű szerkezetű és statikus oldalakon az ilyen kizárások szükségtelenek lehetnek. Azonban még egy kis oldal esetében is néhány robots.txt direktívák, mint például a Gazdagép vagy a Webhelytérkép direktíva, de erről lentebb olvashat bővebben.

A robots.txt létrehozása

Mivel a robots.txt egy szöveges fájl, és a hozzon létre egy robots.txt fájlt, használhatsz például bármilyen szövegszerkesztőt jegyzettömb. Amint megnyitott egy új szöveges dokumentumot, már megkezdte a robots.txt létrehozását, már csak a tartalmának összeállítása, az Ön igényeitől függően, és más néven mentése van hátra. robotok nevű szöveges fájl txt formátumban. Ez egyszerű, és a robots.txt fájl létrehozása még a kezdőknek sem okozhat gondot. Az alábbiakban megmutatom, hogyan kell írni a robots.txt fájlt, és mit kell írni a robotokban.

Hozzon létre online robots.txt fájlt

Lehetőség a lusták számára hozzon létre robotokat online, és töltse le a robots.txt fájlt már kész. A robotok txt online létrehozása számos szolgáltatást kínál, a választás az Öné. A legfontosabb dolog az, hogy világosan megértsük, mi lesz tilos és mi megengedett, ellenkező esetben egy robots.txt fájl online létrehozása tragédiába torkollhat amit aztán nehéz lehet korrigálni. Főleg, ha olyan dolog kerül a keresésbe, amit le kellett volna zárni. Legyen óvatos – ellenőrizze a robots fájlt, mielőtt feltölti a webhelyre. Még egyéni robots.txt fájl pontosabban tükrözi a korlátozások szerkezetét, mint az automatikusan generált és egy másik webhelyről letöltött. Olvasson tovább, hogy megtudja, mire kell különös figyelmet fordítania a robots.txt szerkesztésekor.

A robots.txt szerkesztése

Miután sikerült létrehoznia egy robots.txt fájlt online vagy kézzel, megteheti szerkessze a robots.txt fájlt. A tartalmát tetszés szerint módosíthatja, a lényeg az, hogy kövesse a robots.txt néhány szabályát és szintaxisát. Az oldalon végzett munka során a robots fájl módosulhat, és ha szerkeszti a robots.txt fájlt, akkor ne felejtse el feltölteni a fájl frissített, naprakész verzióját az összes változtatással együtt. Ezután fontolja meg a fájl beállításának szabályait, hogy megtudja hogyan kell megváltoztatni a robots.txt fájltés "ne vágj fát".

A robots.txt megfelelő beállítása

A robots.txt megfelelő beállítása lehetővé teszi, hogy elkerülje a személyes adatok megszerzését a nagy keresőmotorok keresési eredményei között. Ezt azonban ne felejtsd el A robots.txt parancsai nem mások, mint cselekvési útmutató, nem védekezés. Az olyan megbízható keresőrobotok, mint a Yandex vagy a Google, követik a robots.txt utasításait, de más robotok könnyen figyelmen kívül hagyhatják azokat. A robots.txt megfelelő megértése és használata a kulcs az eredmények eléréséhez.

Megérteni hogyan készítsünk helyes robotok txt-et, először meg kell értened a robots.txt fájl általános szabályait, szintaxisát és direktíváit.

A helyes robots.txt a User-agent utasítással kezdődik, amely jelzi, hogy az adott direktívák melyik robotnak szólnak.

Példák felhasználói ügynökre a robots.txt fájlban:

# Az összes robothoz egyidejűleg ad meg direktívákat User-agent: * # Az összes Yandex robothoz direktívát ad meg User-agent: Yandex # Csak a fő Yandex indexelő robothoz ad meg direktívákat User-agent: YandexBot # Az összes Google robot direktíváját adja meg User-agent: Googlebot

Felhívjuk figyelmét, hogy az ilyen a robots.txt fájl beállítása utasítja a robotot, hogy csak olyan direktívákat használjon, amelyek megegyeznek a felhasználói ügynök nevével.

Robots.txt példa több User-agent bejegyzéssel:

# Az összes Yandex robot fogja használni User-agent: Yandex Disallow: /*utm_ # Minden Google robot használja User-agent: Googlebot Disallow: /*utm_ # Minden robot használja, kivéve a Yandex és a Google robotok User- ügynök: * Engedélyezés: / *utm_

Felhasználói ügynök direktíva csak egy jelzést hoz létre egy adott robothoz, és közvetlenül a User-agent direktíva után kell egy vagy parancsoknak lennie, amelyek közvetlenül jelzik a kiválasztott robot állapotát. A fenti példa a "Disallow" disable direktívát használja, amelynek értéke "/*utm_". Így mindent lezárunk. A robots.txt helyes beállítása megakadályozza, hogy üres sortörések jelenjenek meg a „User-agent”, „Disallow” direktívák és a „Disallow” utáni direktívák között az aktuális „User-agent”-en belül.

Példa egy helytelen soremelésre a robots.txt fájlban:

Példa a helyes soremelésre a robots.txt fájlban:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Ahogy a példából is látszik, A robots.txt fájlban található utasítások blokkokban jelennek meg, amelyek mindegyike utasításokat tartalmaz egy adott robothoz vagy az összes robothoz "*".

Az is fontos, hogy a robots.txt fájlban a parancsok helyes sorrendjét és rendezését tartsuk be, amikor olyan direktívákat használunk, mint például a „Disallow” és az „Allow”. Az "Allow" direktíva a megengedő utasítás, és ellentéte a robots.txt "Disallow" parancsának, amely egy tiltó direktíva.

Példa az utasítások megosztására a robots.txt fájlban:

User-agent: * Allow: /blog/page Disallow: /blog

Ez a példa megakadályozza, hogy minden robot indexeljen minden "/blog" kezdetű oldalt, de lehetővé teszi a "/blog/page" kezdetű oldalak indexelését.

A robots.txt előző példája a megfelelő sorrendben:

User-agent: * Disallow: /blog Allow: /blog/page

Először letiltjuk a teljes részt, majd engedélyezzük egyes részeit.

Egy másik helyes robots.txt példa közös irányelvekkel:

User-agent: * Allow: / Disallow: /blog Engedélyezés: /blog/oldal

Ügyeljen az utasítások helyes sorrendjére ebben a robots.txt fájlban.

Az "Allow" és "Disallow" direktívák paraméterek nélkül is megadhatók, ebben az esetben az érték a "/" paraméterrel fordítottan értelmeződik.

Példa a "Disallow/Allow" direktívára paraméterek nélkül:

User-agent: * Disallow: # egyenlő az Allow: / Disallow: /blog Engedélyezés: /blog/oldal

A megfelelő robots.txt összeállítása az irányelvek értelmezésének mikéntjét pedig az Ön választása. Mindkét lehetőség helyes lesz. A lényeg, hogy ne keveredj össze.

A robots.txt helyes összeállításához pontosan meg kell adni a direktívák paramétereiben a prioritásokat és azt, hogy mit tiltanak le a robotok által. Az alábbiakban részletesebben megvizsgáljuk a "Disallow" és az "Allow" direktívák használatát, de most nézzük meg a robots.txt szintaxisát. A robots.txt szintaxisának ismeretében közelebb kerülhet saját kezűleg készítse el a tökéletes robotok txtjét.

Robots.txt szintaxis

A keresőrobotok önként követik a robots.txt parancsait- a robotok kizárási szabványa, azonban nem minden kereső értelmezi egyformán a robots.txt szintaxisát. A robots.txt fájlnak van egy szigorúan meghatározott szintaxisa, de ugyanakkor írj robotok txt-t nem nehéz, mivel szerkezete nagyon egyszerű és könnyen érthető.

Itt található az egyszerű szabályok konkrét listája, amelyek betartása kizárásra kerül gyakori robots.txt hibák:

  1. Minden direktíva új sorban kezdődik;
  2. Egy sorba ne írjon be több irányelvet;
  3. Ne tegyen szóközt a sor elejére;
  4. Az irányelv paraméterének egy sorban kell lennie;
  5. Nem kell idézőjelbe tenni az irányelv paramétereit;
  6. Az irányelv paraméterei nem igényelnek záró pontosvesszőt;
  7. A robots.txt fájlban található parancs a következő formátumban van megadva: [irányelv_neve]:[nem kötelező szóköz][érték][nem kötelező szóköz];
  8. Megjegyzések engedélyezettek a robots.txt fájlban a # font jel után;
  9. Az üres újsor értelmezhető egy User-agent direktíva végeként;
  10. A "Disallow:" direktíva (üres értékkel) egyenértékű az "Allow: /" -vel - mindent engedélyez;
  11. Az "Allow", "Disallow" direktívák legfeljebb egy paramétert adnak meg;
  12. A robots.txt fájl neve nem teszi lehetővé a nagybetűk jelenlétét, a fájlnév hibás elírása Robots.txt vagy ROBOTS.TXT;
  13. A direktívák és paraméterek nevének nagybetűs írása rossz modornak számít, és ha a szabvány szerint a robots.txt nem tesz különbséget a kis- és nagybetűk között, akkor a fájl- és könyvtárnevek gyakran megkülönböztetik a kis- és nagybetűket;
  14. Ha a direktíva paramétere egy könyvtár, akkor a könyvtár nevét mindig egy perjel előzi meg "/", például: Disallow: /category
  15. A túl nagy robots.txt (több mint 32 KB) teljes mértékben megengedőnek minősül, ami egyenértékű a "Disallow:" kifejezéssel;
  16. A valamilyen okból elérhetetlen Robots.txt teljes mértékben megengedőként kezelhető;
  17. Ha a robots.txt üres, akkor a rendszer teljesen megengedőként kezeli;
  18. Több "User-agent" direktíva üres újsor nélküli listázásának eredményeként az első kivételével minden további "User-agent" direktíva figyelmen kívül hagyható;
  19. A nemzeti ábécé jeleinek használata a robots.txt fájlban nem megengedett.

Mivel a különböző keresőmotorok eltérően értelmezhetik a robots.txt szintaxisát, néhány pont elhagyható. Például, ha több "User-agent" direktívát ad meg üres sortörés nélkül, a Yandex minden "User-agent" direktívát helyesen fogad el, mivel a Yandex a bejegyzéseket a "User-agent" sorban való jelenléte alapján emeli ki. .

A robotoknak szigorúan csak azt kell feltüntetniük, amire szükség van, és semmi többet. Ne gondolkozz hogyan kell mindent beírni robots txt-be mi lehetséges és hogyan kell kitölteni. Tökéletes robotok txt az, amelynek kevesebb sora van, de több jelentése van. "A rövidség a szellemesség lelke." Ez a kifejezés nagyon hasznos itt.

A robots.txt ellenőrzése

Azért, hogy ellenőrizze a robots.txt fájlt a fájl helyes szintaxisához és szerkezetéhez használhatja valamelyik online szolgáltatást. Például a Yandex és a Google saját szolgáltatásokat kínál a webmesterek számára, amelyek magukban foglalják robots.txt elemzése:

A robots.txt fájl ellenőrzése a Yandex.Webmasterben: http://webmaster.yandex.ru/robots.xml

Azért, hogy ellenőrizze a robots.txt fájlt online szükséges töltse fel a robots.txt fájlt a webhelyre a gyökérkönyvtárban. Ellenkező esetben a szolgáltatás jelentheti ezt nem sikerült betölteni a robots.txt fájlt. Javasoljuk, hogy először ellenőrizze a robots.txt elérhetőségét azon a címen, ahol a fájl található, például: your_site.ru/robots.txt.

A Yandex és a Google ellenőrző szolgáltatásai mellett sok más online szolgáltatás is elérhető. robots.txt érvényesítők.

Robots.txt vs Yandex és Google

Van egy szubjektív vélemény, hogy a Yandex pozitívabban érzékeli a robots.txt fájlban a „User-agent: Yandex” külön direktívablokk jelzését, mint a „User-agent: *” direktívák általános blokkját. Hasonló a helyzet a robots.txt és a Google esetében is. A Yandex és a Google külön direktíváinak megadása lehetővé teszi a webhelyindexelés kezelését a robots.txt fájlon keresztül. Talán hízelgett nekik a személyes vonzalom, különösen azért, mert a legtöbb webhelyen a Yandex, a Google és más keresőmotorok robots.txt blokkjainak tartalma ugyanaz lesz. Ritka kivételektől eltekintve az összes "User-agent" blokk rendelkezik alapértelmezett a robots.txt számára direktívák halmaza. Ezenkívül különböző "Felhasználói ügynökök" használatával telepíthet a robots.txt fájlban való indexelés tilalma a Yandex számára, de például nem a Google számára.

Külön érdemes megjegyezni, hogy a Yandex figyelembe vesz egy olyan fontos direktívát, mint a "Host", és a Yandex megfelelő robots.txt-jének tartalmaznia kell ezt az irányelvet, hogy jelezze a webhely fő tükrét. A "Host" irányelvet az alábbiakban részletesebben tárgyaljuk.

Indexelés letiltása: robots.txt Disallow

Disallow – tiltó utasítás, amelyet leggyakrabban a robots.txt fájlban használnak. A Disallow tiltja a webhely vagy annak egy részének indexelését, a Disallow direktíva paraméterében megadott elérési úttól függően.

Példa a webhelyindexelés letiltására a robots.txt fájlban:

User-agent: * Disallow: /

Ez a példa bezárja a teljes webhelyet az indexelés elől minden robot számára.

A speciális * és $ karakterek használhatók a Disallow direktíva paraméterében:

* - tetszőleges számú karakter, például a /page* paraméter kielégíti a /page, /page1, /page-be-cool, /page/kak-skazat stb. Nem szükséges azonban minden paraméter végén megadni a *-t, mivel például a következő direktívák értelmezése azonos:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - a kivétel pontos egyezését jelzi a paraméterértékkel:

Felhasználói ügynök: Googlebot Disallow: /page$

Ebben az esetben a Disallow utasítás letiltja a /page, de nem tiltja meg a /page1, /page-be-cool vagy /page/kak-skazat indexelését.

Ha zárja be a robots.txt webhelyindexelést, a keresőmotorok egy ilyen lépésre a „Blocked in robots.txt fájlban” vagy „az URL-t a robots.txt korlátozza” (az URL-t a robots.txt fájl tiltja) hibával válaszolhatják. Ha szükséged van oldalindexelés letiltása, nem csak robots txt-t, hanem hasonló html címkéket is használhatsz:

  • - ne indexelje az oldal tartalmát;
  • - ne kövesse az oldalon található hivatkozásokat;
  • - tilos tartalmat indexelni és linkeket követni az oldalon;
  • - hasonló a content="none"-hoz.

Indexelés engedélyezése: robots.txt Engedélyezés

Engedélyezés – engedélyező direktívaés a Disallow direktíva ellentéte. Ennek az irányelvnek a szintaxisa hasonló a Disallow-hoz.

Példa a webhelyindexelés letiltására a robots.txt fájlban, kivéve néhány oldalt:

User-agent: * Disallow: /Allow: /page

Tilos a teljes oldal indexelése, kivéve a /page kezdetű oldalakat.

Disallow és Allow üres paraméterértékkel

Egy üres Disallow direktíva:

User-agent: * Disallow:

Ne tiltson semmit, és ne engedélyezze a teljes webhely indexelését, és egyenértékű:

User-agent: * Engedélyezés: /

Üres utasítás Engedélyezi:

User-agent: * Engedélyezés:

Semmit sem engedélyez vagy a webhelyindexelés teljes tiltása a következővel egyenértékű:

User-agent: * Disallow: /

Főoldal tükör: robots.txt gazdagép

A Host direktíva arra szolgál, hogy jelezze a Yandex robotnak a webhely fő tükrét. Az összes népszerű keresőmotor közül az irányelv A gazdagépet csak a Yandex robotok ismerik fel. A Host direktíva akkor hasznos, ha webhelye több webhelyen is elérhető, például:

mysite.ru mysite.com

Vagy prioritást adjon a következők között:

Saját oldal.ru www.mysite.ru

Megmondhatja a Yandex robotnak, hogy melyik tükör a fő. A Host direktíva a "User-agent: Yandex" direktíva blokkban van megadva, és paraméterként a preferált webhely címe jelenik meg "http://" nélkül.

Példa a fő tükröt jelző robots.txt fájlra:

Felhasználói ügynök: Yandex Disallow: /page Host: mysite.ru

A mysite.ru domain név www nélkül van feltüntetve főtükörként. Így ez a típusú cím megjelenik a keresési eredmények között.

Felhasználói ügynök: Yandex Disallow: /page Host: www.mysite.ru

A www.mysite.ru domain név fő tükörként jelenik meg.

Host direktíva a robots.txt fájlban csak egyszer használható, ha a Host direktívát többször adjuk meg, akkor csak az elsőt veszi figyelembe, a többi Host direktívát figyelmen kívül hagyja.

Ha meg szeretné adni a Googlebot fő tükrét, használja a Google Webmestereszközök szolgáltatást.

Webhelytérkép: robots.txt webhelytérkép

A Webhelytérkép direktíva segítségével megadhatja a helyet a webhelyen a robots.txt fájlban.

Robots.txt példa webhelytérkép-címmel:

User-agent: * Disallow: /page Webhelytérkép: http://www.mysite.ru/sitemap.xml

Az oldaltérkép címének megadása keresztül sitemap direktíva a robots.txt fájlban lehetővé teszi a keresőrobot számára, hogy tájékozódjon a webhelytérkép jelenlétéről, és elkezdje indexelni.

Clean-param irányelv

A Clean-param direktíva lehetővé teszi a dinamikus paraméterekkel rendelkező oldalak kizárását az indexelésből. A hasonló oldalak ugyanazt a tartalmat jeleníthetik meg különböző oldal URL-ekkel. Egyszerűen fogalmazva, mintha az oldal különböző címeken érhető el. A mi feladatunk az összes felesleges dinamikus cím eltávolítása, ami akár millió is lehet. Ehhez kizárunk minden dinamikus paramétert, a Clean-param direktíva használatával a robots.txt fájlban.

A Clean-param direktíva szintaxisa:

Tiszta paraméter: parm1[&parm2&parm3&parm4&..&parmn] [elérési út]

Tekintsünk példát egy oldalra a következő URL-lel:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Példa robots.txt Clean-param:

Clean-param: csak parm1&parm2&parm3 /page.html # page.html

Clean-param: parm1&parm2&parm3 / # mindenkinek

Feltérképezési késleltetési utasítás

Ez az utasítás lehetővé teszi, hogy csökkentse a szerver terhelését, ha a robotok túl gyakran látogatják a webhelyet. Ez az irányelv főleg a nagy mennyiségű oldalt tartalmazó webhelyekre vonatkozik.

Példa robots.txt feltérképezési késleltetésre:

User-agent: Yandex Disallow: /page Feltérképezési késleltetés: 3

Ebben az esetben "megkérjük" a Yandex robotokat, hogy legfeljebb három másodpercenként töltsék le webhelyünk oldalait. Néhány keresőmotor támogatja a decimális formátumot paraméterként Feltérképezési késleltetésű robots.txt direktívák.

Ennek az útmutatónak az a célja, hogy segítse a webmestereket és a rendszergazdákat a robots.txt használatában.

Bevezetés

A robotkivétel szabvány lényegében nagyon egyszerű. Röviden, ez így működik:

Amikor egy szabványnak megfelelő robot felkeres egy webhelyet, először egy "/robots.txt" nevű fájlt kér. Ha ilyen fájlt talál, a Robot olyan utasításokat keres benne, amelyek tiltják a webhely egyes részeinek indexelését.

Hol helyezze el a robots.txt fájlt

A robot egyszerűen bekéri az Ön webhelyére a „/robots.txt” URL-címet, a webhely ebben az esetben egy adott porton lévő adott gazdagép.

Weboldal URL Robots.txt URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Webhelyenként csak egy „/robots.txt” fájl lehet. Például ne helyezze el a robots.txt fájlt a felhasználói alkönyvtárakba – a robotok úgysem ott fogják keresni őket. Ha szeretne robots.txt fájlokat létrehozni alkönyvtárakba, akkor szüksége van egy módra, hogy programozottan összeállítsa őket egyetlen robots.txt fájlba, amely a webhely gyökerében található. Ehelyett használhatja a .

Ne felejtse el, hogy az URL-címek megkülönböztetik a kis- és nagybetűket, és a „/robots.txt” fájlnevet teljes egészében kisbetűkkel kell írni.

A robots.txt helytelen helye
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt A fájl nem a webhely gyökerében található
ftp://ftp.w3.com/robots.txt A robotok nem indexelik az ftp-t
http://www.w3.org/Robots.txt A fájlnév nem kisbetűs

Amint látja, a robots.txt fájlt kizárólag a webhely gyökerében kell elhelyezni.

Mit kell írni a robots.txt fájlba

A robots.txt fájl általában valami ilyesmit ír le:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Ebben a példában három könyvtár indexelése tilos.

Ne feledje, hogy minden könyvtár külön sorban van – nem írhatja be a "Disallow: /cgi-bin/ /tmp/" kifejezést. Nem oszthat fel egyetlen Disallow vagy User-agent utasítást sem több sorra, mint pl sortörés az utasítások egymástól való elválasztására szolgál.

Reguláris kifejezések és helyettesítő karakterek sem használhatók. A User-agent utasításban szereplő csillag (*) azt jelenti, hogy "bármely robot". Az olyan utasítások, mint a „Disallow: *.gif” vagy a „User-agent: Ya*” nem támogatottak.

A robots.txt fájlban található konkrét utasítások webhelyétől és attól függenek, hogy mit szeretne megakadályozni az indexelésben. Íme néhány példa:

Megakadályozza, hogy a teljes webhelyet minden robot indexelje

User-agent: *
letilt: /

Engedélyezze az összes robot számára a teljes webhely indexelését

User-agent: *
Letiltás:

Vagy egyszerűen létrehozhat egy üres "/robots.txt" fájlt.

Csak néhány könyvtárat zárjon be az indexelésből

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /privát/

Tiltsa le a webhelyindexelést csak egy robot számára

Felhasználói ügynök: BadBot
letilt: /

Engedélyezze a webhely indexelését egy robot számára, és tiltsa le az összes többit

Felhasználói ügynök: Yandex
Letiltás:

User-agent: *
letilt: /

Egy kivételével az összes fájl indexelésének tiltása

Ez elég nehéz, mert. nincs "Engedélyezés" utasítás. Ehelyett az összes fájlt áthelyezheti egy alkönyvtárba, kivéve azt, amelyet indexelni szeretne, és letilthatja az indexelést:

User-agent: *
Disallow: /docs/

Vagy letilthatja az összes indexelést tiltott fájlt:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Sziasztok! Ma arról szeretnék mesélni robots.txt fájl. Igen, sok mindent írnak róla az interneten, de őszintén szólva nagyon sokáig magam sem tudtam rájönni, hogyan kell elkészíteni a megfelelő robots.txt fájlt. Végül készítettem egyet, és minden blogomon megtalálható. Nem észlelek semmilyen problémát a robots.txt fájllal, jól működik.

Robots.txt a WordPresshez

És valójában miért van szükségünk a robots.txt fájlra? A válasz továbbra is ugyanaz -. Vagyis a robots.txt fordítása az oldal keresőoptimalizálásának egyik része (egyébként hamarosan lesz egy lecke, ami a WordPress oldal teljes belső optimalizálásának lesz szentelve. Ne feledje tehát előfizetni az RSS-re, hogy ne maradjon le érdekes anyagokról.).

Ennek a fájlnak az egyik funkciója az indexelés tilalma az oldal felesleges oldalait. Ezenkívül beállítja a címet és előírja a főcímet oldaltükör(webhely www-vel vagy anélkül).

Megjegyzés: a keresőmotorok számára ugyanaz a webhely www-vel és www nélkül teljesen különböző webhelyek. De miután felismerték, hogy ezeknek a webhelyeknek a tartalma ugyanaz, a keresőmotorok „összeragasztják” őket. Ezért fontos a fő webhelytükör regisztrálása a robots.txt fájlban. Ha meg szeretné tudni, melyik a fő (www-vel vagy www nélkül), csak írja be webhelye címét a böngészőbe, például www-vel, ha automatikusan átirányítunk ugyanarra a webhelyre www nélkül, akkor a fő tükör webhelye www. Remélem jól magyaráztam.

Szóval, véleményem szerint ez dédelgetett javítsa ki a robots.txt fájlt a wordpress számára Alább láthatod.

Javítsa ki a Robots.txt fájlt a WordPresshez

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Felhasználói ügynök: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
host: site
.gz
Webhelytérkép: https://site/sitemap.xml

Mindazt, ami fent van megadva, egy szöveges dokumentumba kell másolnia .txt kiterjesztéssel, vagyis a fájlnév legyen robots.txt. Ezt a szöveges dokumentumot például a program segítségével hozhatja létre. Csak kérlek ne felejtsd el változás az utolsó három sorban címet a weboldalad címére. A robots.txt fájlnak a blog gyökerében kell lennie, vagyis ugyanabban a mappában, ahol a wp-content, wp-admin stb.

Azok, akik lusták ezt a szöveges fájlt létrehozni, egyszerűen letölthetik a robots.txt fájlt, és javíthatnak ott 3 sort.

Szeretném megjegyezni, hogy a műszaki részeknél, amelyekről az alábbiakban lesz szó, nem kell erősen megterhelnie magát. A „tudás” kedvéért idézem őket, hogy úgy mondjam, egy általános kitekintés, hogy tudják, mire van szükség és miért.

Tehát a sor:

user-agent

beállítja a szabályokat egyes keresőmotorokhoz: például a „*” (csillag) azt jelzi, hogy a szabályok minden keresőmotorra érvényesek, és ami lent van

Felhasználói ügynök: Yandex

azt jelenti, hogy ezek a szabályok csak a Yandexre vonatkoznak.

Letiltás
Ide „lökdösöd” azokat a részeket, amelyeket NEM kell indexelni a keresőmotoroknak. Például a https://site/tag/seo oldalon duplikált cikkek (ismétlődés) vannak rendes cikkekkel, és az oldalak sokszorosítása negatívan befolyásolja a keresők promócióját, ezért nagyon kívánatos, hogy ezeket a szektorokat le kell zárni indexelés, amit ezzel a szabállyal végzünk:

Disallow: /tag

Tehát a fent megadott robots.txt-ben a WordPress oldal szinte minden felesleges része le van zárva az indexelés elől, vagyis csak hagyjunk mindent úgy, ahogy van.

Házigazda

Itt állítjuk be az oldal fő tükrét, amiről beszéltem egy kicsit feljebb.

Webhelytérkép

Az utolsó két sorban legfeljebb két webhelytérkép címét adjuk meg, amelyek a segítségével készültek.

Lehetséges problémák

De a robots.txt ezen sora miatt a webhelyem bejegyzései már nem indexelve:

Disallow: /*?*

Mint látható, a robots.txt-ben éppen ez a sor tiltja a cikkek indexelését, amire természetesen egyáltalán nincs szükségünk. Ennek kijavításához csak el kell távolítania ezt a 2 sort (az összes keresőmotorra és a Yandexre vonatkozó szabályokból), és a végső helyes robots.txt egy CNC nélküli WordPress webhelyhez így fog kinézni:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

Felhasználói ügynök: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
host: site
Webhelytérkép: https://site/sitemap.xml

Annak ellenőrzéséhez, hogy megfelelően fordítottuk-e le a robots.txt fájlt, azt javaslom, hogy használja a Yandex Webmester szolgáltatást (mondtam, hogyan kell regisztrálni ebben a szolgáltatásban).

Megyünk a szakaszhoz Indexelési beállítások –> Robots.txt elemzés:

Már ott kattintson a „Robots.txt letöltése a webhelyről” gombra, majd kattintson az „Ellenőrzés” gombra:

Ha a következő üzenethez hasonlót lát, akkor a megfelelő robots.txt a Yandexhez:

Helló! Volt egy időszak az életemben, amikor egyáltalán semmit sem tudtam a weboldalkészítésről, és még inkább nem tudtam a robots.txt fájl létezéséről.

Amikor egy egyszerű érdeklődés komoly hobbivá nőtte ki magát, erő és vágy támadt minden finomság elsajátítására. A fórumokon sok témát találhat ehhez a fájlhoz, miért? Egyszerű: a robots.txt szabályozza a keresőmotorok oldalhoz való hozzáférését, az indexelés kezelését, és ez nagyon fontos!

Robots.txt egy szöveges fájl, amelyet arra terveztek, hogy korlátozza a keresőrobotok hozzáférését a webhely azon részeihez és oldalaihoz, amelyeket ki kell zárni a feltérképezésből és a keresési eredményekből.

Miért kell elrejteni bizonyos webhelytartalmakat? Nem valószínű, hogy örülni fog, ha a keresőrobot indexeli a webhely adminisztrációs fájljait, amelyek jelszavakat vagy más titkos információkat tárolhatnak.

Különféle irányelvek szabályozzák a hozzáférést:

  • User-agent – ​​felhasználói ügynök, amelyhez hozzáférési szabályok vannak megadva,
  • Disallow – megtagadja a hozzáférést az URL-hez,
  • Engedélyezés – hozzáférést biztosít az URL-hez,
  • Webhelytérkép - jelzi a webhely elérési útját,
  • Feltérképezés késleltetése – beállítja az URL feltérképezési időközét (csak a Yandex esetén),
  • Clean-param – a dinamikus URL-paraméterek figyelmen kívül hagyása (csak Yandex),
  • Gazda – a fő webhelytükröt jelöli (csak a Yandex esetében).

Felhívjuk figyelmét, hogy 2018. március 20-a óta a Yandex hivatalosan leállította a Host direktíva támogatását. Eltávolítható a robots.txt fájlból, és ha elhagyják, a robot egyszerűen figyelmen kívül hagyja.

A fájlnak a webhely gyökérkönyvtárában kell lennie. Ha a webhely aldomainekkel rendelkezik, akkor minden aldomainnek megvan a saját robots.txt fájlja.

Mindig tartsa szem előtt a biztonságot. Ezt a fájlt bárki megtekintheti, így nem kell benne explicit módon megadni az adminisztrációs erőforrások (vezérlőpultok stb.) elérési útját. Ahogy a mondás tartja, minél kevesebbet tudsz, annál jobban alszol. Ezért ha nincs link az oldalra és nem akarod indexelni, akkor nem kell regisztrálnod a robotokba, úgysem találja meg senki, még a pókrobotok sem.

Egy webhely feltérképezése során a keresőrobot mindenekelőtt a robots.txt fájl jelenlétét ellenőrzi a webhelyen, majd követi annak utasításait az oldalak feltérképezésekor.

Azonnal szeretném megjegyezni, hogy a keresőmotorok eltérően kezelik ezt a fájlt. Például a Yandex feltétel nélkül követi a szabályait, és kizárja a tiltott oldalakat az indexelésből, míg a Google ezt a fájlt ajánlásnak tekinti, semmi többnek.

Az oldalak indexelésének letiltásához más módszereket is használhat:

  • átirányítás vagy egy könyvtárba a .htaccess fájl használatával,
  • meta tag noindex (nem tévesztendő össze a címkével a szöveg egy részének indexelésének megakadályozása érdekében),
  • attribútum a hivatkozásokhoz, valamint az extra oldalakra mutató hivatkozások eltávolítása.

A Google ugyanakkor sikeresen felveheti a keresési eredmények közé olyan oldalakat, amelyek indexelése minden korlátozás ellenére tilos. Fő érve az, hogy ha az oldal linkelve van, akkor az megjelenhet a keresési eredmények között. Ebben az esetben nem ajánlatos ilyen oldalakat linkelni, de elnézést, a robots.txt fájl csak arra való, hogy az ilyen oldalakat kizárja a keresési eredmények közül... Szerintem semmi logika 🙄

Oldalak eltávolítása a keresésből

Ha a tiltott oldalak továbbra is indexelve voltak, akkor a Google Search Console-t és annak URL-eltávolító eszközét kell használnia:

Hasonló eszköz érhető el a Yandex Webmasterben. Az oldalak keresőindexéből való törléséről egy külön cikkben olvashat bővebben.

Ellenőrizze a robots.txt fájlt

Folytatva a témát a Google-lal, használhat egy másik Search Console-eszközt, és ellenőrizze a robots.txt fájlt, hogy megbizonyosodjon arról, hogy megfelelően van-e megírva, hogy megakadályozza bizonyos oldalak indexelését:

Ehhez csak írja be az ellenőrizni kívánt URL-eket a szövegmezőbe, majd kattintson az Ellenőrzés gombra - az ellenőrzés eredményeként kiderül, hogy az oldal nem indexelhető-e, vagy a tartalma kereshető-e robotok.

A Yandex is rendelkezik egy hasonló eszközzel a Webmesterben, az ellenőrzést hasonló módon hajtják végre:

Ha nem tudja, hogyan kell helyesen összeállítani a fájlt, akkor egyszerűen hozzon létre egy üres szöveges dokumentumot a névvel robots.txt, és miközben tanulmányozza a CMS funkcióit és az oldal szerkezetét, egészítse ki a szükséges irányelvekkel.

A fájl helyes összeállításáról a linken olvashat. Találkozunk!



A témát folytatva:
ablakok

Natalya Komarova , 2009. 05. 28. (2018. 03. 25.) Amikor egy fórumot vagy blogot olvasol, a bejegyzések szerzőire becenévvel és ... a felhasználó képével, az úgynevezett avatárral... emlékszel.