robots txt komande. Kako urediti robote txt. Zašto vam treba skeniranje

Robots.txt- ovo je tekstualna datoteka koja se nalazi u korijenu stranice - http://site.ru/robots.txt. Njegova glavna svrha je postavljanje određenih direktiva pretraživačima - šta i kada da rade na sajtu.

Najjednostavniji Robots.txt

Najjednostavniji robots.txt, koji omogućava svim pretraživačima da sve indeksiraju, izgleda ovako:

Korisnički agent : *
Disallow :

Ako direktiva Disallow nema kosu crtu na kraju, tada je dozvoljeno indeksiranje svih stranica.

Ova direktiva u potpunosti zabranjuje indeksiranje stranice:

Korisnički agent : *
Disallow: /

Korisnički agent - označava kome su direktive namenjene, zvjezdica označava da za sve PS, za Yandex označavaju User-agent: Yandex.

Pomoć za Yandex kaže da njegovi pretraživači obrađuju User-agent: * , ali ako je User-agent: Yandex prisutan, User-agent: * se zanemaruje.

Disallow i Allow direktive

Postoje dvije glavne direktive:

Disallow - zabraniti

Dozvoliti - dozvoliti

primjer: Na blogu smo zabranili indeksiranje /wp-content/ foldera u kojem se nalaze dodaci, šabloni itd. Ali postoje i slike koje PS mora indeksirati da bi učestvovali u pretraživanju slika. Da biste to učinili, morate koristiti sljedeću shemu:

Korisnički agent : *
Dozvoli : /wp-content/uploads/ # Dozvolite da slike budu indeksirane u folderu za otpremanje
Disallow : /wp-content/

Redoslijed kojim se direktive koriste je važan za Yandex ako se primjenjuju na iste stranice ili mape. Ako ovako specificirate:

Korisnički agent : *
Disallow : /wp-content/
Dozvoli : /wp-content/uploads/

Yandex robot neće učitavati slike iz direktorija /uploads/, jer se izvršava prva direktiva koja odbija svaki pristup folderu wp-content.

Google to olakšava i slijedi sve direktive datoteke robots.txt, bez obzira na njihovu lokaciju.

Također, ne zaboravite da direktive sa i bez kose crte imaju različitu ulogu:

Disallow: /about Zabranjuje pristup cijelom direktoriju site.ru/about/, a stranice koje sadrže about - site.ru/about.html , site.ru/aboutlive.html, itd. neće biti indeksirane.

Disallow: /o/ Zabranit će robotima da indeksiraju stranice u direktoriju site.ru/about/ i stranice poput site.ru/about.html, itd. biće dostupan za indeksiranje.

Regularni izrazi u robots.txt

Podržana su dva znaka, a to su:

* - podrazumijeva bilo koji redoslijed znakova.

primjer:

Disallow: /o*će zabraniti pristup svim stranicama koje sadrže o, u principu, i bez zvjezdice, takva direktiva će također raditi. Ali u nekim slučajevima ovaj izraz nije zamjenjiv. Na primjer, u jednoj kategoriji postoje stranice sa .html na kraju i bez, da bismo zatvorili sve stranice koje sadrže html iz indeksiranja, pišemo sljedeću direktivu:

Disallow : /about/*.html

Sada je stranica site.ru/about/live.html zatvorena od indeksiranja, a stranica site.ru/about/live je otvorena.

Još jedan primjer analogije:

Korisnički agent: Yandex
Dozvoli : /about/*.html #allow indeksiranje
Disallow : /o/

Sve stranice će biti zatvorene, osim stranica koje završavaju na .html

$ - odsiječe ostatak i označava kraj linije.

primjer:

Disallow: /about- Ova direktiva robots.txt zabranjuje indeksiranje svih stranica koje počinju s about , kao i zabranu stranica u /about/ direktoriju.

Dodavanjem znaka dolara na kraju - Disallow: /about$ reći ćemo robotima da samo /about stranica ne može biti indeksirana, već /about/ direktorij, /aboutlive stranice, itd. može se indeksirati.

Sitemap Directive

Ova direktiva specificira putanju do Sitemap-a, kako slijedi:

Mapa sajta: http://site.ru/sitemap.xml

Host Directive

Navedeno u ovom obrascu:

Domaćin: site.ru

Bez http://, kose crte i slično. Ako imate glavno ogledalo sa www, onda napišite:

Robots.txt primjer za Bitrix

Korisnički agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /osobno/
Disallow: /upload/
Zabraniti: /traži/
Zabraniti: /*/traži/
Zabraniti: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*promjena_lozinke=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: sitename.com
Mapa sajta: https://www.sitename.ru/sitemap.xml

Primjer WordPress robots.txt

Nakon što su dodate sve potrebne direktive opisane gore. Trebali biste završiti s robots fajlom kao što je ovaj:

Ovo je, da tako kažem, osnovna verzija robots.txt za wordpress. Ovdje postoje dva korisnička agenta - jedan za svakoga, a drugi za Yandex, gdje je specificirana Host direktiva.

robots meta tagovi

Moguće je zatvoriti stranicu ili web mjesto od indeksiranja ne samo pomoću datoteke robots.txt, već se to može učiniti pomoću meta oznake.

<meta name = "robots" content = "noindex,nofollow" >

Morate ga registrirati u tag-u i ovaj meta tag će zabraniti indeksiranje stranice. U WordPress-u postoje dodaci koji vam omogućavaju postavljanje takvih meta tagova, na primjer - Platinum Seo Pack. Pomoću njega možete zatvoriti bilo koju stranicu od indeksiranja, koristi meta tagove.

Direktiva odgode puzanja

Pomoću ove direktive možete postaviti vrijeme za koje bi bot za pretraživanje trebao biti prekinut između preuzimanja stranica web stranice.

Korisnički agent : *
Odlaganje puzanja : 5

Vremensko ograničenje između dva učitavanja stranice bit će 5 sekundi. Kako bi smanjili opterećenje servera, obično ga postavljaju na 15-20 sekundi. Ova direktiva je potrebna za velike, često ažurirane stranice na kojima botovi za pretragu samo "žive".

Za obične stranice/blogove ova direktiva nije potrebna, ali na taj način možete ograničiti ponašanje drugih irelevantnih robota za pretraživanje (Rambler, Yahoo, Bing) itd. Uostalom, oni također posjećuju stranicu i indeksiraju je, stvarajući tako opterećenje na serveru.

Robots.txt fajl— tekstualni fajl u .txt formatu koji robotima za pretragu ograničava pristup sadržaju na http serveru. Kako definicija, Robots.txt- Ovo Standard izuzetaka robota, koji je usvojio W3C 30. januara 1994. godine i dobrovoljno ga koristi većina pretraživača. Datoteka robots.txt sastoji se od skupa uputstava za indeksiranje kako bi spriječili indeksiranje određenih datoteka, stranica ili direktorija na web lokaciji. Razmotrite opis robots.txt za slučaj kada web stranica ne ograničava pristup stranici robotima.

Jednostavan primjer robots.txt:

Korisnički agent: * Dozvoli: /

Ovdje roboti u potpunosti omogućavaju indeksiranje cijele stranice.

Datoteka robots.txt mora biti učitana u korijenski direktorij vaše web stranice tako da je dostupan na:

Your_site.ru/robots.txt

Postavljanje datoteke robots.txt u korijen stranice obično zahtijeva FTP pristup. Međutim, neki sistemi upravljanja (CMS) vam omogućavaju da kreirate robots.txt direktno sa kontrolne table sajta ili preko ugrađenog FTP menadžera.

Ako je datoteka dostupna, tada ćete vidjeti sadržaj robots.txt u pretraživaču.

Čemu služi robots.txt?

Roots.txt za web lokaciju je važan aspekt. Zašto je robots.txt potreban? Na primjer, u SEO robots.txt je potreban kako bi se iz indeksiranja isključile stranice koje ne sadrže koristan sadržaj i još mnogo toga. Kako, šta, zašto i zašto je isključeno već je opisano u članku o tome, ovdje se nećemo zadržavati. Da li mi treba robots.txt fajl sve stranice? Da i ne. Ako korištenje robots.txt podrazumijeva isključivanje stranica iz pretraživanja, onda za male web stranice sa jednostavnom strukturom i statičnim stranicama takva izuzimanja mogu biti nepotrebna. Međutim, čak i za male stranice, neke robots.txt direktive, kao što su direktiva Host ili Sitemap, ali više o tome u nastavku.

Kako kreirati robots.txt

Pošto je robots.txt tekstualna datoteka, i to kreirajte robots.txt datoteku, možete koristiti bilo koji uređivač teksta, na primjer notepad. Čim ste otvorili novi tekstualni dokument, već ste počeli kreirati robots.txt, preostaje samo da komponujete njegov sadržaj, ovisno o vašim zahtjevima, i sačuvate ga kao tekstualnu datoteku koja se zove roboti u txt formatu. Jednostavno je, a kreiranje datoteke robots.txt ne bi trebalo da stvara probleme čak ni početnicima. U nastavku ću vam pokazati kako napisati robots.txt i šta napisati u robots.

Kreirajte robots.txt na mreži

Opcija za lijene kreirajte robote na mreži i preuzmite robots.txt datoteku već spreman. Kreiranje robota txt online nudi mnoge usluge, izbor je na vama. Glavna stvar je jasno razumjeti šta će u suprotnom biti zabranjeno, a šta dozvoljeno kreiranje robots.txt datoteke na mreži može se pretvoriti u tragedijušto onda može biti teško ispraviti. Pogotovo ako nešto što je trebalo zatvoriti uđe u pretragu. Budite oprezni - provjerite svoju datoteku robota prije nego što je otpremite na stranicu. Ipak prilagođena datoteka robots.txt preciznije odražava strukturu ograničenja od one koja je automatski generirana i preuzeta s druge stranice. Čitajte dalje da biste saznali na šta treba obratiti posebnu pažnju prilikom uređivanja robots.txt.

Uređivanje robots.txt

Nakon što ste uspjeli kreirati robots.txt datoteku online ili ručno, možete uredi robots.txt. Možete mijenjati njegov sadržaj kako želite, glavna stvar je da se pridržavate nekih pravila i sintakse robots.txt. U procesu rada na stranici, datoteka robota se može promijeniti, a ako uređujete robots.txt, ne zaboravite učitati ažuriranu, ažurnu verziju datoteke sa svim promjenama na stranici. Zatim razmotrite pravila za postavljanje datoteke da biste znali kako promijeniti robots.txt datoteku i "ne cijepati drva."

Ispravno podešavanje robots.txt

Ispravno podešavanje robots.txt omogućava vam da izbjegnete dobivanje privatnih informacija u rezultatima pretraživanja glavnih pretraživača. Međutim, nemojte to zaboraviti Naredbe robots.txt nisu ništa drugo do vodič za akciju, a ne odbrana. Pouzdani roboti pretraživača kao što su Yandex ili Google slijede upute robots.txt, ali ih drugi roboti lako mogu zanemariti. Pravilno razumijevanje i korištenje robots.txt je ključ za postizanje rezultata.

Razumjeti kako napraviti ispravan txt robota, prvo morate razumjeti opća pravila, sintaksu i direktive datoteke robots.txt.

Ispravan robots.txt počinje direktivom User-agent, koji označava kojem robotu su upućene specifične direktive.

Primjeri korisničkih agenata u robots.txt:

# Određuje direktive za sve robote istovremeno Korisnički agent: * # Određuje direktive za sve Yandex robote Korisnički agent: Yandex # Određuje direktive samo za glavnog Yandex robota za indeksiranje Korisnički agent: YandexBot # Određuje direktive za sve Google robote Korisnički agent: Googlebot

Imajte na umu da je takva postavljanje datoteke robots.txt govori robotu da koristi samo direktive koje odgovaraju korisničkom agentu s njegovim imenom.

Primjer Robots.txt s više unosa korisničkog agenta:

# Koristit će ga svi Yandex roboti. agent: * Dozvoli: / *utm_

Direktiva korisničkog agenta kreira samo indikaciju određenom robotu, a odmah iza direktive User-agent treba da stoji komanda ili komande sa direktnom indikacijom stanja za izabranog robota. Gornji primjer koristi direktivu onemogućavanja "Disallow", koja ima vrijednost "/*utm_". Time zatvaramo sve. Ispravna postavka robots.txt sprječava prisustvo praznih prijeloma reda između "User-agent", "Disallow" direktiva i direktiva nakon "Disallow" unutar trenutnog "User-agenta".

Primjer pogrešnog unosa reda u robots.txt:

Primjer ispravnog dodavanja reda u robots.txt:

Korisnički agent: Yandex Disallow: /*utm_ Dozvoli: /*id= Korisnički agent: * Disallow: /*utm_ Dozvoli: /*id=

Kao što možete vidjeti iz primjera, uputstva u robots.txt dolaze u blokovima, od kojih svaki sadrži upute za određenog robota ili za sve robote "*".

Također je važno zadržati ispravan redoslijed i sortiranje naredbi u robots.txt kada zajedno koristite direktive kao što su "Disallow" i "Allow". Direktiva "Allow" je direktiva dopuštenja i suprotna je naredbi robots.txt "Disallow", koja je zabrana direktive.

Primjer dijeljenja direktiva u robots.txt:

Korisnički agent: * Dozvoli: /blog/stranica Disallow: /blog

Ovaj primjer sprječava sve robote da indeksiraju sve stranice koje počinju sa "/blog", ali dozvoljava indeksiranje stranica koje počinju sa "/blog/page".

Prethodni primjer robots.txt u ispravnom sortiranju:

Korisnički agent: * Disallow: /blog Dozvoli: /blog/page

Prvo deaktiviramo cijeli odjeljak, a zatim dopuštamo neke njegove dijelove.

Drugi ispravan primjer robots.txt sa zajedničkim direktivama:

Korisnički agent: * Dozvoli: / Disallow: /blog Dozvoli: /blog/stranica

Obratite pažnju na ispravan slijed direktiva u ovoj robots.txt.

Direktive "Allow" i "Disallow" također se mogu specificirati bez parametara, u kom slučaju će vrijednost biti interpretirana obrnuto od parametra "/".

Primjer "Disallow/Allow" direktive bez parametara:

User-agent: * Disallow: # je ekvivalentno Dozvoli: / Disallow: /blog Dozvoli: /blog/page

Kako sastaviti ispravan robots.txt a kako ćete koristiti tumačenje direktiva je vaš izbor. Obje opcije će biti ispravne. Glavna stvar je da se ne zbunite.

Za ispravnu kompilaciju robots.txt, potrebno je precizno navesti prioritete u parametrima direktiva i šta će robotima biti zabranjeno za preuzimanje. U nastavku ćemo detaljnije pogledati upotrebu direktiva "Disallow" i "Allow", ali sada pogledajmo sintaksu robots.txt. Poznavanje sintakse robots.txt će vas približiti kreirajte savršene robote txt vlastitim rukama.

Robots.txt sintaksa

Roboti pretraživača dobrovoljno slijede komande robots.txt- standard za izuzimanje robota, međutim, ne tumače svi pretraživači sintaksu robots.txt na isti način. Datoteka robots.txt ima strogo definiranu sintaksu, ali u isto vrijeme pisati robots txt nije teško jer je njegova struktura vrlo jednostavna i lako razumljiva.

Evo određene liste jednostavnih pravila, slijedeći koja ćete isključiti uobičajene greške robots.txt:

  1. Svaka direktiva počinje u novom redu;
  2. Nemojte uključivati ​​više od jedne direktive u jednu liniju;
  3. Ne stavljajte razmak na početak reda;
  4. Parametar direktive mora biti u jednom redu;
  5. Ne morate stavljati parametre direktive u navodnike;
  6. Parametri direktive ne zahtijevaju zatvaranje tačaka i zareza;
  7. Komanda u robots.txt je navedena u formatu - [ime_direktive]:[opcioni prostor][vrijednost][opcioni razmak];
  8. Komentari su dozvoljeni u robots.txt nakon znaka funte #;
  9. Prazan novi red može se protumačiti kao kraj direktive User-agent;
  10. Direktiva "Disallow:" (sa praznom vrijednošću) je ekvivalentna "Allow: /" - dozvoli sve;
  11. Direktive "Allow", "Disallow" ne specificiraju više od jednog parametra;
  12. Naziv datoteke robots.txt ne dozvoljava prisustvo velikih slova, pogrešno je napisan naziv datoteke Robots.txt ili ROBOTS.TXT;
  13. Pisanje imena direktiva i parametara velikim slovima smatra se lošim manirima, a ako, prema standardu, robots.txt ne razlikuje velika i mala slova, nazivi datoteka i direktorija često su osjetljivi na velika i mala slova;
  14. Ako je parametar direktive direktorij, tada imenu direktorija uvijek prethodi kosa crta "/", na primjer: Disallow: /category
  15. Preveliki robots.txt (više od 32 KB) smatra se potpuno dopuštenim, što je ekvivalentno "Disallow: ";
  16. Robots.txt koji je iz nekog razloga nedostupan može se tretirati kao potpuno dopušten;
  17. Ako je robots.txt prazan, tada će se tretirati kao potpuno dopušteno;
  18. Kao rezultat navođenja više direktiva "User-agent" bez praznog novog reda, sve naredne direktive "User-agent" osim prve mogu se zanemariti;
  19. Upotreba bilo kakvih simbola nacionalnih abeceda u robots.txt nije dozvoljena.

Budući da različiti pretraživači mogu različito tumačiti sintaksu robots.txt, neke točke se mogu izostaviti. Tako, na primjer, ako navedete nekoliko direktiva "User-agent" bez praznog preloma reda, sve direktive "User-agent" će biti ispravno prihvaćene od strane Yandexa, budući da Yandex ističe unose prisustvom u redu "User-agent" .

Roboti trebaju striktno naznačiti samo ono što je potrebno, i ništa više. Nemoj misliti kako sve napisati u robots txtšta je moguće i kako to popuniti. Savršeni roboti txt je onaj s manje redaka, ali više značenja. "Kratkoća je duša duhovitosti". Ovaj izraz je ovdje vrlo koristan.

Kako provjeriti robots.txt

Da bi provjeri robots.txt za ispravnu sintaksu i strukturu datoteke, možete koristiti jedan od online servisa. Na primjer, Yandex i Google nude vlastite usluge za webmastere, koje uključuju raščlanjivanje robots.txt:

Provjera datoteke robots.txt u Yandex.Webmasteru: http://webmaster.yandex.ru/robots.xml

Da bi provjerite robots.txt na mreži neophodno prenesite robots.txt na stranicu u korijenskom direktoriju. U suprotnom, služba to može prijaviti nije uspio učitati robots.txt. Preporučuje se da prvo provjerite dostupnost robots.txt na adresi na kojoj se datoteka nalazi, na primjer: your_site.ru/robots.txt.

Osim usluga verifikacije od Yandexa i Googlea, postoje mnoge druge na mreži. robots.txt validatori.

Robots.txt u odnosu na Yandex i Google

Postoji subjektivno mišljenje da Yandex naznaku zasebnog bloka direktiva "Korisnički agent: Yandex" u robots.txt doživljava pozitivnije nego opći blok direktiva s "Korisnički agent: *". Slična situacija sa robots.txt i Google-om. Navođenje zasebnih direktiva za Yandex i Google omogućava vam da upravljate indeksiranjem web stranice putem robots.txt. Možda im laska lična privlačnost, pogotovo jer će za većinu stranica sadržaj blokova robots.txt Yandexa, Googlea i drugih pretraživača biti isti. Uz rijetke izuzetke, svi blokovi "User-agent" će imati default za robots.txt set direktiva. Također, koristeći različite "User-agent" možete instalirati zabrana indeksiranja u robots.txt za Yandex, ali, na primjer, ne za Google.

Zasebno, vrijedno je napomenuti da Yandex uzima u obzir tako važnu direktivu kao što je "Host", a ispravan robots.txt za Yandex bi trebao uključiti ovu direktivu kako bi označio glavno ogledalo stranice. Direktiva "Host" će biti detaljnije razmotrena u nastavku.

Onemogući indeksiranje: robots.txt Disallow

Disallow - zabranjujuća direktiva, koji se najčešće koristi u datoteci robots.txt. Disallow zabranjuje indeksiranje stranice ili njenog dijela, ovisno o putanji navedenoj u parametru Disallow direktive.

Primjer kako onemogućiti indeksiranje stranice u robots.txt:

Korisnički agent: * Disallow: /

Ovaj primjer zatvara cijelu stranicu od indeksiranja za sve robote.

Posebni znakovi * i $ mogu se koristiti u parametru Disallow direktive:

* - bilo koji broj bilo kojeg karaktera, na primjer, /page* parametar zadovoljava /page, /page1, /page-be-cool, /page/kak-skazat, itd. Međutim, nema potrebe specificirati * na kraju svakog parametra, jer se, na primjer, sljedeće direktive tumače na isti način:

Korisnički agent: Yandex Disallow: /stranica Korisnički agent: Yandex Disallow: /stranica*

$ - označava tačno podudaranje izuzetka sa vrijednosti parametra:

Korisnički agent: Googlebot Disallow: /page$

U ovom slučaju, direktiva Disallow će onemogućiti /page, ali neće zabraniti indeksiranje /page1, /page-be-cool ili /page/kak-skazat.

Ako zatvori indeksiranje web stranice robots.txt, pretraživači mogu odgovoriti na takav potez greškom “Blokirano u datoteci robots.txt” ili “url ograničeno robots.txt” (url zabranjen fajlom robots.txt). Ako trebaš onemogući indeksiranje stranica, možete koristiti ne samo robote txt, već i slične html oznake:

  • - ne indeksirajte sadržaj stranice;
  • - nemojte pratiti linkove na stranici;
  • - zabranjeno je indeksiranje sadržaja i praćenje linkova na stranici;
  • - slično content="none".

Dozvoli indeksiranje: robots.txt Dozvoli

Dozvoli - dopuštajuća direktiva i suprotno od Disallow direktive. Ova direktiva ima sintaksu sličnu Disallow.

Primjer kako onemogućiti indeksiranje stranice u robots.txt osim za neke stranice:

Korisnički agent: * Disallow: /Dozvoli: /stranica

Zabranjeno je indeksiranje cijele stranice, osim stranica koje počinju sa /page.

Disallow i Allow s praznom vrijednošću parametra

Prazna Disallow direktiva:

Korisnički agent: * Disallow:

Nemojte ništa zabranjivati ​​niti dozvoliti indeksiranje cijele stranice i jednako je:

Korisnički agent: * Dozvoli: /

Prazna direktiva Dozvoli:

Korisnički agent: * Dozvoli:

Ne dozvoliti ništa ili potpuna zabrana indeksiranja sajtova je ekvivalentna:

Korisnički agent: * Disallow: /

Glavno ogledalo stranice: robots.txt Host

Direktiva Host se koristi da Yandex robotu ukaže na glavno ogledalo vaše stranice. Od svih popularnih pretraživača, direktiva Host prepoznaju samo Yandex roboti. Direktiva Host je korisna ako je vaša stranica dostupna na više lokacija, na primjer:

mysite.ru mysite.com

Ili da postavite prioritet između:

Mysite.ru www.mysite.ru

Možete reći Yandex robotu koje je ogledalo glavno. Direktiva Host navedena je u bloku direktive "User-agent: Yandex" i kao parametar je naznačena preferirana adresa web mjesta bez "http://".

Primjer robots.txt koji ukazuje na glavno ogledalo:

Korisnički agent: Yandex Disallow: /page Host: mysite.ru

Ime domene mysite.ru bez www je naznačeno kao glavno ogledalo. Stoga će ova vrsta adrese biti naznačena u rezultatima pretrage.

Korisnički agent: Yandex Disallow: /page Host: www.mysite.ru

Ime domene www.mysite.ru je naznačeno kao glavno ogledalo.

Host direktiva u datoteci robots.txt može se koristiti samo jednom, ako je Host direktiva specificirana više puta, samo će prva biti uzeta u obzir, ostale Host direktive će biti zanemarene.

Ako želite da odredite glavno ogledalo za Googlebot, koristite uslugu Google Webmaster Tools.

Mapa sajta: robots.txt mapa sajta

Koristeći Sitemap direktivu, možete odrediti lokaciju na web mjestu u robots.txt.

Primjer robots.txt sa adresom mape web-lokacije:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Određivanje adrese mape stranice putem sitemap direktiva u robots.txt omogućava robotu za pretragu da sazna o prisustvu mape sajta i počne da je indeksira.

Clean-param direktiva

Direktiva Clean-param vam omogućava da isključite stranice sa dinamičkim parametrima iz indeksiranja. Slične stranice mogu poslužiti isti sadržaj s različitim URL-ovima stranica. Jednostavno rečeno, kao da je stranica dostupna na različitim adresama. Naš zadatak je da uklonimo sve nepotrebne dinamičke adrese kojih može biti milion. Da bismo to učinili, isključujemo sve dinamičke parametre, koristeći Clean-param direktivu u robots.txt.

Sintaksa Clean-param direktive:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Put]

Razmotrite primjer stranice sa sljedećim URL-om:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Primjer robots.txt Clean-param:

Clean-param: samo parm1&parm2&parm3 /page.html # stranica.html

Clean-param: parm1&parm2&parm3 / # za sve

Direktiva odgode puzanja

Ova instrukcija vam omogućava da smanjite opterećenje servera ako roboti prečesto posećuju vašu stranicu. Ova direktiva je relevantna uglavnom za sajtove sa velikim brojem stranica.

Primjer robots.txt Odlaganje indeksiranja:

Korisnički agent: Yandex Disallow: /stranica Odlaganje indeksiranja: 3

U ovom slučaju, "tražimo" Yandex robote da preuzmu stranice naše stranice najviše jednom u tri sekunde. Neki pretraživači podržavaju decimalni format kao parametar Crawl-dey robots.txt direktive.

Svrha ovog vodiča je da pomogne webmasterima i administratorima da koriste robots.txt.

Uvod

Standard izuzetaka robota je u suštini vrlo jednostavan. Ukratko, funkcionira ovako:

Kada robot koji je usklađen sa standardom posjeti web lokaciju, on prije svega traži datoteku pod nazivom "/robots.txt". Ako se pronađe takav fajl, Robot u njemu traži uputstva koja zabranjuju indeksiranje nekih delova sajta.

Gdje postaviti robots.txt datoteku

Robot jednostavno traži od vaše stranice URL "/robots.txt", stranica je u ovom slučaju određeni host na određenom portu.

URL web stranice Robots.txt URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Može postojati samo jedna datoteka "/robots.txt" po web lokaciji. Na primjer, ne biste trebali postavljati datoteku robots.txt u korisničke poddirektorije - roboti ih ionako tamo neće tražiti. Ako želite da budete u mogućnosti da kreirate robots.txt datoteke u poddirektorijumima, onda vam je potreban način da ih programski sastavite u jednu datoteku robots.txt koja se nalazi u korenu sajta. Umjesto toga, možete koristiti .

Ne zaboravite da su URL-ovi osjetljivi na velika i mala slova, a naziv datoteke "/robots.txt" mora biti u potpunosti napisan malim slovima.

Netočna lokacija robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Datoteka se ne nalazi u korijenu stranice
ftp://ftp.w3.com/robots.txt Roboti ne indeksiraju ftp
http://www.w3.org/Robots.txt Ime datoteke nije napisano malim slovima

Kao što vidite, datoteka robots.txt mora biti smještena isključivo u korijenu stranice.

Šta napisati u datoteci robots.txt

Datoteka robots.txt obično je napisana nešto poput:

Korisnički agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

U ovom primjeru je zabranjeno indeksiranje tri direktorija.

Imajte na umu da se svaki direktorij nalazi na zasebnoj liniji - ne možete napisati "Disallow: /cgi-bin/ /tmp/". Također ne možete podijeliti jednu naredbu Disallow ili User-agent u više redaka, kao prijelom reda se koristi za odvajanje instrukcija jedne od druge.

Ne mogu se koristiti ni regularni izrazi i zamjenski znakovi. Zvjezdica (*) u izjavi User-agent znači "bilo koji robot". Instrukcije poput "Disallow: *.gif" ili "User-agent: Ya*" nisu podržane.

Specifične upute u robots.txt zavise od vaše web lokacije i onoga što želite spriječiti od indeksiranja. Evo nekoliko primjera:

Spriječite da svi roboti indeksiraju cijelu stranicu

Korisnički agent: *
zabraniti: /

Dozvolite svim robotima da indeksiraju cijelu stranicu

Korisnički agent: *
Zabraniti:

Ili možete jednostavno kreirati praznu datoteku "/robots.txt".

Zatvorite samo nekoliko direktorija iz indeksiranja

Korisnički agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /privatno/

Zabraniti indeksiranje stranice samo za jednog robota

Korisnički agent: BadBot
zabraniti: /

Dozvolite indeksiranje stranice za jednog robota i zabranite sve ostale

Korisnički agent: Yandex
Zabraniti:

Korisnički agent: *
zabraniti: /

Zabraniti indeksiranje svih datoteka osim jedne

Ovo je prilično teško, jer. ne postoji izjava "Dozvoli". Umjesto toga, možete premjestiti sve datoteke osim one kojoj želite da bude dozvoljeno da bude indeksirana u poddirektorij i onemogućite njegovo indeksiranje:

Korisnički agent: *
Disallow: /docs/

Ili možete onemogućiti sve datoteke kojima je zabranjeno indeksiranje:

Korisnički agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Zdravo svima! Danas bih želeo da vam pričam o tome robots.txt fajl. Da, puno stvari se piše o njemu na internetu, ali, da budem iskren, jako dugo nisam mogao sam shvatiti kako da napravim ispravan robots.txt. Na kraju sam napravio jednu i nalazi se na svim mojim blogovima. Ne primjećujem nikakve probleme sa robots.txt, radi sasvim dobro.

Robots.txt za WordPress

A zašto nam, zapravo, treba robots.txt? Odgovor je i dalje isti -. Odnosno, kompajliranje robots.txt je jedan od dijelova optimizacije stranice za tražilice (usput, vrlo brzo će biti lekcija koja će biti posvećena cjelokupnoj internoj optimizaciji WordPress stranice. Zato ne zaboravite pretplatite se na RSS kako ne biste propustili zanimljive materijale.).

Jedna od funkcija ove datoteke je zabrana indeksiranja nepotrebne stranice stranice. Također postavlja adresu i propisuje glavnu site mirror(web stranica sa www ili bez www).

Napomena: za pretraživače, ista stranica sa www i bez www su potpuno različite stranice. Ali, shvatajući da je sadržaj ovih sajtova isti, pretraživači ih „lepe“ zajedno. Stoga je važno registrirati glavno ogledalo stranice u robots.txt. Da biste saznali koja je glavna (sa www ili bez www), samo ukucajte adresu svoje stranice u pretraživač, na primjer, sa www, ako ste automatski preusmjereni na istu stranicu bez www, onda glavno ogledalo stranice Vaš sajt bez www. Nadam se da sam tačno objasnio.

Dakle, ovo njegovano, po mom mišljenju, ispravan robots.txt za wordpress Možete vidjeti ispod.

Ispravan Robots.txt za WordPress

Korisnički agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Korisnički agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
host: stranica
.gz
Mapa sajta: https://site/sitemap.xml

Sve što je gore navedeno, potrebno je da kopirate u tekstualni dokument sa ekstenzijom .txt, odnosno ime datoteke treba biti robots.txt. Ovaj tekstualni dokument možete kreirati, na primjer, pomoću programa. Samo molim te ne zaboravi promjena u posljednja tri reda adresu na adresu vaše web stranice. Datoteka robots.txt mora se nalaziti u korijenu bloga, odnosno u istom folderu kao i folderi wp-content, wp-admin itd.

Oni koji su previše lijeni da kreiraju ovaj tekstualni fajl mogu jednostavno preuzeti robots.txt i ispraviti 3 reda tamo.

Želim napomenuti da se u tehničkim dijelovima, o kojima će biti riječi u nastavku, ne morate previše opterećivati. Navodim ih zbog „znanja“, da tako kažem, opšteg pogleda, da znaju šta je potrebno i zašto.

Dakle, linija:

korisnički agent

postavlja pravila za neki pretraživač: na primjer, “*” (zvjezdica) označava da su pravila za sve tražilice, a ono što je ispod

Korisnički agent: Yandex

znači da su ova pravila samo za Yandex.

Disallow
Ovdje „gurate“ sekcije koje NE MORAJU indeksirati od strane pretraživača. Na primjer, na https://site/tag/seo stranici imam duple članke (ponavljanje) sa redovnim člancima, a dupliranje stranica negativno utiče na promociju pretraživača, stoga je vrlo poželjno da se ovi sektori moraju zatvoriti od indeksiranje, što radimo po ovom pravilu:

Disallow: /tag

Dakle, u gore navedenom robots.txt-u gotovo svi nepotrebni dijelovi WordPress stranice su zatvoreni od indeksiranja, odnosno ostavite sve kako jeste.

Domaćin

Ovdje postavljamo glavno ogledalo stranice, o kojem sam govorio malo više.

Sitemap

U posljednja dva reda navodimo adresu do dvije mape web stranice kreirane sa .

Mogući problemi

Ali zbog ove linije u robots.txt, postovi na mojoj web lokaciji više nisu bili indeksirani:

Disallow: /*?*

Kao što vidite, upravo ova linija u robots.txt zabranjuje indeksiranje članaka, što nam naravno uopće nije potrebno. Da biste ovo popravili, trebate samo ukloniti ova 2 reda (u pravilima za sve tražilice i za Yandex) i konačni ispravan robots.txt za WordPress stranicu bez CNC-a će izgledati ovako:

Korisnički agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

Korisnički agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
host: stranica
Mapa sajta: https://site/sitemap.xml

Da biste provjerili da li smo ispravno sastavili datoteku robots.txt, preporučujem vam da koristite uslugu Yandex Webmaster (rekao sam vam kako se registrovati u ovoj usluzi).

Idemo u sekciju Postavke indeksiranja –> Analiza Robots.txt:

Već tamo kliknite na dugme „Preuzmi robots.txt sa sajta“, a zatim kliknite na dugme „Proveri“:

Ako vidite nešto poput sljedeće poruke, onda imate ispravan robots.txt za Yandex:

Zdravo! Bilo je trenutaka u mom životu kada nisam znao apsolutno ništa o kreiranju web stranica, a još više nisam znao za postojanje datoteke robots.txt.

Kada je jednostavno zanimanje preraslo u ozbiljan hobi, pojavila se snaga i želja da se nauče sve suptilnosti. Na forumima možete pronaći mnogo tema vezanih za ovaj fajl, zašto? Jednostavno je: robots.txt reguliše pristup pretraživača sajtu, upravlja indeksiranjem, a to je veoma važno!

Robots.txt je tekstualna datoteka dizajnirana da ograniči pristup robotima za pretraživanje odjeljcima i stranicama web-mjesta koje je potrebno isključiti iz pretraživanja i rezultata pretraživanja.

Zašto sakriti određeni sadržaj web lokacije? Malo je vjerovatno da ćete biti sretni ako robot za pretraživanje indeksira datoteke administracije stranice, koje mogu pohraniti lozinke ili druge tajne informacije.

Postoje različite direktive za regulisanje pristupa:

  • Korisnički agent - korisnički agent za koji su specificirana pravila pristupa,
  • Disallow - odbija pristup URL-u,
  • Dozvoli - omogućava pristup URL-u,
  • Sitemap - označava putanju do ,
  • Odgoda indeksiranja - postavlja interval indeksiranja URL-a (samo Yandex),
  • Clean-param - zanemari dinamičke parametre URL-a (samo Yandex),
  • Host - označava glavno ogledalo stranice (samo Yandex).

Napominjemo da je Yandex od 20. marta 2018. službeno prestao podržavati direktivu o hostu. Može se ukloniti iz robots.txt, a ako se ostavi, robot ga jednostavno ignorira.

Datoteka se mora nalaziti u korijenskom direktoriju stranice. Ako stranica ima poddomene, onda svaka poddomena ima svoj robots.txt.

Uvijek imajte na umu sigurnost. Ovu datoteku može vidjeti bilo tko, tako da nema potrebe za specificiranjem eksplicitne putanje do administrativnih resursa (kontrolne ploče, itd.) u njoj. Kako se kaže, što manje znaš, to bolje spavaš. Stoga, ako nema linkova na stranicu i ne želite je indeksirati, onda je ne morate registrirati u robotima, ionako je niko neće pronaći, čak ni roboti pauci.

Prilikom indeksiranja sajta, robot za pretragu pre svega proverava prisustvo robots.txt datoteke na sajtu, a zatim sledi njegove direktive prilikom indeksiranja stranica.

Odmah želim napomenuti da pretraživači drugačije tretiraju ovaj fajl. Na primjer, Yandex bezuvjetno slijedi svoja pravila i isključuje zabranjene stranice iz indeksiranja, dok Google ovaj fajl doživljava kao preporuku i ništa više.

Da biste onemogućili indeksiranje stranica, možete koristiti druga sredstva:

  • preusmjeriti ili u direktorij koristeći .htaccess datoteku,
  • meta tag noindex (ne treba ga brkati sa oznakom spriječiti indeksiranje dijela teksta),
  • atribut za veze, kao i uklanjanje linkova na dodatne stranice.

Istovremeno, Google može uspješno dodati u rezultate pretraživanja stranice kojima je zabranjeno indeksiranje, uprkos svim ograničenjima. Njegov glavni argument je da ako je stranica povezana, onda se može pojaviti u rezultatima pretraživanja. U ovom slučaju, preporučljivo je da se ne povezuju na takve stranice, ali izvinite, datoteka robots.txt je samo dizajnirana da isključi takve stranice iz rezultata pretraživanja... Po mom mišljenju, nema logike 🙄

Uklanjanje stranica iz pretrage

Ako su zabranjene stranice još uvijek indeksirane, tada trebate koristiti Google Search Console i njegov alat za uklanjanje URL-ova:

Sličan alat dostupan je u Yandex Webmasteru. Više o brisanju stranica iz indeksa tražilice pročitajte u posebnom članku.

Provjerite robots.txt

Nastavljajući temu s Googleom, možete koristiti drugi alat Search Console i provjeriti datoteku robots.txt da vidite da li je ispravno napisana kako biste spriječili indeksiranje određenih stranica:

Da biste to učinili, samo unesite URL-ove koje trebate provjeriti u tekstualno polje i kliknite na dugme Provjeri - kao rezultat provjere saznat će se da li je ovoj stranici zabranjeno indeksiranje ili je njen sadržaj dostupan za pretraživanje roboti.

Yandex također ima sličan alat koji se nalazi u Webmasteru, provjera se vrši na sličan način:

Ako ne znate kako pravilno sastaviti datoteku, onda samo kreirajte prazan tekstualni dokument s imenom robots.txt, a dok proučavate karakteristike CMS-a i strukturu sajta, dopunite ga potrebnim direktivama.

O ispravnoj kompilaciji fajla pročitajte na linku. Vidimo se!



Nastavak teme:
Windows

Natalya Komarova , 28.05.2009. (25.03.2018.) Kada čitate forum ili blog, sjećate se autora postova po nadimku i ... po slici korisnika, tzv avataru ....