Czego przestrzega Googlebot w Robots.txt?

Prowadząc audyty trafiłem już kilka razy na dosyć popularny błąd  w pliku robots.txt. Pozwolę sobie wyjaśnić sprawę na prostym przykładzie.

User-agent: *
Disallow: /admin/
User-agent: Googlebot
Disallow: /pdf/

Na podstawie takiego zapisu niektórzy webmasterzy mogą oczekiwać, że wszelkie roboty w tym i Googlebot nie będą pobierać zawartości folderu admin, a dodatkowo Googlebot nie będzie pobierał  folderu pdf.

W rzeczywistości jeżeli roboty Google znajdą „swoją” sekcję, to będą się stosować jedynie do zapisów w niej zawartych. Reguły w sekcji z wzorcem dopasowania User-agent: * będą ignorowane. Zatem w powyższym przykładzie Googlebot nie będzie pobierał folderu pdf, natomiast folder admin będzie dla Googlebota dostępny.

User-agent: *
Disallow: /admin/
User-agent: Googlebot
Disallow: /admin/
Disallow: /pdf/

Poprawny będzie  powyższy zapis. Należy zdublować w sekcji User-agent: Googlebot wszelkie dyrektywy z sekcji User-agent: *. Zatem powtórzmy i zapamiętajmy. Jeżeli wyznaczymy sekcję User-agent: Googlebot, to robot Google będzie przestrzegać wyłącznie reguł w niej zawartych.

W przypadku, kiedy nie jesteś pewien czy dobrze przygotowałeś zapisy w pliku robots.txt, sprawdź ich działanie w Narzędziach dla webmasterów Google.  Będziesz mieć absolutną pewność, że Googlebot będzie zachowywać się tak jak zamierzałeś.

Więcej o Robots.txt przeczytasz między innymi w artykule pomocy Blokowanie lub usuwanie stron przy użyciu pliku robots.txt.

 

Comments
  • ja miałam ustawione tylko User-agent: * że miał się tyczyć do wszystkich robotów, aczkolwiek google nie do końca się do tego stosował, teraz zmieniłam wpis na googlebot i poczekamy i zobaczymy czy zadziała

  • Istotna informacja – do tej pory byłem święcie przekonany, że Googlebot stosuje się do ogólnie zaadresowanej dyrektywy, a tu masz. Dzięki za publikację.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *