Czy wiesz wszystko o pliku Robots.txt?

Plik robots.txt, wszyscy wiemy czemu służy? Wiemy, ale czy potrafimy się z nim należycie obchodzić czy sprawdzić jego stan i zrozumieć co oznacza? Prawda jednak nie jest tak różowa, bo nieostrożne obchodzenie się z plikiem robots.txt lub brak jego monitoringu może doprowadzić do poważnych konsekwencji łącznie z trudnościami z indeksowaniem się witryny, za które to nieświadomy SEO obwinia wszystkich świętych łącznie z Pandą, Pingwinem lub czyhającą na każdy kroku złą konkurencją.

Czy wiesz absolutnie wszystko o zasadach rządzących się plikiem robots.txt?

Zapoznaj się koniecznie z dokumentem znajdującym się na: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt. To absolutna biblia na temat tego jak Google traktuje dyrektywy oraz sam plik robots.txt w wielu możliwych realnie sytuacjach.

Do faktów, które nie są powszechnie znane należą między innymi:

  • Wielkość liter ma znacznie. Zatem jeżeli URL  jest zapisany w postaci np. Robots.TXT, to nie oczekuj honorowania reguł w nim zapisanych.
  • Błędy serwera 5xx dla pliku robots.txt są odbierane jako zakaz przemierzania witryny! Ta wpadka zdarza się zarówno małym webmasterom, jak i największym serwisom. Kontroluj systematycznie jaki kod zwraca  serwer przy zapytaniu o plik robots.txt. Nie ważne czy go posiadasz lub nie, albo plik na pierwszy rzut oka wygląda ok. Zawsze sprawdź nagłówki serwera!
  • Google podąża za przekierowaniami 301 pliku robots.txt., ale webmaster może stworzyć niejasną sytuację lub strzelić sobie w kolano blokując przepływ PageRank’u z przekierowanej domeny. John Mueller przedstawia na Forum dla Webmasterów jeden z takich kłopotliwych do interpretacji dla Google przypadków:

    Assume that http://example.com/robots.txt redirects to http://johnmu.com/example/robots.txt. Additionally, http://johnmu.com/robots.txt includes a disallow for /example/. Without the disallow, we would follow that redirect and use the robots.txt file athttp://johnmu.com/example/robots.txt; with the disallow, it’s an undefined situation — can a crawl access that URL or not? Therefore, we suggest not relying on a robots.txt file that redirects to a disallowed URL.

    http://productforums.google.com/d/msg/webmasters/xBLfXJjUWFE/ZZTkNfpMBL0J

    Inny konkretny przypadek z życia opisano na http://www.delegator.com/2012/07/dont-301-your-robots-txt/, gdzie wymuszone pracami nad serwisem przyblokowanie przemierzania istotnego katalogu spowodowało uruchomienie identycznych reguł dla starej domeny, gdzie funkcjonował taki sam katalog. W efekcie URLe ze starej domeny nadal tkwiły w indeksie, a PageRank przestał być przekazywany do nowej domeny, a to oznacza jej gorsze rankowanie.

Jeszcze raz zachęcam do zapoznania się z dokumentem na https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt. Miłej lektury i owocnych wniosków!

Comments
  • Warto zaznaczyć, że są to zalecenia wyłącznie dla robota Google, ponieważ inne wyszukiwarki nie respektują niektórych z podanych przykładów. Jest to ważne, szczególnie dla stron z poza Polski, gdzie udział mają też inni gracze.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *