Plik robots.txt to jeden z kluczowych elementów w zarządzaniu ruchem botów (inaczej crawlerów) na stronie internetowej. Za pomocą prostych reguł, takich jak dyrektywy Allow czy Disallow, możesz wskazać robotom wyszukiwarek, które sekcje witryny powinny zostać zindeksowane, a których lepiej unikać. Choć plik ten nie gwarantuje pełnej ochrony przed niechcianymi odwiedzinami botów, stanowi ważny sygnał dla Googlebot, Bingbot i innych crawlerów, jak mają postępować z Twoimi zasobami.
Kontrola indeksowania
Pozwala na ukrycie części serwisu (np. stron testowych, katalogu z plikami prywatnymi) przed standardowymi botami.
Oszczędność zasobów
Gdy masz rozbudowaną witrynę, możesz ograniczyć indeksowanie mniej istotnych zasobów (np. /css/, /images/), co odciąża serwer i przyspiesza indeksację ważniejszych podstron.
Wskazówki SEO
Googlebot i inne boty „czytają” plik robots.txt w pierwszej kolejności. Dzięki temu można zapobiec indeksowaniu duplikatów lub obszarów, które mogłyby negatywnie wpływać na SEO.
Ważne Plik
robots.txtnie jest narzędziem do zabezpieczania danych wrażliwych. Jeśli chcesz chronić pliki, katalogi czy panele administracyjne, użyj mechanizmów autoryzacji (np..htaccess, logowanie) albo blokady serwera, ponieważrobots.txtto jedynie dobrowolna instrukcja dla „grzecznych” botów.
Przykładowy plik:
User-agent: *
Disallow: /Identity/Account/Login
Disallow: /admin/
Disallow: /backend/
Disallow: /temp/
Disallow: /test/
Disallow: /draft/
Disallow: /search
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
Sitemap: https://pricesafari.pl/sitemap.xml
User-Agent
Określa, do którego bota stosuje się reguła (np. User-agent: Googlebot).
Disallow
Wskazuje ścieżkę lub wzorzec, którego bot nie powinien indeksować (np. Disallow: /admin/).
Allow
Pozwala na indeksowanie konkretnego katalogu/pliku w obrębie katalogu zablokowanego globalnie (np. Disallow: /images/ i jednocześnie Allow: /images/ikony/).
Sitemap
Wskazanie dodatkowego pliku sitemap.xml, który bot może przetworzyć, by poznać pełną strukturę witryny.
User-agent: * Disallow: /
Ta reguła informuje roboty, by nie indeksowały żadnej podstrony, całkowicie wykluczając witrynę z wyników wyszukiwania.
Jeżeli go nie masz, roboty zazwyczaj indeksują całą witrynę, co w większości wypadków jest w porządku, lecz czasem możesz chcieć ukryć pewne obszary.
Gdy w jednej sekcji piszesz Allow: /, a w kolejnej Disallow: /, może to prowadzić do konfliktów interpretacji. Googlebot przetwarza reguły kolejno i często bardziej szczegółowa reguła nadpisze ogólniejszą.
Prawidłowa nazwa to zawsze robots.txt (z małych liter), plik powinien znajdować się w katalogu głównym domeny (np. https://example.com/robots.txt).
Możesz dodać osobne sekcje typu:
User-agent: Googlebot Disallow: /old-version/ Allow: /
To oznacza, że Googlebot nie będzie indeksował katalogu /old-version/, ale resztę już tak.
User-agent: * Disallow: /temp/
Zabrania to każdemu botowi (w tym Googlebot) dostępu do /temp/.
Sitemap: https://example.com/sitemap.xml
Dzięki temu Googlebot i inne boty łatwiej docierają do wszystkich kluczowych podstron Twojej witryny.
Google oferuje narzędzie do weryfikacji reguł w robots.txt. Pomaga sprawdzić, czy bot ma dostęp do konkretnych adresów URL i czy nie blokujesz przypadkiem ważnych podstron.
Nie blokuj ważnych podstron
Jeśli chcesz, by Google indeksował Twoje produkty lub artykuły blogowe, nie używaj Disallow: /produkty/ czy Disallow: /blog/.
Unikaj blokowania plików CSS/JS
Googlebot coraz częściej analizuje layout i interakcje strony, więc zablokowanie /css/ lub /js/ może utrudnić poprawną analizę Twojego serwisu i negatywnie wpłynąć na ranking.
Korzystaj z noindex
Zamiast blokować indeksowanie całej witryny przez robots.txt, lepiej ustawić meta-tag noindex w kodzie HTML dla wybranych stron. Daje to bardziej precyzyjną kontrolę nad tym, co pojawia się w wynikach wyszukiwania.
Regularnie sprawdzaj logi serwera
Mogą ujawnić, czy boty próbują indeksować obszary nieprzeznaczone do indeksacji albo czy pojawiają się błędy 404 przy istotnych stronach.
Bot / Crawler
Program automatycznie przeglądający strony WWW (np. Googlebot).
User-agent
Nagłówek HTTP, w którym bot identyfikuje się nazwą i wersją (np. User-agent: Googlebot).
Disallow
Instrukcja w pliku robots.txt, blokująca indeksowanie wybranej ścieżki w witrynie.
Allow
Instrukcja w pliku robots.txt, zezwalająca na indeksowanie wybranej ścieżki.
Sitemap
Plik XML (np. sitemap.xml) opisujący strukturę witryny, kluczowy dla SEO i botów.
noindex
Meta-tag w kodzie HTML, pozwalający precyzyjnie wykluczyć stronę z wyników wyszukiwania.
Zacznij od minimalnego zestawu reguł
Najprostszy robots.txt to jedynie:
User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
Taki plik oznacza „pozwalam na indeksowanie całej witryny i tu znajduje się mapa serwisu”.
Zawsze sprawdzaj w GSC
Przetestuj, czy robots.txt nie wyklucza zbyt wielu (lub zbyt mało) zasobów.
Uważaj na „slash” na końcu
Disallow: /test blokuje /test i /test/, a także dowolny URL zaczynający się od /test. Sprawdź, czy to na pewno odpowiada Twoim zamiarom.
Plik robots.txt jest potężnym, a jednocześnie prostym narzędziem do zarządzania ruchem botów w Twoim serwisie. Odpowiednio skonfigurowany:
Pamiętaj jednak, że robots.txt nie jest barierą bezpieczeństwa. Jeśli chcesz naprawdę ukryć wrażliwe dane, zadbaj o skuteczną autoryzację lub ograniczenie dostępu na poziomie serwera. A jeśli zależy Ci na lepszej widoczności w Google, nie blokuj kluczowych podstron i regularnie testuj plik w Google Search Console.
Techniczny Słownik PriceSafari to zbiór kluczowych terminów z e‑handlu, programowania i web scrapingu. Regularnie aktualizowany, odzwierciedla najnowsze zmiany i trendy w tych dynamicznych branżach.
PriceSafari to narzędzie automatyzujące monitoring cen produktów w sieci. Zbieramy dane z marketplace'ów, porównywarek cenowych i e-sklepów tak często, jak tego potrzebujesz. Spojrzenie na cały rynek z jednego panelu pozwoli Ci strategicznie zarządzać cenami własnych produktów, maksymalizować zyski i wyprzedzać konkurentów.
Zostaw nam swoje dane kontaktowe, a my skontaktujemy się z Tobą, aby ustalić dogodny termin spotkania online. Podczas rozmowy pokażemy Ci panel aplikacji PriceSafari i rozpoczniemy darmowy monitoring cen Twoich produktów. Gwarantujemy, że wdrożenie naszego programu będzie przełomową zmiana w Twojej firmie.