Zacznij za darmo Umów spotkanie

Robots.txt – co to?

Plik robots.txt to prosty plik tekstowy, w którym właściciel witryny decyduje, które obszary serwisu powinny zostać zindeksowane przez roboty (boty) wyszukiwarek. Właściwa konfiguracja robots.txt ma istotne znaczenie dla SEO, bezpieczeństwa i optymalnego wykorzystania zasobów serwera.

Czym jest Robots.txt?

Plik robots.txt to jeden z kluczowych elementów w zarządzaniu ruchem botów (inaczej crawlerów) na stronie internetowej. Za pomocą prostych reguł, takich jak dyrektywy Allow czy Disallow, możesz wskazać robotom wyszukiwarek, które sekcje witryny powinny zostać zindeksowane, a których lepiej unikać. Choć plik ten nie gwarantuje pełnej ochrony przed niechcianymi odwiedzinami botów, stanowi ważny sygnał dla Googlebot, Bingbot i innych crawlerów, jak mają postępować z Twoimi zasobami.

Do czego służy plik robots.txt?

  1. Kontrola indeksowania
    Pozwala na ukrycie części serwisu (np. stron testowych, katalogu z plikami prywatnymi) przed standardowymi botami.

  2. Oszczędność zasobów
    Gdy masz rozbudowaną witrynę, możesz ograniczyć indeksowanie mniej istotnych zasobów (np. /css/, /images/), co odciąża serwer i przyspiesza indeksację ważniejszych podstron.

  3. Wskazówki SEO
    Googlebot i inne boty „czytają” plik robots.txt w pierwszej kolejności. Dzięki temu można zapobiec indeksowaniu duplikatów lub obszarów, które mogłyby negatywnie wpływać na SEO.

Ważne Plik robots.txt nie jest narzędziem do zabezpieczania danych wrażliwych. Jeśli chcesz chronić pliki, katalogi czy panele administracyjne, użyj mechanizmów autoryzacji (np. .htaccess, logowanie) albo blokady serwera, ponieważ robots.txt to jedynie dobrowolna instrukcja dla „grzecznych” botów.

Struktura pliku robots.txt

Przykładowy plik:

User-agent: *
Disallow: /Identity/Account/Login
Disallow: /admin/
Disallow: /backend/
Disallow: /temp/
Disallow: /test/
Disallow: /draft/
Disallow: /search
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /

Sitemap: https://pricesafari.pl/sitemap.xml

Najważniejsze dyrektywy

  • User-Agent
    Określa, do którego bota stosuje się reguła (np. User-agent: Googlebot).

  • Disallow
    Wskazuje ścieżkę lub wzorzec, którego bot nie powinien indeksować (np. Disallow: /admin/).

  • Allow
    Pozwala na indeksowanie konkretnego katalogu/pliku w obrębie katalogu zablokowanego globalnie (np. Disallow: /images/ i jednocześnie Allow: /images/ikony/).

  • Sitemap
    Wskazanie dodatkowego pliku sitemap.xml, który bot może przetworzyć, by poznać pełną strukturę witryny.

Najczęstsze błędy w konfiguracji robots.txt

Zablokowanie całego serwisu

User-agent: * Disallow: /

Ta reguła informuje roboty, by nie indeksowały żadnej podstrony, całkowicie wykluczając witrynę z wyników wyszukiwania.

Brak pliku robots.txt

Jeżeli go nie masz, roboty zazwyczaj indeksują całą witrynę, co w większości wypadków jest w porządku, lecz czasem możesz chcieć ukryć pewne obszary.

Niespójne dyrektywy

Gdy w jednej sekcji piszesz Allow: /, a w kolejnej Disallow: /, może to prowadzić do konfliktów interpretacji. Googlebot przetwarza reguły kolejno i często bardziej szczegółowa reguła nadpisze ogólniejszą.

Niepoprawna nazwa pliku

Prawidłowa nazwa to zawsze robots.txt (z małych liter), plik powinien znajdować się w katalogu głównym domeny (np. https://example.com/robots.txt).

Jak skonfigurować robots.txt dla Google?

Określ reguły dla Googlebota

Możesz dodać osobne sekcje typu:

User-agent: Googlebot Disallow: /old-version/ Allow: /

To oznacza, że Googlebot nie będzie indeksował katalogu /old-version/, ale resztę już tak.

Reguły dla wszystkich botów

User-agent: * Disallow: /temp/

Zabrania to każdemu botowi (w tym Googlebot) dostępu do /temp/.

Wskazanie mapy witryny

Sitemap: https://example.com/sitemap.xml

Dzięki temu Googlebot i inne boty łatwiej docierają do wszystkich kluczowych podstron Twojej witryny.

Testowanie w Google Search Console

Google oferuje narzędzie do weryfikacji reguł w robots.txt. Pomaga sprawdzić, czy bot ma dostęp do konkretnych adresów URL i czy nie blokujesz przypadkiem ważnych podstron.

Rekomendacje SEO przy korzystaniu z robots.txt

  1. Nie blokuj ważnych podstron
    Jeśli chcesz, by Google indeksował Twoje produkty lub artykuły blogowe, nie używaj Disallow: /produkty/ czy Disallow: /blog/.

  2. Unikaj blokowania plików CSS/JS
    Googlebot coraz częściej analizuje layout i interakcje strony, więc zablokowanie /css/ lub /js/ może utrudnić poprawną analizę Twojego serwisu i negatywnie wpłynąć na ranking.

  3. Korzystaj z noindex
    Zamiast blokować indeksowanie całej witryny przez robots.txt, lepiej ustawić meta-tag noindex w kodzie HTML dla wybranych stron. Daje to bardziej precyzyjną kontrolę nad tym, co pojawia się w wynikach wyszukiwania.

  4. Regularnie sprawdzaj logi serwera
    Mogą ujawnić, czy boty próbują indeksować obszary nieprzeznaczone do indeksacji albo czy pojawiają się błędy 404 przy istotnych stronach.

Słownik podstawowych pojęć

Bot / Crawler

Program automatycznie przeglądający strony WWW (np. Googlebot).

User-agent

Nagłówek HTTP, w którym bot identyfikuje się nazwą i wersją (np. User-agent: Googlebot).

Disallow

Instrukcja w pliku robots.txt, blokująca indeksowanie wybranej ścieżki w witrynie.

Allow

Instrukcja w pliku robots.txt, zezwalająca na indeksowanie wybranej ścieżki.

Sitemap

Plik XML (np. sitemap.xml) opisujący strukturę witryny, kluczowy dla SEO i botów.

noindex

Meta-tag w kodzie HTML, pozwalający precyzyjnie wykluczyć stronę z wyników wyszukiwania.

Praktyczne wskazówki

  • Zacznij od minimalnego zestawu reguł
    Najprostszy robots.txt to jedynie:

    User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml

    Taki plik oznacza „pozwalam na indeksowanie całej witryny i tu znajduje się mapa serwisu”.

  • Zawsze sprawdzaj w GSC
    Przetestuj, czy robots.txt nie wyklucza zbyt wielu (lub zbyt mało) zasobów.

  • Uważaj na „slash” na końcu
    Disallow: /test blokuje /test i /test/, a także dowolny URL zaczynający się od /test. Sprawdź, czy to na pewno odpowiada Twoim zamiarom.

Podsumowanie

Plik robots.txt jest potężnym, a jednocześnie prostym narzędziem do zarządzania ruchem botów w Twoim serwisie. Odpowiednio skonfigurowany:

  • Oszczędza zasoby (blokując indeksację zbędnych plików),
  • Zwiększa kontrolę nad tym, co widzą wyszukiwarki,
  • Pomaga SEO poprzez wskazanie mapy witryny i ograniczenie duplikatów.

Pamiętaj jednak, że robots.txt nie jest barierą bezpieczeństwa. Jeśli chcesz naprawdę ukryć wrażliwe dane, zadbaj o skuteczną autoryzację lub ograniczenie dostępu na poziomie serwera. A jeśli zależy Ci na lepszej widoczności w Google, nie blokuj kluczowych podstron i regularnie testuj plik w Google Search Console.

SŁOWNIK

Słownik ekspertów PriceSafari

Techniczny Słownik PriceSafari to zbiór kluczowych terminów z e‑handlu, programowania i web scrapingu. Regularnie aktualizowany, odzwierciedla najnowsze zmiany i trendy w tych dynamicznych branżach.

Wszytkie wpisy
Mateusz Werner - CEO | Lead Developer | .NET w PriceSafari
Mateusz Werner LinkedIn - Mateusz Werner - CEO | Lead Developer | .NET w PriceSafari

CEO | Lead Developer | C#

Jakub Ostrowski - Sales | Key Account Manager w PriceSafari
Jakub Ostrowski LinkedIn - Jakub Ostrowski - Sales | Key Account Manager w PriceSafari

Sales | Key Account Manager

Łukasz Siarka - NO Engineer | Network Operations w PriceSafari
Łukasz Siarka LinkedIn - Łukasz Siarka - NO Engineer | Network Operations w PriceSafari

Infrastructure | NO

Michał Siarka - Data Analyst | R w PriceSafari
Michał Siarka LinkedIn - Michał Siarka - Data Analyst | R w PriceSafari

Data Analyst | R

PriceSafari

Monitoring cen PriceSafari

PriceSafari to narzędzie automatyzujące monitoring cen produktów w sieci. Zbieramy dane z marketplace'ów, porównywarek cenowych i e-sklepów tak często, jak tego potrzebujesz. Spojrzenie na cały rynek z jednego panelu pozwoli Ci strategicznie zarządzać cenami własnych produktów, maksymalizować zyski i wyprzedzać konkurentów.

Porozmawiajmy
BEZPŁATNA KONSULTACJA & DEMO

Spotkajmy się i porozmawiajmy

Zostaw nam swoje dane kontaktowe, a my skontaktujemy się z Tobą, aby ustalić dogodny termin spotkania online. Podczas rozmowy pokażemy Ci panel aplikacji PriceSafari i rozpoczniemy darmowy monitoring cen Twoich produktów. Gwarantujemy, że wdrożenie naszego programu będzie przełomową zmiana w Twojej firmie.

Gdzie chcesz monitorować ceny?
Monitoring cen na Google
Google
Monitoring cen na Ceneo
Ceneo
Monitoring cen na Allegro
Allegro
Ile SKU chcesz monitorować?
500 SKU
Jak często odświeżać dane?
1 raz dziennie
Przybliżony koszt na miesiąc PLN Netto
Szybka wycena
Wycenimy rozwiązanie w 5 minut. Przygotujemy darmowe konto demo już w kilka godzin.
Telefon 791 855 755 Formularz
Informacja
Zadzwoń, lub skorzystaj z formularza.
Zadzwoń