Het robots.txt-bestand is een klein tekstbestand dat zich bevindt in de rootmap van je website (bijvoorbeeld www.voorbeeld.nl/robots.txt). Het vertelt zoekmachines welke delen van je site ze wel of niet mogen crawlen.
Met robots.txt kun je bijvoorbeeld:
- voorkomen dat Google dubbele of onbelangrijke pagina’s crawlt (zoals filters of adminpagina’s);
- aangeven waar je sitemap te vinden is;
- en zo het crawlbudget van Google efficiënt benutten.
Belangrijk: robots.txt blokkeert alleen het crawlen, niet het indexeren. Als een geblokkeerde URL ergens anders wordt gelinkt, kan die nog steeds in de zoekresultaten verschijnen, maar zonder inhoud. Wil je iets écht uitsluiten van indexatie, gebruik dan een noindex-tag.