Robots.txt

Wat is Robots.txt?

Robots.txt is een klein tekstbestand dat speciaal is bedoeld voor de robots van zoekmachines. Hierin staan instructies over welke pagina’s wel en niet gecrawld mogen worden op een website. Robots.txt moet altijd worden geplaatst in de root van een website: www.website.nl/robots.txt. Met een robots.txt bestand wordt structuur aan een website gegeven en worden irrelevante pagina’s uitgesloten.

Waarom is robots.txt belangrijk?

Een website bestaat vaak uit tientallen pagina’s, maar niet iedere pagina is even belangrijk. In dat geval kan robots.txt ervoor zorgen dat bepaalde pagina’s niet worden gecrawld door de bots van zoekmachines. In het kader van zoekmachine optimalisatie is dit heel belangrijk, want sommige pagina’s zijn niet interessant om op te laten nemen in de zoekresultaten. Met een disallow tag in robots.txt worden deze dan uitgesloten. zie voorbeeld:

Voornamelijk voor websites met een grote hoeveelheid pagina’s biedt robots.txt de perfecte oplossing. Op die manier worden niet al deze URL’s gecrawld met vrijwel dezelfde content. Aangezien zoekmachines geen fan zijn van pagina’s met duplicate content, is het uitsluiten van onbelangrijke pagina’s geen overbodige luxe. Ditzelfde geldt ook voor websites filters of sorteringsmogelijkheden. Deze opties dienen niet te worden geïndexeerd in de zoekresultaten.