Guten Tag, liebe Leser! Früher oder später stellt sich jeder Blogger die Frage – „Wie kann ich eine robots.txt erstellen und für was ist sie überhaupt nützlich?“. Neulich habe ich mir die gleiche Frage gestellt, ob die Datei wirklich was bringt oder eher überwertet wird. Es gibt gute Gründe für die Verwendung, aber bevor ich dir diese erkläre möchte ich vorerst auf die Theorie eingehen.
Wie funktioniert eine robots.txt und wozu ist sie da? Wie schützt man Seiten vor der Indexierung oder vor Robots? Das soll heute das Hauptthema sein und im Anschluss werde ich euch meine selbsterstellte Datei zum Download anbieten.
Was ist eine robots.txt – Datei?
Robots.txt – Textdatei die auf dem Server hinterlegt und für Suchmaschinen- Roboter als Wegweiser dient. In dieser Datei kann der Webmaster alle notwendigen Parameter angeben, die einerseits für die Indexierung einer Webseite von Nöten sind, aber anderseits auch für jede Suchmaschine einzeln vergeben werden können. Dateianweisungen bestehen aus Sätzen mit denen Robots arbeiten können.
Wie kann ich eine robots.txt erstellen?
Verwenden Sie einen Texteditor (z.B. Notepad, WordPad, Editor) zum Erstellen einer Datei „robots.txt“ und vergeben Sie alle notwendigen Rechte für den geltenden Bereich. Danach musst Du lediglich die Datei im Root-Verzeichnis deiner Webseite ablegen.
Gründe für die Erstellung einer robots.txt
- Indexierung nur bestimmter Seiten oder Abschnitte verhindert Duplicate Content bei einer Webseite (wie Archive, Feeds, Tags).
- Bestimmte Seiten und Abschnitte können gesperrt werden.
- Seiten die in Wartungsarbeit befinden können ausgesperrt werden.
- Durch Ausschluss bestimmter Teilbereiche einer Webseite erleichtern wir die Arbeit für Robots. Die Roboter brauchen weniger Zeit um die restlichen Seiten und Ordner zu studieren. Ich hatte den Eindruck, dass dadurch die Bots öfter kommen und mehr Seiten aufgenommen werden.
Man kann mit der robots.txt keine Dateien vor Zugriffen schützen. Dazu sollte man immer den Paßwortschutz des Webservers verwenden. Die robots.txt dient nur als Wegweiser für die Robots, an die sich kein Roboter unbedingt halten muss. Man kann nicht damit bestimmte Seiten, Bereiche für die Indexierung hervorheben oder dazu auffordern.
Beispiel einer Robots.txt für WordPress
Hier kannst Du meine robots.txt mit den jeweiligen Kommentaren dazu sehen:
User-agent: * Disallow: /cgi-bin # Verbiete - Indexierung Systemordner Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes # Verbiete - Indexierung Log In Seite Disallow: /wp-login.php Disallow: /wp-register.php # Verbiete - Indexierung von Trackback, RSS, Tag Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */tags Disallow: /xmlrpc.php # Verbiete - Indexierung von Suchergebnissen Disallow: /*?* Disallow: /*? # Erlaube - Indexierung Google Bilder User-agent: Googlebot-Image Allow: /* # Google AdSense User-agent: Mediapartners-Google Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # Erlaube - Indexierung von Ordner Uploads Allow: /wp-content/uploads # Wegweiser zu Sitemap Sitemap: http://www.domainname.de/sitemap.xml
Download der Datei
robots.txt für WordPress
Sobald Du die Datei erstellt und hochgeladen hast, solltest Du die Datei überprüfen um mögliche Fehler auszuschließen. Dazu kannst Du solche Dienste wie Google Webmaster oder SyntaxTester nutzen.
Kommentare zum Artikel, Fragen, Erfolgserlebnisse aber auch Probleme mit der robots.txt freue ich mich und wünsche viel Spaß mit der erstellten Robots.

Leider halten sich auch nicht alle Crawler an die Robots. Die guten Crawler mögen die robots.txt beachten, aber die ganzen Fishing und Spam Crawler freuen sich teilweise wenn man ihnen Verzeichnisse mitteilt, auf die diese Crawler so vielleicht nicht gekommen wären. Generell ist für gute Crawler der Einsatz sehr nützlich. Gruß
Hallo Nerd,
leider ist es so, wie ich schon oben erwähnt habe
Zur Vermeidung von Duplicate Content (dein Punkt 1) würde ich aber andere Methoden vorziehen (noindex o. canonicals). Anweisungen über die robots.txt helfen bei diesem Problem häufig nicht oder nur unzuverlässig.
Hallo Uwe,
Danke für dein Feedback. Da gebe ich dir Recht, canonical URL hilft da wohl eher!
Ich nutze auch die robots.txt zur Vermeidung des Duplicate Content, und zwar im speziellen bei einem phpbb Forum. In diesem Fall wäre es viel schwieriger eine Nichtindexierung mit noindex oder canonicals umzusetzen.
Danke für die Einführung in die Robot.txt. Guter Artikel.
Ich benutze robots.txt eigentlich garnicht, erlaube einfach alles.Dafür, dass ich keinen DC erzeuge gehe ich lieber andere, sicherere Wege.
Danke für die tolle Erklärung. Konnt ich gut gebrauchen.
Gruß
Julia
Guten Tag Julia, ich danke dir für dein Lob und dein Kommentar.
Grüße
Danke für deinen Hinweis auf Abakus. Werde ich mir mal genauer ansehen.
Hallo Andy,
Danke für dein Kommentar und dein Feedback.
Gruß
User-agent: Googlebot-Image
Disallow:Allow: /*
Da ist doch ein Fehler, oder? Erlaube nicht erlaubtes?
Hallo Marcus, Danke für dein Kommentar und Hinweis, stimmt. Ist falsch, richtig sollte es heißen:
User-agent: Googlebot-ImageAllow: /
Ähem, ich meine natürlich nicht erlaubtes erlauben?
@Alex
Danke für den Tipp mit dem Google Image Bot.