Digitale Medien
  • Home
  • Blogosphäre
  • Digital
  • Facebook
  • Global

Robots.txt – freundliche Anweisung und Schutz vor Robots

am 9. Februar 2012 hat 16 Kommentare

Guten Tag, liebe Leser! Früher oder später stellt sich jeder Blogger die Frage – „Wie kann ich eine robots.txt erstellen und für was ist sie überhaupt nützlich?“. Neulich habe ich mir die gleiche Frage gestellt, ob die Datei wirklich was bringt oder eher überwertet wird. Es gibt gute Gründe für die Verwendung, aber bevor ich dir diese erkläre möchte ich vorerst auf die  Theorie eingehen.

Wie funktioniert eine robots.txt und wozu ist sie da? Wie schützt man Seiten vor der Indexierung oder vor Robots? Das soll heute das Hauptthema sein und im Anschluss werde ich euch meine selbsterstellte Datei zum Download anbieten.

Was ist eine robots.txt – Datei?

Robots.txt – Textdatei die auf dem Server hinterlegt und für Suchmaschinen- Roboter als Wegweiser dient. In dieser Datei kann der Webmaster alle notwendigen Parameter angeben, die einerseits für die Indexierung einer Webseite von Nöten sind, aber anderseits auch für jede Suchmaschine einzeln vergeben werden können. Dateianweisungen bestehen aus Sätzen mit denen Robots arbeiten können.

Wie kann ich eine robots.txt erstellen?

Verwenden Sie einen Texteditor (z.B. Notepad, WordPad, Editor) zum Erstellen einer Datei  „robots.txt“ und vergeben Sie alle notwendigen Rechte für den geltenden Bereich. Danach musst Du lediglich die Datei im Root-Verzeichnis deiner Webseite ablegen.

Gründe für die Erstellung einer robots.txt

  1. Indexierung  nur bestimmter Seiten oder Abschnitte verhindert Duplicate Content bei einer Webseite (wie Archive, Feeds, Tags).
  2. Bestimmte Seiten und Abschnitte können gesperrt werden.
  3. Seiten die in Wartungsarbeit befinden können ausgesperrt werden.
  4. Durch Ausschluss bestimmter Teilbereiche einer Webseite erleichtern wir die Arbeit für Robots. Die Roboter brauchen weniger Zeit um die restlichen Seiten und Ordner zu studieren. Ich hatte den Eindruck, dass dadurch die Bots öfter kommen und mehr Seiten aufgenommen werden.

HinweisMan kann mit der robots.txt keine Dateien vor Zugriffen schützen. Dazu sollte man immer den Paßwortschutz des Webservers verwenden. Die robots.txt dient nur als Wegweiser für die Robots, an die sich kein Roboter unbedingt halten muss. Man kann nicht damit bestimmte Seiten, Bereiche für die Indexierung hervorheben oder dazu auffordern.

Beispiel einer Robots.txt für WordPress

Hier kannst Du meine robots.txt mit den jeweiligen Kommentaren dazu sehen:

User-agent: *

Disallow: /cgi-bin

# Verbiete - Indexierung Systemordner

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

# Verbiete - Indexierung Log In Seite

Disallow: /wp-login.php
Disallow: /wp-register.php

# Verbiete - Indexierung von Trackback, RSS, Tag

Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */tags
Disallow: /xmlrpc.php

# Verbiete - Indexierung von Suchergebnissen

Disallow: /*?*
Disallow: /*?

# Erlaube - Indexierung Google Bilder

User-agent: Googlebot-Image
Allow: /*

# Google AdSense

User-agent: Mediapartners-Google
Allow: /*

# Internet Archiver Wayback Machine

User-agent: ia_archiver
Disallow: /

# Erlaube - Indexierung von Ordner Uploads

Allow: /wp-content/uploads

# Wegweiser zu Sitemap

Sitemap: http://www.domainname.de/sitemap.xml

Download der Datei

robots.txt für WordPress

Sobald Du die Datei erstellt und hochgeladen hast, solltest Du die Datei überprüfen um mögliche Fehler auszuschließen. Dazu kannst Du solche Dienste wie Google Webmaster oder SyntaxTester nutzen.

fragezeichenKommentare zum Artikel, Fragen, Erfolgserlebnisse aber auch Probleme mit der robots.txt freue ich mich und wünsche viel Spaß mit der erstellten Robots.

16 Kommentare

Hast Du etwas zu sagen? Kommentar schreiben

  1. Nerd sagt:
    10. Februar 2012 um 11:00 · Antworten

    Leider halten sich auch nicht alle Crawler an die Robots. Die guten Crawler mögen die robots.txt beachten, aber die ganzen Fishing und Spam Crawler freuen sich teilweise wenn man ihnen Verzeichnisse mitteilt, auf die diese Crawler so vielleicht nicht gekommen wären. Generell ist für gute Crawler der Einsatz sehr nützlich. Gruß

    • Alex Kasakow sagt: (Autor)
      13. Februar 2012 um 22:43 · Antworten

      Hallo Nerd,
      leider ist es so, wie ich schon oben erwähnt habe ;)

  2. Uwe sagt:
    13. Februar 2012 um 09:43 · Antworten

    Zur Vermeidung von Duplicate Content (dein Punkt 1) würde ich aber andere Methoden vorziehen (noindex o. canonicals). Anweisungen über die robots.txt helfen bei diesem Problem häufig nicht oder nur unzuverlässig.

    • Alex Kasakow sagt: (Autor)
      13. Februar 2012 um 22:45 · Antworten

      Hallo Uwe,
      Danke für dein Feedback. Da gebe ich dir Recht, canonical URL hilft da wohl eher!

  3. Jürgen sagt:
    13. Februar 2012 um 10:58 · Antworten

    Ich nutze auch die robots.txt zur Vermeidung des Duplicate Content, und zwar im speziellen bei einem phpbb Forum. In diesem Fall wäre es viel schwieriger eine Nichtindexierung mit noindex oder canonicals umzusetzen.

  4. Adrian sagt:
    2. März 2012 um 13:38 · Antworten

    Danke für die Einführung in die Robot.txt. Guter Artikel.

  5. phil sagt:
    5. März 2012 um 14:04 · Antworten

    Ich benutze robots.txt eigentlich garnicht, erlaube einfach alles.Dafür, dass ich keinen DC erzeuge gehe ich lieber andere, sicherere Wege.

  6. Julia sagt:
    17. März 2012 um 17:38 · Antworten

    Danke für die tolle Erklärung. Konnt ich gut gebrauchen.

    Gruß
    Julia

    • Alex Kasakow sagt: (Autor)
      23. März 2012 um 22:46 · Antworten

      Guten Tag Julia, ich danke dir für dein Lob und dein Kommentar.

      Grüße

  7. Andy sagt:
    24. März 2012 um 19:16 · Antworten

    Danke für deinen Hinweis auf Abakus. Werde ich mir mal genauer ansehen.

    • Alex Kasakow sagt: (Autor)
      26. März 2012 um 10:27 · Antworten

      Hallo Andy,
      Danke für dein Kommentar und dein Feedback.

      Gruß

  8. Marcus sagt:
    3. April 2012 um 19:05 · Antworten

    User-agent: Googlebot-Image
    Disallow:Allow: /*

    Da ist doch ein Fehler, oder? Erlaube nicht erlaubtes?

    • Alex Kasakow sagt: (Autor)
      3. April 2012 um 20:32 · Antworten

      Hallo Marcus, Danke für dein Kommentar und Hinweis, stimmt. Ist falsch, richtig sollte es heißen:

      User-agent: Googlebot-Image
      Allow: /

  9. Marcus sagt:
    3. April 2012 um 19:06 · Antworten

    Ähem, ich meine natürlich nicht erlaubtes erlauben?

  10. Janine sagt:
    9. April 2012 um 13:00 · Antworten

    @Alex
    Danke für den Tipp mit dem Google Image Bot.

Trackbacks für diesen Artikel

  1. Verbesserungsvorschläge für Muskelaufbau1.de — Social Media

Kommentar schreiben

Fühle Dich frei und schreibe mir Deine Meinung!

Hier klicken, um die Antwort abzubrechen.

← Textuale und grafische Form der Smilies
Neues Design und einige Veränderungen →

In eigener Sache

Um euch ständig aktuelle Inhalte anbieten zu können, kommen auf dem Blog verschiedene Werbemittel zum Einsatz. Unter anderem werden wir von Dritten hin und wieder beauftragt, Webseiten oder Produkte entgeltlich zu testen.

Um dem gesetzlich vorgeschriebenen Trennungsgebot zwischen redaktionellen Inhalten und Werbung zu genügen, wird dieser Blog zukünftig gekennzeichnet mit der Bezeichnung

"DAUERWERBEBLOG"

mehr Infos zur Thematik

Suche

  • 0kfans
  • 75followers
  • 10abonnenten

Empfohlene Artikel

  • Preisgestaltung der internatio…
  • Permalinks ohne mod_rewrite un…
  • Dessous online bestellen – Ges…
  • Was ist „Copywriting“ und wer …
  • 34 Grafiken enthüllen die Welt…

Infoquelle

  • Archiv
  • Info & Kontakt
  • Wer liest mich?

Blogautor liest auch

  • Ahnungslos
  • Azella
  • Moritz' Blog
  • Tobias
  • Wandtattoo

© Copyright 2013 - Zabang.de -
Warning: number_format() expects parameter 2 to be long, string given in /www/htdocs/w00f9e90/wp-content/themes/template_zabang/footer.php on line 12
Artikel mit
Warning: number_format() expects parameter 2 to be long, string given in /www/htdocs/w00f9e90/wp-content/themes/template_zabang/footer.php on line 13
Kommentaren

Impressum