Die robots.txt im SEO / Online Marketing

  • Allgemeines
  • Syntax & Beispiele
  • robots.txt vs. Meta Robots
  • Search Console robots.txt-Tester

Allgemeines zur robots.txt


  • Textdatei mit Anweisungen/Zugriffssteuerungen für Bots.
  • Steuert Crawling und Indexierung einzelner Seiten oder auch ganzer Verzeichnisse.
  • In der robots.txt angegebene Seiten werden "meistens" nicht in den Index aufgenommen, aber dennoch vom Bot aufgerufen.
  • Ein Crawler besucht und interpretiert immer erst die robots.txt bevor er die Inhalte einer Website crawlt.
  • Die robots.txt liegt immer im Hauptverzeichnis einer Domain und muss immer robots.txt (kleingeschrieben) heißen.
  • Die robots.txt muss Leseberechtigung für Alle enthalten.
  • Die robots.txt muss mindestens einen Eintrag enthalten, sonst gilt sie als nicht existent.
  • Die robots.txt nimmt man meistens für das Sperren von:
    • Bezahlbereichen
    • Eingabeformularen
    • Login-Seiten
    • Verzeichnissen von Zusatzprogrammen (z.B. Adserver)
    • Skript-Verzeichnissen
    • DC-Seiten (damit kein Crawling-Budget verschwendet wird)

Syntax der robots.txt


  • Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt werden.
  • Jede Zeile besteht aus ein bis mehreren Anweisungsblöcken.
  • Ein Anweisungsblock enthält 2 Hauptelemente:
    Auswahl der Suchmaschine (User-Agent) + die Regeln (z.B. Disallow).
  • Kommentarzeilen werden durch ein Gatterzeichen # eingeleitet.
  • Bei Anweisung für alle Bots oder für alle Seiten eines Verzeichnisses kann eine Wildcard * verwendet werden.
    Aber Achtung: Ist beispielsweise User-agent Googlebot vorhanden, liest Google ausschließlich diesen Anweisungsblock und kümmert sich nicht um User-agent: *
    Bereiche, die von keinem Bot gelesen werden sollen, müssen daher in jeder Sektion notiert werden!
  • Beispiel: Jeder Bot darf alles indexieren:
    User-Agent: *
    Disallow:
  • Beispiel: Jeder Bot darf keine Seite indexieren:
    User-Agent: *
    Disallow: /
  • Beispiel: Nur der Googlebot hat Einschränkungen:
    User-Agent: Googlebot
    Disallow: /kategorie-nicht-alles-fuer-google/seite1.html
    Disallow: /kategorie-nicht-fuer-google/
    Disallow: /niemals

    (Schliesst auch niemals.html etc aus, alle Dateien und Verzeichnisse die mit "niemals" beginnen)
  • Beispiel: Dateien mit Zeilenende .pdf sperren:
    Disallow: /*.pdf$
  • Beispiel: Alle URLs, die ein '?' enthalten, sperren
    Disallow: /*?
  • Beispiel: Alle URLs, die mit einem '?' enden, erlauben
    Allow: /*?$
  • Beispiel: Nur „public“ darf durchsucht werden, der Rest nicht
    Disallow: /
    Allow: /public/
  • Beispiel: Nur alle 120 Sekunden darf eine neue Seite zum Auslesen aufgerufen werden
    Crawl-delay: 120
  • Beispiel: Die Sitemap ist unter folgender URL zu finden
    Sitemap: http://example.com/sitemap.xml

robots.txt vs. Meta Robots


  • Meta Robots
    • Wird direkt in einem Dokument definiert, z.B.
      <meta name="robots" content="noindex,nofollow" />
      Statt „robots“ kann auch der Name eines bestimmten Bots (z.B. Googlebot) angegeben werden.
    • Betrifft nur die Indexierung des jeweiligen Dokumentes und das Crawling der auf ihr durch Verweise erreichbaren Dateien.
    • Noindex in Meta Robots verhindert kein Crawling!
  • robots.txt
    • Betrifft Crawling einzelner Seiten oder auch ganzer Verzeichnisse.
    • Disallow in der robots.txt bewirkt kein zuverlässiges noindex.
      Gibt es externe Links auf eine gesperrte Seite, wird der Bot diese Seite zwar nicht crawlen, aber dennoch aufrufen und in seinem Index aufnehmen. Allerdings nur URL und den Anchor-Text der Links!
    • Die überwiegende Mehrheit der Suchmaschinenbots berücksichtigen eine vorhandene robots.txt, lesen sie aus und befolgen die Anweisungen… aber nicht alle!
  • Achtung:
    Es ist kontraproduktiv eine Datei sowohl per Meta Robots als auch über robots.txt zu sperren. Verhindert die robots.txt das Crawling, wird auch kein „Noindex“ in der Meta Robots erkannt!
  • Private Verzeichnisse lassen sich nicht sicher über robots.txt- oder Meta-Robots-Angaben schützen! Google empfiehlt dafür passwortgeschützte Serververzeichnisse zu nutzen (Bei Apache über die htaccess-Datei einzurichten).

Search Console robots.txt-Tester


  • Innerhalb der Google Search Console ist das Google Robots Testing Tool zu finden.