Skip to main content

Robots.txt

Grafik mit Headline Robots.txt

Robots.txt: Kurzerklärung

 
Die robots.txt ist eine Textdatei, die wichtig für die Indexierung von Website-Inhalten ist. Mit der Datei können Webmaster festlegen, welche der Unterseiten von einem Crawler wie etwa dem Googlebot erfasst und indexiert werden sollen und welche nicht. Das macht die robots.txt auch für die Suchmaschinenoptimierung äußerst interessant.

Ausführliche Erklärung

 
Grundlage der robots.txt und der damit verbundenen Steuerung der Indexierung ist das 1994 veröffentlichte „Robots Exclusion Standard Protokoll“, das auch mit REP abgekürzt wird. Darin werden bestimmte Möglichkeiten festgelegt, über die Webmaster die Crawler der Suchmaschinen beziehungsweise deren Arbeit steuern können. Allerdings sollte man dabei beachten, dass die robots.txt lediglich eine Richtlinie für die Suchmaschinen darstellt, die sie aber nicht unbedingt einhalten müssen. Mit der Datei lassen sich also keine Zugriffsrechte vergeben oder Zugriffe verhindern – da die großen Suchmaschinen wie Google, Yahoo und Bing sich aber zur Einhaltung dieser Richtlinie verpflichtet haben, lässt sich mit der robots.txt die Indexierung der eigenen Seite sehr zuverlässig steuern.

Damit die Datei auch tatsächlich ausgelesen wird, muss sie sich im Root-Verzeichnis der Domain befinden, außerdem muss der gesamte Name der Datei kleingeschrieben werden, ebenso wie die meisten Anweisungen in der Datei selbst.

Darüber hinaus gilt es zu beachten, dass Seiten auch dann noch indexiert werden können, wenn sie in der robots.txt eigentlich von der Indexierung ausgenommen wurden. Das ist vor allem bei Seiten mit vielen Backlinks der Fall, denn die sind ein wichtiges Kriterium für die Webcrawler der Suchmaschinen.

Wie ist die robots.txt aufgebaut?

 
Die Struktur der Datei ist denkbar einfach. Zu Beginn werden die sogenannten „User-Agents“ bestimmt, für die die nachfolgenden Regeln gelten sollen. Ein User-Agent ist im Grund nichts anderes als ein Crawler einer Suchmaschine. Um hier die korrekten Namen eintragen zu können, muss man allerdings wissen, wie die einzelnen Anbieter ihren User-Agent bezeichnet haben. Die geläufigsten User-Agents sind:
 

  • Googlebot (normale Google-Suchmaschine)
  • Googlebot-News (ein nicht mehr verwendeter Bot, dessen Anweisungen aber auch vom normalen Googlebot eingehalten werden.)
  • Googlebot-Image (Google-Bildersuche)
  • Googlebot-Video (Google-Videosuche)
  • Googlebot-Mobile (Google-Mobilsuche)
  • Adsbot-Google (Google AdWords)
  • Slurp (Yahoo)
  • bingbot (Bing)

 
Die erste Zeile der robots.txt könnte also wie folgt aussehen: „User-agent: Googlebot“. Sind die gewünschten User-Agents festgelegt, folgen dann die eigentlichen Anweisungen. In der Regel beginnen diese mit „Disallow:“, danach gibt der Webmaster an, welches Verzeichnis oder welche Verzeichnisse die Crawler bei der Indexierung ignorieren sollen. Alternativ zum Disallow-Befehl kann auch erst ein Allow-Eintrag erfolgen. So lässt sich besser trennen, welches Verzeichnis für die Indexierung herangezogen werden darf und welches nicht. Zwingend erforderlich ist der Allow-Eintrag aber nicht – der Disallow-Befehl ist es hingegen schon.

Neben der Angabe einzelner Verzeichnisse können unter „Disallow“ (oder „Allow“) auch sogenannte Wildcards gesetzt werden, also Platzhalter, über die sich allgemeinere Regeln für die Indexierung der Verzeichnisse festlegen lassen. Zum einen gibt es das Sternchen (*), das als Platzhalter für eine beliebige Zeichenfolge gesetzt werden kann. Mit dem Eintrag „Disallow: *“ ließe sich zum Beispiel die gesamte Domain von der Indexierung ausschließen, während mit „User-agents: *“ für alle Webcrawler Regeln für die Domain aufgestellt werden können. Der zweite Platzhalter ist das Dollarzeichen ($). Mit ihm kann bestimmt werden, dass ein Filter nur für das Ende einer Zeichenkette gelten soll. Durch den Eintrag „Disallow: *.pdf$“ ließen sich also alle Seiten von der Indexierung ausnehmen, die auf „.pdf“ enden.

Zudem kann in der robots.txt noch auf eine XML-Sitemap verwiesen werden. Dazu ist ein Eintrag nach dem folgenden Muster nötig: „Sitemap: http://www.beispiel.de/sitemap.xml“. Ferner können Kommentarzeilen eingefügt werden. Dazu muss der jeweiligen Zeile nur ein Rautenzeichen (#) vorangestellt werden.

Die robots.txt und SEO

 
Da die robots.txt bestimmt, welche Unterseiten für die Indexierung der Suchmaschinen herangezogen werden, ist es offensichtlich, dass die Datei auch für die Suchmaschinenoptimierung eine wichtige Rolle spielt. Ist zum Beispiel ein Verzeichnis der Domain ausgenommen, werden sämtliche SEO-Maßnahmen auf den entsprechenden Seiten ins Leere laufen, da die Crawler sie einfach nicht beachten. Umgekehrt kann man die robots.txt aber auch gezielt für SEO einsetzten, zum Beispiel, um bestimmte Seiten auszunehmen und so nicht wegen Duplicate Content abgestraft zu werden.

Ganz allgemein lässt sich sagen, dass die robots.txt enorm wichtig für die Suchmaschinenoptimierung ist, denn sie kann sich massiv auf das Ranking einer Seite auswirken. Entsprechend sorgfältig muss sie gepflegt werden, denn schnell können sich Fehler einschleichen, die verhindern, dass wichtige Seiten von den Crawlern erfasst werden. Vor allem bei der Verwendung von Wildcards ist Vorsicht geboten, denn hier kann sich ein Vertipper oder eine kleine Unachtsamkeit besonders stark auswirken. Für unerfahrene Nutzer ist es aus diesem Grund empfehlenswert, keine oder nur sehr geringe Einschränkungen in der Datei festzulegen. Im Anschluss können nach und nach weitere Regeln bestimmt werden, sodass zum Beispiel SEO-Maßnahmen besser greifen.

Hilfe bei der Erstellung der robots.txt

 
Zwar handelt es sich bei der robots.txt um eine einfache Textdatei, die mit jedem Texteditor problemlos verfasst werden kann, aber Fehler wirken sich, wie im Abschnitt oben beschrieben, sehr stark aus und können im schlimmsten Fall das Ranking einer Seite massiv negativ beeinflussen.

Zum Glück gibt es für all jene, die sich nicht direkt selbst an die robots.txt heranwagen wollen, zahlreiche kostenlose Tools im Internet, die die Erstellung der Datei deutlich erleichtern, unter anderem bei Pixelfolk  und Ryte. Darüber hinaus gibt es noch kostenfreie Tools zum Überprüfen der Datei, zum Beispiel bei TechnicalSEO.com und Ryte. Selbstverständlich bietet auch der Suchmaschinenriese Google entsprechende Dienste an, die einfach über die Webmaster-Tools gestartet werden können.

Fazit

 
Die robots.txt ist trotz ihrer einfachen Struktur und dem allgemein geringen Bekanntheitsgrad ein sehr wichtiges Kriterium, wenn es um SEO-Maßnahmen und das Ranking einer Seite geht. Zwar sind die in der Datei festgelegten Regeln nicht bindend. In den meisten Fällen werden sie von den User-Agents der Suchmaschinen aber korrekt umgesetzt, sodass Webmaster über die robots.txt schnell und einfach festlegen können, welche Verzeichnisse und Seiten ihrer Domain für die Indexierung der Suchmaschinen herangezogen werden sollen.

Aufgrund der weitreichenden Wirkung der Datei ist es jedoch empfehlenswert, sich zunächst ein wenig mit der erforderlichen Syntax auseinanderzusetzen oder eines der kostenlos im Internet verfügbaren Tools zu nutzen. Ansonsten besteht die Gefahr, Seiten von der Indexierung auszuschließen, die eigentlich von den Suchmaschinen erfasst werden sollen, und umgekehrt.


Treten Sie über 53.000 Kunden weltweit bei und nutzen Sie Textbroker für Ihr Content-Marketing.

Jetzt kostenlos anmelden


Managed-Service

Sie wollen komplette Textprojekte auslagern und hochwertige Qualitätstexte erhalten? Sie interessieren sich für weitere Content-Services wie etwa Suchmaschinenoptimierung nach WDF*IDF oder die Verwaltung Ihres Blogs? Dann lernen Sie unseren Managed-Service kennen und profitieren Sie von unserem Rundum-Sorglos-Paket.

Unverbindliches Angebot anfordern!

Self-Service

Sie benötigen aktuellen Text-Content? Im Self-Service können Sie Ihren Wunschtext schnell und einfach selbst beauftragen – und das zu Top-Konditionen.

Jetzt kostenlos registrieren!

Autoren

Tausende Autoren weltweit verdienen beim Pionier unter den Textbörsen Geld mit ihren Texten. Sie entscheiden selbst, wann und wie viel sie schreiben und können sich ein flexibles Einkommen sichern. Erfahren Sie hier, wie Sie Ihre Texte zu Geld machen.

Jetzt kostenlos registrieren!