Duplicate Content
- Kurzerklärung
- Ausführliche Erklärung
- Warum ist Duplicate Content schlecht?
- Was hilft gegen Duplicate Content?
- 301-Weiterleitungen
- Auf die Verwendung korrekter URLs achten
- Doppelte Inhalte minimieren
- Canonical-/href lang-/noindex-Tag oder robots.txt disallow verwenden
- Fazit
Duplicate Content: Kurzerklärung
Duplicate Content (kurz auch: DC) bezeichnet Webinhalte, die in identischer Form unter verschiedenen URLs im Internet abrufbar sind.
Ausführliche Erklärung:
Bei Duplicate Content, auch „duplizierten Inhalten“, handelt es sich um Inhalte verschiedener Websites, die sich sehr stark ähneln oder vollständig gleichen. Suchmaschinen wie Google versuchen, Duplicate Content zu verhindern und können Websites, die (zu viele) doppelte Inhalte verwenden, in ihrem Index herabstufen. Insbesondere dann, wenn ein Manipulationsverdacht (zu SEO-Zwecken) besteht, können Seiten mit kopierten Inhalten Rankingverluste oder gar eine Deindexierung erleiden.
Warum ist Duplicate Content schlecht?
Suchmaschinen werten doppelte Inhalte als negativ, da diese dem Nutzer keinen Mehrwert bieten. Trotzdem muss jede Website gecrawlt sowie indexiert werden und verbraucht dadurch Ressourcen.
Da Webmaster in der Vergangenheit (auch zu SEO-Zwecken) häufig Websites mit Duplicate Content befüllten, begann Google gegen mehrfach verwendete Inhalte vorzugehen. Mit Algorithmus-Änderungen wie dem Panda-Update sorgte der Suchmaschinenanbieter dafür, dass Seiten mit doppeltem Content im Ranking zurückgestuft wurden.
Was hilft gegen Duplicate Content?
Duplicate Content führt in der Regel nicht gleich zu einer Abstrafung durch die Suchmaschine. Da jedoch die Gefahr besteht, dass doppelte Inhalte negativ bewertet und nicht mehr indexiert werden, sollten Website-Betreiber einige wichtige Maßnahmen beachten, mit denen sie Duplicate Content vermeiden können:
301-Weiterleitungen
Eine Weiterleitung mit einem 301-Code ist sinnvoll, um die Suchmaschine und den Leser stets auf die gewünschte Seite zu führen und so alte Inhalte zu überspringen. Wird etwa eine Seite vollständig durch eine andere – mit unterschiedlicher URL – ersetzt (etwa bei einem Relaunch), bietet sich die Weiterleitung per 301 an. So entstehen nicht zwei Seiten mit identischem Inhalt, sondern der Besucher wird, auch wenn er die URL der einen Seite anwählt, direkt auf die zweite, passende Seite geführt.
Google sieht diese Weiterleitung als unproblematisch an. Um sie jedoch so nutzerfreundlich wie möglich zu gestalten, sollten Webmaster ausschließlich auf Seiten weiterleiten, die einen angemessenen Ersatz für die ursprüngliche Seite darstellen.
Auf die Verwendung korrekter URLs achten
Um Duplicate Content zu verhindern, ist vor allem der Einsatz korrekter URLs sehr wichtig. Google selbst rät etwa dazu, stets auf die Konsistenz der URLs zu achten, also Webadressen einheitlich zu verwenden. Zum Beispiel stets nur eine Version: www.beispiel.de/name oder www.beispiel.de/name/ oder www.beispiel.de/name/index.htm.
Auch sollen Website-Betreiber über die Webmaster Tools die bevorzugte Adresse einer Seite angeben: http://www.beispiel.de oder http://beispiel.de etc. Hier kann auch das Canonical-Tag (siehe unten) helfen, um die richtige Seite auszuweisen.
Google rät auch dazu, Domains auf oberster Ebene zu verwenden, um so Inhalte besser zu spezifizieren. So sollten Webmaster etwa statt URLs wie de.beispiel.com besser www.beispiel.de verwenden.
Viele Content-Management- und Tracking-Systeme können versehentlich Duplicate Content produzieren, da sie die URLs von Seiten umgestalten. Durch Paginierung oder durch das Anlegen von Archiven kann es sein, dass das CMS die URL einer Seite ändert (zum Beispiel: beispiel.de/text/022015 anstatt beispiel.de/text) und somit die Website unter verschiedenen URLs besteht. Dasselbe gilt auch für (automatisch erzeugte) Tracking-Parameter, die einen URL-Schnipsel erzeugen, der an die ursprünglichen URLs angehängt wird. Erkennt die Suchmaschine diese Schnipsel nicht korrekt, kann sie das Tracking als neue URL erkennen und die Seite doppelt zählen. Webmaster und SEO-Experten sollten ihr CMS und ihr Analyse-System daher auf diese Schwachstellen hin prüfen.
Doppelte Inhalte minimieren
Website-Betreiber sollten so weit wie möglich auf doppelte Inhalte verzichten und Unique Content produzieren. Auf vielen Seiten müssen oder sollen einzelne Textbausteine redundant eingesetzt werden, gelegentlich lässt sich sogar die Doppelung von kompletten Seiten nicht ausschließen. Jedoch sollten Webmaster dies soweit wie möglich begrenzen und gegebenenfalls die Suchmaschine per Link im HTML-Code darauf hinweisen, dass bereits eine Seite mit gleichen Inhalten besteht.
Neben selbsterzeugten doppelten Inhalten kann es auch vorkommen, dass andere Websites Duplicate Content produzieren – dann, wenn ein Website-Betreiber seine Inhalte an verschiedene Websites weitergibt/verkauft oder andere Websites den Content ohne Erlaubnis verwenden. In beiden Fällen sollten Website-Betreiber, sofern der Vorfall bekannt ist, den Betreiber der anderen Seite dazu auffordern, kopierte Inhalte mit einem Backlink zum Originalinhalt oder dem noindex-Tag zu markieren. So kann die Suchmaschine erkennen, welches der ursprüngliche Inhalt ist und welchen Content sie indexieren soll.
Canonical-/href lang-/noindex-Tag oder robots.txt disallow verwenden
Mithilfe verschiedener Tags (im Quelltext) lassen sich bestimmte Formen von Duplicate Content verhindern. Das Canonical-Tag etwa im <head>-Bereich signalisiert Google, die Seite zu indexieren, auf die das Tag hinweist. Die Kopie dieser Seite (in die das Tag integriert ist) soll der Crawler hingegen vernachlässigen.
Das Meta-Tag noindex wird eingesetzt, um der Suchmaschine mitzuteilen, dass sie zwar die Seite crawlen, jedoch auf eine Indexierung verzichten soll. Anders als der Eintrag disallow in der robots.txt erlaubt der Webmaster dem Googlebot damit also, die Seite und deren Inhalt zu durchsuchen.
Disallow kann in der robots.txt-Datei eingesetzt werden, um ganze Seiten, Seitentypen oder Inhaltstypen vor dem Crawl und somit auch vor der Indexierung durch Google und Co. zu bewahren. Die robots.txt ist eine Datei, die regelt, welche Inhalte vom Crawler einer Suchmaschine erfasst werden dürfen und welche nicht. Disallow sagt dabei, dass die Suchmaschine keinen Zugriff auf die definierten Inhalte hat.
Das Tag href lang kann verwendet werden, um Suchmaschinen zu signalisieren, dass eine Seite lediglich eine Umsetzung einer Domain in einer anderen Sprache ist. Wenn zum Beispiel eine Domain sowohl unter .co.uk für den britischen als auch unter .com für den amerikanischen Markt besteht, signalisiert das href lang-Tag, dass es sich hierbei um einen Ableger der jeweils anderen Seite handelt und verhindert so, dass die Suchmaschine die Seiten als Duplicate Content wertet.
Fazit:
Duplicate Content kann zum Problem für Webmaster und SEO-Experten werden, da Suchmaschinen nur ungern Ressourcen für doppelte Inhalte verbrauchen. Gleichzeitig will Google seinen Nutzern einzigartige Inhalte bieten. Dadurch kann DC als negativ bewertet werden und im schlimmsten Fall die Seite im Ranking zurückgestuft oder, bei Manipulationsverdacht, sogar deindexiert werden. Website-Betreiber haben verschiedene Möglichkeiten, um Duplicate Content vorzubeugen bzw. diesen zu beheben – unter anderem saubere Weiterleitungen, Tags im Quellcode sowie einzigartige Texte.
Treten Sie über 53.000 Kunden weltweit bei und nutzen Sie Textbroker für Ihr Content-Marketing.