Für diejenigen die es nicht kennen: unter Duplicate Content (DC) versteht man (nahezu) identischen Inhalt auf verschiedenen URLs. Mit verschiedenen URLs sind nicht nur verschiedene Domains sondern auch die innerhalb des gleichen Webprojekts gemeint. Weitere Infos u. a. hier und hier.
Wie entsteht Duplicate Content auf WordPress-Websites und wo liegt das Problem?
Das DC entsteht auf WordPress-Projekten, wie auf vielen anderen Reaktionssystemen, dadurch, dass der Inhalt auch auf verschiedenen URLs erscheint. Nehmen wir mal an du schreibst einen Artikel und sortierst diesen in die Kategorie WordPress ein. Dann ist der gleiche Artikel sowohl in der Übersicht der Kategorie, in der Einzelansicht als auch unter den verschiedenen Archiven (Datum, Autor etc.) verfügbar.
Das Problem bei der ganzen Sache ist, dass die Suchmaschinen u. U. Probleme haben den Inhalt zu indizieren, weil Sie z. B. entscheiden müssen, welche von den vielen URLs, des einen Artikels, ist die richtige?
Lösungen
Um das Problem zu lösen oder zumindest abzuschwächen gibt es mehrere Lösungswege:
Mit <!--more-->
den Artikel in Einleitung und Rest aufteilen
Die einfachste Möglichkeit bietet uns WordPress selber und das schon seit längerer Zeit. Man kann mit dem Quicktag <!--more-->
(HTML-Editor bzw. -Ansicht) den Artikel in einer Einleitung (Teaser) und den Rest aufteilen. So gibt es den vollständigen Artikel dann nur in der Einzelansicht und die Einleitung ist auf allen Übersichtsseiten zu sehen.
Das rel="canonical"
ab WordPress 2.9 automatisch dabei
Der Wert canonical
des Attributs rel
“gehört” zum link
-Element und wurde Anfang dieses Jahres eingeführt um den Suchmaschinen zu signalisieren, welches die originale URL eines Inhaltes ist, z. B.:
<link rel="canonical" href="https://www.perun.net/2009/12/03/wordpress-duplicate-content-vermeiden/" />
Ab der Version 2.9 kennzeichnet WordPress alle Artikel in der Einzelansicht mit dem entsprechenden rel="canonical"
. Bis jetzt musste man entweder Plugins oder folgende Konstrukte in der header.php bemühen:
<?php if ( is_singular() ) echo '<link rel="canonical" href="' . get_permalink() . '" />'; ?>
Das content="noindex,follow"
auf Archivseiten
Folgender Code-Fragment in der header.php:
<?php if (is_search() or is_archive()) {
echo "<meta name=\"robots\" content=\"noindex, follow\" />\n";
} ?>
bindet im Kopfbereich aller Suchergebnisse und Archivseiten (Kategorie-Übersicht, Datums- und Autoren-Archiv etc.) eine “Anweisung” für die Suchmaschinen: “bitte allen Links folgen, aber nix indizieren”.
Diverse Plugins
Wem die Fummelei in der header.php nicht liegt, der kann hierbei auf einige WordPress-Plugins zurückgreifen: wpSEO, All in One SEO Pack und einige mehr.
Nachtrag: wie ich gerade in meinem Feedreader gelesen habe, hat Frank einen ausführlichen Artikel über rel="canonical"
in WordPress 2.9 geschrieben.
Wir arbeiten seit 20 Jahren mit WordPress und bieten diverse Dienstleistungen rund um das System an. Kontaktiere uns für weitere Informationen oder für ein Angebot.
[…] This post was mentioned on Twitter by Sergej Müller, Vladimir Simovic. Vladimir Simovic said: Peruns Weblog: WordPress: Duplicate Content vermeiden: Es gibt diverse WordPress-Plugins, die das Problem des Dupli… http://bit.ly/8rzppL […]
Uhh, Twitter-Trackbacks sind ja so super…. und der more-tag auch, 1 Klick mehr für den Leser wenn er nicht direkt auf den Artikel gelangt.
[…] Perun erklärt, wie man bei einem WordPress-Blog doppelte Inhalte vermeidet. Das “Duplicate Content”-Problem ist vor allem Suchmaschinen-Optimierer ein Dorn im Auge. […]
wenn ich das plugin all in one seo pack installiert habe, habe ich das problem nicht? ich habe aktuell nen anderen eindruck, wenn ich schaue, welche meiner seiten wie indiziert sind… die artikel sind auch durch die tags mehrfach vertreten. wie kann ich das denn beseitigen oder ist das kein problem?
All in one seo pack und wp seo geben dir die Möglichkeit das über die Einstellung “Duplicat Content durch Robotstag vermeiden” oder so ähnlich zu steuern, dadurch wird DC auch in den Tags ausgeschlossen, allerdings sollte mann denn “search” Bereich durch eigenen Code, Beispiel wie von Perun oben beschrieben für robots manuel lausschließen da diese Tools das meiner Erfahrung nach beide nicht leisten können.
sacht mal leute, ist das thema DC denn nach wir vor so dramatisch? vor allem unter der selben domain? es gibt stimmen, die meinen dass Google & Co heutzutage schlau genug sind das auszusieben … ich finde das thema sehr irritierend. wurde einer von euch mal abgesraft für duplicate content unter der selben domain? zB auch interessant ist zu hoeren, wie die DC-Problematik zu beurteilen ist, sofern man eine mobile verison des blogs mit anderem theme und so laufen hat … also 100% selber content unter selber domain aber optimiert fuer mobile browser? … wer hat erfahrungen hiermit?
Die Tags-Seiten würde ich auch auf “noindex, follow” stellen… Oder wie seht ihr das?