Google et le duplicate content : "Tout va bien, je vais bien…"

Deftly dealing with duplicate content
Posted by Adam Lasnik
12/18/2006 02:28:00 PM

Sur le blog officiel Google, Adam Lasnik rappelle quelques règles supposées de fonctionnement de l’algo Google face au contenu dupliqué.

Traduction (partielle) et commentaires :

La plupart du contenu dupliqué est involontaire : forums générant des URL multiples, produits commerciaux listés sous différentes URL, etc.

N’est pas considéré comme dupliqué :

– le même article publié en anglais et en espagnol,
– les citations,
– les versions “printer friendly”

Ce que Google conseille de faire :


– Bloquer par robots.txt le contenu à ne pas indexer.

– Utiliser les redirections 301.

– Coder des liens homogènes.

– Utiliser des TLD plutot que des sous domaines.

Je serais circonspect sur ce point, beaucoup de sites multilingues rankent correctement avec des en.site.com et fr.site.com, sans avoir besoin d’utiliser des www.site.us et www.site.fr

– Si votre contenu est syndiqué, assurez vous que chaque article syndiqué ait un lien de retour vers le vôtre.

– Déterminer un domaine de préférence ( www ou non www )

– Éviter les répétitions triviales : plutôt que de mettre 4 lignes de copyright sur chaque page, faites un lien court vers une page complète d’information.

– Éviter les pages sans résultats : Ni les robots, ni les users n’apprécient des pages vides avec juste un titre du genre “voici toutes les propriétés immobilières que nous proposons dans le Lubéron”

– Maîtriser votre CMS : soyez à l’aise avec votre système de publication de contenu, surtout s’il inclut un blog, un forum, ou tout autre système qui peut publier le même contenu sous plusieurs formats.

– Ne soyez pas trop inquiet : il y a peu de chance qu’un “scraper site” (site qui recopie intégralement des portions complètes d’un site original) vous inflige une pénalité de positionnement.

Je suis beaucoup plus sceptique sur ce point. J’ai déjà vu des sites de référence se faire “voler” leur positionnement par des scrapers sites, et des sites authentiques ont déjà été “duplicate filtrés” quand des scrapers s’indexaient mieux qu’eux dans Google.


Malgré ces bonnes paroles Googlesques, je suis convaincu que l’algorithme Google a beaucoup de mal à détecter le duplicate content “non classique”.
Si la canonisation des URL de forums a progressé, Google détecte mal ou peu les contenus “partiellement dupliqués” avec un minimum de reformatage.
Quant aux articles sciemment recopiés et altérés, la détection de cette technique un peu “borderline” n’est pas encore à l’ordre du jour 🙂

Canonisation : identification par Google de l’URL “canonique” d’une page, et de l’adresse “canonique” d’un site.
www.site.com/index.php est l’URL canonique de :
– www.site.com/index.php?date=today,
– www.site.com/index.php?page=homepage,
– www.site.com/index.php?page=1, etc.

Rejoindre la conversation

3 commentaires

  1. J’ai une question, sans doute bête:

    c’est quoi une version “printer friendly” ?
    Tout ce que je connais en printer friendly, c’est de faire une css à part spéciale. Comment google fait, si cette version printer friendly est ce que je pense (une page dupliquée du contenu, adaptée à l’imprimante, comme on faisait dans l’ancien temps, quand on ne savait pas ce que les css pouvaient faire), pour savoir que c’est justement pour une imprimante?

  2. Jori : il y a encore beaucoup de sites qui utilisent des versions dupliquées avec une mise en page différente, pour l’impression.
    Pour certains, il y a même : version html, version html pour imprimante, et version pdf.

    Cela dit, je confirme utiliser aussi, sur certains de mes sites, le css pour permettre une impression propre.

Laisser un commentaire