Ecommerce et duplicate content

Les sites ecommerce ne sont pas des sites comme les autres en terme de contenu…oui, c’est une généralité, mais c’est un moyen d’intégrer un sujet que je vais développer aujourd’hui : les risques de duplicate content sur les sites ecommerce. La plupart du temps, vous éviterez les problèmes de contenu dupliqué via :
-le fichier robots.txt
-des balises canoniques
-des liens en nofollow
-la balise META robots

Voici quelques exemples très concrets qui devraient vous aider…

Quelques rappels :

Petit rappel pour les plus novices, les autres peuvent passer au paragraphe suivant :
Duplicate content : …ou contenu dupliqué. C’est le fait d’avoir le même contenu d’une page présent sur plusieurs pages. Concrètement, si je fais un copier coller de cet article sur un autre article, c’est du duplicate. Idem si mon article est accessible depuis plusieurs URLs et qu’on a pas dit à Google que le contenu était volontairement identique (ex. : site.fr/article et site.fr/categorie/article). Idem si un concurrent me pique mon contenu.

Robots.txt : c’est un fichier que vous placez à la racine de votre site (ex. : site.fr/robots.txt) qui permet de dire aux robots de Google où il peut aller sur votre site, mais surtout où il ne doit PAS aller.

Balise canonique : dans le cas où ma page est accessible depuis 10 URLs, j’ai tout intérêt à placer une balise canonique (sur les CMS ça se fait souvent automatiquement dans la configuration). Cette balise va dire à Google que ces 10 URLs différentes ont le même contenu que **URL que vous voulez référencer**.

Liens nofollow : l’attribut "nofollow" permet de dire aux moteurs de recherche de ne pas suivre un lien en particulier. Dans le code HTML de mon lien, il suffit d’ajouter rel="nofollow". Concrètement sur les blogs c’est surtout les liens postés par les internautes qui sont en nofollow.

Voyons maintenant tout ça appliqué au ecommerce.

Navigation par filtre

La "shop by" de La Redoute

La "shop by" de La Redoute

La navigation par filtre, ou à facettes, ou "shop by" permet quand je suis dans une catégorie (ex. : T-shirts) que les produits ayant certaines caractéristiques, comme la marque : Nike, la couleur : bleu, la taille : M, et le prix : 0 € – 30 €. C’est une excellente fonctionnalité, jusqu’à la v1.3 elle n’était pas native dans Prestashop il me semble. Le problème c’est que cela fait potentiellement beaucoup de duplicate content : les filtres sont gérés comme des liens (ex. filtre "bleu" de l’attribut "Couleur"), or on est toujours sur la même page. Du coup si j’ai 20 filtres, ma page est potentiellement dupliquée 20 fois. La solution est toute simple, et comme je suis gentil je vous en donne même deux :
-il suffit de changer ces liens en "nofollow" pour dire aux moteurs de recherche de ne pas les prendre en compte.
-vous mettez en place une URL canonique pour dire qu’il s’agit de la même URL.

L’URL canonique me semble plus pertinente, car de cette façon impossible de faire référencer les autres URLs (ex. un concurrent qui fait un lien vers une URL de catégorie + filtre, l’URL peut se faire indexer).

Tris sur les listes

Ce qui provoque ces 4 900 000 résultats...

Ce qui provoque ces 4 900 000 résultats…

...c'est ça.

…c’est ça.

Ceux qui ne sont pas familiers au ecommerce vont commencer à râler : "HEIN? Mais c’est quoi la différence entre tri et filtre ?" C’est tout simple : un filtre = je choisis une valeur (ex. Nike pour la marque), alors que tri = j’affiche par ordre croissant ou décroissant (ex. les prix des produits du moins cher au plus cher, ou les noms des produits par ordre alphabétique, …). Tout dépend comment est fait votre site mais en général un tri = un lien, or c’est le même contenu à chaque fois. Ici, encore une fois, vous pouvez passer ces liens en nofollow ou une URL canonique.

L’affichage en grille/liste

L'affichage en grille/liste sur Pixmania

L’affichage en grille/liste sur Pixmania


Certains sites ecommerce proposent un affichage en grille et en liste. Vous voyez où je veux en venir ? Là encore, le nofollow et les URLs canoniques sont vos amis.

Produits ajoutés au comparateur, la sélection, le panier

Sur Pixmania : le responsable de ces 2260 résultats c'est...

Sur Pixmania : le responsable de ces 2260 résultats c’est…

...lui.

…lui.

Ça paraît bête, mais est-ce que vous avez déjà regardé à quoi ressemblaient les URLs de vos boutons "Ajouter au panier", "Ajouter à ma sélection", … ? Par précaution, vous pouvez là aussi utiliser la balise nofollow, mais pas forcément la base canonique, en fait, ça dépendra de vos URLs.

Les pages de panier, création de compte, mot de passé oublié, …

La page Mon compte de Pixmania : 429 000 résultats

La page Mon compte de Pixmania : 429 000 résultats


Si vous êtes sur un CMS (et même dans les autres cas, en fait), vous devez certainement avoir des pages comme la création de compte, la page de mot de passé oublié, … En général, on ne les personnalise pas et on laisse les textes par défaut. Du coup, tout pleins de sites ont ces mêmes textes. En pratique, ce n’est pas gênant, mais du coup se pose la question de garder ces pages dans les moteurs de recherche. Là, deux possibilités :
-mettre des balises nofollow sur tous les liens "Mon panier", "Mon compte", …
-dans les pages concernées, placer des balises META robots pour indiquer s’il faut suivre / indexer la page
-selon la structure des URLs, vous pouvez aussi utiliser le fichier robots.txt (ici on préciserait de ne pas suivre /fr/fr/c_action/ )

Ici, on dit à Google : ne m'indexe pas, mais va regarder mes liens.

Ici, on dit à Google : ne m’indexe pas, mais va regarder mes liens.

Vous l’avez compris, la troisième solution devrait être la plus pertinente, sauf qu’en regardant le fichier robots.txt de Pixmania, on trouve ça :

Aïe…

Ça veut dire que Google n’a pas tenu compte du fichier robots.txt, ou alors les URLs étaient déjà indexées ? A tester… Du coup, la deuxième solution semble plus pertinente. A noter que sur Pixmania, si je me réfère à la page "Mon compte", on a une balise META follow, donc on dit bien à Google d’indexer la page ici (même si le robots.txt devrait prendre le dessus).

Avec cette balise et ces valeurs, on dit à Google d'indexer la page et de suivre ses liens.

Avec cette balise et ces valeurs, on dit à Google d’indexer la page et de suivre ses liens.

Les développements sur mesure

Les "aperçu" produit sur La Redoute

Les "aperçu" produit sur La Redoute


Là, on rentre un peu dans du cas par cas. Certaines fonctionnalités peuvent provoquer aussi du duplicate content. C’est le cas avec les "aperçu" produits par exemple. On en retrouve sur Pixmania, La Redoute, … Sur Magento par exemple, l’équivalent existe aussi via un module : Quickshopping. Le problème ? Ça crée des URLs produit comme site.fr/quickshopping/produit.

Tags:, , ,

13 responses to “Ecommerce et duplicate content”

  1. Antoine says :

    Le sujet est très intéressant mais je ne suis pas d’accord sur certains points :

    – le nofollow n’est pas forcément la solution pour les filtres : mieux vaut choisir quelles combinaisons de facette représentent des opportunités de positionnement et rendre opaque à l’indexation les autres ;
    – sur Pixmania, pour les tris, Google ne suit qu’un format d’URL (tout est dans le JS… ;) )

    Pour finir, ne pas oublier que nofollow et canonical ne sont que des patchs de Google. Mieux vaut corriger le problème à la source, ne serait-ce que pour la répartition du pagerank en interne.

    • 21janvier says :

      Qu’est-ce que tu entends par "corriger le problème à la source" ? En général, on met en place des filtres parce qu’ils seront pertinents pour les internautes, pas dans une optique SEO, c’est même "mauvais" d’un point de vue SEO pour les raisons que j’évoque, mais pertinent pour les internautes d’un point de vue ergonomie/expérience utilisateur. Pour moi la meilleure solution dans ces cas là est le canonical, car si je fais un lien dofollow depuis un autre site vers une catégorie + filtre = la page peut se faire indexer. Concernant Pixmania, ton point est de dire qu’il n’y a pas de duplicate possible car les liens sont en JS ? (par expérience, je sais que Google les suit/indexe)

      • Antoine says :

        Quand je dis corriger à la souce, cela signifie tout simplement d’utiliser des technologies qui empêcheront Google de découvrir ces pages et donc éviteront de devoir ajouter un patch tel que la canonical.
        Concernant les filtres, s’ils sont utiles aux internautes "sur" le site, peut-être qu’en amont ils peuvent aussi représenter des potentiels de recherche et donc être tout à fait intéressants à indexer, non ?
        Il faut cependant utiliser les variables des filtres dans le title, dans le h1,etc. pour s’assurer que chaque page sera unique aux yeux de Google.
        Google suit certains types de JS oui, du style onclick, mais il est encore bien démuni face à des liens JS obfusqués avec une règle d’encodage complexe comme c’est le cas pour Pixmania :)
        Sinon, au passage merci pour ta citation de SEO Footprints dans un précédent article :)

      • 21janvier says :

        Pour le lien, c’est merité ;) Concernant les filtres/tri, je pense qu’ils doivent être présents car pertinents, mais en les indexant on a un risque de duplicate (d’autant plus que je ne vois pas de solution ecommerce où on pourrait dire pour chaque filtre d’être indexé ou non). Bon après, c’est une question de point de vue…
        Je complète avec un exemple très concret : http://www.google.fr/search?q=site:http://www.nafnaf.com/fr/les-bonnes-surprises.html
        Tu as 4 pages présentes, mais systématiquement le même contenu (un peu moins sur la dernière) car peu de produits :
        http://www.nafnaf.com/fr/les-bonnes-surprises.html
        http://www.nafnaf.com/fr/les-bonnes-surprises.html?dir=desc&order=price
        http://www.nafnaf.com/fr/les-bonnes-surprises.html?dir=asc&order=price
        http://www.nafnaf.com/fr/les-bonnes-surprises.html?p=2&sizefilter%5B157%5D=on

      • Autoperfs says :

        Je me permets aussi de donner mon avis sur la question et je suis très étonné de lire que les filtres sont "mauvais" d’un point de vue SEO. C’est justement le contraire, quand c’est bien géré (et c’est très complexe) c’est à mon sens l’optimisation ultime en termes de SEO onsite pour un ecommerce. Etat de l’art également en termes d’emerch.

        Mettre une canonical ou du noindex sur les combinaisons de filtre, c’est limite criminel.

      • 21janvier says :

        Je serais curieux de voir des exemples concrets ;)

  2. Alexandre@WebZine E-Commerce & E-Marketing says :

    Merci pour ce partage très bien illustré. Je connais beaucoup de lecteurs qui seront intéressés.

  3. Jabeau says :

    Pas mal, la balise me semble aussi une solution bien correcte. Poser une balise author pourrait aussi donner un avantage pour du DC, d’autant qu’avec un compte Google +, c’est tout de suite relié.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 132 autres abonnés

%d bloggers like this: