Ecommerce : signalez automatiquement le contenu dupliqué à Google Webmaster Tools !

Dans un autre billet de ce blog, je présentais mon point de vue sur le contenu dupliqué qu’on retrouve sur les sites ecommerce. L’idée, c’était de faire des modifications onsite (sur le site) pour dire aux robots où ne pas aller, indiquer des URLs canoniques, … Pour ceux qui n’ont pas encore fermé leur compte Google Webmaster Tools, vous allez voir qu’il est possible de gérer pas mal de cas de duplicate content directement depuis cette interface, une méthode offsite donc.

Un exemple concret

Pour ceux qui n’ont pas l’habitude de travailler sur des sites ecommerce, voici un exemple concret. J’avais besoin de refaire ma moquette, alors je suis allé chez Saint Maclou (évidemment !). Le site est plutôt bien fait, il a été conçu sous Magento. Les pages de catégories sont assez bien faites, par exemple je peux choisir facilement la couleur de la moquette, filtrer par prix, … :

st-maclou-1

J’ai le choix de pouvoir filtrer entre 13 couleurs, 5 ordres de prix, 3 largeurs, et trier avec 4 classements possibles. Le problème, c’est que dès que j’applique un filtre ou un tri, et même si le rechargement se fait en ajax assez rapidement, il y a une autre URL qui est accessible (ex. : une URL pour toutes les couleurs/1er ordre de prix/toutes les largeurs/classement par promotion, une autre URL pour la couleur beige/1er ordre de prix/toutes les largeurs/classement par promotion, et ainsi de suite). Si on fait le calcul, on arrive déjà à 780 URLs différentes pour une seule catégorie ! Et encore, je n’ai pas pu prendre en compte les pages (5 par défaut), les URLs cachées (tri croissant/décroissant que propose Magento, utilisé dans l’URL du site mais pas paramétrable). Faisons le tests sur notre moteur de recherche préféré avec la commande « site: » (la commande inurl donne moins de résultats) :

st-maclou-2

Ça fait mal, sachant qu’on ne parle toujours que d’UNE catégorie. En vérité, Google n’a pas indexé 13000 URLs mais 194 (arrivé à la page 20 il n’y a plus de résultats, et puis Google a bien écrit que c’était « environ » 13000 – plus sérieusement, il s’agit de l’index secondaire de Google). Cela dit, c’est déjà pas mal, non ? En y regardant de plus près, les URLs varient sur les points suivants : la page (?p= dans l’URL), la couleur (?couleurs=), la largeur de moquette (?largeur_moquette=), le prix (?price=), l’aspect de la moquette – sans doute un attribut supprimé (?aspect_moquette=), et le tri (?order=).

Vous l’avez compris, les sites ecommerce sont des mines d’URLs qui ne servent à rien. Que vous utilisez une méthode offsite ou onsite comme sur cet article, vous devez dans tous les cas faire quelque chose.

Pourquoi une méthode offsite ?

C’est simple, ça peut vous être utile notamment si vous n’avez pas suffisamment de compétences techniques ou si votre solution ecommerce est limitée (ex. : certaines offres limitées en location). On peut aussi utiliser plusieurs méthodes dans le cas où Google déciderait de ne pas suivre ce que vous lui dites dans la méthode onsite. Et justement, chez Saint Maclou, on retrouve une balise canonique dans le code source, pour indiquer qu’il ne faut pas prendre en compte les URLs avec des tris et des filtres :

st-maclou-3

Bon, Saint Maclou aurait pu en rajouter une couche en passant peut être les liens des filtres/tris en nofollow, et en les supprimant via le robots.txt, mais tout ça est expliqué dans cet autre article.

GWT et paramètres d’URL

Rentrons maintenant dans la pratique. Nous avons identifié les paramètres d’URLs incriminés, on va maintenant dire à Google que ce sont bien des paramètres et qu’ils n’influent que sur le tri (ou la pagination, …). Dans Google Webmaster Tools, nous allons nous rendre dans Exploration > Paramètres d’URL. (Note : les termes/arborescence sont susceptibles de changer)

Vous me direz que l’algorithme de Google est assez intelligent pour reconnaitre les paramètres d’URLs. Si vous avez de la chance, des paramètres seront déjà indiqués et vous pourrez les modifier, ou les supprimer dans le cas où Google a mal interprété vos URLs. Si ce n’est pas le cas, cliquons sur « Ajouter un paramètre », où nous allons par exemple nous occuper des couleurs. Ici, on va donc renseigner « couleurs » (attention à la casse, qu’il faut bien respecter). A la question « Ce paramètre modifie-t-il le contenu de la page affichée par l’internaute ? », on va bien sûr répondre « Oui » (c’est le même contenu, mais l’ordre n’est pas le même).

On va ensuite vous demander comment le contenu change, quelques explications :Tri : utilisé pour des tris croissants/décroissants comme le nom, les prix, …

Voilà, vous avez compris le fonctionnement ? Alors je vous laisse jouer pour la suite !

Comment identifier les paramètres d’URL ?

Pour identifier ces paramètres d’URLs, je vous conseille de vous focaliser sur les pages de catégories de votre site, c’est à dire là où on va pouvoir effectuer des tris ou des restrictions sur les produits affichés. Google comprend les paramètres d’URLs de cette façon : http://www.site.fr/?parametre-a-noter-dans-gwt=valeur&encore-un-autre-parametre=une-autre-valeur .

Un petit coup d’oeil dans le code source ou directement dans votre page et vous retrouverez facilement vos paramètres.

Quid des URLs déjà indexées ?

Et oui, une fois qu’on a renseigné ces paramètres, que fait-on des URLs qui sont déjà indexées ? Et bien sur ce point, je suis preneur de tout retour d’expérience. J’ai commencé à utiliser les paramètres d’URLs sur deux sites il y a plusieurs mois. Suite à ça, j’ai lancé une suppression d’URLs en masse (grâce à un spider + un script d’automatisation iMacros), mais tous les jours de nouvelles URLs indésirables apparaissent, et j’avoue avoir un peu laissé traîner, me disant que mon travail n’avait servi à rien.

Aujourd’hui, après plus de 6 mois d’attente et d’inactivité, sur chacun des paramètres que je surveille, je ne retrouve presque plus d’URLs indexées (certaines apparaissent parfois), là où j’en trouvais avant plusieurs centaines.

Sur ce point, Google reste encore assez vague : doit-on supprimer les URLs déjà indexées ? Est-ce que Google s’en chargera lui même ? D’après mon expérience, Google mettrait un peu de temps à réagir, mais il semblerait qu’avec le temps, les URLs indésirables auraient tendance à disparaître.

Bonus : Paramètres Magento

Comme je suis sympa, j’ai noté quelques paramètres d’URL des attributs  et tris de base que vous pourrez rentrer dans votre site Magento :

p (Pages de catégories)

order (Tri)

dir (Ordre de tri)

limit (Nombre de produits par page)

price (Prix dans la navigation par filtres)

color (Couleur par défaut dans la navigation par filtres)

manufacturer (Marque par défaut dans la navigation par filtres)

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :