Histoire drôle : Google et son fichier robots.txt, ou comment la désindexation de contenu peut être un cauchemar…

robots-txt-google

C’est l’histoire de Google qui demande de ne pas indexer des fichiers dans son fichier robots.txt…mais il les indexent quand même ! **rires du public mort depuis 1930**

Une histoire drôle ? Pas vraiment en fait :
1) c’est pas drôle
2) c’est vrai (oui mais comme dirait Homer Simpson, « It’s funny because it’s true !« )

La suite de l’article risque d’être difficile à suivre pour les non initiés au SEO.

Illustration en images

1. Google demande de ne pas indexer le dossier /coop/directory :

google-dossier-coop

2. …mais Google l’indexe quand même :

google-desindexation-dossier-coop

Ce qui est curieux, c’est que :
– quand on clique sur ce résultat, on est redirigé sur une autre page
– l’entête HTTP renvoie une redirection 301

Deux observations qui font que Google aurait pu supprimer cette page de son index.

Pourquoi parler de ça ?

Cela met clairement un des problèmes majeurs en SEO aujourd’hui : la désindexation de contenus.

Google indexe tout et n’importe quoi, même sur son propre site. Cela peut être un vrai casse-tête de devoir supprimer définitivement des pages de l’index de Google. Il y a plusieurs mois, Aymeric Bouillat proposait sur son excellent blog un test de désindexation de 6 pages avec 6 méthodes différentes. A ce jour, les pages sont toujours dans l’index de Google.

Au lieu de proposer une méthode, on va en retrouver une plâtrée, en essayant d’appliquer chacune d’entre elles pour avoir le privilège de faire désindexer les pages que l’on souhaite.

Encore une fois, je vais prendre un exemple dans le domaine de l’ecommerce, avec une page de catégorie de produits sur laquelle on ne souhaite pas faire indexer la navigation par filtres, ou shop-by (c’est à dire quand vous filtrez par couleur, par prix, …), une URL du type site.fr/categorie.html?filtre1=valeur1&filtre2=valeur2&tri1=valeur3

1. Balises rel= »nofollow »
On va placer cette balise dans les liens qu’on ne souhaite pas faire indexer.
Problème : Google peut choisir de les indexer quand même, et il les indexera de toutes façons s’il y a un même lien sans cette balise qui traine quelque part (soumission manuelle, lien naturel, concurrent qui veut votre place, …).

2. Blocage dans le fichier robots.txt
Ça n’a pas marché ? Essayons ça… Grace a la balise Disallow (exemple : Disallow : /*?nomdufiltre=), on indique simplement à Google de ne pas indexer les URLs de ce filtre.
Problème : Google peut choisir d’indexer votre contenu tout en disant qu’il lui est demandé de ne pas l’indexer.

3. Ajout de balises META
Toujours pas ? Google conseille aussi d’intégrer une balise META Robots sur les pages qu’on ne veut pas indexer.
Problème : ce n’est pas envisageable sur des pages où nous avons des paramètres d’URL (des filtres de couleur, …).

4. Intégrer une balise canonical
Bon, puisque Google veut indexer ces pages, autant lui dire que ça ne sert à rien ?
Problème : ça ne fonctionne pas dans 100% des cas (pour preuve le nombre de sites ecommerce qui se retrouvent avec leur pages de filtres indexées malgré la présence de la balise canonical), mais au moins on évite les pénalités pour contenu dupliqué…

5. Intégrer une redirection 301
Ce n’est pas applicable pour une page de catégorie (sinon impossible de filtrer par marque, prix, couleur, …), mais c’est applicable à des fiches produits par exemple.
Problème : ça n’a même pas marché pour Google (voir exemple plus haut).

6. Ajouter des paramètres d’URL dans Google Webmaster Tools
Google ne veut toujours pas désindexer vos pages de filtres ? Pas de problème, Google Webmaster Tools (GWT) vous permet de préciser vos paramètres d’URL et lui indiquer de ne pas les indexer.
Problème : Ah oui, si vous avez eu la bonne idée d’utiliser un module qui réécrit vos paramètres d’URL en éliminant les points d’interrogation, ce n’est même pas la peine d’essayer.

7. Demander la suppression de l’URL dans GWT
Bon, son sort les gros moyens, on demande carrément à Google de supprimer les pages, unes à unes… et ça marche !
Problème : ça marche sur le moment, sauf que Google mentionne qu’il peut réinsérer ces pages si elles ne sont pas bloquées par le fichier robots.txt.

Tiens, j’ai l’impression de tourner en rond là…

Bien sûr, il est toujours possible de désindexer du contenu, et la plupart des solutions proposées ci-dessous fonctionneront à coup sûr, cependant, ce qu’on peut regretter, c’est qu’il n’y a pas une solution fiable à 100%, qu’on peut mettre en place et qui fonctionne à coup sûr.

Étiquettes : , ,

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :