Récuperer les URLs indexées d’un site web

Dans le cadre d’une refonte de site, ou pour analyse de la concurrence, vous pouvez être amenés à vouloir récupérer les adresses d’un site. Mieux, récupérer les adresses indexées d’un site :) (c’est à dire uniquement celles qui seront dans les résultats de Google). Même si ces points sont évidents pour certains, je préfère les préciser pour les plus novices. Je sépare volontairement le fait de :
-récupérer les URLs d’un site
-récupérer les URLs indexées d’un site

Pourquoi récupérer des URLs indexées ?

Dans cet article, on va uniquement traiter des URLs indexées. Concrètement, je vois trois utilisations possibles :
faire des redirections 301, dans le cadre d’une migration
vérifier le taux d’indexation de chaque niveau (ex. : catégories / sous-catégories / sous-sous-catégories / …)
-récupérer le maximum d’informations sur ces pages, comme les balises title, description, Hx, body, … pour en faire une analyse sémantique sur vos mots-clés.

Sur ce dernier point, il existe des outils qui vous permettent de faire des analyses (ex. : vérifier le nombre de fois que le mot « disque dur » apparait sur toutes les pages), j’y reviendrais dans un autre billet.

La plupart du temps, on a besoin de récupérer des URLs de son site uniquement pour faire des redirections 301. Sur certains CMS, vous pouvez :
-extraire les URLs (ex. des produits pour un site ecommerce)
-générer un sitemap
-utiliser un outil comme Xenu pour crawler l’ensemble du site (ou les premiers niveaux)

Cela dit, il peut arriver de n’avoir ni de sitemap à disposition, ni de possibilité d’extraction, ni d’utilisation possible de crawler le site (liens en javascript, …), cela m’est arrivé très récemment dans le cadre d’une refonte de site. Dans d’autres cas aussi, on a le nom de la session qui apparait dans l’URL, du coup, ça peut devenir un vrai cauchemar pour les sites ecommerce : en faisant un crawl en plusieurs fois on peut avoir des n° de sessions différentes, etc… Bref, vous aurez énormément d’URLs, pas forcément prises en compte par les moteurs de recherche. Heureusement, il y a une autre solution…

La commande site:

La méthode que je vais présenter se base sur la commande « site: » dans Google. Cette commande permet de remonter dans Google toutes les adresses indexées d’un site. Seulement, en faisant une requête basique « site:votresite.com », Google ne remonte que 1000 résultats (et en pratique c’est même souvent autour de 600-700). Du coup, pour un petit site, ça ne pose pas forcément problème, mais pour un site plus conséquent, il va falloir trouver une solution. L’idée ici, va être de segmenter votre recherche. Pour ça, il va falloir identifier les différents types de page, via :
-les URLs (ex. : je remarque que les catégories de mon site ont /category/ dans l’URL)
-les « footprints » (ex. : « Un Blog WordPress.com » pour certains sites sous WordPress)

Vous l’avez compris, l’intérêt de cette méthode est de :
-diviser vos recherches pour obtenir plus de résultats
identifier plus rapidement les types de pages que vous récupérez
-identifier des pages indexées qui ne sont plus d’actualité pour les rediriger

Cette méthode a des limites : la limite de cette méthode est que les résultats de Google sont toujours limités à 1000 résultats, du coup dans le cas d’un site qui comporte 5000 produits indexés, 1200 catégories, … c’est un peu plus compliqué, vous devrez ruser Google pour obtenir + de résultats, mais ça c’est une autre histoire… :)

Et vous, quelles méthodes utilisez-vous pour récuperer des URLs / faire des redirections 301 ?

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :