Au pied les robots !

Après quelques soucis récurrents avec notre ami Google qui a trouvé le moyen de m’indexer des fichiers dont j’ignorais jusqu’à l’existence :) je vais donc tâcher d’aller un peu plus loin dans l’analyse du fichier robots.txt.

Aujourd’hui, je vais m’attacher à la réflexion préalable : « Que va t-on donner en pâture aux robots, et que va t-on mettre hors de leur portée ? » Cela reviens à choisir ce qui sera public ou privé en gardant toujours en tête le fait que ce que vous pensez être privé pour vos internautes ne l’est pas forcément pour nos amis robots.

Partez donc du principe que tout est public par défaut: Googlebot (ou autre, mais ce dernier est particulièrement fort à ce petit jeu) est un insatiable fouineur et arrivera à dénicher le moindre fichier sur votre serveur, à partir du moment ou il trouvera une url à suivre. Si vous n’avez rien à cacher, vous n’avez donc pas besoin d’un fichier robots.txt: ce dernier est la première chose qu’un robot cherchera à trouver sur votre site et en son absence, il devrait (normalement) renvoyer une 404 et prendre en compte l’indication par défaut « fais toi plaisir et crawle l’ensemble ! »

Que pouvez vous donc chercher à rendre privé ?

Des données privées : c’est le plus évident, il est logique d’interdire aux robots l’accès que vous n’autorisez pas a tous ou partie de vos internautes. Que ce soit des données personnelles, des discussions privées ou même des mots de passe (si, si… c’est du vécu) il serait assez malvenu que n’importe qui puisse y accéder en passant par Google.

Les pages prévues pour l’impression : certains sites proposent des version allégées de leurs pages , via le plus souvent l’usage des CSS, pour faciliter l’impression papier. Ces pages sont dépourvues des éléments graphiques superflues (bannières, éléments visuels, pubs etc…), mais le contenu textuel lui est le même et devient donc redondant par rapport à la page originale. Le duplicate content est proche -> interdisez l’accès aux robots.

Les pages de test : encore une fois, cela peut paraitre évident mais il est assez peu plaisant de voir une page non finie, remplie de « toto » ou de « Lorem Ipsum » se retrouver dans les SERPs. Faites tous vos tests de page au sein d’un répertoire dont vous interdirez l’accès aux robots. Si vous êtes à l’étape au dessus et que vous disposez d’un serveur de développement et/ou recette n’oubliez pas de faire de même et empêchez le crawl de vos pages: j’ai eu le cas d’un serveur entier, réplique exacte du site en production, se retrouver dans les résultats des moteurs!

Le contenu non pertinent : tous les éléments qui n’ont pas d’interêt à se retrouver indexés peuvent être exclus, entre autre les images constituants le template de votre site. Etant donnée que les robots bénéficient d’un temps et de ressources limitées pour le crawl de chaque site, vous maximiserez le « vrai » contenu de votre site aux yeux des robots en plus d’économiser de la bande passante. Je vous invite à lire à ce sujet : « Optimiser le référencement de ses images »

Les différentes versions de landing pages : si vous faites des split tests avec vos campagnes de positionnement payant, évitez soigneusement de laisser accessibles les landing pages qui ne sont pas les originales; tout comme dans le cas des pages d’impression, vous risquez le duplicate content.

Dans le prochain article, je vais essayer de compiler un maximum d’exemple et de possibilités afin de restreindre complètement ou en partie l’accès à des pages, répertoires ou sites par les robots.

En attendant, je vous invite à lire cet article sur le REP (Robot Exclusion Protocol) pour en savoir plus sur les défférents moyens de contrôle des robots.

SocialTwist Tell-a-Friend
Partager:
  • del.icio.us
  • BlogMemes Fr
  • Fuzz
  • Wikio
  • Technorati
  • TwitThis

>> Au pied les robots !
Cet article vous a plus ? Abonnez-vous au flux RSS

Articles connexes

Commentaires

Laissez un commentaire




Rankmyday - lecteurs

Lecteurs Mybloglog

Lecteurs Friend connect