Entre ici ami robot… Ou « du bon usage du REP »

Le protocole d’ exclusion des robots (REP) est un regroupements de standards qui régissent le comportement des robots et des méthodes d’ indexation des moteurs de recherche. D’ailleurs, on parle « d’ exclusion », mais le REP permet aussi les différents mécanismes d’i nclusion.

Le REP est constitué des éléments suivants:

1. Le REP original de 1994 (revu en 1997) qui définit les directive de crawl du fichier robots.txt.
2. Son extension de 1996, qui définit les directives d’indexation du méta tag robots; ces dernières peuvent être appliqué seulement à certains robots.
3. Le protocole sitemap de 2005 qui permet de soumettre massivement du contenu aux moteurs de recherche.
4. Enfin, le micro format rel-nofollow de 2005 qui définit le comportement des moteurs lorsqu’ils tombent sur un élément A dont la valeur de l’ attribut REL est « nofollow »

Histoire de clarifier un peu les choses: un crawler n’ indexe pas de contenu, il lit des fichiers et des directives des serveurs web afin d’ alimenter une base de donnée dans laquelle les moteurs d’ indexation vont faire leurs classement.Les fichiers destinés aux crawlers (robots.txt et sitemaps) vont donc suggérer aux crawlers ce qu’ils doivent et ne doivent pas crawler.Et inversement; les directives destinées aux robots d’ indexation (meta tags et microformats) leurs indique quoi indexer ou pas. Donc oui, afin d’i nterdire l’ indexation d’une page, il faut avant tout permettre à un crawler d’en lire le contenu…

Étant donné que toutes ces directives apparaissent à différents niveaux, les moteurs doivent donc suivre un certaine hiérarchie:

1. Le fichier robots.txt: placé à la racine du site, c’est le premier fichier appelé par un robot et en quelque sorte le gardien de votre site. En théorie, en cas de conflit avec un autre règle, c’est celle du robots.txt qui prédomine. Les moteurs le lisent en général de façon quasi journalière et en mettent le contenu en cache; les modifications en terme de crawl ne sont donc pas immédiates, mais une nouvelle soumission du sitemap peut vider et rafraîchir le cache.
2. Le sitemap: il fournit une liste d’urls et des directives aux robots sur par exemple: une priorité souhaité sur le crawl ou une fréquence de mise à jour des pages. Il à aussi le mérite d’accélérer le crawl des sites lors d’un lancement ou encore de crawler lus en profondeur certains sites qui peinent à être indexés en totalité.
3. Les tags: ils fournissent des indications très précises sur des pages seules mais sont malheureusement interprétées parfois différemment par les robots: on peut retrouver certaines pages faisant des liens vers des pages marquées en no-index dans les SERPS de Yahoo et MSN quand Google respecte la directive et écart même les pages lieuses de ses résultats(à confirmer). En cas de conflit dans les métas (par exemple la meta robots renseignée deux fois avec des infos contradictoires), c’est une méta spécifique à un moteur qui sera pris en considération.
4. Enfin, les microformats: le tag nofollow prendra le pas sur une directive follow renseignée dans une méta robots.

Voila, j’y vois moi même un peu plus clair :D

Article librement inspiré par celui ci de seoMoz.

Raphaël

SocialTwist Tell-a-Friend
Partager:
  • del.icio.us
  • BlogMemes Fr
  • Fuzz
  • Wikio
  • Technorati
  • TwitThis

>> Entre ici ami robot… Ou « du bon usage du REP »
Cet article vous a plus ? Abonnez-vous au flux RSS

Articles connexes

Commentaires

Laissez un commentaire




Rankmyday - lecteurs

Lecteurs Mybloglog

Lecteurs Friend connect