Rankmyday
Astuces et réflexions sur le référencement organique, ainsi que sur différents aspects du SEO et de son actualité.
Entre ici ami robot… Ou « du bon usage du REP »
Catégorie REP | Laissez un commentaire
Le protocole d’ exclusion des robots (REP) est un regroupements de standards qui régissent le comportement des robots et des méthodes d’ indexation des moteurs de recherche. D’ailleurs, on parle « d’ exclusion », mais le REP permet aussi les différents mécanismes d’i nclusion.
Le REP est constitué des éléments suivants:
1. Le REP original de 1994 (revu en 1997) qui définit les directive de crawl du fichier robots.txt.
2. Son extension de 1996, qui définit les directives d’indexation du méta tag robots; ces dernières peuvent être appliqué seulement à certains robots.
3. Le protocole sitemap de 2005 qui permet de soumettre massivement du contenu aux moteurs de recherche.
4. Enfin, le micro format rel-nofollow de 2005 qui définit le comportement des moteurs lorsqu’ils tombent sur un élément A dont la valeur de l’ attribut REL est « nofollow »
Histoire de clarifier un peu les choses: un crawler n’ indexe pas de contenu, il lit des fichiers et des directives des serveurs web afin d’ alimenter une base de donnée dans laquelle les moteurs d’ indexation vont faire leurs classement.Les fichiers destinés aux crawlers (robots.txt et sitemaps) vont donc suggérer aux crawlers ce qu’ils doivent et ne doivent pas crawler.Et inversement; les directives destinées aux robots d’ indexation (meta tags et microformats) leurs indique quoi indexer ou pas. Donc oui, afin d’i nterdire l’ indexation d’une page, il faut avant tout permettre à un crawler d’en lire le contenu…
Étant donné que toutes ces directives apparaissent à différents niveaux, les moteurs doivent donc suivre un certaine hiérarchie:
1. Le fichier robots.txt: placé à la racine du site, c’est le premier fichier appelé par un robot et en quelque sorte le gardien de votre site. En théorie, en cas de conflit avec un autre règle, c’est celle du robots.txt qui prédomine. Les moteurs le lisent en général de façon quasi journalière et en mettent le contenu en cache; les modifications en terme de crawl ne sont donc pas immédiates, mais une nouvelle soumission du sitemap peut vider et rafraîchir le cache.
2. Le sitemap: il fournit une liste d’urls et des directives aux robots sur par exemple: une priorité souhaité sur le crawl ou une fréquence de mise à jour des pages. Il à aussi le mérite d’accélérer le crawl des sites lors d’un lancement ou encore de crawler lus en profondeur certains sites qui peinent à être indexés en totalité.
3. Les tags: ils fournissent des indications très précises sur des pages seules mais sont malheureusement interprétées parfois différemment par les robots: on peut retrouver certaines pages faisant des liens vers des pages marquées en no-index dans les SERPS de Yahoo et MSN quand Google respecte la directive et écart même les pages lieuses de ses résultats(à confirmer). En cas de conflit dans les métas (par exemple la meta robots renseignée deux fois avec des infos contradictoires), c’est une méta spécifique à un moteur qui sera pris en considération.
4. Enfin, les microformats: le tag nofollow prendra le pas sur une directive follow renseignée dans une méta robots.
Voila, j’y vois moi même un peu plus clair
Article librement inspiré par celui ci de seoMoz.
Raphaël

>> Entre ici ami robot… Ou « du bon usage du REP »
Cet article vous a plus ? Abonnez-vous au flux RSS
Articles connexes
- Je dresse mon robot moi mooosieur : On a vu la théorie dans le dernier article, passons maintenant à la pratique... Comment va t-on dre
- Soumission croisée des sitemaps via le robots.txt : Il est désormais possible de soumettre les sitemaps correspondants à des domaines différents mais hé
- Mon robot à moi… meta : Après avoir vu comment spécifier des directives sur l'ensemble d'un site via le fichier robots.txt
- Comment planter son REP… et son referencement : L'implémentation du REP comme on a pu le voir dans les quelques articles précédents, est assez normé
- Au pied les robots ! : Après quelques soucis récurrents avec notre ami Google qui a trouvé le moyen de m'indexer des fichie
Commentaires
Laissez un commentaire