Robots.txt

Blog Web-Marketing

Robots.txt est un fichier qui permet d’indiquer aux moteurs de recherche quelles sont les pages à crawler, à indexer ou le(s) sitemap(s) du site internet. Il doit obligatoirement être placé à la racine du site. Voici quelques exemples de robots.txt

Sitemap classique:

User-Agent: *
Allow: /
Disallow: /dossier/xxx.html
Noindex: /dossier/xxx.html
Sitemap: http://www.example.fr/sitemap.xml

Déréférencer un site internet:

User-Agent: *
Noindex: /

Déréférencer une page:

User-Agent: *
Noindex: /dossier/xxx.html

Interdire le crawl d’une page

User-Agent: /
Disallow: /dossier/xxx.html

Déréférencer plusieurs pages:

User-Agent: *
Noindex: /dossier/page-1.html
Noindex: /dossier/page-2.html
Noindex: /dossier/page-3.html

Déréférencer un répertoire:

User-Agent: *
Noindex: /repertoire/

Référencer un sitemap:

User-Agent: *
Sitemap: http://www.example.fr/sitemap.xml

Bloquer un moteur de recherche:

User-Agent: googlebot
Disallow: /

User-Agent: bingbot
Disallow: /

Bloquer le référencement une extension de fichier

User-Agent: /
Disallow: /*.jpg$
Noindex: /*.jpg$

User-agents du GoogleBot:

  • Recherche sur le Web Google – Googlebot
  • Google Actualités – Googlebot-News
  • Google Images – Googlebot-Image
  • Google Vidéos – Googlebot-Video
  • Google Mobile – Googlebot-Mobile
  • Google AdSense – Mediapartners-Google ou AdsBot-Google
Pas de commentaire.

Pas de commentaire.