Robots.txt
Blog Web-MarketingRobots.txt est un fichier qui permet d’indiquer aux moteurs de recherche quelles sont les pages à crawler, à indexer ou le(s) sitemap(s) du site internet. Il doit obligatoirement être placé à la racine du site. Voici quelques exemples de robots.txt
Sitemap classique:
User-Agent: *
Allow: /
Disallow: /dossier/xxx.html
Noindex: /dossier/xxx.html
Sitemap: http://www.example.fr/sitemap.xml
Déréférencer un site internet:
User-Agent: *
Noindex: /
Déréférencer une page:
User-Agent: *
Noindex: /dossier/xxx.html
Interdire le crawl d’une page
User-Agent: /
Disallow: /dossier/xxx.html
Déréférencer plusieurs pages:
User-Agent: *
Noindex: /dossier/page-1.html
Noindex: /dossier/page-2.html
Noindex: /dossier/page-3.html
Déréférencer un répertoire:
User-Agent: *
Noindex: /repertoire/
Référencer un sitemap:
User-Agent: *
Sitemap: http://www.example.fr/sitemap.xml
Bloquer un moteur de recherche:
User-Agent: googlebot
Disallow: /User-Agent: bingbot
Disallow: /
Bloquer le référencement une extension de fichier
User-Agent: /
Disallow: /*.jpg$
Noindex: /*.jpg$
User-agents du GoogleBot:
- Recherche sur le Web Google – Googlebot
- Google Actualités – Googlebot-News
- Google Images – Googlebot-Image
- Google Vidéos – Googlebot-Video
- Google Mobile – Googlebot-Mobile
- Google AdSense – Mediapartners-Google ou AdsBot-Google