Comment bloquer le crawl de votre site internet par les robots IA ?

Un crawler, aussi appelé robot d’indexation ou bot web, est un programme informatique utilisé pour parcourir automatiquement le web et collecter des données à partir de sites internet. Il est principalement utilisé par des moteurs de recherche (comme Google, Bing) pour découvrir et indexer des pages web afin de les rendre accessibles dans les résultats de recherche. Les crawlers sont également utilisés par les IA afin de collecter des données pour proposer des de des réponses toujours plus pertinentes.

Comment fonctionne un crawler ?

Le crawler commence par visiter une page web donnée. À partir de cette page, il suit les liens vers d’autres pages, et ainsi de suite, dans un processus itératif. Lorsqu’il explore une page, le crawler collecte des informations sur son contenu (texte, images, liens, etc.). Cela inclut les mots-clés, la structure des balises HTML, et d’autres métadonnées. Les informations récoltées sont ensuite stockées dans une base de données, appelée index, où elles sont organisées pour être facilement recherchables.

Les crawlers respectent souvent des instructions spécifiques indiquées par un fichier nommé robots.txt, situé à la racine des sites web, qui définit quelles parties du site peuvent être explorées ou non.

Comment bloquer les robots IA dans le fichier robots.txt ?

Pour bloquer spécifiquement les robots IA, vous devrez ajouter les lignes suivantes à votre fichier robots.txt :

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: YouBot
Disallow: /

L’ user-agent précise le robot IA spécifique, et l’instruction « Disallow: / » qui suit indique au robot qu’il n’a pas le droit d’explorer l’ensemble des pages de votre site.

N’hésiter pas à utiliser la partie commentaire pour compléter la liste précédente !

5 1 Vote

Évaluation de l'article

Tweetez

Partagez

Épingle

* * Cette case à cocher est obligatoire

* Ce formulaire recueille votre nom, email et contenu afin que nous puissions suivre les commentaires placés sur le site. Pour plus d'informations, consultez notre politique de confidentialité où vous obtiendrez plus d'informations sur où, comment et pourquoi nous stockons vos données.

0 Commentaires

Nouveaux

Anciens Meilleurs votes

Comment fonctionne un crawler ?

Comment bloquer les robots IA dans le fichier robots.txt ?

Vous pourriez aussi aimer

Connaitre la popularité des mots clés

Obtenez chaque mois des backlinks gratuits dofollow !

10 conseils SEO pour augmenter le trafic de votre site ecommerce