Comment bloquer le crawl de votre site internet par les robots IA ?

Un crawler, aussi appelé robot d’indexation ou bot web, est un programme informatique utilisé pour parcourir automatiquement le web et collecter des données à partir de sites internet. Il est principalement utilisé par des moteurs de recherche (comme Google, Bing) pour découvrir et indexer des pages web afin de les rendre accessibles dans les résultats de recherche. Les crawlers sont également utilisés par les IA afin de collecter des données pour proposer des de des réponses toujours plus pertinentes.

Comment fonctionne un crawler ?

Le crawler commence par visiter une page web donnée. À partir de cette page, il suit les liens vers d’autres pages, et ainsi de suite, dans un processus itératif. Lorsqu’il explore une page, le crawler collecte des informations sur son contenu (texte, images, liens, etc.). Cela inclut les mots-clés, la structure des balises HTML, et d’autres métadonnées. Les informations récoltées sont ensuite stockées dans une base de données, appelée index, où elles sont organisées pour être facilement recherchables.

Les crawlers respectent souvent des instructions spécifiques indiquées par un fichier nommé robots.txt, situé à la racine des sites web, qui définit quelles parties du site peuvent être explorées ou non.

Comment bloquer les robots IA dans le fichier robots.txt ?

Pour bloquer spécifiquement les robots IA, vous devrez ajouter les lignes suivantes à votre fichier robots.txt :

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: YouBot
Disallow: /

L’ user-agent  précise le robot IA spécifique, et l’instruction  « Disallow: / » qui suit indique au robot qu’il n’a pas le droit d’explorer l’ensemble des pages de votre site.

N’hésiter pas à utiliser la partie commentaire pour compléter la liste précédente !

5 1 Vote
Évaluation de l'article
S'abonner
Recevoir des notifications pour :
guest

* * Cette case à cocher est obligatoire

*

J'accepte

0 Commentaires
Nouveaux
Anciens Meilleurs votes
Commentaires publiés
Voir tous les commentaires