Journal

GEO et Robots : autoriser les bons crawlers IA (sans ouvrir la porte à tout) sur WordPress

Résumé : pour le GEO, votre contenu doit pouvoir être exploré par les bons crawlers, sinon il ne sera ni découvert, ni cité. La clé consiste à distinguer indexation pour la recherche et collecte pour l’entraînement, puis à définir une règle claire dans robots.txt et, si nécessaire, via noindex et les contrôles d’extraits.

Ce guide s’applique aux sites WordPress qui visent des clients en Suisse romande : Lausanne, Nyon, Vevey, Yverdon-les-Bains (VD) ; Genève, Carouge, Meyrin, Lancy (GE) ; Fribourg, Bulle (FR) ; Sion, Sierre, Martigny, Monthey (VS) ; Neuchâtel, La Chaux-de-Fonds, Le Locle (NE) ; Delémont, Porrentruy (JU).

Sources officielles : OpenAI (crawlers et user-agents) | OpenAI (Publishers and Developers – FAQ) | Google Search Central (AI features) | Google (robots meta tag) | Bing (robots.txt)

1) Deux objectifs, deux décisions : visibilité vs entraînement

Avant de toucher à robots.txt, posez une question simple :

  • Souhaitez-vous apparaître comme source dans les réponses de recherche (citations, liens) ? Si oui, il faut autoriser les crawlers de recherche concernés.
  • Souhaitez-vous que votre contenu puisse être utilisé pour l’entraînement de modèles ? Si non, bloquez les crawlers d’entraînement.

Bonne nouvelle : OpenAI indique que l’on peut autoriser le crawler de recherche tout en bloquant le crawler d’entraînement, car les réglages sont indépendants.

2) Comprendre OAI-SearchBot vs GPTBot (OpenAI)

D’après la documentation OpenAI :

  • OAI-SearchBot sert à faire apparaître des sites dans les résultats de recherche de ChatGPT. Si vous le bloquez, votre site ne sera pas montré dans les réponses de recherche, même s’il peut encore apparaître comme lien de navigation.
  • GPTBot sert à collecter du contenu qui peut être utilisé pour l’entraînement des modèles. Le bloquer indique que le contenu ne doit pas être utilisé à cette fin.

3) Configuration recommandée pour le GEO : autoriser la recherche, bloquer l’entraînement

Cas fréquent pour une PME : être visible (et potentiellement cité) dans les expériences de recherche, tout en refusant l’usage pour l’entraînement. Exemple de base :

# robots.txt (exemple)
User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

Conseil : évitez les règles trop complexes au début. Une règle claire, testable, et cohérente avec vos objectifs est souvent plus rentable.

4) Bloquer une zone sensible sans bloquer tout le site

Autre cas courant : vous voulez autoriser l’exploration globale, mais interdire des répertoires (ex. espace client, pages de test, contenus internes). Exemple :

# robots.txt (exemple)
User-agent: OAI-SearchBot
Disallow: /espace-client/
Disallow: /staging/
Allow: /

User-agent: GPTBot
Disallow: /

Important : robots.txt gère l’exploration. Pour empêcher l’affichage dans les moteurs (et éviter qu’un simple titre apparaisse), il faut généralement utiliser noindex. Les meta tags ne peuvent être lus que si le crawler a accès à la page.

5) Cas particulier : « Je ne veux même pas que le titre apparaisse »

OpenAI précise que, si une page est bloquée mais que l’URL est découverte via des sources tierces, un lien et un titre peuvent encore apparaître. Pour éviter cela, il faut utiliser noindex, en gardant à l’esprit que le crawler doit pouvoir accéder à la page pour lire ce signal.

<meta name="robots" content="noindex">

6) Google AI Overviews et AI Mode : pas d’optimisation spéciale, mais des bases strictes

Google indique que les bonnes pratiques SEO habituelles restent valables pour les AI features : pages indexées, contenu accessible, maillage interne, contenu texte important, données structurées cohérentes avec le visible. Pour limiter ce qui est montré, Google renvoie vers nosnippet, data-nosnippet, max-snippet et noindex.

7) Mesure GEO : savoir d’ou viennent les clics

OpenAI indique que le trafic provenant de ChatGPT peut être suivi car les liens de référence incluent un paramètre UTM (utm_source=chatgpt.com). Côté Google, les clics depuis les AI features sont comptés dans les rapports Search Console (trafic Web global).

FAQ GEO : robots.txt, citations et contrôle

Faut-il autoriser OAI-SearchBot pour être cité dans ChatGPT search ?

Oui, si vous voulez que vos pages puissent être incluses dans des résumés et snippets de ChatGPT search. OpenAI recommande explicitement de ne pas bloquer OAI-SearchBot pour cet usage.

Puis-je bloquer l’entraînement tout en restant visible en recherche ?

Oui. OpenAI explique que l’on peut autoriser OAI-SearchBot (recherche) tout en bloquant GPTBot (entraînement). Cela permet de viser la visibilité GEO sans ouvrir l’usage d’entraînement.

Si je bloque OAI-SearchBot, est-ce que mon site disparaît complètement de ChatGPT ?

OpenAI indique que le site ne sera pas montré dans les réponses de recherche, mais il peut encore apparaître comme lien de navigation. Si vous ne voulez pas cette apparition, il faut envisager noindex, en laissant l’accès nécessaire pour que le signal soit lu.

Comment empêcher l’affichage d’extraits dans Google (y compris dans des expériences IA de la recherche) ?

Google renvoie vers les contrôles nosnippet, data-nosnippet, max-snippet et noindex. Le choix dépend de votre objectif : limiter un extrait, bloquer une section précise, ou retirer la page de l’index.

Comment mesurer le trafic venant de ChatGPT sur un site WordPress ?

OpenAI indique que les liens de référence incluent utm_source=chatgpt.com. Dans GA4, cela se retrouve dans les acquisitions (source/medium) et permet de filtrer les sessions et conversions associées.

Besoin d’une configuration GEO propre (robots, noindex, contrôle des extraits) sur WordPress ?

Pour cadrer vos objectifs (visibilité, citations, contrôle), appliquer une configuration testable et éviter les erreurs qui bloquent l’indexation, contactez clickclick.ch.

Partez sur de bonnes bases

Prêt·e à lancer votre prochain site performant ?

Clarifiez votre périmètre, choisissez un forfait et planifiez un appel découverte en moins de 48 h. Nous vous aidons à aligner UX, performance et ressources.

Réponse sous 1 jour ouvré · Workshop de cadrage offert pour les projets complets.