Sur WordPress, il est fréquent de créer des URLs « secondaires » sans s’en rendre compte : pages de tags, archives d’auteur, filtres, paramètres, résultats de recherche interne. Le risque : diluer le SEO, multiplier les doublons, ou bloquer par erreur des pages utiles. L’objectif est d’utiliser les bons outils (robots.txt, noindex, canonical) au bon endroit, pour une PME active en Suisse romande (Vaud, Genève, Fribourg, Valais, Neuchâtel, Jura), que les recherches viennent de Lausanne, Nyon, Vevey, Yverdon-les-Bains, Genève, Carouge, Fribourg, Bulle, Sion, Martigny, Monthey, Neuchâtel, La Chaux-de-Fonds, Delémont ou Porrentruy.
Sources officielles : Google Search Central – Introduction a robots.txt, Google – Robots.txt specification (interpretation), Google Search Central – Bloquer l’indexation avec noindex, Google Search Central – Robots meta tag et X-Robots-Tag, Google Search Central – Canonical et consolidation d’URLs, Google Search Central – Canonicalisation, Google Search Central – Depannage canonicalisation, WordPress Developer – wp_robots(), WordPress Developer – hook wp_robots.
1) Crawl vs index : la confusion qui coute cher
robots.txt sert a limiter ce que les robots peuvent explorer. Google rappelle que robots.txt n’est pas un mecanisme pour empecher l’apparition d’une page dans les resultats. Pour empecher l’indexation, il faut plutot utiliser noindex (ou proteger la page).
- robots.txt : « ne pas explorer » (crawling).
- noindex : « ne pas indexer » (apparition dans Google).
- canonical : « voici l’URL representative » quand plusieurs pages se ressemblent.
2) robots.txt : quand l’utiliser (et quand eviter)
Un robots.txt est un fichier texte place a la racine du site. Google precise l’emplacement, le format (texte, UTF-8) et la maniere d’interpreter les regles.
Cas typiques utiles sur WordPress :
- Bloquer des zones techniques sans valeur SEO (ex. pages d’admin).
- Limiter l’exploration de pages generees par des parametres (filtres, tris) si elles explosent en volume.
- Eviter le gaspillage de ressources serveur quand le site est sollicite (grosses boutiques, gros catalogues).
Point de vigilance : ne pas bloquer des ressources necessaires au rendu (CSS/JS) si cela empeche Google de comprendre la page. Si un doute existe, il vaut souvent mieux laisser explorer, et gerer l’indexation autrement (noindex ou canonical).
3) noindex : la solution propre pour les pages « faibles »
Google documente noindex via une balise meta robots ou un en-tete HTTP X-Robots-Tag. Cela sert a retirer des resultats les pages qui n’apportent pas de valeur : pages de recherche interne, pages de tags vides, pages tres proches d’autres pages, etc.
Exemple (meta robots) : noindex
<meta name="robots" content="noindex">
Pratique recommandee : noindex + contenu utile sur les pages importantes, plutot que bloquer a l’aveugle via robots.txt.
4) canonical : gerer le contenu duplique sans supprimer
Quand plusieurs URLs montrent le meme contenu (ou presque), Google peut choisir une URL representative (canonicalisation). Vous pouvez indiquer votre preference via rel= »canonical » et d’autres methodes, et Google fournit aussi un guide de depannage si la page canonique « choisie » n’est pas celle attendue.
- Exemple courant : un produit accessible par plusieurs chemins (categorie A, categorie B).
- Exemple courant : pages avec parametres (tri, pagination) qui ressemblent a la page principale.
- Objectif : consolider les signaux sur une page de reference, au lieu de les eparpiller.
5) WordPress : utiliser wp_robots pour piloter noindex proprement
WordPress peut afficher une balise robots via la fonction wp_robots(), et les directives peuvent etre ajustees via le filtre wp_robots. Cela permet une approche « propre » (au niveau theme ou plugin), plutot que des bricolages page par page.
Exemples de pages souvent candidates a noindex (selon votre strategie) :
- Pages de resultats de recherche interne.
- Archives de tags peu qualitatives (tags trop nombreux, contenu faible).
- Archives auteur si elles dupliquent les archives du blog.
Important : avant d’appliquer noindex en masse, verifier dans Search Console quelles pages apportent deja des impressions et des clics. Une decision « globale » peut supprimer une source de trafic utile.
6) Methode simple (SEO local) : garder les pages fortes, neutraliser le bruit
Pour un site de services en Suisse romande, la priorite reste souvent :
- Pages services (claires, completes, avec FAQ).
- Page zones d’intervention (Vaud, Genève, Fribourg, Valais, Neuchâtel, Jura) avec du contenu reel, sans copier-coller.
- Pages preuves (etudes de cas, methodes, process).
Ensuite, on reduit le bruit : archives inutiles, tags non maintenus, et URLs a parametres qui n’apportent rien. robots.txt sert a calmer l’exploration si le volume devient trop grand, tandis que noindex et canonical gerent l’indexation et les doublons.
Checklist (30 minutes)
- Identifier 10 pages a forte intention (services, contact, zones, devis).
- Lister les pages « bruit » (tags, auteurs, recherche interne, parametres).
- Decider : noindex (pages faibles) ou canonical (doublons proches).
- Verifier robots.txt : uniquement pour limiter l’exploration si necessaire.
- Verifier dans Search Console quelle URL Google considere canonique via Inspection d’URL.
FAQ robots.txt, noindex et canonical (WordPress)
Si je bloque une page dans robots.txt, est-elle forcement absente de Google ?
Non. Google indique que robots.txt ne sert pas a empecher l’indexation. Pour bloquer l’indexation, utilisez noindex (ou une protection d’acces).
Dois-je mettre noindex sur toutes les pages de tags ?
Pas automatiquement. Si vos tags sont utiles (pages riches, maintenues, qui repondent a une intention), ils peuvent avoir de la valeur. Si les tags sont nombreux et faibles, noindex peut etre pertinent. La decision se prend avec vos donnees (Search Console) et votre structure de contenu.
Canonical ou redirection 301 : que choisir ?
La 301 convient quand une URL n’existe plus (changement permanent). Canonical sert quand plusieurs URLs restent accessibles mais representent (presque) la meme chose. Google detaille les methodes de consolidation et les signaux de canonicalisation.
Comment piloter noindex proprement dans WordPress ?
WordPress peut afficher une balise robots via wp_robots(), et vous pouvez ajuster les directives via le filtre wp_robots (theme ou plugin).
Besoin d’un cadrage SEO propre (robots, noindex, canonical) sur WordPress ?
Pour clarifier les pages a conserver, reduire le contenu duplique, et fiabiliser l’indexation sans perdre le SEO local en Suisse romande, contactez clickclick.ch.