Robots Meta Checker
Lisez les robots meta tags et le header X-Robots-Tag de n'importe quelle URL, alignez les directives propres à chaque crawler, et gardez le contrôle de l'indexation séparé du contrôle des snippets.
Un robots meta checker lit les directives d'indexation et de preview actives sur une URL publique à l'instant T, pour que vous agissiez sur les vrais signaux plutôt que sur une supposition mise en cache. Collez une URL et l'outil lit le robots meta tag générique, les tags propres à googlebot et bingbot quand il arrive à récupérer le HTML, et le header X-Robots-Tag, puis les aligne côte à côte et les note face au rôle de page que vous choisissez. Il garde séparées trois décisions que les gens confondent sans cesse : noindex décide si une URL peut se classer, nofollow change la gestion des liens, et les directives de preview ne font que raccourcir ce qui s'affiche autour de votre résultat. Pour les PDF et les images sans head HTML, le header est le seul bouton, donc ils passent au même examen. Un rapport en clair se copie avant le moindre changement en production.
Les requêtes passent par le service de lookup PeopleAreGeek. Nous ne journalisons rien.
Index control and preview directive audit
Collez une URL publique. L'outil lit les robots meta tags et le header X-Robots-Tag, aligne les directives génériques face aux directives propres à chaque crawler, et garde bien le contrôle de l'indexation séparé du contrôle du snippet (les gens confondent ces deux-là en permanence). Les fichiers sans HTML, vos PDF pour l'essentiel, passent au même examen.
Les meta tags n'existent que dans le HTML. Le header X-Robots-Tag, lui, marche sur n'importe quel type de réponse, HTML ou pas, et c'est le seul moyen d'atteindre les fichiers qui ne peuvent de toute façon pas porter de meta tag.
Ce que les robots meta et X-Robots-Tag décident vraiment
Un robots meta checker lit les directives d'indexation et de preview qui sont actives sur une URL publique en ce moment même, pour que vous agissiez sur les vrais signaux au lieu de deviner. La plupart des gens réduisent les robots directives à un seul mot. Indexable, ou bloqué. C'est beaucoup trop grossier pour un vrai audit. Un signal noindex décide si une URL récupérée a le droit d'apparaître dans les résultats, point. nofollow est tout autre chose, ça concerne la façon dont les liens sont traités. Et les directives de preview, max-snippet ou max-image-preview ou nosnippet, ne gouvernent que la quantité affichée autour de votre résultat. Trois décisions distinctes qui portent le même manteau.
Du coup ce checker lit le robots meta tag générique, puis ceux propres à chaque crawler s'il arrive vraiment à récupérer le HTML, plus le header X-Robots-Tag. Sur WordPress, c'est cette combinaison qui piège tout le monde. Votre plugin SEO écrit des tags au niveau de la page dans le HTML, et pendant ce temps l'hébergeur ou un CDN vous greffe discrètement un header que vous n'avez jamais demandé. Pour un PDF ou une image, c'est pire, ou plutôt plus simple d'une façon assez frustrante : les headers sont à peu près le seul bouton dont vous disposez.
Le robots meta n'est pas le robots.txt
Voilà le piège. Une règle robots.txt verrouille l'accès au crawl d'un chemin. Une directive au niveau de la page, elle, doit d'abord être récupérée, un crawler ne peut pas lire un tag sur une page qu'on lui a interdit d'ouvrir. Donc si vous bloquez une URL dans robots.txt puis que vous lui collez un noindex, ce noindex risque de ne jamais être vu. Honnêtement c'est l'erreur que je croise le plus. Vous avez déplacé quelque chose ? Lisez les redirections. Du contenu public en double qui traîne ? Lisez les canonicals. Et pour tout ce que vous voulez vraiment tenir hors de la recherche, mettez la directive de contrôle d'indexation à un endroit qu'un crawler peut réellement atteindre.
- robots est votre meta directive HTML générique, le fourre-tout que tous les crawlers lisent.
- googlebot et bingbot vous permettent de surcharger ce fourre-tout pour un crawler nommé précis, quand vous en avez besoin.
- X-Robots-Tag voyage dans les headers HTTP, et c'est lui qui vous sauve sur les réponses non-HTML.
- Les snippet directives raccourcissent le preview sans forcément sortir l'URL de la recherche. Bon à garder en tête.
- Expected outcome indique à l'outil qu'un noindex délibéré n'est pas un bug, comme ça il ne note pas votre page privée comme une boulette.
Un workflow concret pour les robots directives
- Vérifiez l'URL publique exacte qui est réellement apparue, celle du sitemap ou du rapport Search Console ou d'où que le ticket vous ait envoyé.
- Lisez d'abord le statut de la réponse et le content type. Avant même de toucher aux tags.
- Mettez côte à côte le meta générique, les tags propres à chaque crawler et le header X-Robots-Tag, et comparez le tout ensemble.
- Quand les signaux se contredisent, croisez votre constat de noindex avec des vérifications canonical, redirection et robots.txt. Ne vous fiez pas à un seul pris isolément.
- Retestez après le moindre changement : thème, plugin SEO, cache, CDN, un header serveur retouché.
Questions fréquentes
nofollow et noindex, c'est pareil ?
Non, et la confusion coûte cher. Noindex décide si l'URL apparaît dans les résultats. Nofollow change juste la façon dont les liens sont gérés. Mélangez les deux et vous passerez une semaine à chercher la mauvaise raison pour laquelle une page ne performe pas.
Pourquoi vérifier le X-Robots-Tag sur un PDF ?
Parce qu'un PDF n'a pas de head HTML. Il n'y a nulle part où poser un robots meta tag. Le header de la réponse est le seul endroit qui reste pour appliquer un contrôle d'indexation ou de preview à ce fichier, donc c'est là qu'on regarde.
Un robots meta tag absent veut-il dire qu'une page publique est cassée ?
Non. Une page s'indexe très bien sans aucun robots meta tag, c'est le comportement par défaut. Ce qui casse vraiment les choses, c'est une directive restrictive que vous n'attendiez pas, ou des couches de contrôle qui se battent entre elles, ou un chemin de réponse que rien ne peut lire.
Quelle différence entre le robots meta tag et le robots.txt ?
Le robots.txt gère le crawl, à l'échelle du site, qui a le droit de récupérer quoi. Le robots meta tag (et le header X-Robots-Tag) gère l'indexation, page par page. Le hic, c'est que la page doit être crawlable pour que quiconque puisse lire son noindex en premier lieu.
Peut-on définir des robots directives dans un header HTTP ?
Oui. Le header X-Robots-Tag accepte les mêmes directives, et pour les fichiers non-HTML comme les PDF ou les images c'est votre seule option. Ils n'ont nulle part où loger un meta tag, donc le header fait tout le boulot.