Vérificateur de liens cassés

Extrais tous les liens d'une page publique, teste un échantillon pour repérer impasses et sauts de redirect, garde le texte d'ancre en vue, puis copie une liste de corrections en CSV.

Un vérificateur de liens cassés prend une seule page publique, extrait tous ses liens depuis le HTML en direct côté serveur, puis teste un échantillon contrôlé des destinations uniques pour que tu agisses sur de vrais problèmes au lieu de deviner. Colle une URL et choisis ton périmètre : traque d'abord tes propres liens internes, ou tire aussi les citations externes dans l'échantillon. Il suit les sauts de redirect pour que tu voies où chaque lien atterrit vraiment, regroupe les destinations en double, et pose le texte d'ancre de la source juste à côté de chaque lecture. L'idée, c'est qu'un 404 net, un lien qui boite à travers un redirect de migration et une ancre vide sont trois problèmes différents qui réclament trois corrections différentes, alors il les garde à part au lieu de les enterrer sous un seul score bien rangé. Ensuite il te file un CSV à traiter une correction à la fois. Conçu pour le nettoyage après une migration, une grosse refonte de contenu, ou un changement de thème qui a laissé traîner un tas d'anciens chemins.

Les requêtes passent par le service de lookup PeopleAreGeek. Nous ne journalisons rien.

Ce qu'un vérificateur de liens cassés devrait t'aider à réparer

Un lien cassé, au fond, ce n'est pas une histoire de status code. Sur un site en ligne, c'est une promesse rompue, lâchée en plein milieu d'une lecture. La personne clique sur ton guide, ou un outil, ou peu importe ce vers quoi tu l'as pointée, et au lieu de l'étape suivante elle se prend un mur. Quand le lien mort est le tien, tu possèdes les deux bouts : la page où il se trouve, et l'endroit où il était censé envoyer les gens. Du coup les liens internes sont tout en haut de ma liste de maintenance. Peut-être même plus haut qu'ils ne le devraient, honnêtement.

Alors j'ai construit ça pour la partie ennuyeuse. La partie réparation. Il lit les ancres déjà présentes dans ton HTML, regroupe les destinations en double, puis demande à l'API du site quel status et quel chemin de redirect chaque URL unique renvoie, et il pose le texte d'ancre de la source juste à côté. Tu obtiens autre chose qu'un seul gros chiffre rouge furieux. Parce qu'un 404 net et un lien qui boite à travers un redirect de migration, ce n'est pas le même problème, qu'une ancre vide est encore une troisième chose, et que le même lien de nav répété quarante fois n'est presque pas un problème. Ils ne réclament pas la même correction.

Liens cassés, redirects et suppressions volontaires, c'est différent

Un 4xx ou un 5xx dans ton échantillon ? Oui, celui-là regarde-le. Une chaîne de 301, par contre, c'est plus sournois. Ça peut atterrir sur une page parfaitement saine et te dire quand même, en douce, que le HTML source est resté coincé sur une vieille structure d'URL. Et un 404 ou 410 volontaire ? Tout à fait correct, quand le contenu est parti et que rien de bon ne le remplacerait. Ce qui ne va pas, c'est un lien interne tout neuf encore pointé dessus. La correction dépend du cas : change l'URL, ou reformule la phrase, ou supprime carrément l'appel à l'action. Redirige seulement quand un substitut vraiment proche existe. Ne redirige pas juste pour faire disparaître le rouge.

  • URLs testées est le lot testé. Chaque destination unique, le status sur lequel elle a fini par se poser, et combien de sauts de redirect il a fallu pour y arriver.
  • Inventaire des liens garde toutes les ancres que j'ai extraites, avant que je regroupe les doublons, pour que rien ne t'échappe.
  • Ancres source te dit quelle formulation (et combien de lignes répétées) pointe vers une destination donnée.
  • Copie CSV te file un petit fichier bien serré pour la personne qui s'occupe du nettoyage éditorial ou de migration.
  • Périmètre c'est ton choix. Traque d'abord tes propres URLs internes, ou tire aussi les externes dans l'échantillon.

Un workflow de réparation humain après une migration ou une passe de contenu

  1. Va d'abord là où est le trafic. La nav, les hubs, les guides evergreen, les outils sur lesquels les gens atterrissent vraiment. Lecteurs et crawlers reviennent sans cesse vers ces pages-là.
  2. Tue les liens internes manifestement morts avant de t'embêter avec les citations externes ou le bruit du footer que personne ne clique de toute façon.
  3. Si une URL interne redirigée se trouve sur une page que tu possèdes, pointe-la directement vers la destination actuelle. Tu la contrôles, alors pourquoi garder le détour.
  4. Lis les mots autour de la correction, pas seulement l'URL. Un lien peut renvoyer un 200 nickel et laisser quand même le lecteur se demander ce qu'on lui avait promis.
  5. Reteste la page que tu as éditée. Et si tout est parti d'un gros déménagement de site, fais-la aussi passer par tes vérifications de sitemap et de redirects.

Pourquoi ce check au niveau de la page compte pour le SEO et la confiance

Le SEO technique fait beaucoup moins mal quand les chemins qu'un crawler suit correspondent vraiment au site que tu essaies de garder en vie. Des liens internes propres font passer les gens à la page suivante sans détour. Ça rend aussi les migrations bien moins fragiles, et ça empêche tes templates d'annoncer en douce de vieilles URLs dont tu avais oublié l'existence. Bon, je ne dis pas que chaque lien doit être parfait pour l'éternité. C'est une bataille perdue d'avance. Simplement, les parcours qui comptent ne devraient pas pourrir pendant que tu empiles du neuf par-dessus.

Questions fréquentes

Est-ce que ça crawle tout mon site ?

Non. C'est délibéré. Je regarde la seule page que tu me donnes et je teste un échantillon de ses URLs uniques, rien de plus. Ça garde le résultat assez petit pour qu'on puisse vraiment agir dessus au lieu de t'enterrer. Quand tu as réellement besoin de crawler tout le domaine, prends un crawler à l'échelle du site ou une tâche planifiée. Autre outil, autre jour.

Faut-il corriger les liens internes redirigés même quand ils finissent en 200 ?

Si c'est ton HTML, en général oui. Le redirect gagne sa place pour les vieux favoris et les liens externes que tu ne peux pas joindre. Mais à l'intérieur de tes propres pages, un lien direct, c'est juste plus propre. Un saut de moins, et une chose de moins à surveiller pour celui qui maintiendra ça après toi.

Quelle est la différence entre un 404 et un soft 404 ?

Un vrai 404 est honnête. La page est partie, le serveur le dit, tout le monde passe à autre chose. Un soft 404, c'est celui qui crée les ennuis : la page est vide ou absente, mais le serveur renvoie quand même un 200, du coup les moteurs de recherche supposent qu'il y a du vrai contenu là et se retrouvent perdus. Un truc a disparu ? Donne-lui un vrai 404 ou 410. Ne fais pas deviner un crawler.

Faut-il rediriger ou supprimer un lien cassé ?

Ça dépend de ce qui lui est arrivé. Le contenu a juste déménagé ? Un 301 de l'ancienne URL vers la nouvelle adresse, et c'est réglé. Vraiment parti, sans rien pour le remplacer ? Laisse-le faire un 404 ou 410. Voilà la réponse honnête. La seule chose que je te supplierais sincèrement de ne pas faire, c'est tout renvoyer vers la page d'accueil. Google lit ça comme un soft 404 de toute façon, donc tu encaisses le désavantage et le redirect n'aide personne.