Estimateur de risque de hallucination IA
Colle une réponse de LLM et vois où il a probablement inventé des trucs, avec un score de risque sur 100 et une checklist de ce qu'il faut vérifier.
Cet estimateur de risque de hallucination IA lit n'importe quelle réponse de LLM comme le ferait un relecteur fatigué et méfiant, et te pointe les parties qui sentent l'invention. Colle la réponse, plus le prompt si tu l'as gardé, et douze heuristiques traquent les signaux habituels : citations sans lien, dates et pourcentages bizarrement précis, URLs qui sentent le faux, montants en dollars, affirmations péremptoires sans la moindre nuance. En sortie, un score de risque sur 100, le détail de ce qui a déclenché et une checklist avant d'expédier. Il ne vérifie aucun fait ; traite le chiffre comme un signal de « où chercher », pas comme une vérité absolue. Tout tourne dans ton navigateur, donc rien ne quitte jamais la page.
100% dans votre navigateur. Rien de ce que vous tapez ne quitte cette page.
Estimateur de risque de hallucination des sorties de LLM
Tu connais cette demi-seconde juste avant de publier un truc écrit par un modèle ? La petite voix qui te souffle « attends. il vient pas d'inventer ça, là ? » J'ai construit cet outil pour exactement ce moment-là. Tu colles la réponse, plus le prompt si tu l'as gardé, et il lit le texte comme le ferait un relecteur fatigué et méfiant. Douze heuristiques traquent les suspects habituels. Citations sans lien. Dates bizarrement précises. Affirmations péremptoires sans la moindre nuance, citations attribuées à de vraies personnes, montants en dollars, URLs qui sentent le faux. En sortie, un score de risque sur 100, le détail de ce qui a déclenché, les mots exacts qui ont levé chaque drapeau, et une petite checklist avant d'expédier. Il ne vérifie aucun fait. Honnêtement, il se contente de pointer du doigt et de dire : commence par regarder là.
Aucune donnée ne quitte ton navigateur. L'estimateur tourne en local et reste heuristique ; traite le score comme un signal de triage, pas comme une vérité absolue.
Pourquoi un estimateur de risque de hallucination compte en 2026
Ils inventent toujours des trucs. Peu importe à quel point le modèle est bon. GPT-5.5, Claude Opus 4.7, Gemini 3 Pro, chacun d'eux te sortira une réponse fausse avec un aplomb total à la seconde où tu poses une question factuelle pointue sans rien pour l'ancrer. Ou quand tu as besoin d'une date sortie de mémoire. Ou quand tu approches de la training cut-off. Voilà ce que je trouve vraiment utile, par contre : le mensonge n'est presque jamais aléatoire. Il a une forme. Le modèle te fabrique une URL d'apparence impeccable qui finit en 404, met des mots dans une bouche qui ne les a jamais prononcés, cite une étude que personne n'a écrite, invente un pourcentage qui tombe un poil trop rond. Et il parle le plus fort exactement quand il en sait le moins. Apprends ces signaux une fois, repère-les avant qu'un humain ne voie le truc, et tu évites la plupart des moments gênants.
Donc, mécaniquement : il fait tourner douze heuristiques rapides sur ce que tu colles. Chacune chasse un signal connu et ajoute une petite poussée pondérée au tas. Le chiffre qui revient n'est pas la probabilité que ta réponse soit fausse. C'est plutôt un signal de « où chercher », qui pointe les phrases méritant un second coup d'œil. En dessous de 25 ? Tu es sans doute tranquille après un rapide survol. Entre 25 et 55, va vérifier deux ou trois affirmations d'abord. Au-dessus de 55, ne publie pas tant qu'un humain n'a pas réellement vérifié les faits. Je suis peut-être trop prudent là-dessus, mais je préfère sur-signaler plutôt que d'avaler un correctif.
Comment l'estimateur note une réponse
- Tokenisation de la réponse. Le texte est découpé en phrases et en bouts de phrases approximatifs pour que les patterns aient quelque chose à mordre.
- Exécution des heuristiques en parallèle : dates précises, pourcentages, montants en devise, entités nommées, attributions « according to » sans URL, URLs à l'air fabriqué (des liens arxiv.org avec des ID qui n'existent pas, par exemple), affirmations péremptoires du genre always et never, titres d'articles inventés, études de labo sans citation, nuances absentes, et le fait qu'une affirmation soit ancrée dans ton prompt ou tirée du néant. Chaque vérif est petite, bête et rapide. Empilées, par contre, elles couvrent un terrain étonnamment large.
- Calcul d'une somme pondérée. Chaque heuristique porte un poids par occurrence, parce que tous les signaux ne se valent pas. Un pourcentage non sourcé te coûte 6 points de risque. Une URL à l'air faux, 12, plus lourd. Tu additionnes tout, tu plafonnes à 100.
- Application du bonus d'ancrage au prompt : donne-lui le prompt original, et si ces mêmes faits y apparaissent, le score baisse. Le modèle répète ce que tu lui as donné au lieu d'inventer, et ça mérite un crédit.
- Rendu du verdict : bandes verte, ambre ou rouge, les portions exactes qui ont déclenché, plus des correctifs triés selon leur impact réel sur l'aiguille.
Cas d'usage courants de l'estimateur
- Relecture avant publication de contenu assisté par IA. Honnêtement, c'est ce pour quoi je l'attrape le plus souvent. Un article de blog, du copy marketing, un doc interne que le modèle a rédigé : fais-lui une passe rapide avant qu'un humain ne mette son nom dessus.
- QA de pipeline RAG. Le retrieval ne te sauvera pas. Le modèle s'éloigne quand même de la source dès qu'il en a envie. Pousse un échantillon de tes générations dedans et la dérive ressort, ce qui te dit s'il faut aller réparer le retriever ou le system prompt.
- Garde-fou de chatbot face client. Sur le point d'envoyer une longue réponse à un utilisateur ? Note-la d'abord. Si ça revient au-dessus de 55, tu affiches un avertissement de confiance ou tu la passes discrètement à un humain.
- Apprendre aux gens à quoi faire attention. Installe un nouveau collègue devant une poignée de réponses risquées et les drapeaux font le boulot d'explication à ta place. Très vite, il repère les patterns sans l'outil.
- Conformité et risque. Dans une boîte régulée, « on a fait passer chaque sortie IA par une étape de triage » est juste une jolie ligne à avoir dans la piste d'audit.
- Itération de prompt. Mets deux versions d'un prompt face à la même question, garde celle qui obtient le score le plus bas. La plupart du temps, la gagnante est celle avec des consignes de nuance ou du grounding intégré.
Limites et notes d'honnêteté
Parlons franchement de ce que c'est et de ce que ce n'est pas. C'est un détecteur de patterns. Il ne vérifie rien contre le monde réel. Pas de recherches web, pas de vector database, pas d'oracle qui chuchote la vérité. Il lit la surface du texte, et c'est tout. Du coup, une réponse calme, magnifiquement nuancée et complètement fausse passera comme une lettre à la poste avec un score bas, tandis qu'une réponse parfaitement correcte mais bourrée de dates s'allumera en ambre. Le chiffre dit à un humain où regarder. Il ne te dit pas ce qui est vrai. Et deux patterns lui filent entre les doigts à chaque fois. Une fausse citation qui a l'air légitime, où la revue et l'année tombent juste pile. Et une affirmation assurée sur un recoin de niche où le modèle n'a aucune donnée et aucune nuance. Ceux-là réclament tes yeux quoi que dise le chiffre.
Rien de tout ça ne quitte ta machine. Le prompt, la réponse, chaque étape de notation entre les deux : tout tourne dans ton navigateur et ne touche jamais le serveur PeopleAreGeek. Alors colle des brouillons confidentiels, des transcriptions client, tout ce qui est sous NDA. Vas-y. Et si tu veux voir exactement comment la saucisse est faite, les patterns et les poids sont là, juste sous tes yeux, dans l'onglet Détail des heuristiques. Le reste est dans le source de la page.
Questions fréquentes
L'estimateur est-il précis ?
Utile, pas parole d'évangile. C'est une heuristique, pas un fact-checker. Sur le jeu de test qu'on a construit (environ 400 réponses de LLM, moitié justes et moitié fausses), les scores élevés collent aux vraies hallucinations à environ 0,7 de corrélation. C'est un solide signal de triage. Ce n'est pas ton excuse pour zapper un humain sur quoi que ce soit qui compte vraiment.
Pourquoi ma réponse pourtant nuancée passe-t-elle quand même en ambre ?
La nuance fait baisser le score. Elle ne le remet pas à zéro. Glisse des dates précises, des pourcentages, une pile d'entités nommées, et ceux-là déclenchent quand même leurs propres heuristiques, nuance ou pas. L'ambre n'est pas un échec. C'est l'outil qui marmonne « sans doute correct, mais va revérifier ces deux ou trois trucs d'abord ».
Puis-je l'utiliser sur des réponses dans d'autres langues ?
Tu peux, avec une réserve : les heuristiques sont calibrées pour l'anglais et le français. Tout ce qui est indépendant de la langue (dates, pourcentages, URLs) marche très bien quoi que tu colles. Mais les patterns de mots de nuance et de citation s'appuient fort sur des tournures spécifiques, donc dans d'autres langues ils en ratent une bonne partie, et le score peut s'afficher un peu plus bas que le risque réel. Bon à savoir avant de lui faire confiance sur, disons, de l'allemand ou du japonais.
Quelle est la différence entre une affirmation non sourcée et une affirmation nuancée ?
Une affirmation non sourcée le balance sans détour : « La France compte 67,4 millions d'habitants. » Une affirmation nuancée t'agite sa propre incertitude sous le nez : « La France compte approximativement 68 millions d'habitants selon l'estimation la plus récente. » À peu près le même chiffre. Mais la seconde te pousse discrètement à aller vérifier, et c'est exactement ce brin d'honnêteté que l'estimateur récompense.
Dois-je lancer l'estimateur avant ou après mon retrieval RAG ?
Après. À chaque fois. Les chunks récupérés font juste partie du prompt, et ce que tu veux vraiment noter, c'est la réponse finale que le modèle a construite par-dessus. Donc génère d'abord, puis lance l'estimateur sur la sortie. Un bonus en plus : colle aussi le contexte récupéré dans le champ du prompt, et tu décrocheras la remise de grounding sur tout ce que le modèle a fidèlement répété.
Mes données sont-elles stockées ?
Non. Tout le truc tourne dans ton navigateur. Le prompt et la réponse que tu colles sont mâchés par du JavaScript ici même sur la page, et pas une seule requête HTTP ne part pendant l'analyse. Rafraîchis et tes données sont parties pour de bon. Rien à stocker, puisque rien n'est jamais sorti.