Générateur llms.txt pour agents IA

Construisez l'index Markdown trié que ChatGPT, Claude, Perplexity et Gemini lisent en une seule requête, avec vérifications de bonnes pratiques.

Ce générateur llms.txt construit le petit fichier Markdown que les agents IA comme ChatGPT, Claude, Perplexity et Gemini lisent pour comprendre votre site en une seule requête. Il vit à la racine de votre domaine, juste à côté du robots.txt, mais fait l'inverse : au lieu de bloquer les crawlers, il tend à l'agent une liste courte et triée des pages qui valent le coup. Renseignez un nom de projet, un résumé, un paragraphe de contexte, puis regroupez vos liens sous Docs, Examples et Optional. Le fichier se reconstruit au fil de la frappe, sans rien envoyer à un serveur. L'onglet de vérifications signale un H1 ou un résumé manquant, compte vos liens et estime le coût en tokens. Vous avez aussi la structure llms-full.txt, un aperçu Markdown et des boutons copier ou télécharger.

100% dans votre navigateur. Rien de ce que vous tapez ne quitte cette page.

Constructeur llms.txt pour agents IA

Voyez le llms.txt comme un petit mot que vous laissez à un agent IA avant qu'il ne parte raconter n'importe quoi sur votre site. Un minuscule fichier Markdown. Jeremy Howard a lancé l'idée en 2024, et dès 2026 les gros agents (ChatGPT, Claude, Perplexity, Gemini) le lisent vraiment. Les sitemaps et le robots.txt, on les écrit pour les crawlers. Celui-ci, c'est pour le modèle. Vous remplissez le formulaire et je construis votre llms.txt directement dans le navigateur, et le llms-full.txt plus long aussi, si vous le voulez. Vous pointez vers les pages qui comptent, dans l'ordre où elles comptent, et le bot arrête de scraper votre page d'accueil bruyante pour deviner la réponse.

Nom du projet *

URL du site

Résumé en une ligne (après le > dans le fichier)

Paragraphe de contexte (texte libre, multi-ligne)

Docs / pages principales

Exemples / cas d'usage

Optionnel / bonus

Déposez le fichier obtenu à l'adresse https://votredomaine.com/llms.txt et voilà, c'est fini. Oubliez le llms-full.txt sauf si vous voulez vraiment coller vos docs dedans plutôt que de simplement y renvoyer par des liens. C'est à peu près le seul moment où il sert à quelque chose.

À quoi sert un générateur llms.txt, et pourquoi ça compte en 2026

Un générateur llms.txt construit le petit fichier Markdown qu'un agent IA lit pour comprendre votre site en une seule requête. C'est un simple fichier Markdown. Jeremy Howard l'a proposé fin 2024, et le monde de l'IA s'en est emparé vite, tout au long de 2025 puis en 2026. Il vit à la racine de votre domaine, juste à côté du robots.txt, sauf qu'il fait l'inverse. Là où le robots.txt dit "ne va pas dans ces chemins", celui-ci dit "voilà les pages qui valent le coup d'être lues si on pose une question sur nous". Un fichier normal, c'est presque rien. Le nom de votre projet. Un résumé en une ligne, un paragraphe ou deux de contexte, puis une courte liste de liens regroupés sous des intitulés du genre Docs, Examples, Optional. Demandez à un assistant des infos sur votre produit et il peut récupérer ce petit fichier en une seule requête, et savoir pile où se trouve la vraie réponse, au lieu de scraper votre page d'accueil ou de s'appuyer sur un vieux snapshot Common Crawl qui date de huit mois.

Voilà pourquoi sa forme compte : les modèles lisent des tokens, pas votre CSS. Trente lignes de Markdown avec dix liens choisis à la main, ça se digère pour trois fois rien. Crawler 200 pages et deviner laquelle est canonique, beaucoup moins. Le mode navigation de ChatGPT, Perplexity, Claude avec accès web, une flopée de frameworks d'agents open source, tous vont chercher le /llms.txt maintenant quand ils construisent une réponse. Et franchement, d'après ce que j'ai vu, les sites qui en publient un propre ont tendance à être cités plus souvent, et avec le bon contexte, que ceux qui laissent l'agent se débrouiller tout seul. C'est peut-être un biais de sélection de ma part. Mais c'est la tendance que j'observe.

Comment fonctionne ce générateur llms.txt

Tout se passe au fil de la frappe. Le fichier se reconstruit dans le navigateur, sans bouton d'envoi, sans aller-retour vers un serveur. Il vous faut quatre choses pour démarrer : un nom de projet, l'URL du site, un résumé en une ligne, un paragraphe de contexte rédigé avec vos mots. Puis trois listes de liens optionnelles. Docs, c'est votre vraie documentation. Examples, c'est le concret, vos tutos et vos pas-à-pas, les pages "voilà comment on fait vraiment". Optional ramasse les bonus qui ne rentrent dans aucune des deux cases. Chaque lien reçoit un titre court (c'est l'ancre) et une description en une ligne que l'agent lit juste à côté de l'URL. Pendant que vous éditez, l'onglet des vérifications de bonnes pratiques veille par-dessus votre épaule. Il signale ce qui manque, vous prévient quand un lien part trop loin, repère quand deux descriptions disent en gros la même phrase, et vous donne une estimation grossière du coût en tokens de l'ensemble.

Commencez par la ligne H1 : un dièse, puis le nom de votre projet. Ça doit être la toute première ligne. Pas d'exception, la spec est stricte là-dessus.
Ajoutez le résumé : un blockquote (la ligne qui commence par >). C'est la phrase qu'un agent survole pour décider si votre fichier vaut même la peine d'être lu, alors soignez-la.
Ajoutez le contexte : un paragraphe ou deux, du Markdown brut, qui dit ce que vous faites et à quel genre de questions ce fichier est là pour répondre.
Regroupez les liens sous des titres H2 : Docs, Examples, Optional, ou les cases qui vous conviennent. Chaque entrée, c'est une puce avec un lien Markdown et une description après un deux-points.
Publiez éventuellement un llms-full.txt : le grand cousin, avec vos docs réelles collées dedans. N'y touchez que si vous préférez que l'agent réponde directement sans repartir chercher autre chose.

Cas d'usage courants pour publier un llms.txt

Site de documentation SaaS. Pointez vers vos pages "Getting started", "Reference", "Pricing" et "Support", et un assistant peut répondre à "comment je fais X avec votre produit" sans jamais patauger dans votre prose marketing.
Éditeur d'API. Donnez à l'agent votre spec OpenAPI, les docs du SDK, le changelog. Tout ce qui aide un dev à brancher votre API atterrit sur la bonne page du premier coup, sans fouiller.
Bibliothèque open source. Listez le README, le CONTRIBUTING, la référence d'API, la FAQ. Les assistants de code comme Claude Code et ChatGPT Code Interpreter s'appuient exactement là-dessus pour répondre à "comment j'installe ça" et "c'est quoi la version actuelle".
Base de connaissances ou centre d'aide. Mettez en avant les catégories qui comptent vraiment (remboursements, compte, sécurité) pour que votre bot de support ancre ses réponses dans votre vrai contenu au lieu d'improviser.
Hub d'outils comme PeopleAreGeek. Triez les outils par hub (Network, SEO, Cyber) et un agent face à "mon DNS est propagé, là ?" envoie la personne droit vers le vérificateur de propagation.
Portfolio perso ou blog. Mettez-y vos articles les plus connus et une courte bio. À la question "qui est cette personne", l'agent lit ça plutôt que de scraper une bio à moitié abandonnée qui date d'il y a des années.

Limites et notes sur l'adoption

Soyons clairs : ce truc est encore jeune. L'adoption grimpe vite en 2026, mais plein d'agents ne prennent toujours pas la peine d'aller voir, et rien ne les y oblige. Un agent peut ignorer votre llms.txt exactement comme il peut ignorer le robots.txt. Donc voyez ça comme une invitation forte, pas comme un contrat contraignant. Le bon côté, c'est que le coût est quasi nul. La plupart des fichiers font moins de 100 lignes, et en publier un, c'est juste déposer un seul fichier Markdown à la racine de votre domaine. Le piège, celui qui attrape tout le monde, c'est de le laisser vieillir. Réorganisez vos docs sans penser à mettre ça à jour, et vous vous retrouverez avec des agents qui envoient joyeusement les gens vers des ancres mortes. Quant au llms-full.txt : il vous épargne quelques requêtes de suivi au prix d'un fichier plus gros. Alors ne le publiez que si vous voulez vraiment que les agents avalent du long contenu d'un seul coup. Et tout reste sur votre machine. Votre nom, le résumé, le paragraphe, toute la liste de liens, traités ici même dans le navigateur. Rien n'est envoyé à PeopleAreGeek. La proposition complète vit sur llmstxt.org si vous voulez la source.

Questions fréquentes

En quoi llms.txt est-il différent de robots.txt et sitemap.xml ?

Des rôles complètement différents. robots.txt dit aux crawlers où ne pas aller. sitemap.xml balance toutes les URL que vous avez pour que les moteurs de recherche les indexent. llms.txt, c'est la liste courte, triée à la main et écrite par un humain, des pages qui comptent vraiment pour un agent IA. Court, assumé, écrit pour être lu par un modèle au lieu d'être simplement parsé par une machine.

Ai-je besoin d'un llms.txt si j'ai déjà un sitemap ?

Ce ne sont pas des équivalents. Un sitemap, c'est pour que Google vous indexe pour la recherche. llms.txt, c'est pour qu'un agent IA réponde à une question sur vous sans crawler tout le bazar d'abord. Deux rôles distincts. Honnêtement, la plupart des équipes que j'ai vues publient simplement les deux et passent à autre chose.

Où je téléverse le fichier généré ?

À la racine de votre domaine, à https://votredomaine.com/llms.txt, au même endroit que le robots.txt. Ensuite, tapez cette URL avec curl pour confirmer qu'il est bien servi et qu'il ne fait pas un 404 ni une redirection bizarre. Quelques agents iront aussi jeter un œil à https://votredomaine.com/llms-full.txt si vous avez publié la version longue.

Le fichier doit-il inclure toutes les pages de mon site ?

Surtout pas. Tout l'intérêt, c'est que ce soit trié, pas un annuaire. Mettez-y la poignée de points d'entrée dont un agent a besoin pour répondre aux questions que les gens posent vraiment sur vous, et laissez sitemap.xml porter le reste. Un llms.txt boursouflé ne fait que noyer les liens qui comptaient.

Les agents IA respecteront-ils toujours ce que je mets dans llms.txt ?

À peu près aussi fidèlement qu'ils respectent le robots.txt, c'est-à-dire que les gros noms (Perplexity, ChatGPT, Claude, Gemini) le lisent et que le scraper anonyme du coin probablement pas. Pas d'application forcée ici, pas de flic à la porte. C'est une invitation forte que les agents bien élevés acceptent, et honnêtement c'est l'essentiel du trafic qui vous intéresse vraiment.