Token Counter IA et estimateur de coût

Comptez les tokens et le coût pour GPT-5.5, Claude 4 et Gemini 3, en local dans le navigateur.

Un token counter IA estime en combien de tokens votre texte se transforme avant d'être envoyé à un modèle, parce que GPT, Claude et Gemini lisent, génèrent et facturent au token, pas au mot. Collez un prompt, un article ou du code, et cet outil aligne les chiffres pour GPT-5.5, GPT-5 mini, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4, Gemini 3 Pro et Gemini 3 Flash. Il projette le coût par run pour l'input et l'output, montre quelle tranche de chaque context window le texte occupe, et visualise la tokenisation pour repérer où un prompt trop gros gaspille du budget. Tout tourne localement dans votre navigateur, rien n'est envoyé nulle part, vous pouvez donc coller des secrets ou des prompts de production en toute confidentialité.

100% dans votre navigateur. Rien de ce que vous tapez ne quitte cette page.

Estimateur de tokens IA local

Collez un prompt, un article ou un bout de code et estimez combien de tokens il va consommer sur GPT-5.5, GPT-5 mini, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4, Gemini 3 Pro et Gemini 3 Flash. La page aligne les chiffres, projette le coût pour les runs d'input et d'output, montre comment le texte tient dans la context window de chaque modèle (de 256K à 2M), et visualise la tokenisation pour repérer où un prompt trop gros gaspille du budget. Tout tourne localement dans votre navigateur.

Texte à analyser

Longueur de sortie attendue (tokens)

Nombre de runs à estimer

Ce sont des estimations, basées sur le profil de tokenisation publié par chaque fournisseur. Pour les chiffres GPT exacts, utilisez OpenAI tiktoken ; pour Claude, le compteur officiel d'Anthropic. Cette page n'envoie votre texte nulle part.

Ce que fait un token counter IA

Un token counter IA prend le texte que vous enverriez à un modèle et estime en combien de tokens il se transforme, parce que les modèles lisent, génèrent et facturent au token, pas au mot ni au caractère. Un token peut être un mot court, un morceau d'un mot plus long, un signe de ponctuation, un paquet de chiffres, un retour à la ligne ou un caractère Unicode isolé. Connaître le nombre de tokens d'un prompt et de sa réponse attendue est la seule façon honnête d'estimer le coût, de planifier une context window et d'éviter les troncatures silencieuses qui coupent discrètement la partie la plus importante de l'input. Cet outil applique une estimation par fournisseur pour GPT-5.5, GPT-5 mini, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4, Gemini 3 Pro et Gemini 3 Flash, puis projette comment le même contenu est facturé et stocké sur chacun.

Quand l'utiliser

Prévoir le coût avant un lancement. Multipliez l'estimation input plus output par le nombre de runs projeté pour voir si une feature tient sur un modèle premium comme Opus 4.7 ou GPT-5.5, ou seulement sur un plus petit comme Haiku 4 ou Gemini 3 Flash. Un system prompt de 1 500 tokens envoyé 100 000 fois par mois grimpe plus vite que la plupart des équipes ne s'y attendent.
Concevoir un budget de prompt. Quand un system prompt, un bout de connaissance récupéré et un message utilisateur partagent une même context window, connaître le nombre de tokens de chaque morceau permet de répartir le budget plutôt que de découvrir au runtime que le document a été tronqué.
Choisir le modèle. Un input de 50 000 tokens, c'est trivial sur Opus 4.7 ou Gemini 3 Pro mais inconfortable sur un petit modèle ancien. Le graphe de remplissage rend cette comparaison visible d'un seul regard.
Dimensionner du RAG et des embeddings. Collez un chunk représentatif pour confirmer que votre découpeur vise la bonne taille en tokens avant d'embedder des milliers de pages.

Précision et confidentialité

C'est un estimateur, pas le tokenizer officiel d'un fournisseur. Embarquer les vrais vocabulaires byte-pair et SentencePiece dans le navigateur voudrait dire des téléchargements de plusieurs mégaoctets qui ralentiraient la page pour tout le monde, alors l'estimation ici est réglée pour coller aux chiffres officiels à quelques pour cent près sur de la prose anglaise ordinaire, du code et du contenu mixte. Elle peut s'écarter davantage sur les chaînes denses en emoji, les écritures inhabituelles ou les extraits très courts, donc pour la facturation finale ou une décision sur une limite de contexte stricte, faites tourner la bibliothèque OpenAI tiktoken, le token counter d'Anthropic ou les compteurs IA de Google. Le texte est traité entièrement dans votre navigateur. Rien n'est envoyé à PeopleAreGeek ni à un tiers, vous pouvez donc coller des prompts, des system messages ou des échantillons de production sans aller-retour réseau. Les prix reflètent les tarifs catalogue publiés en 2026 et excluent les batch APIs, le cached input et les remises entreprise.

Questions fréquentes

Pourquoi le même texte consomme un nombre de tokens différent selon le modèle ?

Chaque fournisseur entraîne son propre tokenizer sur son propre vocabulaire. Pour un seul mot, le découpage peut différer d'un token, et l'écart s'accumule sur un long input. GPT-5 et Claude 4 sont en général les plus économes sur les langues mixtes et restent à quelques pour cent l'un de l'autre. Gemini 3 dépense un poil plus sur le texte chargé en ponctuation et les emoji.

À quel point cet estimateur est précis par rapport au tokenizer officiel ?

Sur de la prose anglaise normale et du code, il se situe à peu près à trois à cinq pour cent de tiktoken et du compteur Anthropic. Il peut dériver davantage sur les rafales d'emoji, les écritures inhabituelles ou les extraits très courts. Pour la facturation finale ou une décision sur une limite de contexte stricte, faites tourner le tokenizer exact du fournisseur chez qui vous déployez.

Les tokens d'output coûtent-ils autant que ceux d'input ?

Non. La plupart des fournisseurs facturent les tokens d'output à environ trois à cinq fois le tarif d'input. L'estimateur de coût de cette page applique le bon prix par direction pour chaque modèle, donc une réponse longue est chiffrée correctement même quand le prompt est court.

La page envoie-t-elle mon texte à un serveur pour le compter ?

Non. Tout l'estimateur tourne dans votre navigateur. Vous pouvez coller des secrets, des messages clients ou des prompts de production, rien ne quitte votre machine. Une fois la page chargée, elle fonctionne même hors ligne.