Combien coûte vraiment l'IA en 2026 ? Le vrai prix de ChatGPT, Claude, Gemini et Mistral, avec cas d'usage chiffrés

Anthropic vient de lancer Claude Fable 5 à environ 9,20 € le million de tokens en entrée et 46 € en sortie (les tarifs officiels sont en dollars : 10 et 50 USD) (voir notre article du jour). De l'autre côté du spectre, Claude Haiku 4.5 est facturé environ 0,74 € en entrée et 3,70 € en sortie. Soit un écart de facteur 60 entre les deux extrêmes d'une même marque, sans parler des modèles open-source quasi-gratuits comme Llama 3.
Comment s'y retrouver ? Qu'est-ce qu'un token, concrètement ? Combien coûte un email rédigé par IA, une conversation chatbot, une analyse de document de 50 pages ? Quel modèle choisir selon son besoin et son budget ? Voici un décryptage pédagogique des prix des modèles d'IA générative en 2026, avec cas d'usage chiffrés.
Au-delà de la tendance générale à la hausse des prix sur les modèles frontière (Fable 5, GPT-5.5 Pro), le marché se segmente clairement entre IA premium pour entreprises et IA mainstream à très bas coût. Comprendre cette séparation est la clé pour ne pas surpayer son usage professionnel ou personnel.
Qu'est-ce qu'un token ?
Un token est l'unité de base avec laquelle les modèles d'IA générative découpent le texte. Ce n'est pas un mot, ni une syllabe, ni un caractère. C'est une unité statistique apprise par le modèle pendant son entraînement.
Conversion approximative :
- En anglais : 1 token ≈ 3/4 de mot (4 caractères en moyenne)
- En français : 1 token ≈ 2/3 de mot (les mots français étant un peu plus longs)
- En chinois ou japonais : 1 token ≈ 1 caractère (la tokenisation est beaucoup plus dense)
Ordres de grandeur :
- Un email de 200 mots : ~250 à 300 tokens
- Un article de 1 500 mots : ~2 000 tokens
- Un roman de 100 000 mots (style 1984 de Orwell) : ~130 000 tokens
- Un livre technique de 300 pages : ~150 000 tokens
- L'intégralité du Code civil français : ~1 200 000 tokens
Les fenêtres de contexte modernes (la quantité de texte que le modèle peut lire en une fois) atteignent désormais 200 000 à 1 050 000 tokens chez OpenAI et Anthropic, et 2 000 000 tokens chez Google. Concrètement, on peut glisser plusieurs livres dans un seul prompt.
Comment se forme le prix d'une requête IA ?
Tous les fournisseurs d'IA générative facturent séparément l'entrée (input) et la sortie (output) de chaque requête.
Input (entrée) : ce que vous envoyez au modèle. Votre prompt, vos documents joints, vos conversations précédentes (l'historique de la session). Plus le contexte est long, plus le coût d'input augmente.
Output (sortie) : ce que le modèle vous répond. Si vous demandez une réponse courte (un mot, une phrase), l'output est minimal. Si vous demandez la rédaction d'un article complet ou d'un code complet, l'output peut être plus long que l'input.
Règle générale : l'output coûte 3 à 5 fois plus cher que l'input. Raison : générer du texte token par token est plus coûteux en calcul que simplement lire et analyser un prompt.
Conséquence pratique : pour les analyses de longs documents (entrée volumineuse, sortie courte), le coût est dominé par l'input. Pour les générations longues (rédaction d'articles, code complet, brainstorming étendu), le coût est dominé par l'output. Adaptez votre prompt pour éviter des réponses inutilement longues si vous payez à l'usage.
Le grand comparatif 2026 : 10 modèles passés au crible
Voici les tarifs publics par million de tokens en juin 2026 (en dollars US, le standard du marché) :
| Modèle | Éditeur | Input (€/M tokens) | Output (€/M tokens) | Positionnement |
|---|---|---|---|---|
| Claude Haiku 4.5 | Anthropic | 0,74 | 3,68 | Low-cost rapide |
| Gemini 3.1 Flash | 0,14 | 0,55 | Low-cost rapide | |
| Mistral Small | Mistral | 0,18 | 0,55 | Low-cost européen |
| Mistral Large | Mistral | 1,84 | 5,52 | Mainstream européen |
| Claude Sonnet 4.6 | Anthropic | 2,76 | 13,80 | Mainstream |
| Gemini 3.1 Pro | 4,60 | 18,40 | Mainstream | |
| Claude Opus 4.8 | Anthropic | 4,60 | 23,00 | Premium |
| GPT-5.5 | OpenAI | 4,60 | 27,60 | Premium |
| Claude Fable 5 | Anthropic | 9,20 | 46,00 | Frontière |
| GPT-5.5 Pro | OpenAI | 27,60 | 165,60 | Frontière raisonnement |
Sources : pages de tarifs officielles Anthropic, OpenAI, Google AI, Mistral (juin 2026). À ces tarifs s'ajoutent souvent des remises de batch (50% typiquement), des caches de contexte, et des surcharges au-delà de certaines tailles de contexte.
Cas d'usage chiffrés : combien ça coûte vraiment ?
Voici quelques scénarios concrets pour comprendre l'ordre de grandeur des coûts.
Cas 1 : un email professionnel rédigé par IA
Volume : 250 tokens en entrée (votre demande), 250 tokens en sortie (l'email généré).
| Modèle | Coût par email |
|---|---|
| Gemini 3.1 Flash | 0,00018 € |
| Mistral Small | 0,00018 € |
| Claude Haiku 4.5 | 0,0011 € |
| Claude Sonnet 4.6 | 0,0041 € |
| GPT-5.5 | 0,0081 € |
| Claude Fable 5 | 0,0138 € |
Lecture : pour un usage occasionnel (10 emails par jour), même le modèle le plus cher coûte moins de 5 dollars par mois. Le choix du modèle est ici un non-sujet financier.
Cas 2 : analyse d'un document de 50 pages
Volume : 35 000 tokens en entrée (le document), 2 000 tokens en sortie (votre synthèse).
| Modèle | Coût par analyse |
|---|---|
| Gemini 3.1 Flash | 0,0059 € |
| Mistral Small | 0,0075 € |
| Claude Haiku 4.5 | 0,033 € |
| Claude Sonnet 4.6 | 0,124 € |
| GPT-5.5 | 0,216 € |
| Claude Fable 5 | 0,414 € |
Lecture : pour des analyses récurrentes (50 par mois), Fable 5 coûte 22,50 dollars, Sonnet 6,75 dollars, Haiku 1,80 dollar. L'écart se voit, mais reste modeste pour un usage professionnel.
Cas 3 : agent autonome qui code pendant 4 heures
Volume estimé : 500 000 tokens en entrée (le contexte du projet, fichiers lus, dialogues), 200 000 tokens en sortie (le code généré).
| Modèle | Coût par session 4h |
|---|---|
| Claude Haiku 4.5 | 1,10 € |
| Mistral Large | 2,02 € |
| Claude Sonnet 4.6 | 4,14 € |
| Claude Opus 4.8 | 6,90 € |
| GPT-5.5 | 7,82 € |
| Claude Fable 5 | 13,80 € |
Lecture : pour un développeur professionnel qui utilise l'IA 3 heures par jour, le mois revient à 30 dollars (Haiku), 115 dollars (Sonnet), 220 dollars (GPT-5.5), 390 dollars (Fable 5). À ce stade, le choix du modèle impacte significativement le budget. Et c'est ici que Fable 5 vaut son prix : si son autonomie prolongée permet de faire en 1 heure ce qui prend 3 heures sur Sonnet, le retour sur investissement est clair.
Cas 4 : PME de 10 personnes, usage bureautique courant
Volume : 10 personnes × 50 requêtes/jour × 1 000 tokens × 20 jours = 10 millions de tokens / mois.
| Modèle | Coût mensuel |
|---|---|
| Gemini 3.1 Flash | 3,70 € |
| Mistral Small | 3,70 € |
| Claude Haiku 4.5 | 22 € |
| Claude Sonnet 4.6 | 83 € |
| GPT-5.5 | 161 € |
| Claude Fable 5 | 276 € |
Lecture : pour un usage courant d'une PME, rester sur des modèles low-cost ou mainstream est largement suffisant. Aller sur Fable 5 ou GPT-5.5 Pro pour rédiger des emails serait du gâchis budgétaire.
Le grand écart : facteur 60 entre Haiku et Fable 5
C'est l'écart structurel que les utilisateurs d'IA doivent comprendre. Chez Anthropic, un seul fournisseur propose :
- Claude Haiku 4.5 à environ 0,74 / 3,68 € par million de tokens
- Claude Fable 5 à environ 9,20 / 46 € par million de tokens
Soit un facteur 12,5 sur l'input et 12,5 sur l'output. Cumulé sur une requête typique (input + output combinés), l'écart atteint ×60 sur certaines charges (où l'output domine).
Pourquoi cet écart ? Parce que les deux modèles ne sont pas pour les mêmes usages :
- Haiku 4.5 : modèle rapide, léger, conçu pour des tâches simples à fort volume (chatbots grand public, classification, résumés rapides, brouillons)
- Fable 5 : modèle frontière, conçu pour l'autonomie prolongée (agents qui tournent des heures sans interruption), le raisonnement complexe, les tâches longues (code review approfondi, analyse multi-documents, recherche scientifique)
La règle économique : plus le modèle est cher, plus il est rentable sur les tâches longues et complexes où une heure de bon modèle remplace dix heures de modèle médiocre. Moins il l'est sur les tâches courtes et répétitives, où la qualité n'apporte rien.
Les outils comme Claude Code, Cursor, Continue ou Aider exploitent cette logique : ils routent automatiquement chaque requête vers le modèle adapté à la tâche, ce qui divise le coût par 3 à 5 typiquement par rapport à un usage « tout Opus » ou « tout GPT-5.5 ».
Quand utiliser quel modèle ? Le guide pratique
Pour un chatbot grand public, des résumés, de la classification, des tâches simples à fort volume :
- Claude Haiku 4.5 : ~0,74 € par million de tokens, très rapide, qualité honorable
- Gemini 3.1 Flash : ~0,14 € par million de tokens, encore moins cher, qualité Google
- Mistral Small : ~0,18 € par million de tokens, alternative européenne souveraine
Pour rédaction structurée, traduction professionnelle, analyse de complexité moyenne :
- Claude Sonnet 4.6 : ~2,76 € par million de tokens en entrée, excellent rapport qualité-prix, polyvalent
- GPT-5.5 : ~4,60 € en entrée, généraliste OpenAI, bon en raisonnement structuré
- Mistral Large : ~1,84 € en entrée, alternative européenne, bonne maîtrise du français
Pour code review approfondi, analyse multi-documents, raisonnement complexe :
- Claude Opus 4.8 : ~4,60 € en entrée, excellence sur code et raisonnement, encore largement utilisé en production
- Gemini 3.1 Pro : ~4,60 € en entrée, fort en raisonnement long et multimodal
Pour agents autonomes long-horizon, recherche scientifique, R&D IA :
- Claude Fable 5 : ~9,20 € en entrée, état de l'art autonomie prolongée
- GPT-5.5 Pro : ~27,60 € en entrée, raisonnement intense, prix prohibitif sauf usage rentable
Sept réflexes pour ne pas surpayer son usage IA
- Choisir le modèle adapté à la tâche. Haiku ou Flash suffisent pour 80% des usages courants (emails, résumés, classification). Garder Opus / Fable / GPT-5.5 Pro pour les cas vraiment complexes.
- Prompts courts et clairs. Chaque token en entrée est facturé. Éviter le bruit : pas de phrases polies inutiles, pas de « je voudrais que tu… », droit au but.
- Limiter la longueur de la réponse. Le paramètre max_tokens limite la taille de l'output. Un résumé en 3 phrases ne nécessite pas 500 tokens de sortie.
- Activer le cache de contexte. Anthropic et OpenAI proposent désormais le cache : un système prompt long n'est facturé qu'une fois si réutilisé dans plusieurs requêtes. Économie typique : 50 à 90% sur les agents conversationnels.
- Utiliser le batch processing. Si les réponses ne sont pas nécessaires en temps réel (analyses nocturnes, traitements en lot), le mode batch offre 50% de remise typiquement. Anthropic, OpenAI et Mistral le proposent.
- Monitoring rigoureux. Suivre la consommation par projet, configurer des alertes au-delà d'un seuil. Anthropic propose un dashboard détaillé, OpenAI aussi.
- Outils locaux pour les tâches non critiques. Llama 3 (Meta) et Mistral open-source tournent sur du matériel personnel ou des serveurs internes, sans coût par token, mais avec un investissement initial en GPU. Pertinent pour les PME soucieuses de souveraineté ou de confidentialité.
Le coût caché : l'empreinte carbone
Au-delà du prix par token, il y a un coût climatique à considérer. Chaque requête IA consomme de l'énergie sur les serveurs GPU des fournisseurs.
Ordres de grandeur (estimations) :
- Une requête simple à un modèle léger (Haiku, Flash) : ~0,001 à 0,01 Wh
- Une requête moyenne à un modèle mainstream (Sonnet, GPT-5.5) : ~0,1 à 1 Wh
- Une requête lourde à un modèle frontière (Fable 5, GPT-5.5 Pro) : ~1 à 10 Wh, parfois plus
- Une journée complète d'agent autonome : ~1 à 10 kWh, soit la consommation domestique d'un après-midi
Comparaison : une recherche Google classique consomme environ 0,3 Wh. Une requête à GPT-5.5 est donc 3 à 30 fois plus énergivore.
Selon Anthropic et OpenAI, ces infrastructures sont partiellement alimentées par des renouvelables, mais la part fossile reste significative. Le choix d'utiliser une IA pour une tâche donnée mérite réflexion : un email simple peut très bien être écrit à la main, sans coût carbone caché.
Calendrier 2026 et tendances
Tendance générale : hausse des prix sur les modèles frontière (Fable 5 +100% vs Opus 4.8, GPT-5.5 +100% vs GPT-5.4), baisse continue sur les modèles low-cost (Haiku 4.5 et Flash 3.1 sont 20% moins chers que leurs prédécesseurs).
Conséquence : la séparation entre IA premium et IA mainstream s'accentue. Les éditeurs assument un positionnement vertical :
- Anthropic : IA premium entreprise (Fable, Opus) + IA mainstream (Sonnet, Haiku)
- OpenAI : IA généraliste consumer-first (GPT-5.5) + IA frontière (GPT-5.5 Pro)
- Google : IA distribuée écosystème (Gemini Pro / Flash) + intégration Apple (Apple Intelligence v2)
- Mistral : IA européenne souveraine, alternative open-source crédible
À surveiller : l'arrivée de modèles open-source (Llama 4, DeepSeek v3) encore plus performants, qui pourraient bousculer les tarifs des éditeurs commerciaux mi-2026.
Sources et lectures complémentaires
Sources tarifaires officielles :
- Anthropic : pricing officielle et annonce Fable 5 / Mythos 5
- OpenAI : pricing API
- Google AI : pricing Gemini
- Mistral : pricing officielle
Comparatifs indépendants :
- AIPricing.guru : tableaux par modèle et fournisseur
- PricePerToken.com : suivi temps réel
- Helicone, TokenMix, Vellum.ai : analyses techniques
Note de méthode et taux de change
Les tarifs officiels des fournisseurs d'IA (Anthropic, OpenAI, Google, Mistral) sont publiés en dollars US par million de tokens. Toutes les conversions présentées dans cet article sont estimatives et utilisent un taux de référence de 1 USD = 0,92 EUR, valeur moyenne observée en juin 2026.
Pour vos calculs précis de facturation, vérifiez le taux de change EUR/USD du jour (BCE, votre banque) et appliquez-le aux tarifs officiels en USD. Pour les utilisateurs basés en France facturés en EUR par les fournisseurs (offres entreprises localisées), les prix réels peuvent légèrement varier par rapport à la conversion mécanique, en fonction des frais de plateforme appliqués par l'éditeur.
Cet article sera mis à jour en cas de mouvement significatif sur le taux de change ou les grilles tarifaires des éditeurs.
À retrouver sur melles750
Sur Claude et Anthropic :
- Claude Fable 5 et Mythos 5 : Anthropic dévoile son IA la plus puissante
- Le monde selon Claude, épisode 1 (juillet 2025)
- Le monde selon Claude, épisode 2 (septembre 2025)
Sur l'écosystème IA et tech :
- WWDC 2026 : Apple officialise le partenariat avec Google Gemini
- Google I/O 2026 : Ask Google avec Gemini 3.5 et panier universel
- Comment l'intelligence artificielle transforme notre société
Sur la consommation responsable face aux géants tech :
- Spliiit condamné à 785 000 € face à Netflix, Disney et Apple
- Streaming : la machine à capturer nos vies
- Hypocrisie politique sur le climat : Fonds vert coupé, Ademe démantelée
Sur la finance et le numérique :
