Calculez les économies exactes du prompt caching sur Claude, GPT-5 et Gemini. Entrez la taille du prompt système et le volume de requêtes — économies mensuelles instantanées.
Choisir le fournisseur · Entrer la taille et le volume · Voir les économies mensuelles
Coût des tokens en cache vs tokens d'entrée standard. Juin 2026.
| Fournisseur | Modèle | Entrée standard | Écriture cache | Lecture cache | Réduction |
|---|---|---|---|---|---|
| Anthropic | Claude Sonnet 4.6 | $3,00/1M | $3,75/1M | $0,30/1M | 90% RÉDUIT |
| Anthropic | Claude Haiku 4.5 | $1,00/1M | $1,25/1M | $0,10/1M | 90% RÉDUIT |
| OpenAI | GPT-5.4 | $2,50/1M | auto | $1,25/1M | 50% RÉDUIT |
| OpenAI | GPT-5.4 nano | $0,20/1M | auto | $0,10/1M | 50% RÉDUIT |
| Gemini 3.5 Flash | $1,50/1M | $1,00/1M | $0,375/1M | 75% RÉDUIT |
La réduction de 90% sur la lecture du cache d'Anthropic est la plus agressive du secteur. Pour les charges de travail avec un grand prompt système statique, Anthropic est souvent 3× moins cher qu'OpenAI.
Le prompt caching permet de réutiliser le début d'un prompt (prompt système, contexte de document) sur plusieurs requêtes. Anthropic facture 90% de moins pour les tokens en cache ($0,30/1M vs $3,00/1M sur Sonnet). OpenAI facture 50% de moins.
Le caching n'aide que lorsque le même préfixe est réutilisé. Si chaque requête a un prompt système unique, il n'y a aucun avantage. Effet minimal pour les prompts de moins de 512 tokens.