Calculadora de ahorro con prompt caching de Anthropic🌎
Actualizado junio de 2026Ver cálculo paso a paso
Prompt caching de Anthropic permite cachear porciones largas de prompt (system prompts, documentos, ejemplos) y reusarlas pagando 10% del precio normal en los reads y 125% en el write inicial. Si tu app envía el mismo system prompt o contexto a cada request — agentes, RAG, asistentes con personalidad fija — el ahorro puede superar el 70% del costo de input. Esta calculadora estima tu ahorro mensual en USD según tokens de input diarios, cache hit rate esperado y modelo (Sonnet, Opus, Haiku). Útil para decidir si vale la pena refactorear tu prompt para activar caching y para presupuestar costos de tu app.
Cuándo usar esta calculadora
- Estimar el ROI de implementar prompt caching en tu app de Claude.
- Comparar ahorros entre Claude Sonnet, Opus y Haiku para tu volumen.
- Presupuestar costos mensuales de un agente con system prompt grande.
- Justificar un sprint de optimización de prompt caching ante el equipo.
- Decidir si conviene migrar de OpenAI a Claude por costos.
Ejemplo real: agente con 5M tokens input/día en Claude Sonnet, 80% cache hit
- Volumen mensual: 5.000.000 tokens/día × 30 días = 150.000.000 tokens/mes.
- Sin caching: 150M tokens × USD 3/MT = USD 450/mes.
- Con caching (80% hit): writes = 30M × USD 3,75/MT = USD 112,50; reads = 120M × USD 0,30/MT = USD 36; non-cached base = 30M × USD 3/MT = USD 90; total = USD 238,50/mes.
- Ahorro mensual: USD 211,50 (~47%).
- En 12 meses: USD 2.538 ahorrados solo en input tokens.
Cómo funciona
2 min de lecturaCómo funciona prompt caching de Anthropic
Prompt caching permite marcar bloques de tu prompt como cacheables (cache_control: { type: 'ephemeral' }). Anthropic los almacena por 5 minutos (TTL refresh con cada uso) y los siguientes requests pagan precio reducido por leer del cache.
costo_efectivo = tokens_no_cache × precio_base
+ tokens_write × (precio_base × 1.25)
+ tokens_read × (precio_base × 0.10)Precios de prompt caching por modelo (2026)
| Modelo | Input base | Cache write (1,25×) | Cache read (0,10×) | Ahorro en read |
|---|---|---|---|---|
| Haiku 3.5 | USD 0,80/MT | USD 1,00/MT | USD 0,08/MT | 90% |
| Sonnet 3.5 / 4 | USD 3,00/MT | USD 3,75/MT | USD 0,30/MT | 90% |
| Opus 4 | USD 15,00/MT | USD 18,75/MT | USD 1,50/MT | 90% |
MT = millón de tokens
Tabla de ahorro mensual por volumen (Claude Sonnet, 80% cache hit, 30 días)
| Tokens input/día | Sin cache (USD/mes) | Con cache (USD/mes) | Ahorro (USD/mes) | Ahorro % |
|---|---|---|---|---|
| 100.000 | 9,00 | 4,77 | 4,23 | 47% |
| 500.000 | 45,00 | 23,85 | 21,15 | 47% |
| 1.000.000 | 90,00 | 47,70 | 42,30 | 47% |
| 5.000.000 | 450,00 | 238,50 | 211,50 | 47% |
| 10.000.000 | 900,00 | 477,00 | 423,00 | 47% |
| 50.000.000 | 4.500,00 | 2.385,00 | 2.115,00 | 47% |
Asumiendo que los tokens no cacheados pagan precio base + write del cache (modelo conservador). Con prompts donde el 100% del contexto es cacheable, el ahorro puede superar el 70%.
Casos donde el ROI es alto
Casos donde no conviene
Buenas prácticas de implementación
cache_creation_input_tokens vs cache_read_input_tokens en la respuesta para validar tu hit rate real.Revisión editorial
Revisado por el equipo editorial de Hacé Cuentas. Los precios se cotejan contra la página oficial de Anthropic Pricing y se actualizan mensualmente.
Preguntas frecuentes
¿Qué es el prompt caching de Anthropic y cómo ahorra dinero?
Prompt caching permite marcar partes de tu prompt (system prompt, documentos, ejemplos) como cacheables. Anthropic las almacena en el borde y las siguientes requests las leen pagando solo el 10% del precio base (cache read = 0,10× en lugar de 1×). El overhead es un cache write al 1,25×, pero si el mismo bloque se reutiliza 2 o más veces ya estás ahorrando.
¿Cuánto se ahorra con prompt caching en Claude Sonnet?
Con Claude Sonnet y un 80% de cache hit, el ahorro típico es ~67% del costo de input. El precio base es USD 3/MT, el cache read baja a USD 0,30/MT (90% menos). Para 1M de tokens input/día en 30 días, pasás de pagar USD 90/mes a USD 29,70/mes, un ahorro de USD 60,30 mensuales.
¿Cuál es el TTL del cache de Anthropic?
5 minutos (ephemeral) por default, refrescado en cada uso. Si la siguiente request llega dentro de los 5 min de la última, el cache sigue vigente. Anthropic también ofrece un tier de 1 hora con costo de write 2× (en lugar de 1,25×), conveniente para batches espaciados.
¿Cuál es el mínimo de tokens cacheable en cada modelo?
1024 tokens en Claude Sonnet y Opus, 2048 tokens en Haiku. Si tu bloque cacheable es menor, el SDK ignora el cache_control y cobra precio normal. Asegurate de que tu system prompt + contexto supere ese umbral.
¿Cómo mido mi cache hit rate real en producción?
En cada respuesta de la API, usage.cache_read_input_tokens y usage.cache_creation_input_tokens te dicen cuántos tokens vinieron del cache vs cuántos se escribieron. Hit rate real = cache_read / (cache_read + cache_creation + uncached_input_tokens). Logueá estos valores para ajustar tu arquitectura.
¿El cache se comparte entre cuentas o entre regiones de AWS?
No. El cache es por API key + región. Si llamás desde otra cuenta o región diferente, se vuelve a escribir desde cero. Si usás load balancing multi-región, cada región tiene su propio cache independiente.
¿Conviene el cache de 1 hora o el de 5 minutos?
5 min para apps con tráfico continuo (chatbot 24/7 con requests frecuentes). 1 hora si tus requests llegan en batches espaciados (cron jobs cada 30 min, procesamiento de documentos en lotes) — el write 2× se compensa con menos rewrites durante el período de espera.
¿Prompt caching funciona con tool use y definiciones de funciones?
Sí — podés cachear el bloque de definiciones de tools, que suele ser pesado (500–2000 tokens) y totalmente estable entre requests. Marcá cache_control al final del array de tools. Es uno de los usos más efectivos para agentes con muchas herramientas definidas.
¿Cómo se compara el ahorro de prompt caching vs batching de Anthropic?
Batching te da 50% off en input + output, pero la respuesta tarda hasta 24h. Prompt caching te da hasta 90% off en input cacheable, con latencia normal. Para apps real-time (chatbots, asistentes), caching es la opción. Para procesamiento async a gran escala, lo ideal es combinar ambos: activar caching en el prompt Y usar la Batch API.
¿Anthropic cobra storage o fee mensual por mantener el cache?
No. El único costo extra es el cache write (1,25× del precio base) en cada primera escritura o refresh. No hay fee por TB cacheado ni por tiempo de retención dentro del TTL. El modelo de precios es puramente por tokens procesados.
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.