Negocios

Prompt caching Anthropic — ahorro mensual🌎 Actualizado mayo de 2026

Q: ¿Cuál es el TTL del cache de Anthropic?

**5 minutos** (ephemeral) por default, refrescado en cada uso. Si la siguiente request llega dentro de los 5 min de la última, el cache sigue vigente. Anthropic también ofrece un tier de **1 hora** con costo de write 2x (en lugar de 1.25x).

Q: ¿Cuál es el mínimo de tokens cacheable?

**1024 tokens** en Sonnet y Opus, **2048 tokens** en Haiku. Si tu bloque cacheable es menor, el SDK ignora el cache_control y cobra precio normal.

Q: ¿Cómo mido mi cache hit rate real?

En cada respuesta de la API, `usage.cache_read_input_tokens` y `usage.cache_creation_input_tokens` te dicen cuántos tokens vinieron del cache vs cuántos se escribieron. Hit rate = `read / (read + creation + uncached)`.

Q: ¿El cache se comparte entre cuentas o entre regiones?

**No.** El cache es por API key + región. Si llamás desde otra cuenta o región diferente, se vuelve a escribir.

Q: ¿Conviene el cache de 1 hora o el de 5 minutos?

**5 min** para apps con tráfico continuo (chatbot 24/7). **1 hora** si tus requests llegan en batches espaciados (ej: cron jobs cada 30 min) — el write 2x se compensa con menos rewrites.

Q: ¿Prompt caching funciona con tool use?

Sí — podés cachear el bloque de definiciones de tools, que suele ser pesado y estable. Marcá `cache_control` al final del array de tools.

Q: ¿Cómo se compara el ahorro de prompt caching vs batching?

**Batching** te da 50% off en input + output, pero la respuesta tarda hasta 24h. **Prompt caching** te da hasta 90% off en input cacheable, latencia normal. Para apps real-time, caching gana. Para procesamiento async, combiná ambos.

Q: ¿Anthropic cobra storage por el cache?

**No directamente.** El costo está en el write (1.25x del precio base). No hay fee por TB cacheado ni por tiempo de retención dentro del TTL.

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: Anthropic Pricing

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 11 may 2026

Reportar error

Prompt caching de Anthropic permite cachear porciones largas de prompt (system prompts, documentos, ejemplos) y reusarlas pagando 10% del precio normal en los reads y 125% en el write inicial. Si tu app envía el mismo system prompt o contexto a cada request — agentes, RAG, asistentes con personalidad fija — el ahorro es enorme: con un cache hit rate del 80%, ahorrás hasta 70% del costo de input. Esta calculadora estima tu ahorro mensual en USD según tokens de input diarios, cache hit rate esperado y modelo (Sonnet, Opus, Haiku). Útil para decidir si vale la pena refactorear tu prompt para activar caching y para presupuestar costos de tu app.

Última revisión: 10 de mayo de 2026 Revisado por Martín Rodríguez Fuente: Anthropic Pricing, Anthropic Docs — Prompt Caching 100% privado

Cuándo usar esta calculadora

Estimar el ROI de implementar prompt caching en tu app de Claude.
Comparar ahorros entre Claude Sonnet, Opus y Haiku para tu volumen.
Presupuestar costos mensuales de un agente con system prompt grande.
Justificar un sprint de optimización de prompt caching ante el equipo.
Decidir si conviene migrar de OpenAI a Claude por costos.

Ejemplo: agente con 5M tokens input/día en Sonnet, 80% cache hit

Volumen: 5.000.000 tokens × 30 días = 150M tokens/mes.
Sin caching: 150M × USD 3/MT = USD 450/mes.
Con caching 80% hit: writes USD 22,50 + reads USD 36 + non-cache USD 90 ≈ USD 148,50/mes.
Ahorro mensual: USD 301,50 (~67%).

Resultado: Para apps con system prompt o RAG estable, prompt caching paga el sprint de implementación en menos de un mes.

Cómo funciona

2 min de lectura

Cómo funciona prompt caching de Anthropic

Prompt caching permite marcar bloques de tu prompt como cacheables (cache_control: { type: 'ephemeral' }). Anthropic los almacena por 5 minutos (TTL refresh con cada uso) y los siguientes requests pagan precio reducido por leer del cache.

costo_efectivo = tokens_no_cache × precio_base
              + tokens_write × (precio_base × 1.25)
              + tokens_read  × (precio_base × 0.10)

Pricing de cache (abril 2026)

Modelo	Input base	Cache write (1.25x)	Cache read (0.10x)
Haiku	USD 0,80/MT	USD 1,00/MT	USD 0,08/MT
Sonnet	USD 3/MT	USD 3,75/MT	USD 0,30/MT
Opus	USD 15/MT	USD 18,75/MT	USD 1,50/MT

Casos donde el ROI es alto

Agentes con system prompt grande (>5k tokens): cada request lee el mismo system prompt → 90%+ cache hit.

RAG con docs estables: el conjunto de chunks se reusa entre queries.

Chatbots con personalidad/persona detallada: intro + ejemplos + tono cacheable.

Code assistants con codebase context: archivos fuente cacheados entre turnos de conversación.

Casos donde no conviene

One-shot completions únicos sin contexto reusable.

Prompts cortos (<1024 tokens, mínimo cacheable en Sonnet/Opus).

TTL corto: si las requests llegan separadas por más de 5 min, el cache expira.

Buenas prácticas

Poné el contexto estático al inicio del prompt (system → docs → user query).

Marcá hasta 4 cache breakpoints estratégicos.

Monitoreá cache_creation_input_tokens vs cache_read_input_tokens en la respuesta para validar tu hit rate real.

Combiná con batching para reducir aún más costo en cargas async.

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Los precios se cotejan contra la página oficial de Anthropic Pricing y se actualizan al cierre de cada mes.

Preguntas frecuentes

¿Cuál es el TTL del cache de Anthropic?

5 minutos (ephemeral) por default, refrescado en cada uso. Si la siguiente request llega dentro de los 5 min de la última, el cache sigue vigente. Anthropic también ofrece un tier de 1 hora con costo de write 2x (en lugar de 1.25x).

¿Cuál es el mínimo de tokens cacheable?

1024 tokens en Sonnet y Opus, 2048 tokens en Haiku. Si tu bloque cacheable es menor, el SDK ignora el cache_control y cobra precio normal.

¿Cómo mido mi cache hit rate real?

En cada respuesta de la API, usage.cache_read_input_tokens y usage.cache_creation_input_tokens te dicen cuántos tokens vinieron del cache vs cuántos se escribieron. Hit rate = read / (read + creation + uncached).

¿El cache se comparte entre cuentas o entre regiones?

No. El cache es por API key + región. Si llamás desde otra cuenta o región diferente, se vuelve a escribir.

¿Conviene el cache de 1 hora o el de 5 minutos?

5 min para apps con tráfico continuo (chatbot 24/7). 1 hora si tus requests llegan en batches espaciados (ej: cron jobs cada 30 min) — el write 2x se compensa con menos rewrites.

¿Prompt caching funciona con tool use?

Sí — podés cachear el bloque de definiciones de tools, que suele ser pesado y estable. Marcá cache_control al final del array de tools.

¿Cómo se compara el ahorro de prompt caching vs batching?

Batching te da 50% off en input + output, pero la respuesta tarda hasta 24h. Prompt caching te da hasta 90% off en input cacheable, latencia normal. Para apps real-time, caching gana. Para procesamiento async, combiná ambos.

¿Anthropic cobra storage por el cache?

No directamente. El costo está en el write (1.25x del precio base). No hay fee por TB cacheado ni por tiempo de retención dentro del TTL.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 10 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Costo Claude 1M context — Sonnet vs Opus 🧠 Calculá el costo input/output con contexto extendido 1M tokens en Claude Sonnet y Opus. Compará tier estándar (≤200k) vs tier 1M y proyectá costo mensual. Comisión Tienda Nube + checkout 2026 Calcula el costo total mensual de Tienda Nube 2026: plan base, comisiones de venta y procesamiento de pagos con Mercado Pago.