Precio de la API de Claude: calculadora de costo de tokens y prompt caching🌎
Actualizado junio de 2026Ver cálculo paso a paso
El prompt caching de la API de Claude reutiliza la parte fija de tu prompt (system prompt o contexto largo) y la cobra a una fracción del precio: leer desde caché cuesta 0,1x del input normal. Esta calculadora estima tu costo mensual real según el volumen de requests, el tamaño del prompt base, la tasa de aciertos de caché y los tokens de salida, con los precios oficiales de Anthropic 2026 para Claude Opus 4.8, Sonnet 4.6 y Haiku 4.5.
Cuándo usar esta calculadora
- Chatbots con system prompt largo reutilizado en cada conversación
- Pipelines RAG donde el contexto de documentos se repite por request
- Agentes que inyectan instrucciones extensas en cada llamada a la API
- Aplicaciones SaaS que sirven a muchos usuarios con el mismo prompt base
- Comparar el costo de Opus 4.8 vs Sonnet 4.6 vs Haiku 4.5 antes de elegir modelo
Casos resueltos
Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.
Caso 1: Startup SaaS con chatbot 24/7: sin caching vs Sonnet 4.6 con 85% de hit rate
Una startup ofrece un chatbot de soporte 24/7 con system prompt de 12.000 tokens (contexto del producto, FAQ, políticas). Promedio: 3.000 requests/día, 450 tokens variables/request, 600 de output/request. Cache hit rate medido: 85% (alto por uso constante). Modelo: Claude Sonnet 4.6.
- Configuración: Claude Sonnet 4.6, system prompt 12.000 tokens, 3.000 req/día = 90.000 req/mes
- Sin prompt caching:
- Input total/mes: (12.000 + 450) × 90.000 = 1.120,5 M tokens × US$3/M = US$3.361
- Output total/mes: 600 × 90.000 = 54 M tokens × US$15/M = US$810
- Total sin caching: ~US$4.171/mes
- Con prompt caching (85% hit rate):
- Cache write: 12.000 × 0,15 × 90.000 = 162 M tokens × US$3,75/M = US$608
- Cache read: 12.000 × 0,85 × 90.000 = 918 M tokens × US$0,30/M = US$275
- Input variable: 450 × 90.000 = 40,5 M × US$3 = US$122
- Output: 54 M × US$15 = US$810
- Total con caching: ~US$1.815/mes
- Ahorro mensual: 4.171 − 1.815 = US$2.356 (56% de reducción)
- Ahorro anual: ~US$28.272
Cómo funciona
3 min de lecturaQué hace el prompt caching
El prompt caching de la API de Anthropic guarda en caché la parte estática del prompt (el system prompt o un contexto largo de documentos) para reutilizarla en los requests siguientes. La primera vez se escribe la caché (cache write), que cuesta 1,25x el precio de input normal; en cada request posterior dentro del TTL se lee desde caché (cache read), que cuesta solo 0,1x el input normal. Esa diferencia de 12,5x entre escribir y leer es lo que abarata las aplicaciones con prompts repetitivos.
Tabla de precios 2026 (USD por millón de tokens)
| Modelo | Input normal | Cache write (1,25x) | Cache read (0,1x) | Output |
|---|---|---|---|---|
| Claude Opus 4.8 | $5,00 | $6,25 | $0,50 | $25,00 |
| Claude Sonnet 4.6 | $3,00 | $3,75 | $0,30 | $15,00 |
| Claude Haiku 4.5 | $1,00 | $1,25 | $0,10 | $5,00 |
Los valores de cache write y cache read son el TTL estándar de 5 minutos. El TTL extendido de 1 hora cuesta 2x el input en el write (ej.: $6,00/M en Sonnet 4.6).
Cuánto cuesta un prompt base de 10.000 tokens (costo por request, Sonnet 4.6)
| Cache hit rate | Costo del prompt base / request | Equivalente sin caché |
|---|---|---|
| 0% (siempre write) | $0,0000375 | $0,0000300 |
| 50% | $0,0000206 | $0,0000300 |
| 80% | $0,0000099 | $0,0000300 |
| 90% | $0,0000064 | $0,0000300 |
| 95% | $0,0000046 | $0,0000300 |
A partir de ~20% de hit rate, leer desde caché ya sale más barato que pagar el input normal en cada request.
Fórmula
// Por request:
tokens_write = basePromptTokens × (1 - cacheHitRate)
tokens_read = basePromptTokens × cacheHitRate
tokens_variable = variableTokensPerRequest
tokens_output = outputTokensPerRequest
costo_por_request =
(tokens_write / 1.000.000) × precio_cache_write
+ (tokens_read / 1.000.000) × precio_cache_read
+ (tokens_variable / 1.000.000) × precio_input_normal
+ (tokens_output / 1.000.000) × precio_output
costo_mensual = costo_por_request × requestsPerDay × 30
// Sin caché (todo el prompt base se cobra como input normal):
costo_sin_cache_por_request =
((basePromptTokens + variableTokensPerRequest) / 1.000.000) × precio_input_normal
+ (outputTokensPerRequest / 1.000.000) × precio_outputEjemplo numérico (Claude Sonnet 4.6)
Supuestos: 10.000 tokens base, 500 variables, 800 de output, 1.000 requests/día, 80% de cache hit rate → 30.000 requests/mes.
Sin caché: (10.500/1M × $3,00 + 800/1M × $15,00) × 30.000 req ≈ $1.305/mes — un 46% más caro. Con el mismo escenario en Opus 4.8 serían ~$1.170 con caché vs ~$2.175 sin caché; en Haiku 4.5, ~$234 vs ~$435.
Cuándo NO aplica / Limitaciones
Preguntas frecuentes
¿Cuánto cuesta la API de Claude con prompt caching?
Depende del modelo, del tamaño del prompt base y de tu cache hit rate. Para Claude Sonnet 4.6 (input US$3/M, output US$15/M), leer desde caché cuesta US$0,30/M (0,1x) y escribir cuesta US$3,75/M (1,25x). Un chatbot con system prompt de 10.000 tokens, 1.000 requests/día y 80% de hit rate cuesta ~US$702/mes con caching frente a ~US$1.305/mes sin él. Usá la calculadora con tus propios números para tu caso exacto.
¿Cuánto cuesta escribir en caché vs. leer desde caché?
Escribir en caché (cache write) cuesta 1,25x el precio de input normal del modelo; leer desde caché (cache read) cuesta solo 0,1x. En Claude Sonnet 4.6 eso es US$3,75/M para escribir y US$0,30/M para leer (input normal US$3,00/M). La escritura se paga una vez por bloque y se amortiza con cada lectura posterior dentro del TTL.
¿Cuáles son los precios actuales de Opus 4.8, Sonnet 4.6 y Haiku 4.5?
Por millón de tokens (USD, 2026): Claude Opus 4.8 → input $5, output $25 (cache write $6,25, cache read $0,50). Claude Sonnet 4.6 → input $3, output $15 (cache write $3,75, cache read $0,30). Claude Haiku 4.5 → input $1, output $5 (cache write $1,25, cache read $0,10). Sonnet 4.6 ofrece el mejor equilibrio precio/calidad y es el modelo por defecto de esta calculadora.
¿Cuánto dura la caché de Claude?
El TTL (time-to-live) estándar es de 5 minutos desde el último uso del bloque cacheado. Si tu aplicación recibe requests con más de 5 minutos de diferencia, la caché expira y volvés a pagar el cache write. Para tráfico con picos espaciados existe un TTL extendido de 1 hora que cuesta 2x el input en la escritura.
¿Cuál es el mínimo de tokens para activar el caching?
El bloque cacheado debe alcanzar un mínimo de tokens: 1.024 para Sonnet 4.6 y 2.048–4.096 para los modelos Opus y Haiku según la versión. Prompts base más cortos que ese umbral no se cachean aunque uses el parámetro cache_control, y se cobran a precio de input normal.
¿Cómo afecta el cache hit rate al costo final?
Es el factor más determinante después del tamaño del prompt. Con 0% de hit rate todos los tokens base se escriben a 1,25x sin aprovechar lecturas baratas. A partir de ~20% de hit rate, leer desde caché ya sale más barato que el input normal. Con 90% de hit rate, el 90% de los tokens base cuestan 0,1x, lo que reduce de forma drástica la factura. La calculadora deja ajustar este parámetro para ver el impacto.
¿Conviene Claude Haiku 4.5 o Sonnet 4.6 con caching para mi caso?
Regla práctica: si la tarea requiere razonamiento complejo, escritura de calidad, análisis profundo o código → Sonnet 4.6 (o Opus 4.8 para lo más exigente). Si es clasificación, extracción de datos, respuestas factuales cortas o parsing → Haiku 4.5, que es 3x más barato en input y 3x en output. Una estrategia híbrida común es un router con Haiku que clasifica la consulta y deriva las simples a Haiku y las complejas a Sonnet, reduciendo 40-60% el costo total.
¿Los tokens variables (mensaje del usuario) también se cachean?
Generalmente no. El caching está pensado para la parte estática del prompt (system prompt, documentos de contexto). Los tokens dinámicos por request —el mensaje del usuario o el contexto que cambia— se cobran siempre a precio de input normal. La calculadora los separa en un campo aparte para reflejar esa diferencia.
¿Cómo activo el prompt caching en la API de Claude?
En la API de Anthropic se agrega cache_control: {type: 'ephemeral'} al bloque del system prompt o al contenido que querés cachear. Importante: el caching es un prefix match, así que cualquier cambio de bytes antes del breakpoint invalida toda la caché posterior. Mantené el contenido estable (system prompt, lista de tools) al principio y lo variable (timestamps, IDs, la pregunta) al final.
¿Cómo mido el cache hit rate real de mi aplicación?
Cada response de la API trae un objeto usage con cache_creation_input_tokens (tokens recién escritos a caché) y cache_read_input_tokens (tokens leídos desde caché). Tu hit rate efectivo ≈ cache_read / (cache_read + cache_creation + input_tokens). Logueá estos valores por request y promediá. Si el cache_read es 0 entre requests con el mismo prefijo, hay un invalidador silencioso (un datetime.now() en el system prompt, JSON sin claves ordenadas, o un set de tools que cambia).
¿La calculadora incluye el costo de las herramientas (tools / function calling)?
No. Los tokens de definición de herramientas también pueden cachearse, pero no están incluidos en esta estimación. Si usás function calling de forma intensiva, el costo real puede ser algo mayor al calculado. Los tools se renderizan antes del system prompt, así que cambiarlos invalida toda la caché.
¿Qué pasa con el caching si cambio de modelo a mitad de conversación?
Las cachés son por modelo: si cambiás de modelo (por ejemplo de Sonnet 4.6 a Opus 4.8) o modificás la lista de tools en medio de una conversación, se invalida toda la caché y la primera request del nuevo modelo paga el cache write completo. Para mantener el ahorro, fijá un modelo por loop y serializá los tools de forma determinística (ordenados por nombre).
Fuentes y referencias
- Anthropic API Pricing — Anthropic (2026)
- Prompt Caching — Anthropic Documentation — Anthropic (2026)
- Claude — Models Overview — Anthropic (2026)
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.