Tecnología

Calculadora de Costo Claude 3.7 con Prompt Caching🌎 Actualizado mayo de 2026

Q: ¿Cuál es el ROI real del prompt caching para un chatbot SaaS de tráfico medio?

Para una aplicación con **2.000 requests/día** de chatbot con system prompt de 8.000 tokens y 75% cache hit rate: **sin caching** costaría ~USD 1.080/mes solo en input + USD 720 en output = **USD 1.800/mes**. **Con caching** baja a ~USD 90 input + USD 720 output = **USD 810/mes** (55% ahorro total). El ROI se incrementa cuanto más largo sea el system prompt y más alto el cache hit rate. Para system prompts cortos ( 20.000 tokens, el ahorro puede superar el 80% del costo total.

Calculadora Gratis · Privada

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 28 may 2026

Reportar error

El prompt caching de Claude 3.7 puede reducir tu factura mensual hasta un 90% en los tokens del sistema reutilizados. Esta calculadora estima el costo real según tu volumen de requests, tamaño del prompt base, tasa de aciertos de caché y tokens de salida, usando los precios oficiales de Anthropic 2026.

Última revisión: 27 de mayo de 2026 Revisado por Martín Rodríguez Fuente: Anthropic API Pricing, Prompt Caching — Anthropic Documentation, Claude 3.7 Sonnet — Model Card 100% privado

Cuándo usar esta calculadora

Chatbots con system prompt largo reutilizado en cada conversación
Pipelines RAG donde el contexto de documentos se repite por request
Agentes que inyectan instrucciones extensas en cada llamada a la API
Aplicaciones SaaS que sirven a muchos usuarios con el mismo prompt base
Evaluación del ROI antes de migrar a Claude 3.7 desde otro modelo

Casos resueltos

Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.

Caso 1: Startup SaaS con chatbot 24/7: comparación de costos sin caching vs Sonnet 3.7 con 85% hit rate

Startup ofrece chatbot de soporte 24/7 con system prompt de 12.000 tokens (incluye contexto del producto, FAQ, políticas). Promedio: 3.000 requests/día, 450 tokens variables/request, 600 tokens output/request. Cache hit rate medido: 85% (alto por uso constante).

Configuración: Claude 3.7 Sonnet, system prompt 12.000 tokens, 3.000 req/día = 90.000 req/mes
Sin prompt caching:
Input total/mes: (12.000 + 450) × 90.000 = 1.120 millones tokens × USD 3/M = USD 3.361
Output total/mes: 600 × 90.000 = 54 M tokens × USD 15/M = USD 810
Total sin caching: USD 4.171/mes
Con prompt caching (85% hit rate):
Cache write: 12.000 × 0,15 × 90.000 = 162 M tokens × USD 3,75/M = USD 608
Cache read: 12.000 × 0,85 × 90.000 = 918 M tokens × USD 0,30/M = USD 275
Variable input: 450 × 90.000 = 40,5 M × USD 3 = USD 122
Output: 54 M × USD 15 = USD 810
Total con caching: USD 1.815/mes
Ahorro mensual: 4.171 − 1.815 = USD 2.356 (56% reducción)
Ahorro anual: USD 28.272 (suficiente para contratar un developer junior o un mes de marketing)

Resultado: El prompt caching reduce el costo de USD 4.171/mes a USD 1.815/mes, un 56% de ahorro (USD 28.272/año). Para esta startup con tracción, es la diferencia entre rentabilidad y pérdida. Acciones recomendadas: (1) Implementar caching en sprint 1. (2) Monitorear cache hit rate; si baja del 70%, revisar TTL o estructura del prompt. (3) Considerar evaluar router Haiku para queries simples (ahorro adicional 30-40%).

Cómo funciona

2 min de lectura

Cómo se calcula

El prompt caching de Anthropic permite almacenar en caché partes del prompt (típicamente el system prompt o contexto largo) para reutilizarlas en requests subsiguientes. Los tokens cacheados se cobran a tarifas distintas según si se está escribiendo la caché o leyendo desde ella.

Precios por modelo (por millón de tokens, USD)

Modelo	Input normal	Cache write	Cache read	Output
Claude 3.7 Sonnet	$3.00	$3.75	$0.30	$15.00
Claude 3.5 Sonnet	$3.00	$3.75	$0.30	$15.00
Claude 3.5 Haiku	$0.80	$1.00	$0.08	$4.00

El cache write cuesta 1.25× el precio de input normal. El cache read cuesta 0.1× el precio de input normal.

Fórmula

// Por request:
tokens_write = basePromptTokens × (1 - cacheHitRate)
tokens_read  = basePromptTokens × cacheHitRate
tokens_variable = variableTokensPerRequest
tokens_output   = outputTokensPerRequest

costo_por_request =
  (tokens_write   / 1_000_000) × precio_cache_write
+ (tokens_read    / 1_000_000) × precio_cache_read
+ (tokens_variable/ 1_000_000) × precio_input_normal
+ (tokens_output  / 1_000_000) × precio_output

costo_mensual = costo_por_request × requestsPerDay × 30

// Sin caché (todos los tokens base se cobran como input normal):
costo_sin_cache_por_request =
  ((basePromptTokens + variableTokensPerRequest) / 1_000_000) × precio_input_normal
+ (outputTokensPerRequest / 1_000_000) × precio_output

Ejemplo numérico (Claude 3.7 Sonnet)

Supuestos: 10.000 tokens base, 500 variables, 800 output, 1.000 req/día, 80% hit rate.

Cache write: 10.000 × 0.20 = 2.000 tokens → 2.000/1M × $3.75 = $0.0000075/req

Cache read: 10.000 × 0.80 = 8.000 tokens → 8.000/1M × $0.30 = $0.0000024/req

Variable input: 500/1M × $3.00 = $0.0000015/req

Output: 800/1M × $15.00 = $0.000012/req

Total/req ≈ $0.0000234 → Mensual ≈ $70.2

Sin caché: (10.500/1M × $3.00 + 800/1M × $15.00) × 30.000 req ≈ $1.305 al mes — un 94% más caro.

Cuándo NO aplica / Limitaciones

El cache hit rate real depende del TTL (5 minutos por defecto en Anthropic) y del patrón de tráfico; con tráfico muy esporádico puede ser cercano a 0%.

El prompt base debe superar el mínimo de tokens cacheables (1.024 para Sonnet, 2.048 para algunos modelos) para activar el caching.

Los precios pueden variar según tier de volumen, contratos enterprise o cambios de Anthropic.

Esta calculadora no incluye costos de red, latencia ni overhead de infraestructura propia.

Preguntas frecuentes

¿Qué es el prompt caching en Claude?

Es una función de la API de Anthropic que permite guardar en caché partes del prompt (system prompt, documentos de contexto) para reutilizarlas en requests siguientes. Los tokens leídos desde caché cuestan 0.1× el precio normal de input, reduciendo significativamente el costo en aplicaciones con prompts repetitivos.

¿Cuánto cuesta escribir en caché vs. leer desde caché?

Para Claude 3.7 Sonnet: escribir en caché cuesta $3.75/millón de tokens (1.25× el input normal de $3.00), mientras que leer desde caché cuesta solo $0.30/millón de tokens (0.1× el precio normal). El ahorro en lecturas compensa rápidamente el sobrecosto de escritura.

¿Cuánto dura la caché?

El TTL (time-to-live) estándar de la caché de Anthropic es de 5 minutos desde el último uso. Si el cache hit rate de tu aplicación es bajo porque los requests llegan con más de 5 minutos de diferencia, el beneficio real será menor al estimado aquí.

¿Cuál es el mínimo de tokens para activar el caching?

Para Claude 3.7 Sonnet y Claude 3.5 Sonnet el bloque cacheado debe tener al menos 1.024 tokens. Para modelos Opus el mínimo es 2.048 tokens. Prompts base más cortos que ese umbral no se cachean aunque se use el parámetro correspondiente en la API.

¿Cómo afecta el cache hit rate al costo final?

Es el factor más determinante. Con 0% hit rate todos los tokens base se escriben en caché (coste 1.25×), sin aprovechar lecturas baratas. Con 90% hit rate el 90% de los tokens base cuestan solo 0.1×, reduciendo el costo total de forma muy significativa. La calculadora permite ajustar este parámetro.

¿Qué diferencia hay entre Claude 3.7 Sonnet y Claude 3.5 Haiku en términos de costo?

Claude 3.5 Haiku tiene precios aproximadamente 3-4× más bajos ($0.80 input, $4.00 output vs. $3.00/$15.00 de Sonnet). Para casos de uso que no requieren el máximo de razonamiento, Haiku con prompt caching puede ser la opción más económica.

¿Los tokens variables (mensaje del usuario) también se cachean?

Generalmente no. El caching está diseñado para la parte estática del prompt (system prompt, documentos). Los tokens dinámicos por request (mensaje del usuario, contexto variable) se cobran siempre a precio de input normal. Esta calculadora los separa para reflejar esa distinción.

¿Cómo activo el prompt caching en la API?

En la API de Anthropic se agrega el parámetro cache_control: {type: 'ephemeral'} al bloque del system prompt o al contenido que se quiere cachear. Anthropic gestiona el almacenamiento automáticamente. No requiere configuración adicional de infraestructura.

¿Esta calculadora incluye el costo de las herramientas (tools/function calling)?

No. Los tokens de definición de herramientas también pueden cachearse pero no están incluidos en esta estimación. Si usás function calling extensivo, el costo real puede ser ligeramente mayor al calculado aquí.

¿Cuál es el ROI real del prompt caching para un chatbot SaaS de tráfico medio?

Para una aplicación con 2.000 requests/día de chatbot con system prompt de 8.000 tokens y 75% cache hit rate: sin caching costaría ~USD 1.080/mes solo en input + USD 720 en output = USD 1.800/mes. Con caching baja a ~USD 90 input + USD 720 output = USD 810/mes (55% ahorro total). El ROI se incrementa cuanto más largo sea el system prompt y más alto el cache hit rate. Para system prompts cortos (<2.000 tokens) el beneficio es menor; para prompts >20.000 tokens, el ahorro puede superar el 80% del costo total.

¿Cómo medir el cache hit rate real de mi aplicación?

La API de Anthropic devuelve en cada response un objeto usage con: cache_creation_input_tokens (tokens recién escritos a caché) y cache_read_input_tokens (tokens leídos desde caché). Tu cache hit rate efectivo = cache_read / (cache_read + cache_creation + input_tokens). Logueá estos valores para cada request y calculá el promedio diario/semanal. Si está por debajo del 50%, revisar: (1) TTL muy corto vs frecuencia de requests, (2) cambios en system prompt invalidando caché, (3) requests dispersos en el tiempo. Anthropic provee dashboard con estos KPIs en console.anthropic.com.

¿Conviene usar Claude 3.5 Haiku o Claude 3.7 Sonnet con caching para mi caso?

Regla práctica: si la tarea requiere razonamiento complejo, escritura creativa de calidad, análisis profundo, código complejo o procesamiento de documentos largos → Sonnet 3.7. Si la tarea es clasificación simple, extracción de datos estructurados, respuestas factuales cortas, parsing → Haiku 3.5 (4× más barato). Una estrategia híbrida que muchas empresas usan: router con Haiku que clasifica la complejidad de la consulta y deriva las simples a Haiku 3.5 y las complejas a Sonnet 3.7. Reduce 40-60% el costo total manteniendo la calidad donde importa.

¿El cache TTL extendido (1 hora) ya está disponible y cuánto cuesta extra?

Sí, desde 2025 Anthropic lanzó el extended TTL de 1 hora (vs 5 min default). Costo: 2× el cache write (USD 7,50/M tokens en Sonnet vs USD 3,75 estándar). Útil cuando: (1) Aplicación tiene picos de tráfico cada 30-45 min (típico de uso oficina). (2) Documentos grandes que se reusan toda la jornada laboral. (3) Workflows asincrónicos donde no podés garantizar requests cada 5 min. No conviene si tus requests son siempre seguidos (<5 min) o muy esporádicos (>1 hora). Para uso típico SaaS con tráfico 24/7, el TTL estándar de 5 min suele ser suficiente.

Fuentes y referencias

Anthropic API Pricing — Anthropic (2026)
Prompt Caching — Anthropic Documentation — Anthropic (2026)
Claude 3.7 Sonnet — Model Card — Anthropic (2026)

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 27 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Calculadora de Costo Mensual RAG con Vector DB Calculá el costo mensual de tu sistema RAG: Pinecone, pgvector self-hosted o Weaviate. Incluye storage, queries y LLM. Compará opciones desde $0 hasta cientos… Comparador de precios: AI coding tools 2026 Compará Cursor Pro ($20/mes), GitHub Copilot Pro ($10/mes), Claude Code y más herramientas de IA para código. Calculá el costo total para tu equipo.