Negocios

Calculadora de costo Claude API: Sonnet vs Opus, standard y 1M context🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: Anthropic Pricing
Revisado por: (política editorial ) · Última revisión:
tokens
tokens
requests

Claude Sonnet y Opus tienen pricing por millón de tokens (MT), con un tier especial 1M que se activa cuando tu input supera los 200.000 tokens. El precio se duplica al cruzar ese umbral — no parcialmente, sino en todo el request. Esta calculadora te dice exactamente cuánto cuesta cada request y proyecta tu gasto mensual según volumen. Esencial para decidir entre contexto largo vs RAG, o Sonnet vs Opus. Recordá: 1 palabra ≈ 1,3 tokens. Un libro de 100k palabras ≈ 130k tokens. Un codebase mediano ≈ 300–800k tokens.

Última revisión: 03 de junio de 2026 Revisado por Fuente: Anthropic Pricing — página oficial, Anthropic Docs — Context Windows y Long Context, Anthropic Docs — Prompt Caching, Anthropic Docs — Batch API 100% privado

Cuándo usar esta calculadora

  • Costear cargar un codebase completo en cada request de tu code assistant.
  • Decidir entre RAG (chunking) vs 1M context full para análisis de docs largos.
  • Comparar costo de Sonnet 1M vs Opus 1M para el mismo workload.
  • Presupuestar un agente que procesa libros, PDFs grandes o transcripciones de horas.
  • Justificar implementación de prompt caching cuando el contexto se reusa entre requests.

Ejemplo: agente procesando codebases — 800k input + 5k output en Sonnet 1M, 500 requests/mes

  1. Input 800k tokens × USD 6/MT (tier 1M) = USD 4,80.
  2. Output 5k tokens × USD 22,50/MT = USD 0,11.
  3. Costo por request: USD 4,91.
  4. Mensual (500 reqs): USD 2.456.
  5. Con prompt caching (input al 10%): USD 0,50/req → USD 250/mes — un ahorro del 90%.
Resultado: Para 500 codebases medianos por mes, presupuestá ~USD 2.500 sin caching o ~USD 250 con caching activo. El ROI de implementar prompt caching se recupera en el primer mes.

Cómo funciona

2 min de lectura

Tabla de precios Claude API 2026

ModeloTierInput (USD/MT)Output (USD/MT)
Claude SonnetStandard (≤200k tokens)$3$15
Claude Sonnet1M context (>200k tokens)$6$22,50
Claude OpusStandard (≤200k tokens)$15$75
Claude Opus1M context (>200k tokens)$30$112,50
HaikuStandard$0,80$4

MT = millón de tokens. Precios USD, válidos para API directa. AWS Bedrock y GCP Vertex pueden variar.

Tabla de costos por escenario de input (Sonnet, sin output)

Tokens de inputTierCosto input por request
50.000 (libro corto)StandardUSD 0,15
100.000 (libro medio)StandardUSD 0,30
200.000 (umbral)StandardUSD 0,60
300.000 (codebase pequeño)1MUSD 1,80
500.000 (codebase medio)1MUSD 3,00
750.0001MUSD 4,50
1.000.000 (máximo)1MUSD 6,00

El umbral de los 200k tokens: cómo funciona

El trigger del tier 1M es todo o nada: si tu request tiene 200.001 tokens de input, todo el request se cobra al precio 1M — no solo el excedente sobre 200k. Esto crea una diferencia abrupta:

  • Request de 199.999 tokens → USD 0,60 (Sonnet)

  • Request de 200.001 tokens → USD 1,20 (Sonnet 1M)
  • Si estás cerca del umbral, conviene optimizar para quedar por debajo.

    Cuándo usar 1M context vs RAG

    Usá 1M context si:

  • Necesitás razonamiento global sobre todo el documento/codebase.

  • Las preguntas pueden referirse a cualquier parte del texto.

  • La latencia baja importa más que el costo.
  • Usá RAG si:

  • Tus preguntas se responden con fragmentos específicos.

  • El corpus es estático y bien estructurado.

  • El costo es el factor principal (RAG suele ser 5–20x más barato).
  • Estrategias para reducir costos en 1M context

    1. Prompt caching: si el contexto largo se reusa entre requests, el read del cache cuesta 10% del precio base. En Sonnet 1M: USD 0,60/MT vs USD 6/MT base — un ahorro del 90% en inputs repetidos.
    2. Batching async: 50% de descuento si tolerás latencia de hasta 24 horas. Se puede combinar con caching.
    3. Haiku para clasificación/filtrado: usá Haiku (USD 0,80/MT input) para decidir si un request merece Sonnet u Opus — ahorrás en el screening.
    4. count_tokens antes de enviar: el SDK de Anthropic incluye client.messages.count_tokens() para saber el tamaño exacto antes de consumir la request, sin costo.

    Revisión editorial

    Pricing oficial verificado en anthropic.com/pricing. Actualizado mayo 2026.

    Preguntas frecuentes

    ¿Cuánto cuesta Claude Sonnet por millón de tokens en 2026?

    Claude Sonnet cuesta USD 3 por millón de tokens de input y USD 15 por millón de tokens de output en el tier standard (hasta 200.000 tokens de input por request). Si superás 200k tokens de input, el tier 1M sube a USD 6/MT input y USD 22,50/MT output.

    ¿Qué diferencia hay entre Claude Sonnet y Opus en precio?

    Opus cuesta exactamente 5× más que Sonnet en cada tier. Sonnet standard: $3/$15 por MT. Opus standard: $15/$75 por MT. Para la mayoría de tareas de análisis de documentos, extracción y Q&A, Sonnet es suficiente y mucho más económico.

    ¿Cuántos tokens tiene 1 millón? ¿Cuántas palabras son?

    1 millón de tokens equivale a aproximadamente 750.000 palabras (1 token ≈ 0,75 palabras) o unos 1.500 artículos de 500 palabras, 10–15 libros de tamaño normal, o un codebase de proyecto mediano.

    ¿Por qué el precio se duplica al pasar los 200.000 tokens?

    El contexto largo requiere más memoria GPU y un KV cache más costoso de mantener durante la inferencia. Anthropic tiene un threshold en 200k tokens que refleja ese cambio en la arquitectura de inferencia.

    ¿Si mi request tiene 199.999 tokens de input, pago precio standard?

    Sí. El umbral es estricto en 200.000 tokens. Un token debajo del umbral y pagás precio standard. Si estás cerca, vale optimizar el prompt para quedar bajo.

    ¿Prompt caching funciona con contextos de 1M tokens?

    Sí, y es donde más ahorrás. El read de prompt cache cuesta 10% del precio del tier. En Sonnet 1M: USD 0,60/MT en vez de USD 6/MT. Si el contexto largo (codebase, documento) no cambia entre requests, caching baja el costo de input un 90%.

    ¿El tier 1M de Claude está disponible para todos?

    El contexto extendido a 1M tokens está disponible para cuentas Build y Scale tier en Anthropic Console, y también vía AWS Bedrock y GCP Vertex con disponibilidad variable por región.

    ¿Existe un descuento por volumen o batching en la API de Claude?

    Sí: Batch API ofrece 50% de descuento a cambio de latencia hasta 24 horas. Se puede combinar con prompt caching. Para cargas de trabajo asíncronas (análisis masivo de documentos por la noche), es la opción más económica.

    ¿Cómo cuento tokens antes de enviar la request?

    El SDK oficial de Anthropic incluye client.messages.count_tokens(), que devuelve el conteo exacto sin ejecutar la request y sin costo. Es clave para verificar si vas a entrar al tier 1M antes de gastar.

    ¿Qué es más barato: Claude 1M context o usar RAG?

    RAG suele ser 5–20× más barato en costo por pregunta cuando las respuestas se pueden resolver con fragmentos específicos. 1M context conviene cuando necesitás razonamiento global sobre todo el corpus y la latencia importa.

    Fuentes y referencias

    También te puede interesar

    Metodología y confianza

    Editorial

    Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

    Actualización

    Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

    Privacidad

    Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

    Limitaciones

    Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.