Tecnología

GPT-5 vs Claude 3.7 vs Gemini 2.5: comparador de precio por tokens🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Revisado por: (política editorial ) · Última revisión:

¿Cuál es más barato: GPT-5, Claude 3.7 Sonnet o Gemini 2.5 Pro? El costo real depende de cuántos tokens procesás por mes, qué proporción es entrada vs salida y si aprovechás caché de prompts o batch processing. Esta calculadora compara los tres modelos con tus números reales y te dice cuál te conviene, en USD por mes. (En abril de 2026 OpenAI re-tarificó GPT-5 a USD 1,25/10 por millón de tokens al lanzar GPT-5.5; usamos esa tarifa.)

Última revisión: 03 de junio de 2026 Revisado por Fuente: OpenAI API Pricing, Anthropic Claude API Pricing, Google Gemini API Pricing 100% privado

Cuándo usar esta calculadora

  • Saber cuál es más barato antes de elegir proveedor de LLM para tu app
  • Estimar el gasto mensual de un chatbot con volumen conocido de mensajes
  • Evaluar si activar caché de prompts justifica quedarte en tu modelo actual
  • Calcular el ahorro de mover tareas offline al batch API (50% off)
  • Comparar costo de contexto largo (RAG, análisis de documentos) entre los tres modelos

Casos resueltos

Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.

Caso 1: Startup con chatbot RAG calcula su costo mensual con caché agresivo

Una startup tiene un chatbot RAG con 15M tokens input/mes y 3M tokens output/mes. Usa contexto repetitivo (system prompt + chunks comunes), logrando 50% de caché en input. No usa batch (chat en vivo). ¿Cuánto cuesta al mes con cada modelo y cuál conviene?

  1. GPT-5: input std = 7,5M × $1,25 = $9,38; input cache = 7,5M × $0,125 = $0,94; output = 3M × $10 = $30 → Total $40,31/mes
  2. Claude 3.7 Sonnet: input std = 7,5M × $3 = $22,50; input cache = 7,5M × $0,30 = $2,25; output = 3M × $15 = $45 → Total $69,75/mes
  3. Gemini 2.5 Pro: input std = 7,5M × $1,25 = $9,38; input cache = 7,5M × $0,31 = $2,34; output = 3M × $10 = $30 → Total $41,72/mes
Resultado: GPT-5 es el más económico ($40,31/mes), seguido muy de cerca por Gemini 2.5 Pro ($41,72) y ~42% más barato que Claude 3.7 ($69,75). Para un chatbot RAG con caché agresivo y volumen moderado, GPT-5 y Gemini empatan en la mejor relación costo/performance. Validá con benchmarks propios la calidad en tu dominio: el ahorro no compensa si la tasa de respuesta correcta cae más de 10–15%.

Cómo funciona

3 min de lectura

GPT-5 vs Claude 3.7 vs Gemini 2.5 Pro: ¿cuál es más barato?

Cada proveedor cobra por separado los tokens de entrada (input) y los de salida (output), en USD por millón de tokens (MTok). Además ofrecen descuentos con caché de prompts (prompt caching) y batch processing. Con la tarifa vigente en 2026, GPT-5 y Gemini 2.5 Pro empatan como los más baratos, y Claude 3.7 Sonnet sale más caro en input pero suele ganar en calidad de razonamiento.

Tabla de precios 2026 (USD por millón de tokens)

ModeloInput estándarInput cacheadoOutput estándarBatch inputBatch output
GPT-51,250,12510,000,6255,00
Claude 3.7 Sonnet3,000,3015,001,507,50
Gemini 2.5 Pro1,250,3110,000,6255,00

> Nota: GPT-5 se re-tarificó a USD 1,25 input / 10 output cuando OpenAI lanzó GPT-5.5 (abril 2026); los valores de lanzamiento (15/60) ya no aplican. Gemini 2.5 Pro usa la tarifa estándar para prompts ≤200K tokens; por encima sube a ~USD 2,50/MTok input. El input cacheado es ~10% del input estándar en GPT-5 y Claude (cache read), y context caching en Gemini.

Costo mensual aproximado por volumen (input + output, sin caché ni batch, ratio 80/20)

Tokens/mesGPT-5Claude 3.7Gemini 2.5 Pro
1M (0,8M in / 0,2M out)USD 3,00USD 5,40USD 3,00
10M (8M in / 2M out)USD 30,00USD 54,00USD 30,00
50M (40M in / 10M out)USD 150,00USD 270,00USD 150,00
100M (80M in / 20M out)USD 300,00USD 540,00USD 300,00

Fórmula general

tokens_input_std   = tokens_input × (1 - pct_cache) × (1 - pct_batch)
tokens_input_cache = tokens_input × pct_cache
tokens_input_batch = tokens_input × (1 - pct_cache) × pct_batch
tokens_output_std  = tokens_output × (1 - pct_batch)
tokens_output_batch= tokens_output × pct_batch

costo = tokens_input_std   × precio_input_std
      + tokens_input_cache × precio_input_cache
      + tokens_input_batch × precio_batch_input
      + tokens_output_std  × precio_output_std
      + tokens_output_batch× precio_batch_output

Todos los volúmenes se expresan en millones de tokens para que coincidan con las unidades de precio.

Ejemplo numérico

Supongamos 10M tokens input y 2M tokens output por mes, con 30% de caché y 0% batch:

  • GPT-5: (7M × 1,25) + (3M × 0,125) + (2M × 10) = 8,75 + 0,38 + 20 = USD 29,13

  • Claude 3.7: (7M × 3) + (3M × 0,30) + (2M × 15) = 21 + 0,90 + 30 = USD 51,90

  • Gemini 2.5 Pro: (7M × 1,25) + (3M × 0,31) + (2M × 10) = 8,75 + 0,94 + 20 = USD 29,69
  • En este escenario GPT-5 y Gemini 2.5 Pro casi empatan (~USD 29) y Claude 3.7 sale ~78% más caro. La elección final depende de la calidad que necesites, no solo del precio.

    Cuándo NO aplica o limitaciones

  • Los precios cambian seguido; verificá siempre las páginas oficiales de OpenAI, Anthropic y Google antes de presupuestar (OpenAI ya repreció GPT-5 dos veces en 2026).

  • El caché solo aplica si el prefijo del prompt supera el mínimo del proveedor (≥1024 tokens en OpenAI y Anthropic).

  • No considera latencia, límites de rate, calidad de respuesta ni acuerdos enterprise.

  • Gemini 2.5 Pro tiene precios escalonados por longitud de contexto; para prompts >200K tokens el input sube a ~USD 2,50/MTok.
  • Preguntas frecuentes

    ¿Cuál es más barato hoy: GPT-5, Claude 3.7 o Gemini 2.5 Pro?

    Con la tarifa 2026, GPT-5 (USD 1,25 input / 10 output por millón) y Gemini 2.5 Pro (USD 1,25 / 10) son los más baratos y casi empatan. Claude 3.7 Sonnet (USD 3 / 15) cuesta el doble en input y un 50% más en output. Para uso intensivo de output, la diferencia con Claude se nota; para input pesado (RAG, documentos), GPT-5 y Gemini son claramente más económicos.

    ¿Por qué GPT-5 figura a USD 1,25 si antes costaba USD 15 por millón?

    El precio de lanzamiento de GPT-5 en 2025 fue USD 15 input / 60 output. En abril de 2026, al lanzar GPT-5.5, OpenAI reordenó la familia y dejó el modelo gpt-5 base en USD 1,25 input / 10 output. GPT-5.4 quedó en USD 2,50 / 15 y el flagship GPT-5.5 en USD 5 / 30. Esta calculadora usa el gpt-5 base; si comparás contra GPT-5.5 multiplicá los precios de GPT-5 por ~4.

    ¿Qué es un token y cuántos hay en una palabra en español?

    Un token es la unidad mínima de texto que procesa el modelo. En español, una palabra suele equivaler a 1,3–1,8 tokens por su morfología. Un prompt de 1000 palabras son ~1300–1800 tokens. Estimá tu volumen multiplicando palabras × 1,5.

    ¿El caché de prompts funciona igual en los tres modelos?

    No exactamente. OpenAI aplica caché automático para prompts ≥1024 tokens con un cache read a ~10% del input. Anthropic requiere marcar explícitamente las secciones a cachear (cache_control) y la lectura cuesta ~10% del input. Google Gemini ofrece 'context caching' con una tarifa de almacenamiento por hora que esta calculadora no incluye.

    ¿Qué es el batch processing y cuánto ahorra?

    El Batch API procesa solicitudes de forma asíncrona (hasta 24 horas) con un 50% de descuento en input y output. Ideal para tareas offline: clasificación masiva, embeddings, análisis de documentos donde la latencia no importa. En 2026 los tres proveedores (OpenAI, Anthropic y Google) ofrecen Batch API. No sirve para chat en tiempo real.

    ¿Cuándo conviene pagar Claude pese a ser más caro en API?

    Claude 3.7 Sonnet suele justificarse cuando la calidad en código, instrucciones largas o razonamiento agéntico reduce reintentos y revisión humana. Si tu tarea es extracción o resumen simple, GPT-5 o Gemini 2.5 Pro hacen el trabajo por bastante menos. La regla: el modelo más barato gana salvo que su tasa de error te haga re-ejecutar.

    ¿Gemini 2.5 Pro cambia de precio según el contexto?

    Sí. Gemini 2.5 Pro soporta hasta 1 millón de tokens de contexto, pero el pricing estándar (USD 1,25 input / 10 output) aplica hasta 200K tokens por request; por encima el input sube a ~USD 2,50/MTok. Esta calculadora usa la tarifa estándar; ajustá si tus prompts superan ese umbral.

    ¿Cómo estimo mis tokens de salida si todavía no tengo histórico?

    Regla práctica: el output suele ser 10–30% del input en extracción/resumen, y puede igualar o superar al input en generación creativa o de código. Empezá con un ratio output/input de 0,2 y ajustá con tus primeras semanas de logs.

    ¿Incluye el costo de embeddings, fine-tuning o function calling?

    No para embeddings ni fine-tuning: esta calculadora cubre solo inferencia estándar (completions). El function calling sí impacta el cálculo indirectamente: la definición de herramientas se cobra como input en cada llamada y las respuestas de herramientas también, así que sumalas a tu volumen de tokens de entrada.

    ¿Cómo afecta el razonamiento extendido (reasoning) al costo?

    Los modos de razonamiento (Claude con extended thinking, GPT-5 high reasoning) generan tokens de razonamiento interno que se facturan como output aunque no se devuelvan. Una respuesta corta puede gastar 5.000–30.000 tokens internos, multiplicando el costo 5x–20x. Activalo solo cuando la tarea lo amerita (matemática, código difícil, planificación multi-paso).

    ¿Conviene la API directa o un agregador como OpenRouter/Portkey?

    Para volúmenes bajos-medianos, la API directa es más barata (sin markup). Para alto volumen o si necesitás failover entre modelos, OpenRouter o Portkey suman ~5–10% sobre el precio base pero te dan API unificada, ruteo ante caídas y logs centralizados. En producción con SLAs, el extra suele compensar; para experimentos, API directa.

    Fuentes y referencias

    También te puede interesar

    Metodología y confianza

    Editorial

    Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

    Actualización

    Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

    Privacidad

    Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

    Limitaciones

    Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.