GPT-5 vs Claude 3.7 vs Gemini 2.5: comparador de precio por tokens🌎
Actualizado junio de 2026Ver cálculo paso a paso
¿Cuál es más barato: GPT-5, Claude 3.7 Sonnet o Gemini 2.5 Pro? El costo real depende de cuántos tokens procesás por mes, qué proporción es entrada vs salida y si aprovechás caché de prompts o batch processing. Esta calculadora compara los tres modelos con tus números reales y te dice cuál te conviene, en USD por mes. (En abril de 2026 OpenAI re-tarificó GPT-5 a USD 1,25/10 por millón de tokens al lanzar GPT-5.5; usamos esa tarifa.)
Cuándo usar esta calculadora
- Saber cuál es más barato antes de elegir proveedor de LLM para tu app
- Estimar el gasto mensual de un chatbot con volumen conocido de mensajes
- Evaluar si activar caché de prompts justifica quedarte en tu modelo actual
- Calcular el ahorro de mover tareas offline al batch API (50% off)
- Comparar costo de contexto largo (RAG, análisis de documentos) entre los tres modelos
Casos resueltos
Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.
Caso 1: Startup con chatbot RAG calcula su costo mensual con caché agresivo
Una startup tiene un chatbot RAG con 15M tokens input/mes y 3M tokens output/mes. Usa contexto repetitivo (system prompt + chunks comunes), logrando 50% de caché en input. No usa batch (chat en vivo). ¿Cuánto cuesta al mes con cada modelo y cuál conviene?
- GPT-5: input std = 7,5M × $1,25 = $9,38; input cache = 7,5M × $0,125 = $0,94; output = 3M × $10 = $30 → Total $40,31/mes
- Claude 3.7 Sonnet: input std = 7,5M × $3 = $22,50; input cache = 7,5M × $0,30 = $2,25; output = 3M × $15 = $45 → Total $69,75/mes
- Gemini 2.5 Pro: input std = 7,5M × $1,25 = $9,38; input cache = 7,5M × $0,31 = $2,34; output = 3M × $10 = $30 → Total $41,72/mes
Cómo funciona
3 min de lecturaGPT-5 vs Claude 3.7 vs Gemini 2.5 Pro: ¿cuál es más barato?
Cada proveedor cobra por separado los tokens de entrada (input) y los de salida (output), en USD por millón de tokens (MTok). Además ofrecen descuentos con caché de prompts (prompt caching) y batch processing. Con la tarifa vigente en 2026, GPT-5 y Gemini 2.5 Pro empatan como los más baratos, y Claude 3.7 Sonnet sale más caro en input pero suele ganar en calidad de razonamiento.
Tabla de precios 2026 (USD por millón de tokens)
| Modelo | Input estándar | Input cacheado | Output estándar | Batch input | Batch output |
|---|---|---|---|---|---|
| GPT-5 | 1,25 | 0,125 | 10,00 | 0,625 | 5,00 |
| Claude 3.7 Sonnet | 3,00 | 0,30 | 15,00 | 1,50 | 7,50 |
| Gemini 2.5 Pro | 1,25 | 0,31 | 10,00 | 0,625 | 5,00 |
> Nota: GPT-5 se re-tarificó a USD 1,25 input / 10 output cuando OpenAI lanzó GPT-5.5 (abril 2026); los valores de lanzamiento (15/60) ya no aplican. Gemini 2.5 Pro usa la tarifa estándar para prompts ≤200K tokens; por encima sube a ~USD 2,50/MTok input. El input cacheado es ~10% del input estándar en GPT-5 y Claude (cache read), y context caching en Gemini.
Costo mensual aproximado por volumen (input + output, sin caché ni batch, ratio 80/20)
| Tokens/mes | GPT-5 | Claude 3.7 | Gemini 2.5 Pro |
|---|---|---|---|
| 1M (0,8M in / 0,2M out) | USD 3,00 | USD 5,40 | USD 3,00 |
| 10M (8M in / 2M out) | USD 30,00 | USD 54,00 | USD 30,00 |
| 50M (40M in / 10M out) | USD 150,00 | USD 270,00 | USD 150,00 |
| 100M (80M in / 20M out) | USD 300,00 | USD 540,00 | USD 300,00 |
Fórmula general
tokens_input_std = tokens_input × (1 - pct_cache) × (1 - pct_batch)
tokens_input_cache = tokens_input × pct_cache
tokens_input_batch = tokens_input × (1 - pct_cache) × pct_batch
tokens_output_std = tokens_output × (1 - pct_batch)
tokens_output_batch= tokens_output × pct_batch
costo = tokens_input_std × precio_input_std
+ tokens_input_cache × precio_input_cache
+ tokens_input_batch × precio_batch_input
+ tokens_output_std × precio_output_std
+ tokens_output_batch× precio_batch_outputTodos los volúmenes se expresan en millones de tokens para que coincidan con las unidades de precio.
Ejemplo numérico
Supongamos 10M tokens input y 2M tokens output por mes, con 30% de caché y 0% batch:
En este escenario GPT-5 y Gemini 2.5 Pro casi empatan (~USD 29) y Claude 3.7 sale ~78% más caro. La elección final depende de la calidad que necesites, no solo del precio.
Cuándo NO aplica o limitaciones
Preguntas frecuentes
¿Cuál es más barato hoy: GPT-5, Claude 3.7 o Gemini 2.5 Pro?
Con la tarifa 2026, GPT-5 (USD 1,25 input / 10 output por millón) y Gemini 2.5 Pro (USD 1,25 / 10) son los más baratos y casi empatan. Claude 3.7 Sonnet (USD 3 / 15) cuesta el doble en input y un 50% más en output. Para uso intensivo de output, la diferencia con Claude se nota; para input pesado (RAG, documentos), GPT-5 y Gemini son claramente más económicos.
¿Por qué GPT-5 figura a USD 1,25 si antes costaba USD 15 por millón?
El precio de lanzamiento de GPT-5 en 2025 fue USD 15 input / 60 output. En abril de 2026, al lanzar GPT-5.5, OpenAI reordenó la familia y dejó el modelo gpt-5 base en USD 1,25 input / 10 output. GPT-5.4 quedó en USD 2,50 / 15 y el flagship GPT-5.5 en USD 5 / 30. Esta calculadora usa el gpt-5 base; si comparás contra GPT-5.5 multiplicá los precios de GPT-5 por ~4.
¿Qué es un token y cuántos hay en una palabra en español?
Un token es la unidad mínima de texto que procesa el modelo. En español, una palabra suele equivaler a 1,3–1,8 tokens por su morfología. Un prompt de 1000 palabras son ~1300–1800 tokens. Estimá tu volumen multiplicando palabras × 1,5.
¿El caché de prompts funciona igual en los tres modelos?
No exactamente. OpenAI aplica caché automático para prompts ≥1024 tokens con un cache read a ~10% del input. Anthropic requiere marcar explícitamente las secciones a cachear (cache_control) y la lectura cuesta ~10% del input. Google Gemini ofrece 'context caching' con una tarifa de almacenamiento por hora que esta calculadora no incluye.
¿Qué es el batch processing y cuánto ahorra?
El Batch API procesa solicitudes de forma asíncrona (hasta 24 horas) con un 50% de descuento en input y output. Ideal para tareas offline: clasificación masiva, embeddings, análisis de documentos donde la latencia no importa. En 2026 los tres proveedores (OpenAI, Anthropic y Google) ofrecen Batch API. No sirve para chat en tiempo real.
¿Cuándo conviene pagar Claude pese a ser más caro en API?
Claude 3.7 Sonnet suele justificarse cuando la calidad en código, instrucciones largas o razonamiento agéntico reduce reintentos y revisión humana. Si tu tarea es extracción o resumen simple, GPT-5 o Gemini 2.5 Pro hacen el trabajo por bastante menos. La regla: el modelo más barato gana salvo que su tasa de error te haga re-ejecutar.
¿Gemini 2.5 Pro cambia de precio según el contexto?
Sí. Gemini 2.5 Pro soporta hasta 1 millón de tokens de contexto, pero el pricing estándar (USD 1,25 input / 10 output) aplica hasta 200K tokens por request; por encima el input sube a ~USD 2,50/MTok. Esta calculadora usa la tarifa estándar; ajustá si tus prompts superan ese umbral.
¿Cómo estimo mis tokens de salida si todavía no tengo histórico?
Regla práctica: el output suele ser 10–30% del input en extracción/resumen, y puede igualar o superar al input en generación creativa o de código. Empezá con un ratio output/input de 0,2 y ajustá con tus primeras semanas de logs.
¿Incluye el costo de embeddings, fine-tuning o function calling?
No para embeddings ni fine-tuning: esta calculadora cubre solo inferencia estándar (completions). El function calling sí impacta el cálculo indirectamente: la definición de herramientas se cobra como input en cada llamada y las respuestas de herramientas también, así que sumalas a tu volumen de tokens de entrada.
¿Cómo afecta el razonamiento extendido (reasoning) al costo?
Los modos de razonamiento (Claude con extended thinking, GPT-5 high reasoning) generan tokens de razonamiento interno que se facturan como output aunque no se devuelvan. Una respuesta corta puede gastar 5.000–30.000 tokens internos, multiplicando el costo 5x–20x. Activalo solo cuando la tarea lo amerita (matemática, código difícil, planificación multi-paso).
¿Conviene la API directa o un agregador como OpenRouter/Portkey?
Para volúmenes bajos-medianos, la API directa es más barata (sin markup). Para alto volumen o si necesitás failover entre modelos, OpenRouter o Portkey suman ~5–10% sobre el precio base pero te dan API unificada, ruteo ante caídas y logs centralizados. En producción con SLAs, el extra suele compensar; para experimentos, API directa.
Fuentes y referencias
- OpenAI API Pricing — OpenAI (2026)
- Anthropic Claude API Pricing — Anthropic (2026)
- Google Gemini API Pricing — Google DeepMind (2026)
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.