Tecnología

Comparador de costos LLMs: GPT-5, Claude 3.7 y Gemini 2.5🌎 Actualizado mayo de 2026

Q: ¿Conviene usar la API directa o un agregador como OpenRouter o Portkey?

Para volúmenes bajos a medianos, la **API directa** es más barata (sin markup). Para volúmenes altos o si necesitás failover entre modelos, **OpenRouter** o **Portkey** agregan ~5-10% sobre el precio base pero ofrecen: unificación de API, ruteo automático ante caídas de un proveedor, fallback entre modelos, logs centralizados. Para apps en producción con SLAs estrictos, el costo extra suele compensar. Para experimentos o batch interno, API directa es la opción óptima.

Calculadora Gratis · Privada

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 1 jun 2026

Reportar error

El costo real de usar un LLM depende de cuántos tokens procesás por mes, qué proporción es entrada vs salida, y si usás features como caché de prompts o batch processing. Esta calculadora compara GPT-5, Claude 3.7 Sonnet y Gemini 2.5 Pro con tus datos reales de uso y te dice cuál es más barato para tu caso.

Última revisión: 31 de mayo de 2026 Revisado por Martín Rodríguez Fuente: OpenAI API Pricing, Anthropic Claude API Pricing, Google Gemini API Pricing 100% privado

Cuándo usar esta calculadora

Comparar costos antes de migrar tu app de un proveedor a otro
Estimar el gasto mensual de un chatbot con volumen conocido de mensajes
Evaluar si el caché de prompts justifica cambiar de modelo
Calcular el ahorro de usar batch processing para tareas offline
Decidir qué modelo usar para un contexto largo (RAG, análisis de documentos)

Casos resueltos

Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.

Caso 1: Startup con chatbot RAG calcula costo mensual con caché agresivo

Una startup tiene un chatbot RAG con 15M tokens input/mes y 3M tokens output/mes. El sistema usa contexto repetitivo (system prompt + chunks comunes), logrando 50% de caché en input. No usa batch (chat en vivo). ¿Cuánto cuesta al mes con cada modelo y cuál conviene?

GPT-5: input std = 7,5M × $15 = $112,50; input cache = 7,5M × $3,75 = $28,13; output = 3M × $60 = $180 → Total $320,63/mes
Claude 3.7 Sonnet: input std = 7,5M × $3 = $22,50; input cache = 7,5M × $0,30 = $2,25; output = 3M × $15 = $45 → Total $69,75/mes
Gemini 2.5 Pro: input std = 7,5M × $1,25 = $9,38; input cache = 7,5M × $0,31 = $2,33; output = 3M × $10 = $30 → Total $41,71/mes

Resultado: Gemini 2.5 Pro es el más económico ($41,71/mes), ~8x más barato que GPT-5 ($320,63) y ~40% más barato que Claude 3.7 ($69,75). Para un chatbot RAG con caché agresivo y volumen moderado, Gemini ofrece la mejor relación costo/performance. Sin embargo, validá con benchmarks propios la calidad de las respuestas en tu dominio: el ahorro no compensa si la tasa de respuesta correcta cae más del 10-15%.

Cómo funciona

2 min de lectura

Cómo se calcula el costo mensual de cada LLM

Cada proveedor cobra por separado los tokens de entrada (input) y los de salida (output), expresados en USD por millón de tokens (MTok). Además, ofrecen descuentos mediante caché de prompts (prompt caching) y batch processing.

Precios de referencia 2026 (USD por millón de tokens)

Modelo	Input estándar	Input cacheado	Output estándar	Batch input	Batch output
GPT-5	15.00	3.75	60.00	7.50	30.00
Claude 3.7 Sonnet	3.00	0.30	15.00	1.50	7.50
Gemini 2.5 Pro	1.25	0.31	10.00	—	—

> Nota: GPT-5 se refiere al modelo gpt-5 lanzado por OpenAI en 2025. Gemini 2.5 Pro tiene precios escalonados; esta calculadora usa la tarifa estándar (prompts ≤200K tokens). El batch no está disponible de forma nativa en Gemini 2.5 Pro vía API pública al momento de esta versión.

Fórmula general

tokens_input_std  = tokens_input × (1 - pct_cache) × (1 - pct_batch)
tokens_input_cache = tokens_input × pct_cache
tokens_input_batch = tokens_input × (1 - pct_cache) × pct_batch
tokens_output_std  = tokens_output × (1 - pct_batch)
tokens_output_batch= tokens_output × pct_batch

costo = tokens_input_std   × precio_input_std
      + tokens_input_cache × precio_input_cache
      + tokens_input_batch × precio_batch_input
      + tokens_output_std  × precio_output_std
      + tokens_output_batch× precio_batch_output

Todos los volúmenes se expresan en millones de tokens para que coincidan con las unidades de precio.

Ejemplo numérico

Supongamos 10M tokens input y 2M tokens output por mes, con 30% de caché y 0% batch:

GPT-5: (7M × 15) + (3M × 3.75) + (2M × 60) = 105 + 11.25 + 120 = 236.25 USD

Claude 3.7: (7M × 3) + (3M × 0.30) + (2M × 15) = 21 + 0.90 + 30 = 51.90 USD

Gemini 2.5 Pro: (7M × 1.25) + (3M × 0.31) + (2M × 10) = 8.75 + 0.93 + 20 = 29.68 USD

En este caso Gemini 2.5 Pro es ~8× más barato que GPT-5.

Cuándo NO aplica o limitaciones

Los precios cambian frecuentemente; verificá siempre las páginas de pricing oficiales de OpenAI, Anthropic y Google antes de presupuestar.

El caché de prompts solo aplica si el prefijo del prompt supera el mínimo requerido por cada proveedor (1024 tokens en OpenAI, 1024 en Anthropic).

Esta calculadora no considera latencia, límites de rate, calidad de respuesta ni acuerdos de volumen (enterprise pricing).

Gemini 2.5 Pro tiene precios escalonados por longitud de contexto; para prompts >200K tokens el precio de input aumenta.

Preguntas frecuentes

¿Qué es un token y cuántos hay en una palabra en español?

Un token es la unidad mínima de texto que procesa el modelo. En español, una palabra suele equivaler a 1.3–1.8 tokens debido a morfología compleja. Un prompt de 1000 palabras son aproximadamente 1300–1800 tokens. Podés estimar tu volumen multiplicando palabras × 1.5.

¿El caché de prompts funciona igual en todos los modelos?

No exactamente. OpenAI aplica caché automático para prompts ≥1024 tokens con un descuento del 75% en input. Anthropic requiere marcar explícitamente las secciones a cachear (cache_control). Google Gemini ofrece 'context caching' con una tarifa de almacenamiento adicional por hora que esta calculadora no incluye.

¿Qué es el batch processing y para qué sirve?

El batch API procesa solicitudes de forma asíncrona (típicamente en hasta 24 horas) a un costo 50% menor. Es ideal para tareas offline: clasificación masiva, generación de embeddings, análisis de documentos donde la latencia no es crítica. No disponible para aplicaciones conversacionales en tiempo real.

¿GPT-5 realmente cuesta 15 USD por millón de tokens de input?

Sí, GPT-5 (lanzado en 2025) tiene un precio de lista de USD 15/MTok input y USD 60/MTok output en su versión estándar vía API de OpenAI. Con caché automático baja a USD 3.75/MTok input. Verificá la página oficial de OpenAI Pricing para actualizaciones.

¿Cuándo conviene usar GPT-5 pese a ser más caro?

GPT-5 puede justificarse cuando la calidad de respuesta en razonamiento complejo, codificación avanzada o instrucciones multimodales es crítica y el costo se compensa con menor necesidad de revisión humana o re-ejecución. Para tareas estándar de extracción o resumen, modelos más baratos suelen ser suficientes.

¿Gemini 2.5 Pro tiene límite de contexto diferente?

Gemini 2.5 Pro soporta hasta 1 millón de tokens de contexto. Sin embargo, el pricing estándar aplica hasta 200K tokens de contexto por request; por encima de eso el costo de input sube a USD 2.50/MTok. Esta calculadora usa la tarifa estándar; ajustá si tus prompts superan ese umbral.

¿Cómo estimo mis tokens de salida si aún no tengo histórico?

Una regla práctica: los tokens de output suelen ser entre 10% y 30% del volumen de input en casos de uso de extracción/resumen, y pueden igualar o superar al input en generación creativa o de código. Empezá con un ratio output/input de 0.2 y ajustá con tus primeras semanas de logs.

¿Esta calculadora incluye el costo de embeddings o fine-tuning?

No. Esta calculadora solo cubre inferencia estándar (completions) de los tres modelos. Los costos de embeddings, fine-tuning, almacenamiento de vectores, o llamadas a herramientas (tool calls / function calling) se cobran de forma separada y no están incluidos.

¿Con qué frecuencia se actualizan los precios en esta calculadora?

Los precios se revisan manualmente cuando alguno de los tres proveedores anuncia cambios tarifarios. La fecha de última revisión se indica al pie de la calculadora. Para decisiones de presupuesto importantes, siempre verificá los precios oficiales en las páginas de cada proveedor.

¿Conviene usar la API directa o un agregador como OpenRouter o Portkey?

Para volúmenes bajos a medianos, la API directa es más barata (sin markup). Para volúmenes altos o si necesitás failover entre modelos, OpenRouter o Portkey agregan ~5-10% sobre el precio base pero ofrecen: unificación de API, ruteo automático ante caídas de un proveedor, fallback entre modelos, logs centralizados. Para apps en producción con SLAs estrictos, el costo extra suele compensar. Para experimentos o batch interno, API directa es la opción óptima.

¿Cómo impacta el modo de razonamiento extendido (Claude/GPT-o1) en el costo?

Los modelos de razonamiento (Claude 3.7 con extended thinking, GPT-o1, o1-mini, o3) usan tokens de razonamiento internos que se facturan como output aunque no se devuelvan al usuario. Una respuesta corta puede generar 5.000-30.000 tokens de razonamiento interno. Esto multiplica el costo real 5x-20x respecto al modo estándar. Conviene activar razonamiento extendido solo cuando la calidad lo requiere (matemáticas complejas, código difícil, planificación multi-paso). Para tareas simples, el modelo base es mucho más barato.

¿Los precios incluyen el costo de las llamadas a herramientas (tool use / function calling)?

Sí, pero hay matices. El prompt que define las herramientas (descripción de funciones, parámetros, ejemplos) se cobra como tokens de entrada en cada llamada — esto puede inflar significativamente el costo si tenés 20+ funciones definidas. Las llamadas a herramientas devueltas por el modelo se cobran como tokens de salida. La respuesta de la herramienta que vos devolvés al modelo se cobra como entrada en la próxima llamada. En workflows agénticos con muchas iteraciones, el costo real puede ser 2-3x el de un chat simple equivalente. Optimizá descripciones de herramientas para que sean concisas.

Fuentes y referencias

OpenAI API Pricing — OpenAI (2026)
Anthropic Claude API Pricing — Anthropic (2026)
Google Gemini API Pricing — Google DeepMind (2026)

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 31 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Comparador de precios: AI coding tools 2026 Compará Cursor Pro ($20/mes), GitHub Copilot Pro ($10/mes), Claude Code y más herramientas de IA para código. Calculá el costo total para tu equipo. Calculadora de precio por hora de servicio de impresión 3D Calculá cuánto cobrar por hora de impresión 3D: amortización + electricidad + desgaste + tu tiempo. Ender 3: $800-1500. Calculá gratis.