Tecnología

Calculadora de costo API OpenAI por tokens (GPT-4o, o1, mini)🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: OpenAI — Pricing oficial
Revisado por: (política editorial ) · Última revisión:

El costo de la API de OpenAI se calcula multiplicando los millones de tokens de entrada por el precio de input y los de salida por el precio de output. En junio 2026: GPT-4o cuesta USD 2,50/MTok input y USD 10/MTok output; GPT-4o mini cuesta USD 0,15/MTok input y USD 0,60/MTok output — 16 veces más barato. Fórmula: costo = (tokensEntrada × precioInput + tokensSalida × precioOutput) / 1.000.000.

Si estás integrando la API de OpenAI en un producto —un chatbot, un asistente de código, un sistema de análisis de documentos— el costo puede escalar rápido y de forma poco intuitiva. No pagás por «consultas» ni por «usuarios»: pagás por tokens, y la diferencia entre un diseño eficiente y uno descuidado puede ser de 10x en la factura mensual. Un token equivale aproximadamente a 4 caracteres del inglés, o algo menos en español (el castellano tokeniza un poco peor, así que tus prompts en español suelen consumir un 15-20% más de tokens que el equivalente en inglés). Y acá está el punto crítico que muchos developers descubren tarde: el output es entre 4 y 6 veces más caro que el input. GPT-4o cobra USD 2,50 por millón de tokens de entrada pero USD 10 por millón de tokens de salida. Si tu sistema genera respuestas largas, el modelo más «barato» puede terminar costando más que uno premium con respuestas cortas y precisas. Esta calculadora te permite estimar el costo mensual real según tu volumen de tokens de entrada y salida y el modelo que usás. También calcula el costo marginal por request, que es el número que necesitás para decidir si el modelo de negocio cierra.

Última revisión: 03 de junio de 2026 Revisado por Fuente: OpenAI — Precios oficiales de la API, OpenAI Tokenizer — Conteo de tokens, Artificial Analysis — Comparativa de costos entre modelos LLM, OpenAI — Documentación de Prompt Caching 100% privado

Cuándo usar esta calculadora

  • Un freelance que construye un chatbot de atención al cliente para un e-commerce: 500 interacciones diarias, 300 tokens de input y 400 de output promedio por turno, usando GPT-4o-mini. Resultado: aproximadamente USD 5,40/mes, un costo completamente viable para incluir en un retainer mensual.
  • Una startup SaaS que procesa contratos legales con GPT-4o: 200 documentos por día, 8.000 tokens de input por documento y 1.500 de output (resumen). Sin caching, el costo mensual supera los USD 500. Activando prompt caching en el system prompt (≈2.000 tokens fijos), el ahorro puede ser de USD 90/mes.
  • Un equipo de data que usa o1-mini para generar código Python de análisis: 50 requests diarios, 1.200 tokens de input y 2.000 de output. A USD 3/MTok input y USD 12/MTok output de o1-mini, el costo mensual ronda USD 11, mucho más barato que o1-full para tareas de código estándar.
  • Una agencia que automatiza la generación de copies con GPT-4o: 1.000 copies por mes, promedio 200 tokens de input (brief) y 350 de output (copy). Costo total: menos de USD 5/mes. El modelo se autofinancia con el primer cliente.
  • Un developer que evalúa si migrar de GPT-4o a GPT-4o-mini en su app de resumen de noticias: 10.000 requests diarios, 600 tokens in / 300 tokens out. Con GPT-4o el costo mensual es ≈USD 1.800; con GPT-4o-mini baja a ≈USD 108. Si la calidad del resumen es aceptable, el ahorro justifica ampliamente la migración.
  • Un emprendedor que planifica el unit economics de su producto: si cobra USD 9,99/mes por usuario y cada usuario genera 200 interacciones mensuales con 400 tokens in / 300 tokens out en GPT-4o-mini, el costo de IA por usuario es ≈USD 0,20/mes, dejando margen operativo saludable.

Ejemplo real: chatbot con GPT-4o mini

  1. Entrada: 5 M tokens/mes × USD 0,15 = USD 0,75
  2. Salida: 3 M tokens/mes × USD 0,60 = USD 1,80
  3. Total mensual: USD 2,55
Resultado: Costo por request ≈ USD 0,0003 (asumiendo 1.000 tokens/request promedio)

Cómo funciona

2 min de lectura

Cómo se calcula el costo mensual de la API de OpenAI

El modelo de facturación es por tokens: input (prompt) y output (completion) tienen tarifas distintas según modelo. Un token ≈ 4 caracteres ≈ 0,75 palabras en inglés (un 15-25% más en español por la tokenización BPE).

costo_mensual = (tokens_input_M × precio_input) + (tokens_output_M × precio_output)

Donde los precios son en USD por millón de tokens (MTok).

Tabla de precios API OpenAI — junio 2026

ModeloInput (USD/MTok)Output (USD/MTok)Ratio out/inCaching
GPT-4o mini0,150,60
GPT-4o2,5010,00
o1-mini3,0012,00
o115,0060,00
GPT-4 Turbo (legacy)10,0030,00No
GPT-3.5 Turbo (legacy)0,501,50No

Diferencia de costo entre extremos: o1 es 100 veces más caro que GPT-4o mini en input y 100 veces más en output.

Tabla de costos por volumen mensual (GPT-4o mini, ratio 2:1 in/out)

Tokens entrada (M)Tokens salida (M)Costo mensual
10,5USD 0,45
52,5USD 2,25
105USD 4,50
5025USD 22,50
10050USD 45,00
500250USD 225,00

Tabla de costos por volumen mensual (GPT-4o, ratio 2:1 in/out)

Tokens entrada (M)Tokens salida (M)Costo mensual
10,5USD 7,50
52,5USD 37,50
105USD 75,00
5025USD 375,00
10050USD 750,00
500250USD 3.750,00

Optimizaciones de costo más efectivas

1. Prompt caching: 50% de descuento sobre input cacheado en llamadas repetidas con el mismo system prompt (>1.024 tokens).
2. Batch API: 50% de descuento en procesamiento asincrónico (hasta 24 h). Ideal para pipelines offline.
3. Migrar a GPT-4o mini: 16x más barato que GPT-4o si la calidad es aceptable.
4. Truncar el historial de conversación: es el multiplicador oculto más grande en chatbots con múltiples turnos.
5. Limitar max_tokens en el output: evita respuestas innecesariamente largas.

Fuentes

Precios verificados en openai.com/api/pricing (junio 2026). Conteo de tokens con tiktoken. Benchmarks de costo en Artificial Analysis.

Preguntas frecuentes

¿Cuánto cuesta la API de OpenAI en junio 2026?

Los precios por millón de tokens (MTok) en junio 2026 son: GPT-4o mini: USD 0,15 input / USD 0,60 output — el modelo más económico y el recomendado para la mayoría de los casos de uso. GPT-4o: USD 2,50 input / USD 10,00 output. o1-mini: USD 3,00 input / USD 12,00 output. o1: USD 15,00 input / USD 60,00 output — para razonamiento complejo. GPT-3.5 Turbo (legacy): USD 0,50 input / USD 1,50 output. Los precios de OpenAI históricamente bajaron año a año; verificá siempre en platform.openai.com/pricing antes de presupuestar.

¿Qué es un token y cuántos tokens tiene una página de texto?

Un token es la unidad mínima que el modelo procesa: aproximadamente 4 caracteres en inglés o 3,5 en español. La palabra «calculadora» es 2 tokens; «AI» es 1. Como referencia práctica: 1 página de texto (300-400 palabras) equivale a unos 400-500 tokens en inglés o 500-650 en español. Una conversación de 10 turnos con respuestas medias puede acumular 3.000-6.000 tokens de contexto por llamada. El tokenizer oficial de OpenAI (platform.openai.com/tokenizer) te permite contar tokens exactos para cualquier texto antes de hacer la llamada.

¿Cuándo conviene usar GPT-4o mini vs GPT-4o?

GPT-4o mini es 16 veces más barato que GPT-4o y resuelve bien: generación de texto y copies, resúmenes cortos, clasificación, extracción de datos estructurados, chatbots conversacionales generales y traducción. GPT-4o conviene para: análisis de documentos complejos, razonamiento matemático avanzado, tareas de visión (imágenes), outputs que requieren alta calidad literaria, y casos donde errores tienen costo alto. Regla práctica: empezá con GPT-4o mini y evaluá la calidad. Si el output es aceptable, mantené mini; si el 10-20% de los casos falla, considerá GPT-4o solo para ese subconjunto.

¿Cuándo conviene usar o1 u o1-mini?

Los modelos o1 son modelos de razonamiento extendido: piensan paso a paso antes de responder, generando «reasoning tokens» internos que se facturan aunque no los veas. Son superiores en: matemática avanzada, lógica formal, código complejo, planificación multi-paso, ciencia. Pero cuestan entre 6× y 100× más que GPT-4o mini. Regla: usá o1 cuando la tarea sea de razonamiento genuinamente complejo y el error sea costoso. Para texto, resúmenes, chatbots o análisis estándar, GPT-4o o GPT-4o-mini ofrecen mejor relación costo-calidad. o1-mini es un buen intermedio para código y matemática a menor precio que o1-full.

¿Qué es el prompt caching y cuánto ahorra?

Prompt caching es una función que almacena en memoria los primeros tokens del prompt (el system prompt y contexto fijo) durante hasta 5 minutos. Si la misma secuencia se repite en la siguiente llamada, OpenAI cobra solo el 50% por esa porción cacheada. El ahorro es significativo cuando tenés un system prompt largo y estático: si tu system prompt tiene 2.000 tokens y hacés 10.000 llamadas por día con GPT-4o, el ahorro mensual es ≈USD 75. El caching se activa automáticamente en prompts de más de 1.024 tokens con los modelos compatibles (GPT-4o, GPT-4o mini, o1, o1-mini); no necesitás configurarlo manualmente.

¿Qué es la Batch API y cuándo conviene usarla?

La Batch API procesa solicitudes de forma asíncrona (en hasta 24 horas) a cambio de un 50% de descuento sobre el precio estándar. Es ideal para tareas diferibles: clasificación masiva de textos, análisis de sentimiento, generación de embeddings, moderación de contenido, enriquecimiento de catálogos. No sirve para chatbots o apps donde el usuario espera respuesta en tiempo real. Si tu pipeline tolera demora, la Batch API puede reducir a la mitad tu factura sin cambiar nada en la lógica de la aplicación.

¿Cómo afecta el historial de conversación al costo en chatbots?

En chatbots multi-turno, cada nueva llamada a la API incluye todos los mensajes anteriores como contexto. Si una conversación tiene 10 turnos con 200 tokens promedio por mensaje, el turno 10 envía ~2.000 tokens de historial solo en input. El costo de la sesión completa es la suma de cada llamada, y el historial puede multiplicar el costo efectivo por 4-8× respecto al costo de un mensaje aislado. La solución más efectiva es truncar el historial manteniendo solo los últimos N turnos o un resumen comprimido de la conversación anterior. El historial de contexto es el multiplicador oculto más importante en el costo de chatbots.

¿Por qué los textos en español generan más tokens que en inglés?

El tokenizer de OpenAI (tiktoken, basado en BPE) fue entrenado principalmente con texto en inglés. Las palabras en español, especialmente con tildes y caracteres especiales, se fragmentan en más tokens. Por ejemplo, «información» puede ser 4 tokens mientras que «information» son 3. En la práctica, los textos en español consumen entre un 15% y un 25% más de tokens que el equivalente en inglés. En aplicaciones con alto volumen en castellano, este factor debe incluirse en las estimaciones de costo para evitar sorpresas en la factura real.

¿Cómo estimo los tokens de mi caso de uso antes de implementar?

El Tokenizer de OpenAI en platform.openai.com/tokenizer permite pegar cualquier texto y ver exactamente cuántos tokens consume. Para estimar el volumen mensual: contá los tokens de un prompt representativo (system prompt + contexto típico + mensaje de usuario), multiplicá por el volumen diario de llamadas esperado y por 30. Para el output, si no tenés datos, empezá asumiendo que será aproximadamente igual al input y ajustá una vez que tengas datos reales. También podés usar la librería tiktoken en Python para contar tokens programáticamente antes de hacer la llamada.

¿Existen alternativas más baratas a la API de OpenAI?

Sí, el mercado de LLMs API es amplio. Anthropic Claude 3.5 Haiku: USD 0,80/MTok input y USD 4/MTok output, contexto de 200k tokens. Google Gemini 2.0 Flash: USD 0,075/MTok input, con tier gratuito generoso. Groq con Llama 3: precios muy bajos y latencia ultra-baja. Modelos locales con Ollama: costo marginal cero pero requieren infraestructura GPU propia. La elección depende de: calidad requerida, latencia aceptable, volumen y si preferís pagar por uso o invertir en infraestructura. Para la mayoría de los casos con castellano, GPT-4o mini ofrece la mejor combinación calidad-precio entre APIs gestionadas.

¿Cómo configuro un límite de gasto mensual para no tener sorpresas?

En platform.openai.com → Settings → Billing → Usage limits podés configurar: Hard limit (la API deja de funcionar si se supera) y Soft limit (recibís un email de aviso antes de llegar al hard limit). También podés activar alertas de uso por email. Para proyectos en producción, es buena práctica implementar rate limiting a nivel aplicación y logging por endpoint para detectar antes de llegar al límite si algún feature escala de forma inesperada.

¿Qué son los 'reasoning tokens' de o1 y cómo impactan el costo?

Los modelos o1 generan internamente una cadena de razonamiento antes de producir la respuesta final. Esos reasoning tokens no son visibles en el output de la API pero sí se facturan como tokens de output. En tareas complejas, el razonamiento interno puede generar 2-5 veces más tokens que la respuesta final visible. Esto significa que el costo real de o1 puede ser 2-5× mayor al que calculás si solo contás los tokens de la respuesta visible. Para estimar el costo de o1, usá los completion_tokens con el desglose reasoning_tokens de la respuesta de la API, disponible en el campo usage.completion_tokens_details.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.