Batch API: ¿Cuándo conviene el 50% de descuento?🌎
Actualizado mayo de 2026Ver cálculo paso a paso
La Batch API de OpenAI y Anthropic aplica un 50% de descuento sobre el precio estándar a cambio de una latencia de hasta 24 horas. Si tu caso de uso tolera esa espera (clasificación masiva, summarization, embeddings offline), podés reducir tu factura a la mitad. Esta calculadora te muestra el ahorro real en dólares según modelo, volumen de tokens y frecuencia.
Cuándo usar esta calculadora
- Clasificar 500.000 reviews de productos overnight sin importar latencia
- Resumir miles de documentos legales o médicos en lotes diarios
- Generar embeddings masivos para un pipeline de RAG fuera de horario pico
- Evaluar y etiquetar datasets de fine-tuning con bajo presupuesto
- Procesar logs o tickets de soporte acumulados cada noche
- Comparar si conviene migrar un pipeline real-time existente a batch
Casos resueltos
Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.
Caso 1: Ejemplo: Clasificación masiva GPT-4o mini, 50M input + 5M output/mes
Cómo funciona
2 min de lecturaCómo se calcula
El costo de la API de LLMs se factura por millón de tokens (MTok), separando tokens de entrada (input) y de salida (output). La Batch API aplica exactamente un 50% de descuento sobre las tarifas estándar publicadas por OpenAI y Anthropic, a cambio de procesar las solicitudes de forma asíncrona con una ventana de hasta 24 horas.
Fórmula
costo_realtime = (input_MTok × precio_input) + (output_MTok × precio_output)
costo_batch = costo_realtime × 0.50
ahorro = costo_realtime − costo_batch
ahorro_pct = (ahorro / costo_realtime) × 100Precios de referencia 2026 (USD por millón de tokens)
| Modelo | Input RT | Output RT | Input Batch | Output Batch |
|---|---|---|---|---|
| GPT-4o | 2.50 | 10.00 | 1.25 | 5.00 |
| GPT-4o mini | 0.15 | 0.60 | 0.075 | 0.30 |
| o3-mini | 1.10 | 4.40 | 0.55 | 2.20 |
| Claude 3.5 Sonnet | 3.00 | 15.00 | 1.50 | 7.50 |
| Claude 3 Haiku | 0.25 | 1.25 | 0.125 | 0.625 |
| Claude 3.5 Haiku | 0.80 | 4.00 | 0.40 | 2.00 |
Ejemplo numérico
Pipeline de clasificación mensual con GPT-4o mini: 50 M tokens input + 5 M tokens output.
costo_realtime = (50 × 0.15) + (5 × 0.60) = 7.50 + 3.00 = USD 10.50
costo_batch = 10.50 × 0.50 = USD 5.25
ahorro = USD 5.25 (50% exacto)Volumen mínimo recomendado
Both OpenAI y Anthropic requieren que cada lote (batch) contenga al menos 1 solicitud pero en la práctica el overhead de gestión de archivos JSONL y la espera de 24 h solo se justifica con ≥ 100 solicitudes/día o cuando el ahorro mensual supera USD 5. Por debajo de ese umbral, la complejidad operativa no justifica la migración.
Cuándo NO aplica
Fuentes: Páginas de pricing oficiales de OpenAI y Anthropic, documentación de Batch API (2026).
Preguntas frecuentes
¿El descuento del 50% aplica a todos los modelos?
Sí, tanto OpenAI como Anthropic aplican el 50% de descuento uniformemente sobre el precio estándar de cada modelo que soporta Batch API. No todos los modelos están disponibles en modo batch: verificá la documentación oficial para el listado actualizado.
¿Cuánto tiempo tarda realmente en procesar un batch?
OpenAI garantiza resultados en hasta 24 horas; en la práctica muchos lotes se completan en 1-4 horas según carga del sistema. Anthropic tiene una ventana similar. Nunca debés asumir que será inmediato.
¿Hay un tamaño máximo de batch?
OpenAI permite hasta 50.000 solicitudes o 200 MB por archivo JSONL por lote. Anthropic tiene límites similares. Para volúmenes mayores hay que dividir en múltiples lotes y gestionar la cola.
¿Los tokens de contexto (system prompt) también se cuentan al 50% off?
Sí. Todos los tokens del request —incluyendo system prompt, historial y la respuesta generada— reciben el descuento batch. Eso hace que prompts largos o conversaciones con mucho contexto sean especialmente rentables en batch.
¿Puedo usar Batch API con fine-tuned models?
OpenAI soporta Batch API con algunos modelos fine-tuned. El precio base será el del modelo fine-tuned (que incluye el recargo por fine-tune), y sobre ese precio se aplica el 50%. Consultá la pricing page de OpenAI para el modelo específico.
¿Qué pasa si el batch no se procesa en 24 horas?
OpenAI y Anthropic se comprometen a procesar dentro de 24 horas. Si superan ese tiempo, el lote puede expirar y las solicitudes no procesadas se devuelven con error. En ese caso no se cobra por las solicitudes fallidas.
¿Vale la pena batch si proceso menos de 100 solicitudes por día?
Generalmente no. El overhead de preparar el archivo JSONL, subirlo, monitorear el estado y descargar los resultados consume tiempo de ingeniería. Con < 100 solicitudes/día o ahorro < USD 5/mes, la API estándar es más práctica.
¿Los embeddings también tienen Batch API con 50% off?
OpenAI soporta Batch API para modelos de embeddings (text-embedding-3-small, text-embedding-3-large). El 50% de descuento aplica igual. Para pipelines de RAG con indexación masiva, el ahorro puede ser muy significativo.
¿Cómo afecta la Batch API al rate limit?
Los batch requests se procesan con prioridad más baja y no consumen tu rate limit de tokens por minuto (TPM) de la misma forma que las llamadas síncronas. Esto también ayuda a escalar volúmenes altos sin pedir aumentos de rate limit.
Fuentes y referencias
- OpenAI Batch API Documentation — OpenAI (2026)
- OpenAI API Pricing — OpenAI (2026)
- Anthropic Message Batches API — Anthropic (2026)
- Anthropic API Pricing — Anthropic (2026)
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 27 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.