Calculadora de ahorro: Batch API vs Streaming LLM🌎
Actualizado junio de 2026Ver cálculo paso a paso
Si usás APIs de LLM a escala, elegir entre streaming y batch impacta directamente tu factura mensual. OpenAI Batch API y Anthropic Message Batches ofrecen un 50% de descuento sobre el precio estándar, a cambio de latencias de hasta 24 horas. Esta calculadora te ayuda a encontrar el mix óptimo según qué fracción de tus requests realmente necesita respuesta inmediata — y te muestra exactamente cuánto ahorrás.
Cuándo usar esta calculadora
- Startups SaaS que procesan resúmenes nocturnos y chats en tiempo real
- Equipos de data science que corren evaluaciones masivas de modelos en batch
- Plataformas de contenido que generan artículos en cola y responden FAQs al instante
- Automatización de pipelines de clasificación o extracción de datos no urgentes
- Optimizar presupuesto mensual de API sin degradar la experiencia del usuario final
Cómo funciona
3 min de lecturaCómo se calcula el ahorro
El cálculo separa el volumen total de tokens en dos segmentos según la tolerancia a latencia. El precio batch aplica un descuento fijo sobre el precio estándar.
Fórmula
Tokens diarios streaming = totalTokensPerDay × (latencySensitivePercent / 100)
Tokens diarios batch = totalTokensPerDay × (1 − latencySensitivePercent / 100)
Tokens mensuales streaming = Tokens diarios streaming × daysPerMonth
Tokens mensuales batch = Tokens diarios batch × daysPerMonth
Precio batch por M tokens = pricePerMillionTokens × (1 − batchDiscountPercent / 100)
Costo streaming = (Tokens mensuales streaming / 1.000.000) × pricePerMillionTokens
Costo batch = (Tokens mensuales batch / 1.000.000) × precioBatchPorM
Costo óptimo = Costo streaming + Costo batch
Costo full streaming = (totalTokensPerDay × daysPerMonth / 1.000.000) × pricePerMillionTokens
Costo full batch = (totalTokensPerDay × daysPerMonth / 1.000.000) × precioBatchPorM
Ahorro = Costo full streaming − Costo óptimo
Reducción % = Ahorro / Costo full streaming × 100Ejemplo numérico
1.000.000 tokens/día · 40% sensibles a latencia · USD 3,00/M · 50% descuento batch · 30 días:
| Segmento | Tokens/mes | Precio/M | Costo |
|---|---|---|---|
| Streaming (40%) | 12.000.000 | USD 3,00 | USD 36,00 |
| Batch (60%) | 18.000.000 | USD 1,50 | USD 27,00 |
| Mix óptimo | 30.000.000 | — | USD 63,00 |
| Solo streaming | 30.000.000 | USD 3,00 | USD 90,00 |
| Solo batch | 30.000.000 | USD 1,50 | USD 45,00 |
El mix óptimo ahorra USD 27 (30%) versus usar solo streaming.
Tabla de escenarios comunes (USD 3,00/M tokens, 50% batch off, 30 días)
| Tokens/día | 20% latencia | 40% latencia | 60% latencia | 80% latencia |
|---|---|---|---|---|
| 100.000 | USD 5,10 | USD 6,30 | USD 7,50 | USD 8,70 |
| 500.000 | USD 25,50 | USD 31,50 | USD 37,50 | USD 43,50 |
| 1.000.000 | USD 51,00 | USD 63,00 | USD 75,00 | USD 87,00 |
| 5.000.000 | USD 255,00 | USD 315,00 | USD 375,00 | USD 435,00 |
| 10.000.000 | USD 510,00 | USD 630,00 | USD 750,00 | USD 870,00 |
Vs solo streaming (100% latencia): USD 9 · USD 45 · USD 90 · USD 450 · USD 900 respectivamente.
Descuentos batch por proveedor (referencia 2026)
| Proveedor | Descuento batch | Ventana máxima | Notas |
|---|---|---|---|
| OpenAI Batch API | 50% | 24 h | GPT-4o, GPT-4o mini, o1-mini |
| Anthropic Message Batches | 50% | 24 h | Claude 3.5/3 Haiku/Sonnet |
| Google Vertex Batch | Variable | 24 h | Gemini Flash/Pro |
| AWS Bedrock Batch | Variable | 24 h | Llama, Titan, Claude |
Consideraciones sobre latencia
El TTFT (Time To First Token) en streaming típicamente oscila entre 200 ms y 800 ms. El batch puede demorar entre 1 y 24 horas. Este campo es informativo y no afecta el costo, pero documenta el SLA asumido.
Limitaciones
Preguntas frecuentes
¿Qué descuento ofrece la Batch API de OpenAI y Anthropic?
Ambos ofrecen un 50% de descuento respecto al precio estándar. GPT-4o cuesta USD 2,50/M tokens en input estándar y USD 1,25/M en batch. Claude 3.5 Haiku cuesta USD 0,80/M input estándar y USD 0,40/M en batch (Message Batches).
¿Cuánto puedo ahorrar en la práctica con Batch API?
Depende de qué porcentaje de tu tráfico tolera latencia. Con el 60% en batch y precio USD 3/M, el ahorro es del 30% mensual. Con el 80% en batch, el ahorro sube al 40%. Solo el tráfico interactivo (chat en tiempo real, autocompletado) justifica pagar precio estándar.
¿Cuándo conviene usar solo batch?
Cuando ningún caso de uso requiere respuesta inmediata: evaluaciones de modelos, generación masiva de contenido, enriquecimiento de datasets, clasificación offline, análisis nocturno de logs. Si el usuario no espera la respuesta en tiempo real, batch es casi siempre mejor financieramente.
¿El streaming tiene un costo adicional sobre el precio estándar?
No. Streaming es el modo por defecto de la API: el precio es idéntico al de una llamada síncrona normal. La diferencia es que recibís tokens a medida que se generan, reduciendo la latencia percibida. El costo extra es cero; solo pagás más si comparás con el modo batch.
¿Qué significa TTFT y por qué importa?
TTFT (Time To First Token) es el tiempo entre que enviás el request y recibís el primer token. En streaming, suele ser 200–800 ms según el modelo y proveedor. En batch, puede ser de 1 a 24 horas. Para interfaces conversacionales, un TTFT alto destruye la experiencia del usuario.
¿Cómo determino qué porcentaje de mis requests es sensible a latencia?
Analizá tus logs y separá: (1) requests de sesiones interactivas del usuario (chat, autocompletado, asistente en tiempo real) → sensibles a latencia; (2) requests en background o programados (resúmenes nocturnos, enriquecimiento de CRM, análisis de documentos) → toleran batch. El porcentaje interactivo es tu % sensible a latencia.
¿El precio por millón de tokens es igual para input y output?
No en la mayoría de los proveedores. GPT-4o cobra USD 2,50/M en input y USD 10/M en output (estándar). Para esta calculadora, ingresá un precio promedio ponderado según tu ratio típico. Con ratio 3:1 input/output y precios de GPT-4o estándar: precio promedio ≈ (3×2,50 + 1×10) / 4 = USD 4,375/M.
¿Puedo mezclar proveedores para optimizar aún más?
Sí. Una estrategia avanzada es usar un proveedor premium para streaming (baja latencia garantizada) y uno más económico en modo batch para tareas diferibles. Esta calculadora asume un único proveedor con dos modos; para multi-proveedor, calculá cada uno por separado y sumá.
¿El descuento batch aplica a todos los modelos del proveedor?
No siempre. Los modelos más nuevos o con capacidades específicas (visión, function calling avanzado, contextos largos) pueden no estar disponibles en Batch API o tener descuentos distintos. Verificá la tabla de precios de tu proveedor antes de asumir el 50% estándar.
¿Qué pasa si supero los límites de tokens por lote?
OpenAI admite hasta 100M tokens por batch y hasta 200M en cola simultánea. Anthropic tiene límites similares. Si tu volumen los supera, dividí en múltiples lotes. Esto no cambia el costo por token, pero sí agrega complejidad de orquestación (manejo de IDs de lote, polling de estado, reintentos).
Fuentes y referencias
- OpenAI Batch API Documentation — OpenAI (2026)
- Anthropic Message Batches API — Anthropic (2026)
- OpenAI API Pricing — OpenAI (2026)
- Anthropic API Pricing — Anthropic (2026)
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.