Inferencia LLM — throughput y costo por 1M tokens🌎
Actualizado abril de 2026Ver cálculo paso a paso
Servir un LLM open-source (Llama 3 70B, Mistral Large, Qwen 2.5 72B, DeepSeek V3) en producción reemplaza a las APIs comerciales cuando tu volumen lo justifica. La métrica clave es tokens/segundo que tu servidor puede generar — combinación de GPU + framework de inferencia (vLLM, TGI, TensorRT-LLM, SGLang) + batch size + sequence length. En 2026 los benchmarks típicos: Llama 3 8B en H100 con vLLM ~3.000-5.000 tok/s con batch 64. Llama 3 70B Q4 en 1× H100 ~80-150 tok/s por request, 600-1.200 tok/s con batching. Esta calculadora multiplica throughput por request × batch concurrente para darte tokens/segundo totales y divide el costo de la GPU por hora entre los tokens generados, devolviendo el costo por 1M tokens y por request. Útil para comparar self-host contra OpenAI/Anthropic.
Cuándo usar esta calculadora
- Decidir entre self-host de Llama 70B vs API de GPT-4o.
- Estimar capacidad máxima de un servidor LLM en QPS o tokens/s.
- Calcular costo por 1M tokens con batching agresivo.
- Comparar 1× H100 vs 8× H100 vs 1× H200 para inferencia de 70B.
- Presupuestar un endpoint productivo de generación.
Ejemplo: Llama 3 70B Q4 en 1× H100, batch 32
- Tok/s por request (Llama 70B Q4 vLLM): 100 tok/s.
- Batch 32: 100 × 32 = 3.200 tok/s totales (vLLM continuous batching).
- RunPod USD 1,99/h: USD 1,99 / (3.200 × 3.600) × 1e6 = USD 0,17 / 1M tokens.
- Request promedio 300 tokens: USD 0,17 × 300 / 1M = USD 0,000051 / request.
- vs GPT-4o (USD 10/M output): 60× más barato self-host.
Cómo funciona
3 min de lecturaCómo se calcula
Tok/s totales = tok/s por request × batch size
Requests/hora = (tok/s totales × 3600) / tokens por request
Costo/1M tokens = (precio_gpu_hora × cant_gpus / tok/s totales / 3600) × 1.000.000La clave del costo bajo es maximizar batch size sin saturar VRAM. Frameworks modernos (vLLM, TGI, SGLang, TensorRT-LLM) implementan continuous batching + paged attention, que hacen escalar throughput total casi lineal hasta batch 32-64 y luego con retornos decrecientes.
Throughput esperado (referencia abril 2026)
Llama 3 8B (Q4 / fp16)
| GPU | Framework | Tok/s 1 req | Tok/s batch 32 |
|---|---|---|---|
| RTX 4090 24GB | vLLM | 80 | 1.500 |
| L4 24GB | vLLM | 50 | 800 |
| A100 40GB | vLLM | 200 | 4.500 |
| H100 80GB | vLLM | 250 | 6.000 |
| H100 80GB | TensorRT-LLM | 280 | 7.500 |
Llama 3 70B (Q4 / fp16)
| GPU | Precision | Tok/s 1 req | Tok/s batch 32 |
|---|---|---|---|
| 1× H100 80GB | Q4 | 100 | 1.800 |
| 1× H200 141GB | fp16 | 90 | 1.500 |
| 2× H100 80GB | fp16 (TP=2) | 150 | 3.000 |
| 4× H100 80GB | fp16 (TP=4) | 200 | 4.500 |
| 8× H100 80GB | fp16 (TP=8) | 240 | 5.500 |
Costo por 1M tokens vs APIs comerciales
| Modelo / Setup | Output USD/1M tokens | Notas |
|---|---|---|
| Llama 70B Q4, 1× H100, batch 32 | ~USD 0,15-0,30 | self-host RunPod |
| Llama 70B fp16, 4× H100, batch 64 | ~USD 0,40-0,70 | self-host RunPod/Lambda |
| GPT-4o | USD 10 input / USD 30 output (consultar pricing) | API |
| GPT-4o-mini | USD 0,15 / USD 0,60 (consultar pricing oficial) | API barata |
| Claude Sonnet 4 | USD 3 / USD 15 (consultar pricing Anthropic) | API |
| Claude Haiku 4 | USD 0,80 / USD 4 (consultar pricing) | API |
| Gemini 1.5 Pro | USD 1,25 / USD 5 (consultar pricing Google) | API |
Cifras orientativas a abril 2026. Verificá las páginas oficiales antes de comprometer presupuesto.
Cuándo conviene self-host
| Volumen mensual | Recomendación |
|---|---|
| < 10M tokens | API (no se amortiza GPU) |
| 10M - 100M | API barata (gpt-4o-mini, Haiku) |
| 100M - 1B | self-host evaluación |
| > 1B | self-host casi siempre |
| Datos ultra-sensibles | self-host independiente del volumen |
Frameworks de inferencia en 2026
| Framework | Pros | Contras |
|---|---|---|
| vLLM | mainstream, fácil, paged attention, OpenAI-compatible API | menor optimización extreme low-level |
| TGI (HF) | maduro, integrado con HF | menos rápido que vLLM en algunos casos |
| TensorRT-LLM | máximo throughput en NVIDIA | más complejo, requiere build de engine |
| SGLang | rápido en estructura compleja, prompt caching | comunidad más chica |
| llama.cpp / llamafile | CPU + GPU, edge | throughput menor, no orientado batching alto |
Errores típicos
1. Batch=1: Tirás 90% del throughput posible. Continuous batching es gratis con vLLM/TGI.
2. Sequence length excesivo: cargar 32k tokens de contexto cuando solo usás 2k cuadruplica latencia.
3. No usar quantization: Q4 baja 3-4× el costo con pérdida marginal.
4. Olvidar input tokens: el costo total incluye prefill (input) + decode (output).
> Aviso legal: Calculadora educativa. Throughput real depende de muchos factores. No constituye recomendación de proveedor ni de modelo. Las cifras de APIs son referenciales — verificá en pricing pages oficiales (OpenAI, Anthropic, Google).
Revisión editorial
Revisado por el equipo editorial de Hacé Cuentas. Throughput cotejado contra benchmarks públicos de vLLM, Lambda Labs y NVIDIA TensorRT-LLM a abril 2026.
Preguntas frecuentes
¿Cuántos tokens/segundo genera Llama 70B?
Para una sola request: ~80-150 tok/s en 1× H100 con cuantización Q4. Para throughput total con batch 32-64: ~1.500-3.000 tok/s en vLLM. Con 4× H100 fp16 podés llegar a ~5.000 tok/s totales.
¿Self-host es realmente más barato que GPT-4o?
Sí, a partir de cierto volumen. Llama 70B Q4 self-host sale ~USD 0,20-0,50/1M tokens output. GPT-4o cobra ~USD 30/1M output (consultá pricing oficial actualizado). Si procesás >100M tokens/mes y mantenés la GPU bien batcheada, self-host se amortiza fácil.
¿Qué framework de inferencia usar?
vLLM es el default 2026 — fácil, OpenAI-compatible API, soporta casi todos los modelos open. TensorRT-LLM si necesitás máximo throughput en NVIDIA y no te asusta build complejo. TGI si ya estás en stack HuggingFace. SGLang para uso con prompt caching agresivo.
¿Cuánto influye el batch size?
Mucho. Batch 1 vs batch 32 puede multiplicar throughput total 20-30× sin agregar GPU. vLLM hace continuous batching automáticamente — no necesitás programarlo. El cuello de botella es VRAM: batch alto + sequence largo puede OOM.
¿Quantization Q4 baja la calidad mucho?
Marginalmente. En benchmarks típicos (MMLU, GSM8K, HumanEval), Q4 (GPTQ, AWQ) pierde 0-3% vs fp16. Para chat y RAG la diferencia es imperceptible. Para tareas matemáticas o code críticos, considerá Q8 o fp16.
¿Cuánto cuesta servir Llama 8B?
Muy poco. En 1× H100 con vLLM podés llegar a 6.000 tok/s totales. A USD 2,49/h Lambda → ~USD 0,12 / 1M tokens. En L4 24GB (USD 0,80/h) sale aún más barato — ~USD 0,15/1M con menor throughput por request.
¿Necesito GPU dedicada 24/7 para servir LLM?
Para producción con SLA, sí. Los cold starts en serverless de inferencia LLM son malos (10-60 segundos cargar el modelo a VRAM). Algunos providers (Modal, Replicate, Beam) ofrecen warmup pero igual conviene mantener al menos 1 GPU caliente.
¿Cómo aprovecho mejor mi GPU?
1) Continuous batching (vLLM/TGI lo hacen solo). 2) Quantization Q4 o AWQ. 3) Speculative decoding con un drafter chiquito. 4) Prefill chunking para inputs largos. 5) Sequence length cap acorde al uso real. 6) Paged attention (vLLM lo hace por default).
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 25 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.