Negocios

Inferencia LLM — throughput y costo por 1M tokens🌎 Actualizado abril de 2026

Q: ¿Cuántos tokens/segundo genera Llama 70B?

Para **una sola request**: ~80-150 tok/s en 1× H100 con cuantización Q4. Para **throughput total con batch 32-64**: ~1.500-3.000 tok/s en vLLM. Con 4× H100 fp16 podés llegar a ~5.000 tok/s totales.

Q: ¿Self-host es realmente más barato que GPT-4o?

**Sí, a partir de cierto volumen.** Llama 70B Q4 self-host sale **~USD 0,20-0,50/1M tokens** output. GPT-4o cobra ~USD 30/1M output (consultá pricing oficial actualizado). Si procesás >100M tokens/mes y mantenés la GPU bien batcheada, self-host se amortiza fácil.

Q: ¿Qué framework de inferencia usar?

**vLLM** es el default 2026 — fácil, OpenAI-compatible API, soporta casi todos los modelos open. **TensorRT-LLM** si necesitás máximo throughput en NVIDIA y no te asusta build complejo. **TGI** si ya estás en stack HuggingFace. **SGLang** para uso con prompt caching agresivo.

Q: ¿Cuánto influye el batch size?

**Mucho.** Batch 1 vs batch 32 puede multiplicar throughput total **20-30×** sin agregar GPU. vLLM hace continuous batching automáticamente — no necesitás programarlo. El cuello de botella es VRAM: batch alto + sequence largo puede OOM.

Q: ¿Quantization Q4 baja la calidad mucho?

**Marginalmente.** En benchmarks típicos (MMLU, GSM8K, HumanEval), Q4 (GPTQ, AWQ) pierde **0-3%** vs fp16. Para chat y RAG la diferencia es imperceptible. Para tareas matemáticas o code críticos, considerá Q8 o fp16.

Q: ¿Cuánto cuesta servir Llama 8B?

**Muy poco.** En 1× H100 con vLLM podés llegar a 6.000 tok/s totales. A USD 2,49/h Lambda → **~USD 0,12 / 1M tokens**. En L4 24GB (USD 0,80/h) sale aún más barato — ~USD 0,15/1M con menor throughput por request.

Q: ¿Necesito GPU dedicada 24/7 para servir LLM?

**Para producción con SLA, sí.** Los cold starts en serverless de inferencia LLM son malos (10-60 segundos cargar el modelo a VRAM). Algunos providers (Modal, Replicate, Beam) ofrecen warmup pero igual conviene mantener al menos 1 GPU caliente.

Q: ¿Cómo aprovecho mejor mi GPU?

1) **Continuous batching** (vLLM/TGI lo hacen solo). 2) **Quantization** Q4 o AWQ. 3) **Speculative decoding** con un drafter chiquito. 4) **Prefill chunking** para inputs largos. 5) **Sequence length cap** acorde al uso real. 6) **Paged attention** (vLLM lo hace por default).

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: vLLM / TGI / Lambda benchmarks

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 26 abr 2026

Reportar error

Servir un LLM open-source (Llama 3 70B, Mistral Large, Qwen 2.5 72B, DeepSeek V3) en producción reemplaza a las APIs comerciales cuando tu volumen lo justifica. La métrica clave es tokens/segundo que tu servidor puede generar — combinación de GPU + framework de inferencia (vLLM, TGI, TensorRT-LLM, SGLang) + batch size + sequence length. En 2026 los benchmarks típicos: Llama 3 8B en H100 con vLLM ~3.000-5.000 tok/s con batch 64. Llama 3 70B Q4 en 1× H100 ~80-150 tok/s por request, 600-1.200 tok/s con batching. Esta calculadora multiplica throughput por request × batch concurrente para darte tokens/segundo totales y divide el costo de la GPU por hora entre los tokens generados, devolviendo el costo por 1M tokens y por request. Útil para comparar self-host contra OpenAI/Anthropic.

Última revisión: 25 de abril de 2026 Revisado por Martín Rodríguez Fuente: vLLM — Documentation, HuggingFace TGI, OpenAI API pricing, Anthropic — Pricing 100% privado

Cuándo usar esta calculadora

Decidir entre self-host de Llama 70B vs API de GPT-4o.
Estimar capacidad máxima de un servidor LLM en QPS o tokens/s.
Calcular costo por 1M tokens con batching agresivo.
Comparar 1× H100 vs 8× H100 vs 1× H200 para inferencia de 70B.
Presupuestar un endpoint productivo de generación.

Ejemplo: Llama 3 70B Q4 en 1× H100, batch 32

Tok/s por request (Llama 70B Q4 vLLM): 100 tok/s.
Batch 32: 100 × 32 = 3.200 tok/s totales (vLLM continuous batching).
RunPod USD 1,99/h: USD 1,99 / (3.200 × 3.600) × 1e6 = USD 0,17 / 1M tokens.
Request promedio 300 tokens: USD 0,17 × 300 / 1M = USD 0,000051 / request.
vs GPT-4o (USD 10/M output): 60× más barato self-host.

Resultado: El self-host se vuelve economic sensible desde >1M tokens/día.

Cómo funciona

3 min de lectura

Cómo se calcula

Tok/s totales = tok/s por request × batch size
Requests/hora = (tok/s totales × 3600) / tokens por request
Costo/1M tokens = (precio_gpu_hora × cant_gpus / tok/s totales / 3600) × 1.000.000

La clave del costo bajo es maximizar batch size sin saturar VRAM. Frameworks modernos (vLLM, TGI, SGLang, TensorRT-LLM) implementan continuous batching + paged attention, que hacen escalar throughput total casi lineal hasta batch 32-64 y luego con retornos decrecientes.

Throughput esperado (referencia abril 2026)

Llama 3 8B (Q4 / fp16)

GPU	Framework	Tok/s 1 req	Tok/s batch 32
RTX 4090 24GB	vLLM	80	1.500
L4 24GB	vLLM	50	800
A100 40GB	vLLM	200	4.500
H100 80GB	vLLM	250	6.000
H100 80GB	TensorRT-LLM	280	7.500

Llama 3 70B (Q4 / fp16)

GPU	Precision	Tok/s 1 req	Tok/s batch 32
1× H100 80GB	Q4	100	1.800
1× H200 141GB	fp16	90	1.500
2× H100 80GB	fp16 (TP=2)	150	3.000
4× H100 80GB	fp16 (TP=4)	200	4.500
8× H100 80GB	fp16 (TP=8)	240	5.500

Costo por 1M tokens vs APIs comerciales

Modelo / Setup	Output USD/1M tokens	Notas
Llama 70B Q4, 1× H100, batch 32	~USD 0,15-0,30	self-host RunPod
Llama 70B fp16, 4× H100, batch 64	~USD 0,40-0,70	self-host RunPod/Lambda
GPT-4o	USD 10 input / USD 30 output (consultar pricing)	API
GPT-4o-mini	USD 0,15 / USD 0,60 (consultar pricing oficial)	API barata
Claude Sonnet 4	USD 3 / USD 15 (consultar pricing Anthropic)	API
Claude Haiku 4	USD 0,80 / USD 4 (consultar pricing)	API
Gemini 1.5 Pro	USD 1,25 / USD 5 (consultar pricing Google)	API

Cifras orientativas a abril 2026. Verificá las páginas oficiales antes de comprometer presupuesto.

Cuándo conviene self-host

Volumen mensual	Recomendación
< 10M tokens	API (no se amortiza GPU)
10M - 100M	API barata (gpt-4o-mini, Haiku)
100M - 1B	self-host evaluación
> 1B	self-host casi siempre
Datos ultra-sensibles	self-host independiente del volumen

Frameworks de inferencia en 2026

Framework	Pros	Contras
vLLM	mainstream, fácil, paged attention, OpenAI-compatible API	menor optimización extreme low-level
TGI (HF)	maduro, integrado con HF	menos rápido que vLLM en algunos casos
TensorRT-LLM	máximo throughput en NVIDIA	más complejo, requiere build de engine
SGLang	rápido en estructura compleja, prompt caching	comunidad más chica
llama.cpp / llamafile	CPU + GPU, edge	throughput menor, no orientado batching alto

Errores típicos

1. Batch=1: Tirás 90% del throughput posible. Continuous batching es gratis con vLLM/TGI.
2. Sequence length excesivo: cargar 32k tokens de contexto cuando solo usás 2k cuadruplica latencia.
3. No usar quantization: Q4 baja 3-4× el costo con pérdida marginal.
4. Olvidar input tokens: el costo total incluye prefill (input) + decode (output).

> Aviso legal: Calculadora educativa. Throughput real depende de muchos factores. No constituye recomendación de proveedor ni de modelo. Las cifras de APIs son referenciales — verificá en pricing pages oficiales (OpenAI, Anthropic, Google).

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Throughput cotejado contra benchmarks públicos de vLLM, Lambda Labs y NVIDIA TensorRT-LLM a abril 2026.

Preguntas frecuentes

¿Cuántos tokens/segundo genera Llama 70B?

Para una sola request: ~80-150 tok/s en 1× H100 con cuantización Q4. Para throughput total con batch 32-64: ~1.500-3.000 tok/s en vLLM. Con 4× H100 fp16 podés llegar a ~5.000 tok/s totales.

¿Self-host es realmente más barato que GPT-4o?

Sí, a partir de cierto volumen. Llama 70B Q4 self-host sale ~USD 0,20-0,50/1M tokens output. GPT-4o cobra ~USD 30/1M output (consultá pricing oficial actualizado). Si procesás >100M tokens/mes y mantenés la GPU bien batcheada, self-host se amortiza fácil.

¿Qué framework de inferencia usar?

vLLM es el default 2026 — fácil, OpenAI-compatible API, soporta casi todos los modelos open. TensorRT-LLM si necesitás máximo throughput en NVIDIA y no te asusta build complejo. TGI si ya estás en stack HuggingFace. SGLang para uso con prompt caching agresivo.

¿Cuánto influye el batch size?

Mucho. Batch 1 vs batch 32 puede multiplicar throughput total 20-30× sin agregar GPU. vLLM hace continuous batching automáticamente — no necesitás programarlo. El cuello de botella es VRAM: batch alto + sequence largo puede OOM.

¿Quantization Q4 baja la calidad mucho?

Marginalmente. En benchmarks típicos (MMLU, GSM8K, HumanEval), Q4 (GPTQ, AWQ) pierde 0-3% vs fp16. Para chat y RAG la diferencia es imperceptible. Para tareas matemáticas o code críticos, considerá Q8 o fp16.

¿Cuánto cuesta servir Llama 8B?

Muy poco. En 1× H100 con vLLM podés llegar a 6.000 tok/s totales. A USD 2,49/h Lambda → ~USD 0,12 / 1M tokens. En L4 24GB (USD 0,80/h) sale aún más barato — ~USD 0,15/1M con menor throughput por request.

¿Necesito GPU dedicada 24/7 para servir LLM?

Para producción con SLA, sí. Los cold starts en serverless de inferencia LLM son malos (10-60 segundos cargar el modelo a VRAM). Algunos providers (Modal, Replicate, Beam) ofrecen warmup pero igual conviene mantener al menos 1 GPU caliente.

¿Cómo aprovecho mejor mi GPU?

1) Continuous batching (vLLM/TGI lo hacen solo). 2) Quantization Q4 o AWQ. 3) Speculative decoding con un drafter chiquito. 4) Prefill chunking para inputs largos. 5) Sequence length cap acorde al uso real. 6) Paged attention (vLLM lo hace por default).

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 25 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Fine-tuning Llama — costo según dataset, épocas y GPU Calculá el costo real de fine-tunear Llama 3 (8B/70B) según dataset, épocas y GPU. Compará LoRA, QLoRA y full fine-tune en USD. GPU H100 / A100 — costo por hora en cloud (comparativa) 🖥️ Calculá costo total de rentar GPU H100, H200 o A100 en AWS, GCP, Azure, Lambda, RunPod y Vast.ai. Spot vs on-demand y costo idle por entrenamiento o… Agente IA + MCP servers — costo mensual operativo 🤖 Calculá el costo mensual de operar un agente IA con MCP servers: tokens LLM (Claude / GPT / Gemini) + cómputo de servidores MCP + almacenamiento. Estimación…