Negocios

Inferencia LLM — throughput y costo por 1M tokens🌎

Actualizado abril de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: vLLM / TGI / Lambda benchmarks
Revisado por: (política editorial ) · Última revisión:
tok/s
requests
USD/h
GPUs
tokens

Servir un LLM open-source (Llama 3 70B, Mistral Large, Qwen 2.5 72B, DeepSeek V3) en producción reemplaza a las APIs comerciales cuando tu volumen lo justifica. La métrica clave es tokens/segundo que tu servidor puede generar — combinación de GPU + framework de inferencia (vLLM, TGI, TensorRT-LLM, SGLang) + batch size + sequence length. En 2026 los benchmarks típicos: Llama 3 8B en H100 con vLLM ~3.000-5.000 tok/s con batch 64. Llama 3 70B Q4 en 1× H100 ~80-150 tok/s por request, 600-1.200 tok/s con batching. Esta calculadora multiplica throughput por request × batch concurrente para darte tokens/segundo totales y divide el costo de la GPU por hora entre los tokens generados, devolviendo el costo por 1M tokens y por request. Útil para comparar self-host contra OpenAI/Anthropic.

Última revisión: 25 de abril de 2026 Revisado por Fuente: vLLM — Documentation, HuggingFace TGI, OpenAI API pricing, Anthropic — Pricing 100% privado

Cuándo usar esta calculadora

  • Decidir entre self-host de Llama 70B vs API de GPT-4o.
  • Estimar capacidad máxima de un servidor LLM en QPS o tokens/s.
  • Calcular costo por 1M tokens con batching agresivo.
  • Comparar 1× H100 vs 8× H100 vs 1× H200 para inferencia de 70B.
  • Presupuestar un endpoint productivo de generación.

Ejemplo: Llama 3 70B Q4 en 1× H100, batch 32

  1. Tok/s por request (Llama 70B Q4 vLLM): 100 tok/s.
  2. Batch 32: 100 × 32 = 3.200 tok/s totales (vLLM continuous batching).
  3. RunPod USD 1,99/h: USD 1,99 / (3.200 × 3.600) × 1e6 = USD 0,17 / 1M tokens.
  4. Request promedio 300 tokens: USD 0,17 × 300 / 1M = USD 0,000051 / request.
  5. vs GPT-4o (USD 10/M output): 60× más barato self-host.
Resultado: El self-host se vuelve economic sensible desde >1M tokens/día.

Cómo funciona

3 min de lectura

Cómo se calcula

Tok/s totales = tok/s por request × batch size
Requests/hora = (tok/s totales × 3600) / tokens por request
Costo/1M tokens = (precio_gpu_hora × cant_gpus / tok/s totales / 3600) × 1.000.000

La clave del costo bajo es maximizar batch size sin saturar VRAM. Frameworks modernos (vLLM, TGI, SGLang, TensorRT-LLM) implementan continuous batching + paged attention, que hacen escalar throughput total casi lineal hasta batch 32-64 y luego con retornos decrecientes.

Throughput esperado (referencia abril 2026)

Llama 3 8B (Q4 / fp16)

GPUFrameworkTok/s 1 reqTok/s batch 32
RTX 4090 24GBvLLM801.500
L4 24GBvLLM50800
A100 40GBvLLM2004.500
H100 80GBvLLM2506.000
H100 80GBTensorRT-LLM2807.500

Llama 3 70B (Q4 / fp16)

GPUPrecisionTok/s 1 reqTok/s batch 32
1× H100 80GBQ41001.800
1× H200 141GBfp16901.500
2× H100 80GBfp16 (TP=2)1503.000
4× H100 80GBfp16 (TP=4)2004.500
8× H100 80GBfp16 (TP=8)2405.500

Costo por 1M tokens vs APIs comerciales

Modelo / SetupOutput USD/1M tokensNotas
Llama 70B Q4, 1× H100, batch 32~USD 0,15-0,30self-host RunPod
Llama 70B fp16, 4× H100, batch 64~USD 0,40-0,70self-host RunPod/Lambda
GPT-4oUSD 10 input / USD 30 output (consultar pricing)API
GPT-4o-miniUSD 0,15 / USD 0,60 (consultar pricing oficial)API barata
Claude Sonnet 4USD 3 / USD 15 (consultar pricing Anthropic)API
Claude Haiku 4USD 0,80 / USD 4 (consultar pricing)API
Gemini 1.5 ProUSD 1,25 / USD 5 (consultar pricing Google)API

Cifras orientativas a abril 2026. Verificá las páginas oficiales antes de comprometer presupuesto.

Cuándo conviene self-host

Volumen mensualRecomendación
< 10M tokensAPI (no se amortiza GPU)
10M - 100MAPI barata (gpt-4o-mini, Haiku)
100M - 1Bself-host evaluación
> 1Bself-host casi siempre
Datos ultra-sensiblesself-host independiente del volumen

Frameworks de inferencia en 2026

FrameworkProsContras
vLLMmainstream, fácil, paged attention, OpenAI-compatible APImenor optimización extreme low-level
TGI (HF)maduro, integrado con HFmenos rápido que vLLM en algunos casos
TensorRT-LLMmáximo throughput en NVIDIAmás complejo, requiere build de engine
SGLangrápido en estructura compleja, prompt cachingcomunidad más chica
llama.cpp / llamafileCPU + GPU, edgethroughput menor, no orientado batching alto

Errores típicos

1. Batch=1: Tirás 90% del throughput posible. Continuous batching es gratis con vLLM/TGI.
2. Sequence length excesivo: cargar 32k tokens de contexto cuando solo usás 2k cuadruplica latencia.
3. No usar quantization: Q4 baja 3-4× el costo con pérdida marginal.
4. Olvidar input tokens: el costo total incluye prefill (input) + decode (output).

> Aviso legal: Calculadora educativa. Throughput real depende de muchos factores. No constituye recomendación de proveedor ni de modelo. Las cifras de APIs son referenciales — verificá en pricing pages oficiales (OpenAI, Anthropic, Google).

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Throughput cotejado contra benchmarks públicos de vLLM, Lambda Labs y NVIDIA TensorRT-LLM a abril 2026.

Preguntas frecuentes

¿Cuántos tokens/segundo genera Llama 70B?

Para una sola request: ~80-150 tok/s en 1× H100 con cuantización Q4. Para throughput total con batch 32-64: ~1.500-3.000 tok/s en vLLM. Con 4× H100 fp16 podés llegar a ~5.000 tok/s totales.

¿Self-host es realmente más barato que GPT-4o?

Sí, a partir de cierto volumen. Llama 70B Q4 self-host sale ~USD 0,20-0,50/1M tokens output. GPT-4o cobra ~USD 30/1M output (consultá pricing oficial actualizado). Si procesás >100M tokens/mes y mantenés la GPU bien batcheada, self-host se amortiza fácil.

¿Qué framework de inferencia usar?

vLLM es el default 2026 — fácil, OpenAI-compatible API, soporta casi todos los modelos open. TensorRT-LLM si necesitás máximo throughput en NVIDIA y no te asusta build complejo. TGI si ya estás en stack HuggingFace. SGLang para uso con prompt caching agresivo.

¿Cuánto influye el batch size?

Mucho. Batch 1 vs batch 32 puede multiplicar throughput total 20-30× sin agregar GPU. vLLM hace continuous batching automáticamente — no necesitás programarlo. El cuello de botella es VRAM: batch alto + sequence largo puede OOM.

¿Quantization Q4 baja la calidad mucho?

Marginalmente. En benchmarks típicos (MMLU, GSM8K, HumanEval), Q4 (GPTQ, AWQ) pierde 0-3% vs fp16. Para chat y RAG la diferencia es imperceptible. Para tareas matemáticas o code críticos, considerá Q8 o fp16.

¿Cuánto cuesta servir Llama 8B?

Muy poco. En 1× H100 con vLLM podés llegar a 6.000 tok/s totales. A USD 2,49/h Lambda → ~USD 0,12 / 1M tokens. En L4 24GB (USD 0,80/h) sale aún más barato — ~USD 0,15/1M con menor throughput por request.

¿Necesito GPU dedicada 24/7 para servir LLM?

Para producción con SLA, sí. Los cold starts en serverless de inferencia LLM son malos (10-60 segundos cargar el modelo a VRAM). Algunos providers (Modal, Replicate, Beam) ofrecen warmup pero igual conviene mantener al menos 1 GPU caliente.

¿Cómo aprovecho mejor mi GPU?

1) Continuous batching (vLLM/TGI lo hacen solo). 2) Quantization Q4 o AWQ. 3) Speculative decoding con un drafter chiquito. 4) Prefill chunking para inputs largos. 5) Sequence length cap acorde al uso real. 6) Paged attention (vLLM lo hace por default).

Fuentes y referencias

También te puede interesar

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 25 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.