Tecnología

Self-host LLM vs API por volumen: TCO 12 meses🌎 Actualizado abril de 2026

Q: ¿GPT-4o mini es siempre más barato que correr Llama local?

A volúmenes bajos (< 500.000 tokens/día), sí. GPT-4o mini cuesta ~USD 0.37/día a 1M tokens, menos que el opex eléctrico de un servidor dedicado. El self-host conviene a partir de varios millones de tokens/día o cuando se combina con uso 24/7.

Q: ¿La calculadora incluye el costo del servidor base (CPU, RAM, motherboard)?

No directamente. La calculadora toma la GPU como CAPEX principal (RTX 4090 ≈ USD 1.800) y agrega USD 200/año como proxy de mantenimiento/amortización del resto del hardware. Para setups completos nuevos, sumá USD 800-1.500 de servidor base al CAPEX.

Q: ¿Mixtral 8x7B es una buena alternativa para bajar costos de VRAM?

Sí. Mixtral 8x7B en Q4 cabe en 24 GB VRAM (una RTX 4090) y ofrece calidad comparable a GPT-3.5 Turbo en muchas tareas. Si tu API de referencia es GPT-3.5 Turbo, el break-even se alarga porque esa API ya es económica.

Q: ¿Cómo afecta la proporción input/output al costo de la API?

Mucho. En GPT-4o, el output cuesta 4× más que el input (USD 10 vs USD 2.50 por millón). Si generás respuestas largas (50%+ de tokens son output), el costo API se dispara. Flujos con prompts largos y respuestas cortas son más baratos vía API.

Q: ¿Qué frameworks de inferencia se recomiendan para self-host?

Ollama es el más fácil de instalar. Para mayor rendimiento en producción, vLLM (mejor throughput) o llama.cpp (máxima compatibilidad). Todos son open source y corren modelos GGUF/GGML en GPU NVIDIA con soporte CUDA.

Calculadora Gratis · Privada

Datos actualizados: 27 abr 2026 · Fuente: OpenAI API Pricing

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 27 abr 2026

Reportar error

¿Vale la pena invertir en hardware propio o pagar por tokens? Esta calculadora estima el costo total a 12 meses comparando tres opciones: servidor local con GPU (RTX 4090), cloud GPU bajo demanda (Vast.ai / RunPod) y la API de OpenAI (GPT-4o o GPT-3.5 Turbo). Ingresá tu volumen diario de tokens y el modelo objetivo para ver el punto de equilibrio.

Última revisión: 26 de abril de 2026 Revisado por Martín Rodríguez Fuente: OpenAI API Pricing, RunPod GPU Cloud Pricing, Vast.ai GPU Marketplace, NVIDIA RTX 4090 Product Specs, Meta Llama 3.1 Model Card 100% privado

Cuándo usar esta calculadora

Startup que usa la API de OpenAI y quiere saber cuándo conviene migrar a infraestructura propia
Empresa con carga variable que evalúa cloud GPU vs comprar hardware
Desarrollador que ya tiene un servidor y quiere cuantificar el ahorro real
Equipo de ML que compara costos de inferencia para Llama 3.1 70B vs Mixtral 8x7B
CTO estimando presupuesto de IA para los próximos 12 meses

Cómo funciona

2 min de lectura

Cómo se calcula el TCO

El Costo Total de Propiedad (TCO) a 12 meses considera tres componentes según la opción:

API OpenAI

costoAPIDia = (tokensInput/1M × precioInput) + (tokensOutput/1M × precioOutput)
costoAPIAnual = costoAPIDia × 365

Donde tokensInput = tokensPerDay × (inputRatio/100) y tokensOutput = tokensPerDay × (1 - inputRatio/100).

Self-host (hardware propio)

CAPEX = precio_GPU(s)
opexElectricidadDia = consumoGPU_kW × horasUso × costoKwh
opexOtrosDia = (servidor_base_anual) / 365   // ~USD 200/año en mantenimiento estimado
costoSelfHostAnual = CAPEX + (opexElectricidadDia + opexOtrosDia) × 365

Consumos de referencia 2025-2026:

GPU	TDP (W)	VRAM	Modelos viables
RTX 4090	450 W	24 GB	Llama 8B, Mixtral 8x7B (Q4), Llama 70B (Q4, 2× GPU)
2× RTX 4090	900 W	48 GB	Llama 70B FP16

Cloud GPU (Vast.ai / RunPod)

costoCloudDia = tarifaHoraria × horasUso
costoCloudAnual = costoCloudDia × 365

Tarifas de referencia 2026 (varían por disponibilidad):

Configuración	USD/hora aprox.
1× RTX 4090 (24 GB)	USD 0.35 – 0.55
2× RTX 4090 / A100 40 GB	USD 0.90 – 1.40

Esta calculadora usa valores medios conservadores.

Punto de equilibrio

breakEvenDays = CAPEX / (costoAPIDia - opexSelfHostDia)

Solo aplica si costoAPIDia > opexSelfHostDia. Si el self-host es más caro por día (volumen muy bajo), el punto de equilibrio no existe en el horizonte de 12 meses.

Ejemplo numérico

Tokens/día: 5.000.000 (70% input, 30% output)

Modelo API: GPT-4o

Hardware: 1× RTX 4090, 8 h/día, USD 0.12/kWh

Costo API/día: (3,5M/1M × 2,50) + (1,5M/1M × 10,00) = USD 8,75 + USD 15,00 = USD 23,75/día
Opex self-host/día: 0,45 kW × 8 h × 0,12 = USD 0,43/día
CAPEX: USD 1.800
Break-even: 1.800 / (23,75 − 0,43) ≈ 77 días
Ahorro neto 12 meses: 23,75 × 365 − (1.800 + 0,43 × 365) ≈ USD 6.800

Limitaciones

No incluye tiempo de ingeniería (setup, mantenimiento Ollama/vLLM), estimado en 10-20 h iniciales.

La calidad de Llama 70B cuantizado (Q4_K_M) puede ser inferior a GPT-4o para ciertas tareas.

Los precios de cloud GPU fluctúan con la demanda.

El cálculo asume uso constante; cargas variables pueden favorecer la API.

No contempla redundancia ni SLA: el self-host tiene downtime potencial.

Fuentes: precios OpenAI API (platform.openai.com/pricing), tarifas RunPod/Vast.ai (2026), especificaciones NVIDIA RTX 4090.

Preguntas frecuentes

¿Puedo correr Llama 3.1 70B en una sola RTX 4090?

Sí, pero solo en versión cuantizada (Q4_K_M o Q5_K_M) usando Ollama o llama.cpp. Eso reduce el consumo de VRAM a ~22-23 GB. La calidad es buena pero inferior al modelo en FP16. Para FP16 completo necesitás 2× RTX 4090 o una A100 80 GB.

¿Qué velocidad de inferencia puedo esperar con Llama 70B Q4 en una RTX 4090?

Aproximadamente 15-25 tokens/segundo en generación (output). Para uso interactivo es suficiente; para batch processing intensivo podría ser un cuello de botella. Con 2× RTX 4090 se sube a 30-45 t/s.

¿El costo de electricidad impacta mucho?

Depende del precio local. A USD 0.12/kWh y 8 h/día, una RTX 4090 cuesta ~USD 0.43/día (~USD 157/año). En países con electricidad cara (USD 0.30/kWh) sube a USD 392/año, lo que retrasa el break-even unos 30-60 días extra según el volumen.

¿Vast.ai y RunPod son confiables para producción?

Son adecuados para desarrollo, batch jobs y cargas tolerantes a interrupciones. Para producción crítica con SLA, preferí RunPod Secure Cloud o proveedores como Lambda Labs. Vast.ai usa hardware de terceros sin garantía de uptime.

¿GPT-4o mini es siempre más barato que correr Llama local?

A volúmenes bajos (< 500.000 tokens/día), sí. GPT-4o mini cuesta ~USD 0.37/día a 1M tokens, menos que el opex eléctrico de un servidor dedicado. El self-host conviene a partir de varios millones de tokens/día o cuando se combina con uso 24/7.

¿La calculadora incluye el costo del servidor base (CPU, RAM, motherboard)?

No directamente. La calculadora toma la GPU como CAPEX principal (RTX 4090 ≈ USD 1.800) y agrega USD 200/año como proxy de mantenimiento/amortización del resto del hardware. Para setups completos nuevos, sumá USD 800-1.500 de servidor base al CAPEX.

¿Mixtral 8x7B es una buena alternativa para bajar costos de VRAM?

Sí. Mixtral 8x7B en Q4 cabe en 24 GB VRAM (una RTX 4090) y ofrece calidad comparable a GPT-3.5 Turbo en muchas tareas. Si tu API de referencia es GPT-3.5 Turbo, el break-even se alarga porque esa API ya es económica.

¿Cómo afecta la proporción input/output al costo de la API?

Mucho. En GPT-4o, el output cuesta 4× más que el input (USD 10 vs USD 2.50 por millón). Si generás respuestas largas (50%+ de tokens son output), el costo API se dispara. Flujos con prompts largos y respuestas cortas son más baratos vía API.

¿Qué frameworks de inferencia se recomiendan para self-host?

Ollama es el más fácil de instalar. Para mayor rendimiento en producción, vLLM (mejor throughput) o llama.cpp (máxima compatibilidad). Todos son open source y corren modelos GGUF/GGML en GPU NVIDIA con soporte CUDA.

Fuentes y referencias

OpenAI API Pricing — OpenAI (2026)
RunPod GPU Cloud Pricing — RunPod (2026)
Vast.ai GPU Marketplace — Vast.ai (2026)
NVIDIA RTX 4090 Product Specs — NVIDIA (2026)
Meta Llama 3.1 Model Card — Meta AI / Hugging Face (2026)

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 26 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Calculadora Streaming vs Batch LLM: Tradeoff de Costo y Latencia Calculá el costo mensual óptimo de tu API LLM combinando streaming (precio estándar, baja latencia) y batch (50% descuento, hasta 24h). Encontrá el mix ideal. Calculadora de Costo Mensual RAG con Vector DB Calculá el costo mensual de tu sistema RAG: Pinecone, pgvector self-hosted o Weaviate. Incluye storage, queries y LLM. Compará opciones desde $0 hasta cientos…

Cuándo usar esta calculadora

Cómo funciona

Cómo se calcula el TCO

API OpenAI

Self-host (hardware propio)

Cloud GPU (Vast.ai / RunPod)

Punto de equilibrio

Ejemplo numérico

Limitaciones

Preguntas frecuentes

Fuentes y referencias

Metodología y confianza

También te puede interesar

Calculadoras relacionadas