Ollama vs API de OpenAI: calculadora de costo real a 12 meses🌎
Actualizado junio de 2026Ver cálculo paso a paso
¿Cuándo deja de convenir pagar la API de OpenAI y vale la pena correr Llama 3.1 o Mixtral con Ollama en tu propio hardware? Esta calculadora estima el costo total a 12 meses comparando tres opciones: servidor local con GPU (RTX 4090), cloud GPU bajo demanda (Vast.ai / RunPod) y la API de OpenAI (GPT-4o, GPT-4o mini o GPT-3.5 Turbo). Ingresá tu volumen diario de tokens y el modelo objetivo para ver el punto de equilibrio exacto.
Cuándo usar esta calculadora
- Startup que usa la API de OpenAI y quiere saber cuándo conviene migrar a infraestructura propia
- Empresa con carga variable que evalúa cloud GPU vs comprar hardware
- Desarrollador que ya tiene un servidor y quiere cuantificar el ahorro real
- Equipo de ML que compara costos de inferencia para Llama 3.1 70B vs Mixtral 8x7B
- CTO estimando presupuesto de IA para los próximos 12 meses
Cómo funciona
3 min de lecturaOllama vs API de OpenAI: cómo se calcula el TCO
El Costo Total de Propiedad (TCO) a 12 meses considera tres componentes según la opción elegida.
Tabla de referencia rápida (70% input / 30% output, 8 h/día, USD 0.12/kWh)
| Tokens/día | API GPT-4o/año | API GPT-4o mini/año | Self-host RTX 4090/año | Break-even |
|---|---|---|---|---|
| 100 000 | USD 352 | USD 21 | USD 2.157 | No se amortiza |
| 500 000 | USD 1.752 | USD 105 | USD 2.157 | No se amortiza |
| 1 000 000 | USD 3.504 | USD 210 | USD 2.157 | ~90 días |
| 5 000 000 | USD 17.519 | USD 1.051 | USD 2.514 | ~12 días |
| 10 000 000 | USD 35.038 | USD 2.101 | USD 2.870 | ~7 días |
API OpenAI
costoAPIDia = (tokensInput/1M × precioInput) + (tokensOutput/1M × precioOutput)
costoAPIAnual = costoAPIDia × 365Donde tokensInput = tokensPerDay × (inputRatio/100) y tokensOutput = tokensPerDay × (1 - inputRatio/100).
Self-host (hardware propio con Ollama/vLLM)
CAPEX = precio_GPU(s)
opexElectricidadDia = consumoGPU_kW × horasUso × costoKwh
opexOtrosDia = USD 200 / 365 // mantenimiento anual estimado
costoSelfHostAnual = CAPEX + (opexElectricidadDia + opexOtrosDia) × 365Consumos de referencia 2025-2026:
| GPU | TDP (W) | VRAM | Modelos viables con Ollama |
|---|---|---|---|
| RTX 4090 | 450 W | 24 GB | Llama 3.1 8B, Mixtral 8x7B (Q4), Llama 3.1 70B (Q4, 2× GPU) |
| 2× RTX 4090 | 900 W | 48 GB | Llama 3.1 70B FP16 |
Cloud GPU (Vast.ai / RunPod)
costoCloudDia = tarifaHoraria × horasUso
costoCloudAnual = costoCloudDia × 365Tarifas de referencia 2026:
| Configuración | USD/hora aprox. |
|---|---|
| 1× RTX 4090 (24 GB) | USD 0.35 – 0.55 |
| 2× RTX 4090 / A100 40 GB | USD 0.90 – 1.40 |
Punto de equilibrio (break-even)
breakEvenDays = CAPEX / (costoAPIDia - opexSelfHostDia)Solo aplica si costoAPIDia > opexSelfHostDia. Si el self-host es más caro por día (volumen muy bajo), el punto de equilibrio no existe en 12 meses.
Ejemplo numérico
Costo API/día: (3,5M/1M × 2,50) + (1,5M/1M × 10,00) = USD 8,75 + USD 15,00 = USD 23,75/día
Opex self-host/día: 0,45 kW × 8 h × 0,12 = USD 0,43/día
CAPEX: USD 1.800
Break-even: 1.800 / (23,75 − 0,43) ≈ 77 días
Ahorro neto 12 meses: 23,75 × 365 − (1.800 + 0,43 × 365) ≈ USD 6.800
Limitaciones
Fuentes: precios OpenAI API (platform.openai.com/pricing), tarifas RunPod/Vast.ai (2026), especificaciones NVIDIA RTX 4090.
Preguntas frecuentes
¿Cuándo conviene Ollama (modelo local) en vez de la API de OpenAI?
Depende del volumen de tokens. Como regla general: con GPT-4o, el self-host (RTX 4090) conviene a partir de ~500.000–1.000.000 tokens/día. Con GPT-4o mini, que cuesta ~17× menos, el self-host casi nunca se amortiza a bajos volúmenes. Usá esta calculadora para ver tu caso exacto.
¿Puedo correr Llama 3.1 70B en una sola RTX 4090?
Sí, pero solo en versión cuantizada (Q4_K_M o Q5_K_M) usando Ollama o llama.cpp. El modelo ocupa ~22-23 GB de VRAM. La calidad es buena pero inferior al modelo en FP16. Para FP16 completo necesitás 2× RTX 4090 o una A100 80 GB.
¿Qué velocidad de inferencia puedo esperar con Llama 70B Q4 en una RTX 4090?
Aproximadamente 15-25 tokens/segundo en generación (output). Para uso interactivo es suficiente; para batch processing intensivo podría ser un cuello de botella. Con 2× RTX 4090 se sube a 30-45 t/s.
¿Vast.ai y RunPod son confiables para producción?
Son adecuados para desarrollo, batch jobs y cargas tolerantes a interrupciones. Para producción crítica con SLA, preferí RunPod Secure Cloud o Lambda Labs. Vast.ai usa hardware de terceros sin garantía de uptime.
¿GPT-4o mini es siempre más barato que correr Llama local?
A volúmenes bajos (< 500.000 tokens/día), sí. GPT-4o mini cuesta ~USD 0.04/día a 500k tokens, mucho menos que el opex eléctrico de un servidor dedicado. El self-host conviene a partir de varios millones de tokens/día o cuando el volumen es constante 24/7.
¿La calculadora incluye el costo del servidor base (CPU, RAM, motherboard)?
No directamente. La calculadora toma la GPU como CAPEX principal (RTX 4090 ≈ USD 1.800) y agrega USD 200/año como proxy de mantenimiento/amortización del resto del hardware. Para setups completos nuevos, sumá USD 800-1.500 de servidor base al CAPEX.
¿Mixtral 8x7B es una buena alternativa para bajar costos de VRAM?
Sí. Mixtral 8x7B en Q4 cabe en 24 GB VRAM (una RTX 4090) y ofrece calidad comparable a GPT-3.5 Turbo en muchas tareas. Si tu API de referencia es GPT-3.5 Turbo, el break-even se alarga porque esa API ya es económica.
¿Cómo afecta la proporción input/output al costo de la API?
Mucho. En GPT-4o, el output cuesta 4× más que el input (USD 10 vs USD 2.50 por millón). Si generás respuestas largas (50%+ de tokens son output), el costo API se dispara. Flujos con prompts largos y respuestas cortas son más baratos vía API.
¿Qué frameworks de inferencia se recomiendan para self-host?
Ollama es el más fácil de instalar y el más popular. Para mayor rendimiento en producción, vLLM (mejor throughput y soporte OpenAI-compatible) o llama.cpp (máxima compatibilidad con CPU). Todos son open source y corren modelos GGUF/GGML en GPU NVIDIA con soporte CUDA.
¿Cambia algo si el servidor está encendido 24/7 en vez de 8 horas?
Sí, el opex eléctrico se triplica. A 24 h/día una RTX 4090 consume 0,45 kW × 24 h × 0,12 USD/kWh = USD 1,30/día (~USD 472/año). Igual, si el volumen de tokens es alto, la API sigue siendo mucho más cara y el break-even sigue siendo conveniente.
Fuentes y referencias
- OpenAI API Pricing — OpenAI (2026)
- RunPod GPU Cloud Pricing — RunPod (2026)
- Vast.ai GPU Marketplace — Vast.ai (2026)
- NVIDIA RTX 4090 Product Specs — NVIDIA (2026)
- Meta Llama 3.1 Model Card — Meta AI / Hugging Face (2026)
- Ollama — Run Large Language Models Locally — Ollama (2026)
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 04 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.