Tecnología

Ollama vs API de OpenAI: calculadora de costo real a 12 meses🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: OpenAI API Pricing
Revisado por: (política editorial ) · Última revisión:

¿Cuándo deja de convenir pagar la API de OpenAI y vale la pena correr Llama 3.1 o Mixtral con Ollama en tu propio hardware? Esta calculadora estima el costo total a 12 meses comparando tres opciones: servidor local con GPU (RTX 4090), cloud GPU bajo demanda (Vast.ai / RunPod) y la API de OpenAI (GPT-4o, GPT-4o mini o GPT-3.5 Turbo). Ingresá tu volumen diario de tokens y el modelo objetivo para ver el punto de equilibrio exacto.

Última revisión: 04 de junio de 2026 Revisado por Fuente: OpenAI API Pricing, RunPod GPU Cloud Pricing, Vast.ai GPU Marketplace, NVIDIA RTX 4090 Product Specs, Meta Llama 3.1 Model Card, Ollama — Run Large Language Models Locally 100% privado

Cuándo usar esta calculadora

  • Startup que usa la API de OpenAI y quiere saber cuándo conviene migrar a infraestructura propia
  • Empresa con carga variable que evalúa cloud GPU vs comprar hardware
  • Desarrollador que ya tiene un servidor y quiere cuantificar el ahorro real
  • Equipo de ML que compara costos de inferencia para Llama 3.1 70B vs Mixtral 8x7B
  • CTO estimando presupuesto de IA para los próximos 12 meses

Cómo funciona

3 min de lectura

Ollama vs API de OpenAI: cómo se calcula el TCO

El Costo Total de Propiedad (TCO) a 12 meses considera tres componentes según la opción elegida.

Tabla de referencia rápida (70% input / 30% output, 8 h/día, USD 0.12/kWh)

Tokens/díaAPI GPT-4o/añoAPI GPT-4o mini/añoSelf-host RTX 4090/añoBreak-even
100 000USD 352USD 21USD 2.157No se amortiza
500 000USD 1.752USD 105USD 2.157No se amortiza
1 000 000USD 3.504USD 210USD 2.157~90 días
5 000 000USD 17.519USD 1.051USD 2.514~12 días
10 000 000USD 35.038USD 2.101USD 2.870~7 días

API OpenAI

costoAPIDia = (tokensInput/1M × precioInput) + (tokensOutput/1M × precioOutput)
costoAPIAnual = costoAPIDia × 365

Donde tokensInput = tokensPerDay × (inputRatio/100) y tokensOutput = tokensPerDay × (1 - inputRatio/100).

Self-host (hardware propio con Ollama/vLLM)

CAPEX = precio_GPU(s)
opexElectricidadDia = consumoGPU_kW × horasUso × costoKwh
opexOtrosDia = USD 200 / 365   // mantenimiento anual estimado
costoSelfHostAnual = CAPEX + (opexElectricidadDia + opexOtrosDia) × 365

Consumos de referencia 2025-2026:

GPUTDP (W)VRAMModelos viables con Ollama
RTX 4090450 W24 GBLlama 3.1 8B, Mixtral 8x7B (Q4), Llama 3.1 70B (Q4, 2× GPU)
2× RTX 4090900 W48 GBLlama 3.1 70B FP16

Cloud GPU (Vast.ai / RunPod)

costoCloudDia = tarifaHoraria × horasUso
costoCloudAnual = costoCloudDia × 365

Tarifas de referencia 2026:

ConfiguraciónUSD/hora aprox.
1× RTX 4090 (24 GB)USD 0.35 – 0.55
2× RTX 4090 / A100 40 GBUSD 0.90 – 1.40

Punto de equilibrio (break-even)

breakEvenDays = CAPEX / (costoAPIDia - opexSelfHostDia)

Solo aplica si costoAPIDia > opexSelfHostDia. Si el self-host es más caro por día (volumen muy bajo), el punto de equilibrio no existe en 12 meses.

Ejemplo numérico

  • Tokens/día: 5.000.000 (70% input, 30% output)

  • Modelo API: GPT-4o

  • Hardware: 1× RTX 4090, 8 h/día, USD 0.12/kWh
  • Costo API/día: (3,5M/1M × 2,50) + (1,5M/1M × 10,00) = USD 8,75 + USD 15,00 = USD 23,75/día
    Opex self-host/día: 0,45 kW × 8 h × 0,12 = USD 0,43/día
    CAPEX: USD 1.800
    Break-even: 1.800 / (23,75 − 0,43) ≈ 77 días
    Ahorro neto 12 meses: 23,75 × 365 − (1.800 + 0,43 × 365) ≈ USD 6.800

    Limitaciones

  • No incluye tiempo de ingeniería (setup, mantenimiento Ollama/vLLM), estimado en 10-20 h iniciales.

  • La calidad de Llama 70B cuantizado (Q4_K_M) puede ser inferior a GPT-4o para ciertas tareas.

  • Los precios de cloud GPU fluctúan con la demanda.

  • El cálculo asume uso constante; cargas variables pueden favorecer la API.

  • No contempla redundancia ni SLA: el self-host tiene downtime potencial.
  • Fuentes: precios OpenAI API (platform.openai.com/pricing), tarifas RunPod/Vast.ai (2026), especificaciones NVIDIA RTX 4090.

    Preguntas frecuentes

    ¿Cuándo conviene Ollama (modelo local) en vez de la API de OpenAI?

    Depende del volumen de tokens. Como regla general: con GPT-4o, el self-host (RTX 4090) conviene a partir de ~500.000–1.000.000 tokens/día. Con GPT-4o mini, que cuesta ~17× menos, el self-host casi nunca se amortiza a bajos volúmenes. Usá esta calculadora para ver tu caso exacto.

    ¿Puedo correr Llama 3.1 70B en una sola RTX 4090?

    Sí, pero solo en versión cuantizada (Q4_K_M o Q5_K_M) usando Ollama o llama.cpp. El modelo ocupa ~22-23 GB de VRAM. La calidad es buena pero inferior al modelo en FP16. Para FP16 completo necesitás 2× RTX 4090 o una A100 80 GB.

    ¿Qué velocidad de inferencia puedo esperar con Llama 70B Q4 en una RTX 4090?

    Aproximadamente 15-25 tokens/segundo en generación (output). Para uso interactivo es suficiente; para batch processing intensivo podría ser un cuello de botella. Con 2× RTX 4090 se sube a 30-45 t/s.

    ¿Vast.ai y RunPod son confiables para producción?

    Son adecuados para desarrollo, batch jobs y cargas tolerantes a interrupciones. Para producción crítica con SLA, preferí RunPod Secure Cloud o Lambda Labs. Vast.ai usa hardware de terceros sin garantía de uptime.

    ¿GPT-4o mini es siempre más barato que correr Llama local?

    A volúmenes bajos (< 500.000 tokens/día), sí. GPT-4o mini cuesta ~USD 0.04/día a 500k tokens, mucho menos que el opex eléctrico de un servidor dedicado. El self-host conviene a partir de varios millones de tokens/día o cuando el volumen es constante 24/7.

    ¿La calculadora incluye el costo del servidor base (CPU, RAM, motherboard)?

    No directamente. La calculadora toma la GPU como CAPEX principal (RTX 4090 ≈ USD 1.800) y agrega USD 200/año como proxy de mantenimiento/amortización del resto del hardware. Para setups completos nuevos, sumá USD 800-1.500 de servidor base al CAPEX.

    ¿Mixtral 8x7B es una buena alternativa para bajar costos de VRAM?

    Sí. Mixtral 8x7B en Q4 cabe en 24 GB VRAM (una RTX 4090) y ofrece calidad comparable a GPT-3.5 Turbo en muchas tareas. Si tu API de referencia es GPT-3.5 Turbo, el break-even se alarga porque esa API ya es económica.

    ¿Cómo afecta la proporción input/output al costo de la API?

    Mucho. En GPT-4o, el output cuesta 4× más que el input (USD 10 vs USD 2.50 por millón). Si generás respuestas largas (50%+ de tokens son output), el costo API se dispara. Flujos con prompts largos y respuestas cortas son más baratos vía API.

    ¿Qué frameworks de inferencia se recomiendan para self-host?

    Ollama es el más fácil de instalar y el más popular. Para mayor rendimiento en producción, vLLM (mejor throughput y soporte OpenAI-compatible) o llama.cpp (máxima compatibilidad con CPU). Todos son open source y corren modelos GGUF/GGML en GPU NVIDIA con soporte CUDA.

    ¿Cambia algo si el servidor está encendido 24/7 en vez de 8 horas?

    Sí, el opex eléctrico se triplica. A 24 h/día una RTX 4090 consume 0,45 kW × 24 h × 0,12 USD/kWh = USD 1,30/día (~USD 472/año). Igual, si el volumen de tokens es alto, la API sigue siendo mucho más cara y el break-even sigue siendo conveniente.

    Fuentes y referencias

    También te puede interesar

    Metodología y confianza

    Editorial

    Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

    Actualización

    Última revisión: 04 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

    Privacidad

    Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

    Limitaciones

    Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.