GPU H100 / A100 — costo por hora en cloud: AWS vs Lambda vs RunPod vs Vast.ai🌎
Actualizado junio de 2026Ver cálculo paso a paso
Entrenar o servir un LLM propio requiere GPUs de alto costo. La opción más popular en 2026 sigue siendo la NVIDIA H100 (80 GB VRAM) y su sucesora H200 (141 GB), con la A100 todavía vigente para workloads medianos. Los precios por hora varían brutalmente entre proveedores: AWS p5.48xlarge cobra ~USD 4,50/h por H100 on-demand, Lambda Labs USD 2,49/h, RunPod USD 1,99/h y Vast.ai desde USD 1,80/h en su marketplace P2P. El descuento spot/preemptible de AWS/GCP agrega un 40–70% adicional pero la VM puede ser terminada con 30 segundos de aviso. Esta calculadora multiplica horas × cantidad de GPUs × precio con descuento spot, te da el costo total más el costo idle (cuando dejás la instancia encendida sin entrenar).
Cuándo usar esta calculadora
- Estimar el costo total de un entrenamiento de N épocas en GPU H100.
- Comparar AWS p5 vs Lambda Labs vs RunPod para el mismo workload.
- Calcular cuánto cuesta dejar una GPU encendida idle entre experimentos.
- Presupuestar inferencia 24/7 en GPU dedicada.
- Decidir entre instancia spot (más barata) vs on-demand (estable).
Ejemplo: fine-tuning Llama 70B una semana en 8× H100
- RunPod 8× H100 SXM: USD 1,99/h × 8 = USD 15,92/h on-demand.
- 168 horas (1 semana) → USD 2.674,56.
- AWS p5.48xlarge (8× H100): USD 4,50/h × 8 = USD 36/h → USD 6.048.
- AWS Spot (–65%): USD 12,60/h → USD 2.116,80.
- Lambda Labs reservado USD 2,49/h × 8 = USD 19,92/h → USD 3.346,56.
Cómo funciona
3 min de lecturaPrecios GPU H100 por hora en cloud — tabla comparativa (2026)
| Proveedor | H100 on-demand | H100 spot | A100 80GB on-demand | SLA | Egress |
|---|---|---|---|---|---|
| AWS p5 / p5e | ~USD 4,50/h | ~USD 1,50–2,00/h | ~USD 3,06/h (p4de) | enterprise | USD 0,09/GB |
| GCP A3 | ~USD 4,40/h | ~USD 1,80/h | ~USD 3,67/h | enterprise | USD 0,08/GB |
| Azure ND H100 | ~USD 4,30/h | ~USD 1,80/h | ~USD 3,40/h | enterprise | USD 0,087/GB |
| CoreWeave | USD 4,25/h | – | USD 2,45/h | enterprise | incluido |
| Lambda Labs | USD 2,49/h | sin spot | USD 1,29/h | alto | gratis |
| RunPod Secure | USD 2,49/h | – | USD 1,89/h | medio | gratis |
| RunPod Community | USD 1,99/h | – | USD 1,29/h | bajo | gratis |
| Vast.ai | desde USD 1,80/h | – | desde USD 0,89/h | variable | gratis |
> Precios de referencia a junio 2026. Verificá siempre en la página oficial del proveedor antes de comprometer presupuesto.
Tabla de costo según horas de uso (1× H100 on-demand, USD 2,49/h)
| Horas de uso | Costo total (1 GPU) | Costo total (4 GPUs) | Costo total (8 GPUs) |
|---|---|---|---|
| 10 h | USD 24,90 | USD 99,60 | USD 199,20 |
| 24 h (1 día) | USD 59,76 | USD 239,04 | USD 478,08 |
| 168 h (1 semana) | USD 418,32 | USD 1.673,28 | USD 3.346,56 |
| 360 h (15 días) | USD 896,40 | USD 3.585,60 | USD 7.171,20 |
| 720 h (1 mes 24/7) | USD 1.792,80 | USD 7.171,20 | USD 14.342,40 |
Spot vs On-demand: cuándo conviene cada uno
| Caso de uso | Recomendación |
|---|---|
| Entrenamiento desde cero sin checkpointing | On-demand (no perder horas de cómputo) |
| Fine-tuning con checkpoints cada 100 steps | Spot (se recupera del checkpoint) |
| Inferencia en producción con SLA | On-demand + instancia reservada |
| Experimentos y debugging | Spot o RunPod Community |
| Job nocturno largo con monitoring | Spot + alerta automática al terminar |
Capacidad VRAM por GPU (referencia para LLMs)
| GPU | VRAM | Inferencia Q4 | Fine-tuning LoRA fp16 |
|---|---|---|---|
| A100 40GB | 40 GB | Llama 3 8B–13B | Llama 3 7B |
| A100 80GB | 80 GB | Llama 3.3 70B Q4 | Llama 3 13B |
| H100 80GB SXM | 80 GB | Llama 3.3 70B Q4 | Llama 3 13B |
| H200 141GB | 141 GB | Llama 3.3 70B fp16 | Llama 3 70B QLoRA |
| GB200 (Blackwell) | 192 GB | Mixtral 8×22B fp16 | Mixtral fine-tuning |
Los 4 errores que más cuestan
1. GPU idle: 1 H100 a USD 2,49/h = USD 60/día. Si la dejás 4 horas idle por día = USD 300/mes perdidos.
2. Olvidar egress: bajar un modelo Llama 70B fp16 (140 GB) desde AWS/GCP cuesta ~USD 12–13 en transferencia. Lambda, RunPod y Vast.ai no cobran egress.
3. Sin flash-attention ni DeepSpeed: si tu training tarda 2× más por configuración subóptima, pagás el doble por el mismo resultado.
4. Confundir SXM vs PCIe: H100 SXM tiene NVLink (900 GB/s inter-GPU) y es 30–40% más rápida en multi-GPU. Para 1 GPU sola, PCIe es suficiente.
> Aviso legal: Calculadora educativa. Los precios cambian a diario — verificá siempre en las páginas oficiales de cada proveedor antes de contratar.
Preguntas frecuentes
¿Cuánto cuesta una GPU H100 por hora en la nube en 2026?
El precio varía según proveedor: AWS p5 ~USD 4,50/h on-demand (spot ~USD 1,50–2,00/h), GCP A3 ~USD 4,40/h, Lambda Labs USD 2,49/h, RunPod Secure USD 2,49/h, RunPod Community USD 1,99/h y Vast.ai desde USD 1,80/h en el marketplace P2P.
¿Lambda Labs o RunPod: cuál es más barato para fine-tuning?
RunPod Community (USD 1,99/h) suele ser más barato que Lambda Labs (USD 2,49/h) por la misma H100, aunque con menor SLA. Ambos son 2–3× más baratos que AWS/GCP. Lambda Labs tiene mejor uptime garantizado y no cobra egress.
¿Cuánto cuesta entrenar Llama 70B en la nube?
Fine-tuning de Llama 70B con QLoRA necesita mínimo 2× H100. En RunPod Community (USD 3,98/h las 2 GPUs), una semana (168 horas) cuesta ~USD 669. En AWS p5 on-demand (USD 4,50/h × 8 GPUs = USD 36/h), la misma semana cuesta ~USD 6.048.
¿Qué es el spot pricing en GPU cloud y cuándo usarlo?
Spot = capacidad sobrante del proveedor con 30–70% de descuento, pero la VM puede ser terminada con 30–120 segundos de aviso. Conviene si tu workload tiene checkpointing frecuente (cada N steps guardás el estado a disco), porque podés relanzar y continuar desde el último checkpoint.
¿Cuánta VRAM necesito para servir Llama 3.3 70B?
Para inferencia Q4 (cuantizado a 4 bits), Llama 3.3 70B entra en 1× H100 80GB o 1× A100 80GB. Para fp16 completo (mayor calidad), necesitás 2× H100 80GB o 1× H200 141GB.
¿Qué diferencia hay entre H100 SXM y H100 PCIe?
SXM se conecta vía socket dedicado con NVLink (900 GB/s entre GPUs). PCIe usa PCIe 5.0 (~128 GB/s). Para entrenamiento multi-GPU, SXM es 30–40% más rápida y casi siempre justifica el costo extra. Para 1 sola GPU, PCIe es suficiente.
¿RunPod, Lambda o Vast.ai cobran egress (transferencia de datos)?
No: Lambda Labs, RunPod y Vast.ai no cobran egress. AWS, GCP y Azure sí (~USD 0,08–0,09/GB). Bajar un modelo Llama 70B fp16 (140 GB) desde AWS/GCP cuesta ~USD 12 en transferencia adicional.
¿Cómo evito pagar por GPU idle entre experimentos?
1) Auto-shutdown al terminar el job. 2) En RunPod podés pausar el pod (cobra almacenamiento barato pero no GPU). 3) Usá una GPU pequeña (T4 o L4) para desarrollo y arrancá la H100 solo cuando vayas a entrenar. Una H100 idle a USD 2,49/h = USD 59,76/día perdidos.
¿Cuándo conviene reservar GPU en cloud vs pagar on-demand?
Si tenés workloads continuos por más de 1 mes, las instancias reservadas de AWS/GCP dan 30–40% de descuento vs on-demand con contrato de 1 año. Para workloads esporádicos o proyectos de menos de 3 meses, on-demand en RunPod/Lambda es más conveniente sin compromisos.
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.