Negocios

GPU H100 / A100 — costo por hora en cloud: AWS vs Lambda vs RunPod vs Vast.ai🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Revisado por: (política editorial ) · Última revisión:
horas
USD/h
GPUs
%
horas

Entrenar o servir un LLM propio requiere GPUs de alto costo. La opción más popular en 2026 sigue siendo la NVIDIA H100 (80 GB VRAM) y su sucesora H200 (141 GB), con la A100 todavía vigente para workloads medianos. Los precios por hora varían brutalmente entre proveedores: AWS p5.48xlarge cobra ~USD 4,50/h por H100 on-demand, Lambda Labs USD 2,49/h, RunPod USD 1,99/h y Vast.ai desde USD 1,80/h en su marketplace P2P. El descuento spot/preemptible de AWS/GCP agrega un 40–70% adicional pero la VM puede ser terminada con 30 segundos de aviso. Esta calculadora multiplica horas × cantidad de GPUs × precio con descuento spot, te da el costo total más el costo idle (cuando dejás la instancia encendida sin entrenar).

Última revisión: 03 de junio de 2026 Revisado por Fuente: AWS EC2 P5 instances pricing, Lambda Labs GPU Cloud pricing, RunPod pricing, Vast.ai GPU marketplace, CoreWeave GPU pricing 100% privado

Cuándo usar esta calculadora

  • Estimar el costo total de un entrenamiento de N épocas en GPU H100.
  • Comparar AWS p5 vs Lambda Labs vs RunPod para el mismo workload.
  • Calcular cuánto cuesta dejar una GPU encendida idle entre experimentos.
  • Presupuestar inferencia 24/7 en GPU dedicada.
  • Decidir entre instancia spot (más barata) vs on-demand (estable).

Ejemplo: fine-tuning Llama 70B una semana en 8× H100

  1. RunPod 8× H100 SXM: USD 1,99/h × 8 = USD 15,92/h on-demand.
  2. 168 horas (1 semana) → USD 2.674,56.
  3. AWS p5.48xlarge (8× H100): USD 4,50/h × 8 = USD 36/h → USD 6.048.
  4. AWS Spot (–65%): USD 12,60/h → USD 2.116,80.
  5. Lambda Labs reservado USD 2,49/h × 8 = USD 19,92/h → USD 3.346,56.
Resultado: AWS Spot empata a RunPod si el workload tolera interrupciones y tiene checkpointing.

Cómo funciona

3 min de lectura

Precios GPU H100 por hora en cloud — tabla comparativa (2026)

ProveedorH100 on-demandH100 spotA100 80GB on-demandSLAEgress
AWS p5 / p5e~USD 4,50/h~USD 1,50–2,00/h~USD 3,06/h (p4de)enterpriseUSD 0,09/GB
GCP A3~USD 4,40/h~USD 1,80/h~USD 3,67/henterpriseUSD 0,08/GB
Azure ND H100~USD 4,30/h~USD 1,80/h~USD 3,40/henterpriseUSD 0,087/GB
CoreWeaveUSD 4,25/hUSD 2,45/henterpriseincluido
Lambda LabsUSD 2,49/hsin spotUSD 1,29/haltogratis
RunPod SecureUSD 2,49/hUSD 1,89/hmediogratis
RunPod CommunityUSD 1,99/hUSD 1,29/hbajogratis
Vast.aidesde USD 1,80/hdesde USD 0,89/hvariablegratis

> Precios de referencia a junio 2026. Verificá siempre en la página oficial del proveedor antes de comprometer presupuesto.

Tabla de costo según horas de uso (1× H100 on-demand, USD 2,49/h)

Horas de usoCosto total (1 GPU)Costo total (4 GPUs)Costo total (8 GPUs)
10 hUSD 24,90USD 99,60USD 199,20
24 h (1 día)USD 59,76USD 239,04USD 478,08
168 h (1 semana)USD 418,32USD 1.673,28USD 3.346,56
360 h (15 días)USD 896,40USD 3.585,60USD 7.171,20
720 h (1 mes 24/7)USD 1.792,80USD 7.171,20USD 14.342,40

Spot vs On-demand: cuándo conviene cada uno

Caso de usoRecomendación
Entrenamiento desde cero sin checkpointingOn-demand (no perder horas de cómputo)
Fine-tuning con checkpoints cada 100 stepsSpot (se recupera del checkpoint)
Inferencia en producción con SLAOn-demand + instancia reservada
Experimentos y debuggingSpot o RunPod Community
Job nocturno largo con monitoringSpot + alerta automática al terminar

Capacidad VRAM por GPU (referencia para LLMs)

GPUVRAMInferencia Q4Fine-tuning LoRA fp16
A100 40GB40 GBLlama 3 8B–13BLlama 3 7B
A100 80GB80 GBLlama 3.3 70B Q4Llama 3 13B
H100 80GB SXM80 GBLlama 3.3 70B Q4Llama 3 13B
H200 141GB141 GBLlama 3.3 70B fp16Llama 3 70B QLoRA
GB200 (Blackwell)192 GBMixtral 8×22B fp16Mixtral fine-tuning

Los 4 errores que más cuestan

1. GPU idle: 1 H100 a USD 2,49/h = USD 60/día. Si la dejás 4 horas idle por día = USD 300/mes perdidos.
2. Olvidar egress: bajar un modelo Llama 70B fp16 (140 GB) desde AWS/GCP cuesta ~USD 12–13 en transferencia. Lambda, RunPod y Vast.ai no cobran egress.
3. Sin flash-attention ni DeepSpeed: si tu training tarda 2× más por configuración subóptima, pagás el doble por el mismo resultado.
4. Confundir SXM vs PCIe: H100 SXM tiene NVLink (900 GB/s inter-GPU) y es 30–40% más rápida en multi-GPU. Para 1 GPU sola, PCIe es suficiente.

> Aviso legal: Calculadora educativa. Los precios cambian a diario — verificá siempre en las páginas oficiales de cada proveedor antes de contratar.

Preguntas frecuentes

¿Cuánto cuesta una GPU H100 por hora en la nube en 2026?

El precio varía según proveedor: AWS p5 ~USD 4,50/h on-demand (spot ~USD 1,50–2,00/h), GCP A3 ~USD 4,40/h, Lambda Labs USD 2,49/h, RunPod Secure USD 2,49/h, RunPod Community USD 1,99/h y Vast.ai desde USD 1,80/h en el marketplace P2P.

¿Lambda Labs o RunPod: cuál es más barato para fine-tuning?

RunPod Community (USD 1,99/h) suele ser más barato que Lambda Labs (USD 2,49/h) por la misma H100, aunque con menor SLA. Ambos son 2–3× más baratos que AWS/GCP. Lambda Labs tiene mejor uptime garantizado y no cobra egress.

¿Cuánto cuesta entrenar Llama 70B en la nube?

Fine-tuning de Llama 70B con QLoRA necesita mínimo 2× H100. En RunPod Community (USD 3,98/h las 2 GPUs), una semana (168 horas) cuesta ~USD 669. En AWS p5 on-demand (USD 4,50/h × 8 GPUs = USD 36/h), la misma semana cuesta ~USD 6.048.

¿Qué es el spot pricing en GPU cloud y cuándo usarlo?

Spot = capacidad sobrante del proveedor con 30–70% de descuento, pero la VM puede ser terminada con 30–120 segundos de aviso. Conviene si tu workload tiene checkpointing frecuente (cada N steps guardás el estado a disco), porque podés relanzar y continuar desde el último checkpoint.

¿Cuánta VRAM necesito para servir Llama 3.3 70B?

Para inferencia Q4 (cuantizado a 4 bits), Llama 3.3 70B entra en 1× H100 80GB o 1× A100 80GB. Para fp16 completo (mayor calidad), necesitás 2× H100 80GB o 1× H200 141GB.

¿Qué diferencia hay entre H100 SXM y H100 PCIe?

SXM se conecta vía socket dedicado con NVLink (900 GB/s entre GPUs). PCIe usa PCIe 5.0 (~128 GB/s). Para entrenamiento multi-GPU, SXM es 30–40% más rápida y casi siempre justifica el costo extra. Para 1 sola GPU, PCIe es suficiente.

¿RunPod, Lambda o Vast.ai cobran egress (transferencia de datos)?

No: Lambda Labs, RunPod y Vast.ai no cobran egress. AWS, GCP y Azure sí (~USD 0,08–0,09/GB). Bajar un modelo Llama 70B fp16 (140 GB) desde AWS/GCP cuesta ~USD 12 en transferencia adicional.

¿Cómo evito pagar por GPU idle entre experimentos?

1) Auto-shutdown al terminar el job. 2) En RunPod podés pausar el pod (cobra almacenamiento barato pero no GPU). 3) Usá una GPU pequeña (T4 o L4) para desarrollo y arrancá la H100 solo cuando vayas a entrenar. Una H100 idle a USD 2,49/h = USD 59,76/día perdidos.

¿Cuándo conviene reservar GPU en cloud vs pagar on-demand?

Si tenés workloads continuos por más de 1 mes, las instancias reservadas de AWS/GCP dan 30–40% de descuento vs on-demand con contrato de 1 año. Para workloads esporádicos o proyectos de menos de 3 meses, on-demand en RunPod/Lambda es más conveniente sin compromisos.

Fuentes y referencias

También te puede interesar

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.