Negocios

GPU H100 / A100 — costo por hora en cloud (comparativa)🌎 Actualizado abril de 2026

Q: ¿Cuánto cuesta una H100 por hora en 2026?

Va de **USD 1,80/h en Vast.ai** (marketplace P2P) hasta **USD 4,50/h en AWS p5** on-demand. **Lambda Labs y RunPod Secure** se posicionan en USD 2,49/h y son la opción más usada por startups y devs solos.

Q: ¿Conviene RunPod o AWS para fine-tuning?

**RunPod** suele salir 2-3× más barato y el setup es Docker-based (mucho más simple). **AWS** vale la pena si necesitás integración con S3/EKS, SLA enterprise, o si tu compliance exige datacenters certificados. Para experimentos y proyectos personales, RunPod gana.

Q: ¿Qué es spot pricing y cuándo usarlo?

**Spot** = capacidad sobrante del proveedor a 30-70% de descuento, pero te pueden **terminar la VM con 30-120 segundos de aviso**. Usalo si tu workload tiene **checkpointing frecuente** (cada N steps guardás estado a disco), porque podés relanzar y seguir.

Q: ¿Cuánta VRAM necesito para entrenar Llama 70B?

Para **fine-tuning full** en fp16 necesitás ~1.4 TB VRAM (8× H100 80GB con DeepSpeed ZeRO-3). Con **QLoRA en 4-bit** podés bajar a 2× H100. Para inferencia Q4: 1× H100 alcanza para servir el modelo entero.

Q: ¿Qué es la diferencia entre H100 SXM y H100 PCIe?

**SXM** se conecta vía socket especial con **NVLink** entre GPUs (900 GB/s entre tarjetas). **PCIe** se conecta vía PCIe 5.0 (~128 GB/s). Para multi-GPU training, SXM es 30-40% más rápida y casi siempre vale el extra. Para 1 sola GPU, PCIe es suficiente.

Q: ¿Qué proveedor tiene H200 disponible?

En abril 2026 **Lambda, RunPod, CoreWeave y AWS p5e** tienen H200 disponible. Precios on-demand rondan **USD 3-5/h** según proveedor. La H200 ofrece **141 GB VRAM** (vs 80 GB de H100), permitiendo correr Llama 70B fp16 en una sola tarjeta.

Q: ¿Cómo evito costos idle?

1) **Auto-shutdown**: scripts que terminan la VM cuando el job termina. 2) **Hibernate / suspend**: en RunPod podés pausar pods (cobra storage barato pero no GPU). 3) **Notebooks separados de training**: hacé el dev en una T4 barata y prendé la H100 solo cuando vas a entrenar.

Q: ¿Qué pasa con egress (salida) de datos?

**AWS y GCP cobran egress** ~USD 0,09/GB hacia internet. Bajar un modelo Llama 70B fp16 (140 GB) cuesta **~USD 12,60** en transferencia. **Lambda, RunPod y Vast.ai NO cobran egress** — uno de sus diferenciales.

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: AWS / GCP / Lambda / RunPod / Vast.ai pricing pages

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 28 abr 2026

Reportar error

Entrenar o servir un LLM propio requiere GPUs caras. La opción más popular en 2026 sigue siendo NVIDIA H100 (80GB) y su sucesora H200 (141GB), con A100 todavía vigente para workloads más chicos. Los precios por hora varían brutalmente entre proveedores: AWS p5.48xlarge cobra ~USD 4-5/h por H100 on-demand, Lambda Labs USD 2,49/h, RunPod USD 1,99/h, Vast.ai marketplace P2P arranca en USD 1,80/h. El descuento spot/preemptible suma 40-70% adicional pero te pueden cortar la VM. Esta calculadora multiplica horas × cantidad de GPUs × precio aplicando descuento spot, te da costo total + costo idle (cuando dejás la instancia prendida sin entrenar). Útil para presupuestar fine-tuning, entrenamientos desde cero o servidores de inferencia 24/7.

Última revisión: 27 de abril de 2026 Revisado por Martín Rodríguez Fuente: AWS EC2 P5 pricing, Lambda Labs pricing, RunPod pricing, Vast.ai marketplace 100% privado

Cuándo usar esta calculadora

Estimar costo total de un entrenamiento de N épocas en GPU H100.
Comparar AWS p5 vs Lambda Labs vs RunPod para el mismo workload.
Calcular cuánto te cuesta dejar una GPU prendida idle entre experimentos.
Presupuestar inferencia 24/7 en GPU dedicada.
Decidir entre instancia spot (más barata) vs on-demand (estable).

Ejemplo: fine-tuning Llama 70B 1 semana en 8× H100

RunPod 8× H100 SXM: USD 1,99/h × 8 = USD 15,92/h on-demand.
168 horas (1 semana) → USD 2.674,56.
AWS p5.48xlarge (8× H100): USD 4,50/h × 8 = USD 36/h → USD 6.048.
AWS Spot (-65%): USD 12,60/h → USD 2.116,80.
Lambda Labs reservado USD 2,49/h × 8 = USD 19,92/h → USD 3.346,56.

Resultado: AWS Spot empata a RunPod si tu workload tolera interrupciones.

Cómo funciona

2 min de lectura

Comparativa de proveedores GPU cloud (abril 2026)

Proveedor	H100 on-demand	H100 spot	A100 on-demand	SLA	Setup
AWS p5/p4	~USD 4,50/h	~USD 1,50-2,00/h	~USD 3,06/h	enterprise	complejo (VPC, IAM)
GCP A3	~USD 4,40/h	~USD 1,80/h	~USD 3,67/h	enterprise	medio
Azure ND	~USD 4,30/h	~USD 1,80/h	~USD 3,40/h	enterprise	medio
Lambda Labs	USD 2,49/h	no spot	USD 1,29/h	mejor que cloud	simple (SSH)
RunPod Secure	USD 2,49/h	–	USD 1,89/h	medio	muy simple (Docker)
RunPod Community	USD 1,99/h	–	USD 1,29/h	bajo	muy simple
Vast.ai	desde USD 1,80/h	–	desde USD 0,89/h	depende host	simple
CoreWeave	USD 4,25/h	–	USD 2,45/h	enterprise	medio

Spot vs On-demand: cuándo conviene

Caso	Recomendación
Entrenamiento desde cero	On-demand (no querés perder 12hs de entrenamiento)
Fine-tuning con checkpointing cada 100 steps	Spot (recuperás del checkpoint)
Inferencia producción	On-demand + reservado
Experimentos / debugging	Spot o RunPod Community
Trabajo nocturno largo	Spot + alarma cuando muere

Errores que cuestan caro

1. Dejar idle: 1 GPU H100 a USD 2,49/h = USD 60/día = USD 1.793/mes. Si la dejás 4hs idle/día = USD 300/mes tirados.
2. Olvidar el storage: SSD NVMe + egress de modelos (~70GB para Llama 70B Q4) suma USD 50-200/mes extra en AWS/GCP.
3. No medir tokens/segundo: si tu fine-tuning tarda 2× porque no usás flash-attention o no tenés DeepSpeed bien configurado, pagás el doble.
4. Confundir SXM vs PCIe: H100 SXM tiene NVLink y va 30-40% más rápido en multi-GPU; PCIe es más barata pero no escala bien.

Capacidad por GPU (referencia)

Modelo	VRAM	LLM que entra (Q4 inferencia)	LLM fine-tuning (LoRA, fp16)
A100 40GB	40 GB	Llama 8B-13B	Llama 7B
A100 80GB	80 GB	Llama 70B Q4	Llama 13B
H100 80GB	80 GB	Llama 70B Q4	Llama 13B
H200 141GB	141 GB	Llama 70B fp16	Llama 70B QLoRA
GB200 (Blackwell)	192 GB	Mixtral 8×22B fp16	Mixtral fine-tuning

Disclaimer de pricing

Precios citados son referenciales públicos a abril 2026 y pueden variar. Verificá siempre en la página oficial de cada proveedor antes de comprometer presupuesto.

> Aviso legal: Calculadora educativa. No constituye recomendación de proveedor. Los precios y disponibilidad cambian a diario.

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Precios cotejados contra páginas oficiales de AWS, GCP, Azure, Lambda Labs, RunPod, Vast.ai y CoreWeave a abril 2026.

Preguntas frecuentes

¿Cuánto cuesta una H100 por hora en 2026?

Va de USD 1,80/h en Vast.ai (marketplace P2P) hasta USD 4,50/h en AWS p5 on-demand. Lambda Labs y RunPod Secure se posicionan en USD 2,49/h y son la opción más usada por startups y devs solos.

¿Conviene RunPod o AWS para fine-tuning?

RunPod suele salir 2-3× más barato y el setup es Docker-based (mucho más simple). AWS vale la pena si necesitás integración con S3/EKS, SLA enterprise, o si tu compliance exige datacenters certificados. Para experimentos y proyectos personales, RunPod gana.

¿Qué es spot pricing y cuándo usarlo?

Spot = capacidad sobrante del proveedor a 30-70% de descuento, pero te pueden terminar la VM con 30-120 segundos de aviso. Usalo si tu workload tiene checkpointing frecuente (cada N steps guardás estado a disco), porque podés relanzar y seguir.

¿Cuánta VRAM necesito para entrenar Llama 70B?

Para fine-tuning full en fp16 necesitás ~1.4 TB VRAM (8× H100 80GB con DeepSpeed ZeRO-3). Con QLoRA en 4-bit podés bajar a 2× H100. Para inferencia Q4: 1× H100 alcanza para servir el modelo entero.

¿Qué es la diferencia entre H100 SXM y H100 PCIe?

SXM se conecta vía socket especial con NVLink entre GPUs (900 GB/s entre tarjetas). PCIe se conecta vía PCIe 5.0 (~128 GB/s). Para multi-GPU training, SXM es 30-40% más rápida y casi siempre vale el extra. Para 1 sola GPU, PCIe es suficiente.

¿Qué proveedor tiene H200 disponible?

En abril 2026 Lambda, RunPod, CoreWeave y AWS p5e tienen H200 disponible. Precios on-demand rondan USD 3-5/h según proveedor. La H200 ofrece 141 GB VRAM (vs 80 GB de H100), permitiendo correr Llama 70B fp16 en una sola tarjeta.

¿Cómo evito costos idle?

1) Auto-shutdown: scripts que terminan la VM cuando el job termina. 2) Hibernate / suspend: en RunPod podés pausar pods (cobra storage barato pero no GPU). 3) Notebooks separados de training: hacé el dev en una T4 barata y prendé la H100 solo cuando vas a entrenar.

¿Qué pasa con egress (salida) de datos?

AWS y GCP cobran egress ~USD 0,09/GB hacia internet. Bajar un modelo Llama 70B fp16 (140 GB) cuesta ~USD 12,60 en transferencia. Lambda, RunPod y Vast.ai NO cobran egress — uno de sus diferenciales.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 27 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Fine-tuning Llama — costo según dataset, épocas y GPU Calculá el costo real de fine-tunear Llama 3 (8B/70B) según dataset, épocas y GPU. Compará LoRA, QLoRA y full fine-tune en USD. Inferencia LLM — throughput y costo por 1M tokens ⚡ Calculá throughput esperado y costo por 1M tokens al servir LLM (Llama 70B, Mistral, Qwen) según GPU, batch size y tokens promedio por request. Validador Ethereum — rendimiento de 32 ETH solo vs pool vs LST ⛓️ Calculá el APY anual de correr un validador Ethereum solo (32 ETH), via Rocket Pool, Lido stETH o Coinbase cbETH. Rendimiento neto en ETH y USD post…