Negocios

Fine-tuning Llama — costo según dataset, épocas y GPU🌎 Actualizado mayo de 2026

Q: ¿Cuál es la diferencia real entre LoRA, QLoRA y full fine-tune en términos de costo?

Full fine-tune : actualiza todos los parámetros del modelo. Requiere VRAM completa (Llama 8B fp16 = ~16 GB, Llama 70B = ~140 GB en fp16). Máxima calidad pero mayor costo y complejidad. LoRA (Low-Rank Adaptation): congela el modelo base y entrena solo matrices de bajo rango adicionales. Reduce VRAM ~3-4×, costo similar o menor, calidad 90-95% del full fine-tune. Los adaptadores resultantes pesan 20-200 MB. QLoRA : LoRA sobre un modelo cuantizado a 4-bit. Reduce VRAM ~8× versus full fine-tune. Permite fine-tunear Llama 70B en 1× H100 80GB. Calidad ~3-5% menor que LoRA fp16. Para la mayoría de los casos de uso empresariales en 2025-2026, QLoRA es el punto de entrada más eficiente.

Q: ¿Cuántas épocas necesito para un buen fine-tune?

La regla general es: LoRA y QLoRA: 3-5 épocas para datasets de 50-500 MB. Con datasets pequeños ( Full fine-tune: 1-3 épocas , especialmente con datasets grandes. La señal más confiable es la eval loss en un split de validación (10-20% del dataset): si la training loss sigue bajando pero la eval loss empieza a subir, parás. En la práctica, para soporte al cliente o tareas de clasificación de dominio específico, 3 épocas con LoRA sobre 50-200 MB suele ser suficiente. Para cambio profundo de estilo o idioma necesitás más data y más épocas.

Q: ¿Qué throughput (tokens/segundo) puedo esperar según mi GPU y técnica?

Valores de referencia para Llama 3 con batch size optimizado: Llama 3 8B LoRA en 1× H100 80GB : 5.000-8.000 tok/s. Llama 3 8B LoRA en 1× A100 40GB : 3.000-5.000 tok/s. Llama 3 70B QLoRA en 1× H100 80GB : 800-1.500 tok/s. Llama 3 70B full fine-tune en 8× H100 : 3.000-6.000 tok/s agregados (con DeepSpeed ZeRO-3 o FSDP). Estos números asumen uso de Flash Attention 2, batch size optimizado y dataset en formato packed. Sin optimizaciones podés ver 30-50% menos throughput. Si usás gradient checkpointing, el throughput baja ~20% pero ahorrás VRAM.

Q: ¿Conviene fine-tunear o usar la API de OpenAI/Anthropic?

Depende de tres variables: volumen de uso, sensibilidad de los datos y presupuesto de infra . Si procesás menos de 1M tokens/día y los datos no son sensibles, la API suele ser más conveniente (sin costo de infra, sin mantenimiento). Si procesás 5M+ tokens/día, el fine-tune self-hosted se amortiza rápido: a USD 0,015/1k tokens de input en GPT-4o, 5M tokens/día = USD 75/día = USD 2.250/mes. Un servidor A100 en RunPod para inferencia cuesta ~USD 800/mes. Para datos sensibles (salud, legal, financiero), fine-tune on-premise es casi siempre la única opción aceptable desde el punto de vista regulatorio y de privacidad.

Q: ¿Cuánto cuesta fine-tunear Llama 3 70B completo?

El full fine-tune de Llama 70B es el escenario más caro. Necesitás mínimo 8× H100 80GB con DeepSpeed ZeRO-3 o FSDP para distribuir los pesos (~140 GB en fp16 + estados del optimizer). En AWS p4de.24xlarge (8× A100 40GB) o p5.48xlarge (8× H100): costo on-demand ~USD 32-49/hora por el cluster completo. Un dataset de 500 MB / 2 épocas a 4.000 tok/s agregados = ~17 horas = USD 550-830 solo de cómputo. Con QLoRA en 1× H100 el mismo dataset sale ~USD 70-100. La diferencia de calidad rara vez justifica el costo a menos que estés construyendo un modelo base para producción masiva.

Q: ¿Qué costos NO incluye esta calculadora?

La calculadora estima el costo de cómputo de entrenamiento exclusivamente. No incluye: (1) Curación y preparación del dataset : limpiar, formatear en JSONL instruction-tuning, dividir train/eval. En proyectos reales puede tomar 20-60% del tiempo total del proyecto. (2) Almacenamiento : checkpoints de Llama 70B full fine-tune ocupan 140+ GB cada uno. (3) Inferencia post-deployment : el servidor de producción que sirve el modelo tiene su propio costo mensual. (4) Experimentos fallidos : el primer fine-tune raramente es el definitivo. Presupuestar 2-3× el costo estimado para incluir iteraciones es una práctica sana.

Q: ¿Qué es Flash Attention 2 y cómo afecta el costo?

Flash Attention 2 es una implementación optimizada del mecanismo de atención que reduce el uso de memoria GPU de O(n²) a O(n) y aumenta el throughput de entrenamiento entre 1,5× y 3× versus la implementación estándar. Está disponible en las librerías principales (HuggingFace Transformers, Unsloth, Axolotl) y es compatible con H100, A100, y RTX 4090/3090. Activarlo correctamente puede reducir el costo estimado por esta calculadora hasta a la mitad en secuencias largas (>1024 tokens). Si tu throughput real es más bajo que los valores de referencia, verificar si Flash Attention 2 está activo es el primer diagnóstico.

Q: ¿Puedo fine-tunear Llama 3 8B en una GPU de consumo (RTX 4090 o 3090)?

Sí, con QLoRA en 4-bit . Una RTX 4090 tiene 24 GB VRAM. Llama 3 8B en 4-bit ocupa ~5 GB, más estados de entrenamiento QLoRA sube a ~12-16 GB: entra con margen. El throughput es menor: ~1.500-2.500 tok/s versus 6.000 en H100. Para un dataset de 100 MB / 3 épocas: ~8-14 horas versus 2-3 horas en H100. Si tenés una 4090 propia (costo eléctrico ~USD 0,10-0,20/kWh, ~350W bajo carga = USD 0,035-0,07/hora), el costo total puede ser USD 0,50-1,00 — mucho más barato que cualquier nube para experimentos.

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: HuggingFace / Lambda benchmarks

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 15 may 2026

Reportar error

Fine-tunear un LLM open-source es hoy la decisión técnica más concreta que puede tomar un equipo de desarrollo o una empresa que quiere IA propia sin depender de APIs caras. Pero antes de prender el cluster, la pregunta que frena todo es siempre la misma: ¿cuánto me va a salir? El problema es que la respuesta depende de variables que no son obvias: el tamaño del dataset en tokens reales (no en MB), cuántas épocas vas a correr, si usás LoRA, QLoRA o full fine-tune, y cuánto te cobra el proveedor de GPU por hora. Un mismo dataset de 500 MB puede costar USD 15 con QLoRA en 1× H100 en RunPod o USD 3.000 con full fine-tune de Llama 70B en 8× H100 en AWS. Sin una estimación previa, es fácil quemar presupuesto en el primer experimento. Esta calculadora traduce esas variables a números concretos. Ingresás el tamaño del dataset (la herramienta asume ~250.000 tokens por MB, estándar para texto en español o inglés con tokenizers de Llama/Mistral), la cantidad de épocas, el throughput de tu setup y el precio horario de la GPU. La calculadora devuelve el total de tokens procesados, las horas estimadas de entrenamiento y el costo total en USD, desagregado por época. Qué no hace esta calculadora: no estima calidad del modelo resultante, no contempla el costo de inferencia post fine-tune, ni incluye el tiempo de preparación del dataset. Esos costos existen y en proyectos reales pueden duplicar el total. Lo que sí hace es darte el número duro del cómputo antes de empezar, que es exactamente lo que necesitás para presentarle un presupuesto a un cliente, decidir entre fine-tunear o usar la API de OpenAI, o simplemente no sorprenderte con la factura de AWS a fin de mes.

Última revisión: 14 de mayo de 2026 Revisado por Martín Rodríguez Fuente: HuggingFace — Fine-tuning Llama 3, Lambda Labs — Benchmarks, OpenAI API pricing, Anthropic — Models pricing, Meta Llama models 100% privado

Cuándo usar esta calculadora

Un dev argentino que trabaja con RunPod quiere fine-tunear Llama 3 8B con LoRA sobre un dataset legal de 80 MB (20M tokens) durante 3 épocas. Con throughput de 6.000 tok/s en 1× H100 a USD 1,99/hora, la calculadora arroja ~2,8 horas y un costo de USD 5,60 por run de entrenamiento.
Una startup de salud necesita adaptar Llama 70B a terminología médica argentina. Tiene 300 MB de texto clínico anonimizado. Con QLoRA en 1× H100 80GB (throughput ~1.200 tok/s) y 2 épocas, la estimación es ~35 horas y USD 70 en Lambda Labs a USD 2,49/hora, frente a USD 800+ de full fine-tune.
Un equipo de e-commerce quiere entrenar un modelo de respuesta automática a consultas de clientes. Dataset de 50 MB, 3 épocas con LoRA Llama 8B. Resultado estimado: USD 3-6. Lo comparan con pagar GPT-4o: a USD 0,01/1k tokens de input procesando 5M tokens/día, pagan USD 1.500/mes. El fine-tune se amortiza en el primer día de producción.
Una agencia de marketing necesita justificarle el costo a un cliente corporativo. Con esta calculadora genera un PDF con la estimación: 200 MB de dataset de marca, 4 épocas, Llama 3 8B LoRA en 2× A100 a USD 2,20/hora. Estimación: ~10 horas, USD 44. Comparado con el costo mensual de API: argumento comercial claro.
Un investigador universitario evalúa si puede fine-tunear Llama 70B full fine-tune con el presupuesto de su beca (USD 500). Dataset de 100 MB, 1 época, 8× H100 en AWS a USD 32,77/hora (precio on-demand). La calculadora muestra ~4 horas de cómputo = USD 1.049. Conclusión: necesita QLoRA o créditos académicos de AWS/GCP.
Un freelancer que cobra en USD necesita presupuestarle a un cliente español un fine-tune de Mistral 7B (parámetros similares a Llama 8B) para soporte técnico. Dataset 120 MB, 3 épocas, LoRA, 1× H100 en RunPod. Estimación: USD 8-12 de cómputo. Le cobra USD 800 de proyecto incluyendo curacion de dataset, evaluación y deployment.
Un equipo de código quiere fine-tunear Llama 3 8B sobre 500 MB de repositorios internos (código Python/SQL). Como código tiene ~330k tokens/MB, el total de tokens sube a ~165M para 1 época. Con 3 épocas en 1× H100 LoRA y throughput de 7.000 tok/s: ~19,6 horas, USD 39 en Lambda Labs.
Una empresa quiere decidir entre fine-tuning propio vs. fine-tuning managed de OpenAI (GPT-4o mini fine-tune: USD 25/1M tokens de entrenamiento). Para 50 MB / 3 épocas = ~37,5M tokens: USD 937 en OpenAI vs. USD 6-10 con Llama LoRA self-hosted. La diferencia es un argumento para invertir en infra.

Ejemplo: LoRA Llama 3 8B sobre 100 MB / 3 épocas en 1× H100

Dataset: 100 MB ≈ 25M tokens × 3 épocas = 75M tokens procesados.
Throughput: 6.000 tok/s en 1× H100 con LoRA.
Tiempo: 75M / 6.000 / 3.600 = 3,47 horas.
Costo RunPod (USD 1,99/h): ~USD 6,90.
Costo Lambda (USD 2,49/h): ~USD 8,64.
Costo AWS (USD 4,50/h): ~USD 15,62.

Resultado: Un LoRA básico de Llama 3 8B cuesta menos que una pizza.

Cómo funciona

3 min de lectura

Las 3 técnicas principales

Técnica	Memoria	Calidad	Throughput	Costo relativo
Full fine-tune	máxima (~16× params)	máxima	medio	1× (referencia)
LoRA	baja (~0,1-1% params)	alta (90-95%)	rápido	0,1×
QLoRA	mínima (4-bit base + LoRA)	alta (88-93%)	medio	0,15×

LoRA entrena solo unas matrices de adaptación pequeñas. QLoRA además cuantiza el modelo base a 4-bit, permitiendo entrenar Llama 70B en 1× H100. Full fine-tune ajusta todos los parámetros y necesita mucha VRAM.

Tokens, MB y épocas

Variable	Estimación
1 MB texto	~250.000 tokens (4 chars/token)
1 GB texto	~250M tokens
Llama 3 pre-training	15.000.000.000.000 tokens (15T)
Fine-tune típico	5M-500M tokens
Épocas LoRA	3-5
Épocas full FT	1-3

Throughput esperado (referencia)

Setup	Modelo	Técnica	Tok/s
1× H100 80GB	Llama 8B	LoRA	5.000-8.000
1× H100 80GB	Llama 8B	full FT	3.000-5.000
1× H100 80GB	Llama 70B	QLoRA	800-1.500
4× H100 80GB	Llama 70B	LoRA	3.000-5.000
8× H100 80GB	Llama 70B	full FT (DeepSpeed ZeRO-3)	3.000-5.000
1× A100 40GB	Llama 8B	LoRA	3.000-4.500

La fórmula

Total tokens = MB × 250.000 × épocas
Horas = total tokens / (tokens/s × 3600)
Costo = horas × precio_gpu_hora × cantidad_gpus

Cuándo conviene fine-tune vs API

Volumen de inferencia	Recomendación
< 100k tokens/día	API (OpenAI/Anthropic) — fine-tune no se amortiza
100k-1M tokens/día	Few-shot prompting + caching agresivo
> 1M tokens/día	Fine-tune Llama/Mistral + self-host
Datos sensibles	Fine-tune on-prem sí o sí
Latencia < 100ms	Fine-tune + servir local

Errores típicos

1. Sobre-entrenar (overfitting): 10+ épocas con dataset chico mata generalización. Con LoRA, 3 épocas es muchas veces suficiente.
2. No medir tok/s real: usá transformers.trainer con logging cada N steps para verificar throughput.
3. Subestimar storage: checkpoints de Llama 70B pesan 140 GB c/u. Si guardás cada época, son 420 GB.
4. Tokenizer mal calibrado: si tu dataset es muy técnico (código, farmacología), 1 MB puede ser 350k tokens, no 250k.

Costos de referencia OpenAI/Anthropic (abril 2026)

Para comparación con APIs (precios públicos a abril 2026):

GPT-4o fine-tuning: USD 25 / 1M tokens training + uso de inferencia más caro (consultar OpenAI pricing).

Anthropic Claude: no ofrece fine-tuning público al 2026; alternativa via Bedrock o prompt-tuning.

Self-host Llama: el costo es solo la GPU + electricidad/hosting.

> Aviso legal: Calculadora educativa con estimaciones aproximadas. Throughput real depende de muchos factores (batch size, sequence length, tokenizer, optimizer). No constituye recomendación técnica ni de proveedor.

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Throughput referenciado contra benchmarks públicos de Lambda Labs y HuggingFace a abril 2026.

Preguntas frecuentes

¿Cómo se calcula el costo total de fine-tuning en esta calculadora?

La fórmula tiene tres pasos. Primero convierte MB a tokens: tokens totales = MB × 250.000 × épocas. Segundo calcula el tiempo: horas = tokens totales ÷ (throughput × 3.600). Tercero calcula el costo: USD = horas × precio por hora × cantidad de GPUs. Por ejemplo, 100 MB × 250k = 25M tokens por época. Con 3 épocas: 75M tokens. A 6.000 tok/s en 1× H100: 75.000.000 ÷ (6.000 × 3.600) = 3,47 horas. A USD 1,99/hora: USD 6,90. Es una estimación del cómputo puro, sin overhead de checkpoint, evaluación o preparación de datos que en la práctica agregan 10-20% al tiempo real.

¿Por qué 1 MB de texto equivale a 250.000 tokens?

Los tokenizers modernos (Llama, Mistral, GPT) dividen texto en subpalabras (BPE). En inglés y español estándar, el ratio promedio es ~4 caracteres por token. Un archivo de 1 MB = 1.048.576 bytes ≈ 1.000.000 caracteres de texto plano ÷ 4 = 250.000 tokens. Este ratio varía: código fuente es más denso (~330k tokens/MB porque los identificadores son cortos), chino/japonés bajan a ~100-150k tokens/MB porque cada carácter puede ser un token entero. Para datasets mixtos o en idiomas no latinos, conviene contar los tokens directamente con el tokenizer del modelo antes de estimar.

¿Cuál es la diferencia real entre LoRA, QLoRA y full fine-tune en términos de costo?

Full fine-tune: actualiza todos los parámetros del modelo. Requiere VRAM completa (Llama 8B fp16 = ~16 GB, Llama 70B = ~140 GB en fp16). Máxima calidad pero mayor costo y complejidad. LoRA (Low-Rank Adaptation): congela el modelo base y entrena solo matrices de bajo rango adicionales. Reduce VRAM ~3-4×, costo similar o menor, calidad 90-95% del full fine-tune. Los adaptadores resultantes pesan 20-200 MB. QLoRA: LoRA sobre un modelo cuantizado a 4-bit. Reduce VRAM ~8× versus full fine-tune. Permite fine-tunear Llama 70B en 1× H100 80GB. Calidad ~3-5% menor que LoRA fp16. Para la mayoría de los casos de uso empresariales en 2025-2026, QLoRA es el punto de entrada más eficiente.

¿Cuántas épocas necesito para un buen fine-tune?

La regla general es: LoRA y QLoRA: 3-5 épocas para datasets de 50-500 MB. Con datasets pequeños (<10 MB) podés ir hasta 10 épocas antes de overfitear. Full fine-tune: 1-3 épocas, especialmente con datasets grandes. La señal más confiable es la eval loss en un split de validación (10-20% del dataset): si la training loss sigue bajando pero la eval loss empieza a subir, parás. En la práctica, para soporte al cliente o tareas de clasificación de dominio específico, 3 épocas con LoRA sobre 50-200 MB suele ser suficiente. Para cambio profundo de estilo o idioma necesitás más data y más épocas.

¿Qué throughput (tokens/segundo) puedo esperar según mi GPU y técnica?

Valores de referencia para Llama 3 con batch size optimizado: Llama 3 8B LoRA en 1× H100 80GB: 5.000-8.000 tok/s. Llama 3 8B LoRA en 1× A100 40GB: 3.000-5.000 tok/s. Llama 3 70B QLoRA en 1× H100 80GB: 800-1.500 tok/s. Llama 3 70B full fine-tune en 8× H100: 3.000-6.000 tok/s agregados (con DeepSpeed ZeRO-3 o FSDP). Estos números asumen uso de Flash Attention 2, batch size optimizado y dataset en formato packed. Sin optimizaciones podés ver 30-50% menos throughput. Si usás gradient checkpointing, el throughput baja ~20% pero ahorrás VRAM.

¿Conviene fine-tunear o usar la API de OpenAI/Anthropic?

Depende de tres variables: volumen de uso, sensibilidad de los datos y presupuesto de infra. Si procesás menos de 1M tokens/día y los datos no son sensibles, la API suele ser más conveniente (sin costo de infra, sin mantenimiento). Si procesás 5M+ tokens/día, el fine-tune self-hosted se amortiza rápido: a USD 0,015/1k tokens de input en GPT-4o, 5M tokens/día = USD 75/día = USD 2.250/mes. Un servidor A100 en RunPod para inferencia cuesta ~USD 800/mes. Para datos sensibles (salud, legal, financiero), fine-tune on-premise es casi siempre la única opción aceptable desde el punto de vista regulatorio y de privacidad.

¿Cuánto cuesta fine-tunear Llama 3 70B completo?

El full fine-tune de Llama 70B es el escenario más caro. Necesitás mínimo 8× H100 80GB con DeepSpeed ZeRO-3 o FSDP para distribuir los pesos (~140 GB en fp16 + estados del optimizer). En AWS p4de.24xlarge (8× A100 40GB) o p5.48xlarge (8× H100): costo on-demand ~USD 32-49/hora por el cluster completo. Un dataset de 500 MB / 2 épocas a 4.000 tok/s agregados = ~17 horas = USD 550-830 solo de cómputo. Con QLoRA en 1× H100 el mismo dataset sale ~USD 70-100. La diferencia de calidad rara vez justifica el costo a menos que estés construyendo un modelo base para producción masiva.

¿Qué costos NO incluye esta calculadora?

La calculadora estima el costo de cómputo de entrenamiento exclusivamente. No incluye: (1) Curación y preparación del dataset: limpiar, formatear en JSONL instruction-tuning, dividir train/eval. En proyectos reales puede tomar 20-60% del tiempo total del proyecto. (2) Almacenamiento: checkpoints de Llama 70B full fine-tune ocupan 140+ GB cada uno. (3) Inferencia post-deployment: el servidor de producción que sirve el modelo tiene su propio costo mensual. (4) Experimentos fallidos: el primer fine-tune raramente es el definitivo. Presupuestar 2-3× el costo estimado para incluir iteraciones es una práctica sana.

¿Qué es Flash Attention 2 y cómo afecta el costo?

Flash Attention 2 es una implementación optimizada del mecanismo de atención que reduce el uso de memoria GPU de O(n²) a O(n) y aumenta el throughput de entrenamiento entre 1,5× y 3× versus la implementación estándar. Está disponible en las librerías principales (HuggingFace Transformers, Unsloth, Axolotl) y es compatible con H100, A100, y RTX 4090/3090. Activarlo correctamente puede reducir el costo estimado por esta calculadora hasta a la mitad en secuencias largas (>1024 tokens). Si tu throughput real es más bajo que los valores de referencia, verificar si Flash Attention 2 está activo es el primer diagnóstico.

¿Puedo fine-tunear Llama 3 8B en una GPU de consumo (RTX 4090 o 3090)?

Sí, con QLoRA en 4-bit. Una RTX 4090 tiene 24 GB VRAM. Llama 3 8B en 4-bit ocupa ~5 GB, más estados de entrenamiento QLoRA sube a ~12-16 GB: entra con margen. El throughput es menor: ~1.500-2.500 tok/s versus 6.000 en H100. Para un dataset de 100 MB / 3 épocas: ~8-14 horas versus 2-3 horas en H100. Si tenés una 4090 propia (costo eléctrico ~USD 0,10-0,20/kWh, ~350W bajo carga = USD 0,035-0,07/hora), el costo total puede ser USD 0,50-1,00 — mucho más barato que cualquier nube para experimentos.

¿Qué proveedores de GPU cloud son más baratos para fine-tuning en 2025-2026?

Los precios varían y hay que cotizar en el momento, pero como referencia orientativa: RunPod suele tener las H100 más baratas del mercado en instancias spot (~USD 1,50-2,50/hora). Lambda Labs ofrece pricing predecible sin spot (~USD 2,49/hora H100). Vast.ai es el marketplace más barato para experimentación pero con menor SLA. AWS/GCP/Azure son los más caros en on-demand pero tienen créditos académicos y empresariales, y son los más usados en producción por compliance. Para proyectos en Argentina con facturación en USD, RunPod y Lambda son los más usados porque aceptan tarjetas internacionales y tienen billing por segundo, no por hora mínima.

¿Cuánto tiempo tarda en verse retorno de inversión de un fine-tune versus usar API?

El break-even depende del volumen. Ejemplo concreto: fine-tune Llama 8B LoRA para soporte técnico en español, dataset 100 MB, costo de entrenamiento USD 10. Modelo deployado en 1× A10G en RunPod: USD 0,75/hora = USD 540/mes. API GPT-4o mini para el mismo uso: USD 0,15/1M tokens output. Si procesás 50M tokens de output por mes: USD 7.500/mes en API vs USD 540 en hosting propio. Break-even en días. Si solo procesás 1M tokens/mes: USD 150 en API vs USD 540 de hosting — no conviene el fine-tune. El volumen mínimo para justificar el hosting suele estar entre 5-10M tokens de output por mes.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 14 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

GPU H100 / A100 — costo por hora en cloud (comparativa) 🖥️ Calculá costo total de rentar GPU H100, H200 o A100 en AWS, GCP, Azure, Lambda, RunPod y Vast.ai. Spot vs on-demand y costo idle por entrenamiento o… Inferencia LLM — throughput y costo por 1M tokens ⚡ Calculá throughput esperado y costo por 1M tokens al servir LLM (Llama 70B, Mistral, Qwen) según GPU, batch size y tokens promedio por request. Costo Claude 1M context — Sonnet vs Opus 🧠 Calculá el costo input/output con contexto extendido 1M tokens en Claude Sonnet y Opus. Compará tier estándar (≤200k) vs tier 1M y proyectá costo mensual.