¿Cuánto cuesta hacer fine-tuning de un LLM? Calculadora Llama / Mistral🌎
Actualizado junio de 2026Ver cálculo paso a paso
Fine-tunear un LLM open-source es hoy la decisión técnica más concreta que puede tomar un equipo de desarrollo o una empresa que quiere IA propia sin depender de APIs caras. Pero antes de prender el cluster, la pregunta que frena todo es siempre la misma: ¿cuánto me va a salir? El problema es que la respuesta depende de variables que no son obvias: el tamaño del dataset en tokens reales (no en MB), cuántas épocas vas a correr, si usás LoRA, QLoRA o full fine-tune, y cuánto te cobra el proveedor de GPU por hora. Un mismo dataset de 500 MB puede costar USD 15 con QLoRA en 1× H100 en RunPod o USD 3.000 con full fine-tune de Llama 70B en 8× H100 en AWS. Sin una estimación previa, es fácil quemar presupuesto en el primer experimento. Esta calculadora traduce esas variables a números concretos. Ingresás el tamaño del dataset (la herramienta asume ~250.000 tokens por MB, estándar para texto en español o inglés con tokenizers de Llama/Mistral), la cantidad de épocas, el throughput de tu setup y el precio horario de la GPU. La calculadora devuelve el total de tokens procesados, las horas estimadas de entrenamiento y el costo total en USD, desagregado por época. Qué no hace esta calculadora: no estima calidad del modelo resultante, no contempla el costo de inferencia post fine-tune, ni incluye el tiempo de preparación del dataset. Esos costos existen y en proyectos reales pueden duplicar el total. Lo que sí hace es darte el número duro del cómputo antes de empezar, que es exactamente lo que necesitás para presentarle un presupuesto a un cliente, decidir entre fine-tunear o usar la API de OpenAI, o simplemente no sorprenderte con la factura de AWS a fin de mes.
Cuándo usar esta calculadora
- Un dev argentino que trabaja con RunPod quiere fine-tunear Llama 3 8B con LoRA sobre un dataset legal de 80 MB (20M tokens) durante 3 épocas. Con throughput de 6.000 tok/s en 1× H100 a USD 1,99/hora, la calculadora arroja ~2,8 horas y un costo de USD 5,60 por run de entrenamiento.
- Una startup de salud necesita adaptar Llama 70B a terminología médica argentina. Tiene 300 MB de texto clínico anonimizado. Con QLoRA en 1× H100 80GB (throughput ~1.200 tok/s) y 2 épocas, la estimación es ~35 horas y USD 70 en Lambda Labs a USD 2,49/hora, frente a USD 800+ de full fine-tune.
- Un equipo de e-commerce quiere entrenar un modelo de respuesta automática a consultas de clientes. Dataset de 50 MB, 3 épocas con LoRA Llama 8B. Resultado estimado: USD 3-6. Lo comparan con pagar GPT-4o: a USD 0,01/1k tokens de input procesando 5M tokens/día, pagan USD 1.500/mes. El fine-tune se amortiza en el primer día de producción.
- Una agencia de marketing necesita justificarle el costo a un cliente corporativo. Con esta calculadora genera un PDF con la estimación: 200 MB de dataset de marca, 4 épocas, Llama 3 8B LoRA en 2× A100 a USD 2,20/hora. Estimación: ~10 horas, USD 44. Comparado con el costo mensual de API: argumento comercial claro.
- Un investigador universitario evalúa si puede fine-tunear Llama 70B full fine-tune con el presupuesto de su beca (USD 500). Dataset de 100 MB, 1 época, 8× H100 en AWS a USD 32,77/hora (precio on-demand). La calculadora muestra ~4 horas de cómputo = USD 1.049. Conclusión: necesita QLoRA o créditos académicos de AWS/GCP.
- Un freelancer que cobra en USD necesita presupuestarle a un cliente español un fine-tune de Mistral 7B (parámetros similares a Llama 8B) para soporte técnico. Dataset 120 MB, 3 épocas, LoRA, 1× H100 en RunPod. Estimación: USD 8-12 de cómputo. Le cobra USD 800 de proyecto incluyendo curacion de dataset, evaluación y deployment.
- Un equipo de código quiere fine-tunear Llama 3 8B sobre 500 MB de repositorios internos (código Python/SQL). Como código tiene ~330k tokens/MB, el total de tokens sube a ~165M para 1 época. Con 3 épocas en 1× H100 LoRA y throughput de 7.000 tok/s: ~19,6 horas, USD 39 en Lambda Labs.
- Una empresa quiere decidir entre fine-tuning propio vs. fine-tuning managed de OpenAI (GPT-4o mini fine-tune: USD 25/1M tokens de entrenamiento). Para 50 MB / 3 épocas = ~37,5M tokens: USD 937 en OpenAI vs. USD 6-10 con Llama LoRA self-hosted. La diferencia es un argumento para invertir en infra.
Ejemplo: LoRA Llama 3 8B sobre 100 MB / 3 épocas en 1× H100
- Dataset: 100 MB ≈ 25M tokens × 3 épocas = 75M tokens procesados.
- Throughput: 6.000 tok/s en 1× H100 con LoRA.
- Tiempo: 75M ÷ 6.000 ÷ 3.600 = 3,47 horas.
- Costo RunPod (USD 1,99/h): ~USD 6,90.
- Costo Lambda (USD 2,49/h): ~USD 8,64.
- Costo AWS (USD 4,50/h): ~USD 15,62.
Cómo funciona
4 min de lecturaLas 3 técnicas principales
| Técnica | Memoria | Calidad | Throughput | Costo relativo |
|---|---|---|---|---|
| Full fine-tune | máxima (~16× params) | máxima | medio | 1× (referencia) |
| LoRA | baja (~0,1-1% params) | alta (90-95%) | rápido | 0,1× |
| QLoRA | mínima (4-bit base + LoRA) | alta (88-93%) | medio | 0,15× |
LoRA entrena solo unas matrices de adaptación pequeñas. QLoRA además cuantiza el modelo base a 4-bit, permitiendo entrenar Llama 70B en 1× H100. Full fine-tune ajusta todos los parámetros y necesita mucha VRAM.
Tabla de referencia rápida: costo por escenario
| Modelo | Técnica | Dataset | Épocas | GPU | Tok/s | Horas | Costo (Lambda USD 2,49/h) |
|---|---|---|---|---|---|---|---|
| Llama 3 8B | LoRA | 50 MB | 3 | 1× H100 | 6.000 | 1,7 h | ~USD 4 |
| Llama 3 8B | LoRA | 100 MB | 3 | 1× H100 | 6.000 | 3,5 h | ~USD 9 |
| Llama 3 8B | Full FT | 100 MB | 2 | 1× H100 | 4.000 | 3,5 h | ~USD 9 |
| Llama 3 70B | QLoRA | 100 MB | 2 | 1× H100 | 1.200 | 11,6 h | ~USD 29 |
| Llama 3 70B | QLoRA | 300 MB | 2 | 1× H100 | 1.200 | 34,7 h | ~USD 86 |
| Llama 3 70B | Full FT | 100 MB | 1 | 8× H100 | 4.000 | 0,87 h | ~USD 27 |
| Llama 3 70B | Full FT | 500 MB | 2 | 8× H100 | 4.000 | 17,4 h | ~USD 346 |
Tokens, MB y épocas
| Variable | Estimación |
|---|---|
| 1 MB texto | ~250.000 tokens (4 chars/token) |
| 1 GB texto | ~250M tokens |
| Código fuente | ~330k tokens/MB (identificadores cortos) |
| Chino/japonés | ~100-150k tokens/MB |
| Fine-tune típico | 5M-500M tokens |
| Épocas LoRA | 3-5 |
| Épocas full FT | 1-3 |
Throughput esperado (referencia)
| Setup | Modelo | Técnica | Tok/s |
|---|---|---|---|
| 1× H100 80GB | Llama 8B | LoRA | 5.000-8.000 |
| 1× H100 80GB | Llama 8B | Full FT | 3.000-5.000 |
| 1× H100 80GB | Llama 70B | QLoRA | 800-1.500 |
| 4× H100 80GB | Llama 70B | LoRA | 3.000-5.000 |
| 8× H100 80GB | Llama 70B | Full FT (DeepSpeed ZeRO-3) | 3.000-5.000 |
| 1× A100 40GB | Llama 8B | LoRA | 3.000-4.500 |
| RTX 4090 24GB | Llama 8B | QLoRA | 1.500-2.500 |
La fórmula
Total tokens = MB × 250.000 × épocas
Horas = total tokens ÷ (tokens/s × 3600)
Costo = horas × precio_gpu_hora × cantidad_gpusCuándo conviene fine-tune vs API
| Volumen de inferencia | Recomendación |
|---|---|
| < 100k tokens/día | API (OpenAI/Anthropic) — fine-tune no se amortiza |
| 100k-1M tokens/día | Few-shot prompting + caching agresivo |
| > 1M tokens/día | Fine-tune Llama/Mistral + self-host |
| Datos sensibles | Fine-tune on-prem sí o sí |
| Latencia < 100ms | Fine-tune + servir local |
Errores típicos
1. Sobre-entrenar (overfitting): 10+ épocas con dataset chico mata generalización. Con LoRA, 3 épocas es muchas veces suficiente.
2. No medir tok/s real: usá transformers.trainer con logging cada N steps para verificar throughput.
3. Subestimar storage: checkpoints de Llama 70B pesan 140 GB c/u. Si guardás cada época, son 420 GB.
4. Tokenizer mal calibrado: si tu dataset es muy técnico (código, farmacología), 1 MB puede ser 350k tokens, no 250k.
Costos de referencia OpenAI/Anthropic (2026)
Para comparación con APIs (precios públicos a 2026):
> Aviso legal: Calculadora educativa con estimaciones aproximadas. Throughput real depende de muchos factores (batch size, sequence length, tokenizer, optimizer). No constituye recomendación técnica ni de proveedor.
Revisión editorial
Revisado por el equipo editorial de Hacé Cuentas. Throughput referenciado contra benchmarks públicos de Lambda Labs y HuggingFace a junio 2026.
Preguntas frecuentes
¿Cuánto cuesta hacer fine-tuning de Llama 3 8B?
Un fine-tuning LoRA de Llama 3 8B sobre 100 MB de texto (≈25M tokens) durante 3 épocas en 1× H100 cuesta entre USD 6 y USD 16 según el proveedor: ~USD 7 en RunPod (USD 1,99/h), ~USD 9 en Lambda (USD 2,49/h), ~USD 16 en AWS (USD 4,50/h). Con una RTX 4090 propia, el costo eléctrico baja a USD 0,50-1,00. La fórmula es: horas = (MB × 250.000 × épocas) ÷ (tok/s × 3.600); costo = horas × precio_GPU × cantidad_GPUs.
¿Cómo se calcula el costo total de fine-tuning en esta calculadora?
La fórmula tiene tres pasos. Primero convierte MB a tokens: tokens totales = MB × 250.000 × épocas. Segundo calcula el tiempo: horas = tokens totales ÷ (throughput × 3.600). Tercero calcula el costo: USD = horas × precio por hora × cantidad de GPUs. Por ejemplo, 100 MB × 250k = 25M tokens por época. Con 3 épocas: 75M tokens. A 6.000 tok/s en 1× H100: 75.000.000 ÷ (6.000 × 3.600) = 3,47 horas. A USD 1,99/hora: USD 6,90. Es una estimación del cómputo puro, sin overhead de checkpoint, evaluación o preparación de datos que en la práctica agregan 10-20% al tiempo real.
¿Por qué 1 MB de texto equivale a 250.000 tokens?
Los tokenizers modernos (Llama, Mistral, GPT) dividen texto en subpalabras (BPE). En inglés y español estándar, el ratio promedio es ~4 caracteres por token. Un archivo de 1 MB = 1.048.576 bytes ≈ 1.000.000 caracteres de texto plano ÷ 4 = 250.000 tokens. Este ratio varía: código fuente es más denso (~330k tokens/MB), chino/japonés bajan a ~100-150k tokens/MB. Para datasets mixtos, conviene contar los tokens directamente con el tokenizer del modelo.
¿Cuál es la diferencia real entre LoRA, QLoRA y full fine-tune en términos de costo?
Full fine-tune: actualiza todos los parámetros del modelo. Requiere VRAM completa (Llama 8B fp16 = ~16 GB, Llama 70B = ~140 GB en fp16). Máxima calidad pero mayor costo y complejidad. LoRA (Low-Rank Adaptation): congela el modelo base y entrena solo matrices de bajo rango adicionales. Reduce VRAM ~3-4×, costo similar o menor, calidad 90-95% del full fine-tune. Los adaptadores resultantes pesan 20-200 MB. QLoRA: LoRA sobre un modelo cuantizado a 4-bit. Reduce VRAM ~8× versus full fine-tune. Permite fine-tunear Llama 70B en 1× H100 80GB. Calidad ~3-5% menor que LoRA fp16. Para la mayoría de los casos de uso empresariales en 2026, QLoRA es el punto de entrada más eficiente.
¿Cuántas épocas necesito para un buen fine-tune?
La regla general es: LoRA y QLoRA: 3-5 épocas para datasets de 50-500 MB. Con datasets pequeños (<10 MB) podés ir hasta 10 épocas antes de overfitear. Full fine-tune: 1-3 épocas, especialmente con datasets grandes. La señal más confiable es la eval loss en un split de validación (10-20% del dataset): si la training loss sigue bajando pero la eval loss empieza a subir, parás.
¿Qué throughput (tokens/segundo) puedo esperar según mi GPU y técnica?
Valores de referencia para Llama 3 con batch size optimizado: Llama 3 8B LoRA en 1× H100 80GB: 5.000-8.000 tok/s. Llama 3 8B LoRA en 1× A100 40GB: 3.000-5.000 tok/s. Llama 3 70B QLoRA en 1× H100 80GB: 800-1.500 tok/s. Llama 3 70B full fine-tune en 8× H100: 3.000-6.000 tok/s agregados (con DeepSpeed ZeRO-3 o FSDP). Estos números asumen uso de Flash Attention 2, batch size optimizado y dataset en formato packed.
¿Conviene fine-tunear o usar la API de OpenAI/Anthropic?
Depende de tres variables: volumen de uso, sensibilidad de los datos y presupuesto de infra. Si procesás menos de 1M tokens/día y los datos no son sensibles, la API suele ser más conveniente. Si procesás 5M+ tokens/día, el fine-tune self-hosted se amortiza rápido: a USD 0,015/1k tokens de input en GPT-4o, 5M tokens/día = USD 75/día = USD 2.250/mes. Un servidor A100 en RunPod para inferencia cuesta ~USD 800/mes. Para datos sensibles (salud, legal, financiero), fine-tune on-premise es casi siempre la única opción aceptable regulatoriamente.
¿Cuánto cuesta fine-tunear Llama 3 70B completo?
El full fine-tune de Llama 70B es el escenario más caro. Necesitás mínimo 8× H100 80GB con DeepSpeed ZeRO-3 o FSDP. En AWS p5.48xlarge (8× H100): costo on-demand ~USD 32-49/hora por el cluster completo. Un dataset de 500 MB / 2 épocas a 4.000 tok/s agregados = ~17 horas = USD 550-830 solo de cómputo. Con QLoRA en 1× H100 el mismo dataset sale ~USD 70-100. La diferencia de calidad rara vez justifica el costo salvo en producción masiva.
¿Qué costos NO incluye esta calculadora?
La calculadora estima el costo de cómputo de entrenamiento exclusivamente. No incluye: (1) Curación y preparación del dataset: limpiar, formatear en JSONL instruction-tuning, dividir train/eval. (2) Almacenamiento: checkpoints de Llama 70B full fine-tune ocupan 140+ GB cada uno. (3) Inferencia post-deployment: el servidor de producción que sirve el modelo. (4) Experimentos fallidos: el primer fine-tune raramente es el definitivo. Presupuestá 2-3× el costo estimado para incluir iteraciones.
¿Qué es Flash Attention 2 y cómo afecta el costo?
Flash Attention 2 es una implementación optimizada del mecanismo de atención que reduce el uso de memoria GPU de O(n²) a O(n) y aumenta el throughput de entrenamiento entre 1,5× y 3× versus la implementación estándar. Activarlo correctamente puede reducir el costo estimado hasta a la mitad en secuencias largas (>1024 tokens). Está disponible en HuggingFace Transformers, Unsloth y Axolotl y es compatible con H100, A100 y RTX 4090/3090.
¿Puedo fine-tunear Llama 3 8B en una GPU de consumo (RTX 4090 o 3090)?
Sí, con QLoRA en 4-bit. Una RTX 4090 tiene 24 GB VRAM. Llama 3 8B en 4-bit ocupa ~5 GB, más estados de entrenamiento QLoRA sube a ~12-16 GB: entra con margen. El throughput es menor: ~1.500-2.500 tok/s versus 6.000 en H100. Para un dataset de 100 MB / 3 épocas: ~8-14 horas versus 2-3 horas en H100. Con una 4090 propia (costo eléctrico ~USD 0,035-0,07/hora), el fine-tune puede costar USD 0,50-1,00 — mucho más barato que cualquier nube para experimentos.
¿Qué proveedores de GPU cloud son más baratos para fine-tuning?
Como referencia orientativa a 2026: RunPod suele tener las H100 más baratas en instancias spot (~USD 1,50-2,50/hora). Lambda Labs ofrece pricing predecible sin spot (~USD 2,49/hora H100). Vast.ai es el marketplace más barato para experimentación pero con menor SLA. AWS/GCP/Azure son los más caros en on-demand pero tienen créditos académicos y son los preferidos en producción por compliance. Para proyectos con facturación en USD, RunPod y Lambda son los más usados porque aceptan tarjetas internacionales y tienen billing por segundo.
¿Cuándo se recupera la inversión del fine-tune versus usar API?
El break-even depende del volumen. Ejemplo concreto: fine-tune Llama 8B LoRA, costo de entrenamiento USD 10. Modelo deployado en 1× A10G en RunPod: USD 0,75/hora = USD 540/mes. API GPT-4o mini: USD 0,15/1M tokens output. Si procesás 50M tokens de output por mes: USD 7.500/mes en API vs USD 540 en hosting propio — break-even en días. Si solo procesás 1M tokens/mes: USD 150 en API vs USD 540 de hosting — no conviene el fine-tune. El volumen mínimo para justificar el hosting suele estar entre 5-10M tokens de output por mes.
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.