Agente IA en Loop: Estimá tu Presupuesto de Tokens🌎 Actualizado mayo de 2026
Cuando un agente autónomo entra en loop, el costo en tokens se dispara de forma no lineal: cada iteración acumula contexto, cada tool call agrega tokens de resultado, y los retries por error multiplican el consumo. Esta calculadora te da una estimación realista del presupuesto mensual antes de que la factura te sorprenda.
Cuándo usar esta calculadora
- Estimar costo mensual de un agente de investigación que hace múltiples búsquedas web por consulta
- Presupuestar un agente de coding que itera sobre tests y correcciones en CI/CD
- Calcular el impacto de retries automáticos en un agente de scraping con alta tasa de errores
- Comparar costos entre modelos (GPT-4o vs Claude 3.5 vs Gemini 1.5 Pro) para el mismo agente
- Dimensionar límites de rate y budget alerts antes de un despliegue en producción
- Detectar si un agente en loop infinito puede agotar el crédito mensual en horas
Casos resueltos
Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.
Caso 1: Agente de research diario con 200 runs/mes en Claude 3.5 Sonnet
Equipo de growth marketing despliega agente autónomo que cada mañana scrapea 5 fuentes, sintetiza tendencias y manda Slack al CMO. 200 runs/mes (40/día laboral × 5 días/semana × 4 semanas).
- Tool calls por run: 25 (5 fuentes × 5 acciones promedio = scrape, parse, extract, validate, summarize)
- Tokens por tool call: 800 (resultados de scrape + parsing)
- Context base: 4000 tokens (system prompt + schema de tools + descripción tarea)
- Iteraciones de loop: 4 (explore → analyze → cross-check → synthesize)
- Factor de crecimiento: 1,4 (Claude resume parcialmente con XML tags)
- Error rate: 15% (scraping a sitios externos)
- Retries: 2
- Tokens por run sin errores: 4000 × (1,4¹+1,4²+1,4³+1,4⁴) + (25 × 800) = 4000 × 11,2 + 20.000 = 64.800 tokens
- Con retries (15% × 2 = 30% overhead): 64.800 × 1,3 = 84.240 tokens/run
- Tokens mensuales: 84.240 × 200 = 16,8M tokens/mes
- Costo Claude 3.5 Sonnet (70% input, 30% output): (11,8M × $3 + 5,0M × $15) / 1M = $110/mes
- Con prompt caching activado en system prompt: $110 × 0,55 = ~$60/mes (ahorro 45%)
Cómo funciona
2 min de lecturaCómo se calcula
Un agente autónomo en loop no consume tokens de forma lineal: el contexto crece en cada iteración porque acumula historial de acciones y resultados previos. El modelo recibe en cada paso el contexto completo (o una versión resumida), lo que multiplica el consumo real.
Variables principales
Fórmula
// Contexto acumulado en iteración k (crecimiento geométrico):
ctx_k = context_base × growth_factor^k
// Tokens tool calls en iteración k (distribuidas uniformemente):
tool_tokens_k = (tool_calls_per_run / loop_iterations) × tokens_per_tool_call
// Tokens totales por run (suma sobre todas las iteraciones):
tokens_run = Σ(k=1..N) [ ctx_k + tool_tokens_k ]
// Tokens extra por retries:
retry_tokens = tokens_run × error_rate × retries_per_error
// Tokens por run con errores:
tokens_run_total = tokens_run + retry_tokens
// Tokens por mes:
tokens_month = tokens_run_total × runs_per_month
// Costo (separando input/output por ratio):
input_tokens = tokens_month × input_ratio
output_tokens = tokens_month × (1 - input_ratio)
costo_mensual = (input_tokens × price_input + output_tokens × price_output) / 1_000_000Ejemplo numérico
Agente de investigación con:
| Iteración | Contexto (tokens) | Tool tokens | Subtotal |
|---|---|---|---|
| 1 | 3 000 | 8 333 | 11 333 |
| 2 | 4 500 | 8 333 | 12 833 |
| 3 | 6 750 | 8 334 | 15 084 |
| Total run | — | — | 39 250 |
Retry tokens: 39 250 × 0.10 × 2 = 7 850 → total 47 100 tokens/run
Mensual: 47 100 × 500 = 23 550 000 tokens ≈ USD 84 con GPT-4o (70% input / 30% output).
Limitaciones
Preguntas frecuentes
¿Qué es el factor de crecimiento de contexto?
Representa cuánto crece el contexto acumulado en cada iteración del loop. Un factor de 1.5 significa que en cada vuelta el contexto es 50% mayor al de la vuelta anterior, porque el agente agrega el historial de acciones y resultados previos al prompt.
¿Por qué los tokens no crecen de forma lineal en un agente en loop?
Porque la mayoría de los frameworks de agentes (LangChain, AutoGen, CrewAI) concatenan el historial completo de mensajes en cada llamada al LLM. Así, la iteración 3 incluye los resultados de las iteraciones 1 y 2, generando un crecimiento geométrico del contexto.
¿Cómo puedo reducir el consumo de tokens en un agente con muchas iteraciones?
Las estrategias principales son: (1) resumir el historial de acciones pasadas en lugar de concatenarlo completo, (2) usar modelos más baratos para pasos intermedios y reservar el modelo premium para la decisión final, (3) limitar el número máximo de iteraciones con un budget check explícito.
¿Qué proporción input/output debo usar?
Para agentes con tool calls, lo típico es 65-75% input y 25-35% output, porque la mayor parte del volumen son los prompts con historial y resultados de herramientas. Si el agente genera documentos largos, la proporción de output sube.
¿Los precios de los modelos son los actuales?
Los precios cargados corresponden a la estructura de precios publicada por OpenAI, Anthropic y Google en 2025-2026. Los precios de LLMs cambian con frecuencia; siempre verificar en la consola o pricing page oficial del proveedor antes de tomar decisiones de presupuesto.
¿Qué ocurre si el agente entra en loop infinito?
Con un factor de crecimiento de 1.5 y sin límite de iteraciones, el contexto puede superar la context window del modelo (128K-1M tokens según el modelo) en pocas iteraciones, generando errores de truncado o costos extremos. Se recomienda siempre implementar un máximo de iteraciones y un budget cap en USD.
¿Cómo afectan los retries al costo total?
Con un 10% de error rate y 2 retries, el overhead es del 20% sobre el costo base. Pero si la tasa de errores sube al 30% con 3 retries, el overhead llega al 90%. En agentes con herramientas externas poco confiables (scraping, APIs de terceros), los retries pueden ser el mayor driver de costo.
¿Esta calculadora sirve para agentes multi-agente (orquestador + subagentes)?
Sirve para estimar cada agente de forma individual. Para un sistema multi-agente, calculá cada nodo por separado y sumá los costos. El orquestador suele tener más iteraciones y contexto, mientras que los subagentes tienen runs más cortos pero en mayor volumen.
¿Cómo interpreto 'tool calls distribuidas uniformemente entre iteraciones'?
La calculadora asume que las tool calls se reparten por igual entre las iteraciones de loop. En la práctica, las primeras iteraciones suelen tener más tool calls (fase de exploración). Para una estimación más conservadora, podés aumentar el factor de crecimiento de contexto.
¿Cómo aprovecho prompt caching para bajar el costo?
Anthropic Claude ofrece prompt caching (ahorra 90% en tokens repetidos del contexto). Si tu agente reusa el mismo system prompt + tools schema en cada iteración (típico), activá el cache y bajás el costo input a USD 0.30/1M (vs USD 3.00 base). OpenAI implementó cached input desde GPT-4o (50% off automático para prompts >1024 tokens repetidos). Para agentes de alto volumen con context base grande (5K-20K tokens), el ahorro puede ser del 40-60% del costo mensual total.
¿Qué frameworks de agentes son los más eficientes en tokens?
Anthropic Claude Agent SDK y OpenAI Assistants API son los más eficientes porque manejan contexto nativamente con caching automático. LangChain y LlamaIndex son flexibles pero tienden a duplicar contexto si no configurás bien el memory manager. CrewAI y AutoGen para multi-agent suelen consumir 2-3x más tokens que single-agent equivalente por el overhead de comunicación entre agentes. Para producción a escala, mediremos cost-per-task end-to-end, no por framework.
¿Cuándo conviene un modelo small (mini/haiku/flash) vs uno premium?
Modelo small (Haiku, GPT-4o mini, Flash): routing, clasificación, extracción de entidades, formato JSON, tool call dispatching, retries. Cuesta 10-40x menos. Modelo premium (Sonnet, GPT-4o, Pro): razonamiento multi-step, planning, código complejo, decisiones finales. Una arquitectura híbrida (small para 80% de los pasos, premium para 20% críticos) suele bajar el costo 60-80% sin perder calidad. Tested en agentes de Anthropic: Sonnet + Haiku como router = 35% del costo vs Sonnet puro.
Fuentes y referencias
- OpenAI API Pricing — OpenAI (2026)
- Anthropic Claude Pricing — Anthropic (2026)
- Google Gemini API Pricing — Google DeepMind (2026)
- LLM Agent Token Consumption Patterns — LangChain Docs — LangChain (2026)
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 27 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.