Tecnología

Agente IA en Loop: Estimá tu Presupuesto de Tokens🌎 Actualizado mayo de 2026

Q: ¿Cómo aprovecho prompt caching para bajar el costo?

**Anthropic Claude** ofrece prompt caching (ahorra 90% en tokens repetidos del contexto). Si tu agente reusa el mismo system prompt + tools schema en cada iteración (típico), activá el cache y bajás el costo input a USD 0.30/1M (vs USD 3.00 base). **OpenAI** implementó cached input desde GPT-4o (50% off automático para prompts >1024 tokens repetidos). Para agentes de alto volumen con context base grande (5K-20K tokens), el ahorro puede ser del **40-60% del costo mensual total**.

Calculadora Gratis · Privada

Datos actualizados: 27 abr 2026 · Fuente: OpenAI API Pricing

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 28 may 2026

Tool calls promedio por run

Tokens por tool call (input + output)

Tokens de contexto base (system prompt + tarea)

Iteraciones de loop por run

Factor de crecimiento de contexto por iteración

Tasa de errores con retry (%)

Retries por error

Runs por mes

Modelo LLM

Precio input (USD por 1M tokens) — solo modelo personalizado

Precio output (USD por 1M tokens) — solo modelo personalizado

Proporción tokens de input (%) vs output total

Reportar error

Cuando un agente autónomo entra en loop, el costo en tokens se dispara de forma no lineal: cada iteración acumula contexto, cada tool call agrega tokens de resultado, y los retries por error multiplican el consumo. Esta calculadora te da una estimación realista del presupuesto mensual antes de que la factura te sorprenda.

Última revisión: 27 de mayo de 2026 Revisado por Martín Rodríguez Fuente: OpenAI API Pricing, Anthropic Claude Pricing, Google Gemini API Pricing, LLM Agent Token Consumption Patterns — LangChain Docs 100% privado

Cuándo usar esta calculadora

Estimar costo mensual de un agente de investigación que hace múltiples búsquedas web por consulta
Presupuestar un agente de coding que itera sobre tests y correcciones en CI/CD
Calcular el impacto de retries automáticos en un agente de scraping con alta tasa de errores
Comparar costos entre modelos (GPT-4o vs Claude 3.5 vs Gemini 1.5 Pro) para el mismo agente
Dimensionar límites de rate y budget alerts antes de un despliegue en producción
Detectar si un agente en loop infinito puede agotar el crédito mensual en horas

Casos resueltos

Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.

Caso 1: Agente de research diario con 200 runs/mes en Claude 3.5 Sonnet

Equipo de growth marketing despliega agente autónomo que cada mañana scrapea 5 fuentes, sintetiza tendencias y manda Slack al CMO. 200 runs/mes (40/día laboral × 5 días/semana × 4 semanas).

Tool calls por run: 25 (5 fuentes × 5 acciones promedio = scrape, parse, extract, validate, summarize)
Tokens por tool call: 800 (resultados de scrape + parsing)
Context base: 4000 tokens (system prompt + schema de tools + descripción tarea)
Iteraciones de loop: 4 (explore → analyze → cross-check → synthesize)
Factor de crecimiento: 1,4 (Claude resume parcialmente con XML tags)
Error rate: 15% (scraping a sitios externos)
Retries: 2
Tokens por run sin errores: 4000 × (1,4¹+1,4²+1,4³+1,4⁴) + (25 × 800) = 4000 × 11,2 + 20.000 = 64.800 tokens
Con retries (15% × 2 = 30% overhead): 64.800 × 1,3 = 84.240 tokens/run
Tokens mensuales: 84.240 × 200 = 16,8M tokens/mes
Costo Claude 3.5 Sonnet (70% input, 30% output): (11,8M × $3 + 5,0M × $15) / 1M = $110/mes
Con prompt caching activado en system prompt: $110 × 0,55 = ~$60/mes (ahorro 45%)

Resultado: El agente operativo a $60-110/mes USD según uso de prompt caching, con presupuesto seguro de USD 150/mes considerando picos. Si moviera retries a Haiku (10x más barato), bajaría a $40-50/mes. Si lo escalara a 1000 runs/mes para 5 equipos distintos, mantendría ratio lineal: $300-550/mes, perfectamente sustentable con un budget alert a $400.

Cómo funciona

2 min de lectura

Cómo se calcula

Un agente autónomo en loop no consume tokens de forma lineal: el contexto crece en cada iteración porque acumula historial de acciones y resultados previos. El modelo recibe en cada paso el contexto completo (o una versión resumida), lo que multiplica el consumo real.

Variables principales

Tool calls por run: cuántas veces el agente llama a una herramienta (búsqueda, código, API, DB).

Tokens por tool call: tokens del resultado de la herramienta que se inyectan al contexto.

Contexto base: system prompt + descripción de la tarea original.

Iteraciones de loop: cuántas veces el agente evalúa su progreso y decide continuar.

Factor de crecimiento: en cada iteración el contexto acumulado se multiplica por este factor (1.0 = sin crecimiento, 1.5 = crece 50% por iteración).

Error rate + retries: porcentaje de tool calls que fallan y cuántas veces se reintentan.

Fórmula

// Contexto acumulado en iteración k (crecimiento geométrico):
ctx_k = context_base × growth_factor^k

// Tokens tool calls en iteración k (distribuidas uniformemente):
tool_tokens_k = (tool_calls_per_run / loop_iterations) × tokens_per_tool_call

// Tokens totales por run (suma sobre todas las iteraciones):
tokens_run = Σ(k=1..N) [ ctx_k + tool_tokens_k ]

// Tokens extra por retries:
retry_tokens = tokens_run × error_rate × retries_per_error

// Tokens por run con errores:
tokens_run_total = tokens_run + retry_tokens

// Tokens por mes:
tokens_month = tokens_run_total × runs_per_month

// Costo (separando input/output por ratio):
input_tokens = tokens_month × input_ratio
output_tokens = tokens_month × (1 - input_ratio)
costo_mensual = (input_tokens × price_input + output_tokens × price_output) / 1_000_000

Ejemplo numérico

Agente de investigación con:

50 tool calls, 500 tokens/call, contexto base 2000 tokens

3 iteraciones, factor de crecimiento 1.5

10% error rate, 2 retries, 500 runs/mes, GPT-4o

Iteración	Contexto (tokens)	Tool tokens	Subtotal
1	3 000	8 333	11 333
2	4 500	8 333	12 833
3	6 750	8 334	15 084
Total run	—	—	39 250

Retry tokens: 39 250 × 0.10 × 2 = 7 850 → total 47 100 tokens/run

Mensual: 47 100 × 500 = 23 550 000 tokens ≈ USD 84 con GPT-4o (70% input / 30% output).

Limitaciones

El factor de crecimiento de contexto es una aproximación geométrica. En la práctica los agentes con sliding window o resumen automático tienen crecimiento más lento.

Los precios de modelos cambian frecuentemente; verificar en la consola del proveedor antes de presupuestar.

No incluye costos de infraestructura (servidor de orquestación, herramientas externas con APIs pagas).

La tasa de errores varía mucho según la confiabilidad de las herramientas externas.

Preguntas frecuentes

¿Qué es el factor de crecimiento de contexto?

Representa cuánto crece el contexto acumulado en cada iteración del loop. Un factor de 1.5 significa que en cada vuelta el contexto es 50% mayor al de la vuelta anterior, porque el agente agrega el historial de acciones y resultados previos al prompt.

¿Por qué los tokens no crecen de forma lineal en un agente en loop?

Porque la mayoría de los frameworks de agentes (LangChain, AutoGen, CrewAI) concatenan el historial completo de mensajes en cada llamada al LLM. Así, la iteración 3 incluye los resultados de las iteraciones 1 y 2, generando un crecimiento geométrico del contexto.

¿Cómo puedo reducir el consumo de tokens en un agente con muchas iteraciones?

Las estrategias principales son: (1) resumir el historial de acciones pasadas en lugar de concatenarlo completo, (2) usar modelos más baratos para pasos intermedios y reservar el modelo premium para la decisión final, (3) limitar el número máximo de iteraciones con un budget check explícito.

¿Qué proporción input/output debo usar?

Para agentes con tool calls, lo típico es 65-75% input y 25-35% output, porque la mayor parte del volumen son los prompts con historial y resultados de herramientas. Si el agente genera documentos largos, la proporción de output sube.

¿Los precios de los modelos son los actuales?

Los precios cargados corresponden a la estructura de precios publicada por OpenAI, Anthropic y Google en 2025-2026. Los precios de LLMs cambian con frecuencia; siempre verificar en la consola o pricing page oficial del proveedor antes de tomar decisiones de presupuesto.

¿Qué ocurre si el agente entra en loop infinito?

Con un factor de crecimiento de 1.5 y sin límite de iteraciones, el contexto puede superar la context window del modelo (128K-1M tokens según el modelo) en pocas iteraciones, generando errores de truncado o costos extremos. Se recomienda siempre implementar un máximo de iteraciones y un budget cap en USD.

¿Cómo afectan los retries al costo total?

Con un 10% de error rate y 2 retries, el overhead es del 20% sobre el costo base. Pero si la tasa de errores sube al 30% con 3 retries, el overhead llega al 90%. En agentes con herramientas externas poco confiables (scraping, APIs de terceros), los retries pueden ser el mayor driver de costo.

¿Esta calculadora sirve para agentes multi-agente (orquestador + subagentes)?

Sirve para estimar cada agente de forma individual. Para un sistema multi-agente, calculá cada nodo por separado y sumá los costos. El orquestador suele tener más iteraciones y contexto, mientras que los subagentes tienen runs más cortos pero en mayor volumen.

¿Cómo interpreto 'tool calls distribuidas uniformemente entre iteraciones'?

La calculadora asume que las tool calls se reparten por igual entre las iteraciones de loop. En la práctica, las primeras iteraciones suelen tener más tool calls (fase de exploración). Para una estimación más conservadora, podés aumentar el factor de crecimiento de contexto.

¿Cómo aprovecho prompt caching para bajar el costo?

Anthropic Claude ofrece prompt caching (ahorra 90% en tokens repetidos del contexto). Si tu agente reusa el mismo system prompt + tools schema en cada iteración (típico), activá el cache y bajás el costo input a USD 0.30/1M (vs USD 3.00 base). OpenAI implementó cached input desde GPT-4o (50% off automático para prompts >1024 tokens repetidos). Para agentes de alto volumen con context base grande (5K-20K tokens), el ahorro puede ser del 40-60% del costo mensual total.

¿Qué frameworks de agentes son los más eficientes en tokens?

Anthropic Claude Agent SDK y OpenAI Assistants API son los más eficientes porque manejan contexto nativamente con caching automático. LangChain y LlamaIndex son flexibles pero tienden a duplicar contexto si no configurás bien el memory manager. CrewAI y AutoGen para multi-agent suelen consumir 2-3x más tokens que single-agent equivalente por el overhead de comunicación entre agentes. Para producción a escala, mediremos cost-per-task end-to-end, no por framework.

¿Cuándo conviene un modelo small (mini/haiku/flash) vs uno premium?

Modelo small (Haiku, GPT-4o mini, Flash): routing, clasificación, extracción de entidades, formato JSON, tool call dispatching, retries. Cuesta 10-40x menos. Modelo premium (Sonnet, GPT-4o, Pro): razonamiento multi-step, planning, código complejo, decisiones finales. Una arquitectura híbrida (small para 80% de los pasos, premium para 20% críticos) suele bajar el costo 60-80% sin perder calidad. Tested en agentes de Anthropic: Sonnet + Haiku como router = 35% del costo vs Sonnet puro.

Fuentes y referencias

OpenAI API Pricing — OpenAI (2026)
Anthropic Claude Pricing — Anthropic (2026)
Google Gemini API Pricing — Google DeepMind (2026)
LLM Agent Token Consumption Patterns — LangChain Docs — LangChain (2026)

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 27 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Calculadora de Costo Claude 3.7 con Prompt Caching Estimá el costo mensual de la API de Claude 3.7 con prompt caching activo. Calculá write 1.25x, read 0.1x y tokens variables para optimizar tu gasto en…

Cuándo usar esta calculadora

Casos resueltos

Caso 1: Agente de research diario con 200 runs/mes en Claude 3.5 Sonnet

Cómo funciona

Cómo se calcula

Variables principales

Fórmula

Ejemplo numérico

Limitaciones

Preguntas frecuentes

Fuentes y referencias

Metodología y confianza

También te puede interesar

Calculadoras relacionadas