Negocios

Agente IA + MCP servers — costo mensual operativo🌎 Actualizado mayo de 2026

Q: ¿Cuánto cuesta un agente IA típico al mes?

**Para uso medio** (200-500 calls/día, 5-10k tokens/call), los costos rondan **USD 200-1.500/mes en LLM** + USD 30-150/mes en cómputo y storage. Para uso pesado (miles de calls/día) puede escalar a **USD 5.000-20.000/mes**. Aplicar prompt caching reduce ~30-50% el LLM.

Q: ¿Por qué el input domina el costo de un agente?

Cada call al LLM carga: **system prompt** (1-3k tokens) + **descripciones de MCP tools** (2-10k tokens) + **history reciente** (1-5k tokens) + **outputs de tools del turn anterior** (1-10k tokens). El output (la respuesta del LLM) suele ser solo **200-1.000 tokens**. Por eso input ≈ 85-95% del total.

Q: ¿Qué es prompt caching y cuánto ahorra?

**Prompt caching** te permite cachear la parte estática del prompt (system + tools) en el lado del proveedor. Anthropic cobra el contenido cacheado a ~10% del precio normal en hits subsiguientes. Para un agente con system prompt de 10k tokens y 1.000 calls/día, **ahorra ~70-90% del costo de input**.

Q: ¿Cómo bajo el costo del LLM sin perder calidad?

1) **Caching agresivo**. 2) **Routing por complejidad**: Haiku/4o-mini para tareas simples, Sonnet/GPT-4o para razonamiento. 3) **Context pruning**: limpiá history antiguo. 4) **Tool selection dinámica**: no cargues 50 tools si vas a usar 5. 5) **Batch API** para tareas asíncronas (~50% off).

Q: ¿Cómo se diferencia MCP de OpenAI Function Calling?

**MCP** ([Model Context Protocol](https://modelcontextprotocol.io)) es un protocolo abierto creado por Anthropic en 2024 que cualquier LLM puede consumir. **Function calling** de OpenAI es propietario de su API. MCP separa el agent (consumer) del tool provider (server), permitiendo reutilizar el mismo MCP server en Claude, Cursor, OpenAI, Gemini sin cambios.

Q: ¿Cuántos tokens consume mi agente por sesión?

Depende de tools y profundidad. Estimación típica: **agente simple** (1-3 tools, 1-3 calls): 5-15k tokens/sesión. **Agente medio** (5-15 tools, 5-10 calls): 30-100k tokens/sesión. **Agente complejo** (Devin-like, agent loop largo): 200k-2M tokens/sesión.

Q: ¿Self-hostear Llama 70B reemplaza a Claude/GPT en agentes?

**Para agentes simples, sí.** Para agentes complejos con tool-use anidado y razonamiento, los modelos **frontier** (Claude Sonnet/Opus, GPT-4o, Gemini Pro) son notablemente mejores en 2026 — especialmente en seguir instrucciones de tools y razonar pasos múltiples. Vale el extra costo si la tarea es crítica.

Q: ¿Cómo defiendo el costo del agente ante CFO?

Comparalo contra **horas humanas reemplazadas**. Un agente de soporte que resuelve 1.000 tickets/mes a USD 1.500/mes = **USD 1,50/ticket**. Un agente humano resuelve ~30 tickets/día a USD 4.000/mes = **~USD 6/ticket**. Si el agente IA logra 70-80% de tasa de resolución, el ROI es 4-5×.

Q: ¿Conviene hostear los MCP servers en Cloudflare Workers o en AWS Lambda?

**Cloudflare Workers** (USD 5-50/mes): mejor para MCP servers con lógica liviana, latencia baja global (edge), y cold start <5ms. Ideal para tools de búsqueda, parsing, transformaciones. **AWS Lambda** (USD 0-30/mes): conviene si necesitás Python/Node con librerías pesadas (pandas, numpy, OCR), integración nativa con servicios AWS, o runtimes específicos. Para agentes en producción con MCP servers heterogéneos, **mezcla**: Workers para tools rápidos, Lambda para los pesados. **Fly.io** es la tercera opción si necesitás Postgres + MCP juntos en una misma máquina.

Q: ¿Qué pasa con el rate limiting de los proveedores LLM?

**Anthropic Tier 1** (sin pagar adelanto): 5 RPM, 50K input tokens/min, 10K output. **Tier 4** ($400+ pagados): 4.000 RPM, 400K input. **OpenAI Tier 1**: 500 RPM. **Tier 5** ($1.000+): 10.000 RPM. Si tu agente hace burst (100 calls en 1 minuto para procesar una tarea), te van a 429-tear. Soluciones: **(1)** comprar crédito anticipado para subir tier, **(2)** implementar exponential backoff + queue interna (BullMQ, SQS), **(3)** sharding por API key, **(4)** batch API para tareas no urgentes (50% off en Anthropic).

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: Anthropic / OpenAI / Google pricing pages

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 28 may 2026

Calls al LLM por día ?

calls

Tokens promedio por call ?

tokens

Precio input por 1M tokens ?

USD/M

Precio output por 1M tokens ?

USD/M

% del total que es output ?

Cómputo MCP servers ?

USD/mes

Storage + vector DB ?

USD/mes

Reportar error

Un agente IA moderno (Claude con Skills, OpenAI Agents SDK, Cursor agents, Devin, Lindy) suele orquestar MCP servers (Model Context Protocol) para acceder a herramientas: file system, databases, APIs, browsing, scheduled jobs. El costo mensual se compone de tres bloques: (1) tokens del LLM (input + output, con la mayoría siendo input por el contexto cargado de cada herramienta), (2) cómputo de los MCP servers (Cloudflare Workers, AWS Lambda, EC2 chico, Fly.io) y (3) almacenamiento (vector DB, logs, file system del agente). Esta calculadora multiplica calls/día × tokens promedio × 30 para estimar tokens/mes, divide entre input y output usando un ratio configurable, suma cómputo y storage. Útil para presupuestar agentes en producción antes de pasarlo a CFO o Linkedin con cifras concretas.

Última revisión: 27 de mayo de 2026 Revisado por Martín Rodríguez Fuente: Anthropic — Pricing, OpenAI — API pricing, Google AI — Pricing, Model Context Protocol — docs 100% privado

Cuándo usar esta calculadora

Presupuestar un agente de soporte al cliente con MCP a Zendesk + DB + emails.
Estimar costo de un developer agent (Claude Code) usado N horas/día.
Comparar Claude Sonnet 4 vs GPT-4o para el mismo agente.
Decidir entre LLM premium con menos calls vs LLM barato con más calls.
Justificar a CFO el ROI de un agente que reemplaza N horas humanas.

Ejemplo: agente soporte 200 calls/día, 5k tokens/call con Claude Sonnet 4

Calls/mes: 200 × 30 = 6.000.
Tokens/mes: 6.000 × 5.000 = 30M tokens.
Output (10%): 3M output, 27M input.
Costo LLM (precios públicos abril 2026): 27 × USD 3 + 3 × USD 15 = USD 81 + USD 45 = USD 126/mes.
MCP cómputo: USD 30. Storage: USD 20.
Total: ~USD 176/mes.

Resultado: Verificá pricing actual. Si los volúmenes suben 10×, total ~USD 1.500-2.000/mes.

Casos resueltos

Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.

Caso 1: Agente de soporte SaaS B2B reemplazando 2 agentes humanos

Startup SaaS con 3.000 clientes pago. Equipo de soporte actual: 2 personas a $4.000/mes c/u = $8.000. Volumen: 800 tickets/mes, tiempo promedio resolución 18 min. Plan: agente Claude Sonnet 4 con MCP a Zendesk + Postgres + Stripe + Intercom.

Calls al LLM por mes: 800 tickets × 8 calls promedio (clarification, search, draft, validate) = 6.400 calls/mes
Tokens por call: 6.000 (system 3K + tools schema 1.5K + context 1K + output 0.5K)
Tokens totales: 6.400 × 6.000 = 38,4M tokens/mes
Distribución: 92% input (35,3M) + 8% output (3,1M)
Costo LLM Claude Sonnet 4: (35,3 × $3 + 3,1 × $15) / 1M = $152/mes
Con prompt caching activo en system + tools (10K cacheables): -60% input → $70/mes
MCP servers en Cloudflare Workers (4 servers): $25/mes
Storage: Postgres Neon $20 + logs Logtail $15 + vector DB Qdrant Cloud $30 = $65/mes
Total operativo agente: $160/mes (con caching)
Sin agente: $8.000/mes en personal. Con agente resolviendo 75% de tickets y humano para 25%: $8.000 × 0,25 + $160 = $2.160/mes
Ahorro neto mensual: $5.840 (73% reducción)

Resultado: El agente cuesta $160/mes y permite achicar el equipo de soporte a 0,5 FTE manteniendo SLA. Payback de la implementación inicial (~$15.000 en setup): 2,5 meses. ROI anual: $70.000+ con calidad equiparable o superior (consistencia 24/7, multi-idioma sin contratar nativos). Si el volumen escala a 2.000 tickets/mes, el costo del agente solo sube a $400/mes (ratio lineal), mientras que el equipo humano necesitaría 4 FTE adicionales ($16.000 extra).

Cómo funciona

3 min de lectura

Anatomía del costo de un agente IA

Costo total = LLM tokens + Cómputo MCP + Storage
LLM tokens = (input × precio_input + output × precio_output) / 1.000.000

En agentes con muchas tools (MCP) el input domina porque cada call carga: system prompt + descripciones de tools + conversación previa + outputs de tools recientes. El output suele ser 5-15% del total.

Precios LLM (referencias públicas abril 2026)

Verificá siempre el pricing oficial vigente — los precios cambian.

Modelo	Input USD/M	Output USD/M	Mejor para
Claude Sonnet 4	~USD 3	~USD 15	balance, mainstream agents
Claude Haiku 4	~USD 0,80	~USD 4	volumen, agentes simples
Claude Opus 4	~USD 15	~USD 75	razonamiento crítico
GPT-4o	~USD 2,50	~USD 10	balance, OpenAI ecosystem
GPT-4o-mini	~USD 0,15	~USD 0,60	volumen barato
Gemini 1.5 Pro	~USD 1,25	~USD 5	contexto largo (1-2M)
Llama 70B self-host	~USD 0,15 (input/output combinado)	–	privacidad, escala

Optimizaciones que bajan el costo 30-70%

1. Prompt caching: Anthropic ofrece prompt caching que reduce input ~90% en lo cacheado. Si tu agente tiene system prompt + tools fijos (que es siempre), aplicá caching.
2. Context pruning: limpiá history antiguo, resumí conversaciones largas.
3. Tool selection dinámica: no cargues 50 tools si solo usás 5 en este flujo.
4. Modelo barato para tareas simples: routing entre Haiku/4o-mini/Sonnet según complejidad.
5. Batch processing: para tareas asíncronas (Anthropic batch API ofrece ~50% off).

Cómputo MCP servers

Setup	Costo mensual
Cloudflare Workers (free tier)	USD 0-5
Cloudflare Workers Paid	USD 5-50
AWS Lambda	USD 0-30 (free tier generoso)
Fly.io machine 1 vCPU	USD 5-15
EC2 t3.small 24/7	~USD 15
EC2 t3.medium 24/7	~USD 30
DO droplet 2GB	USD 12

Storage típico de un agente

Componente	Costo mensual
Logs estructurados (CloudWatch / Logtail)	USD 5-30
Vector DB (Pinecone Serverless / Qdrant)	USD 10-200
File storage (S3 / R2)	USD 1-20
Postgres managed (Neon / Supabase)	USD 0-50

Disclaimer educativo IA

Sobre el uso de IA en producción:

Los modelos pueden alucinar. Diseñá guardrails y validaciones humanas para tareas críticas.

Los precios y capacidades cambian frecuentemente.

Esta calculadora es una estimación, no contrato. Para presupuestos reales pedí cotización al proveedor.

Las cifras de pricing son referenciales a abril 2026 — siempre verificá la página oficial vigente:

- Anthropic pricing
- OpenAI pricing
- Google AI pricing

Cuándo el costo se va de las manos

No usar caching: pagás 10× input innecesariamente.

History sin podar: cada call carga 20k tokens de chat viejo.

MCP tools sobrecargadas: 100 tools cargadas en system prompt = USD 1.000+ extra/mes.

Loops infinitos del agente: bug del agent loop quema USD 100 en una hora.

Sin guardrails de costo: definí budget alerts y rate limits per-user.

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Cifras de pricing referenciadas contra páginas oficiales de Anthropic, OpenAI y Google a abril 2026. Verificá siempre los precios vigentes antes de comprometer presupuesto.

Preguntas frecuentes

¿Cuánto cuesta un agente IA típico al mes?

Para uso medio (200-500 calls/día, 5-10k tokens/call), los costos rondan USD 200-1.500/mes en LLM + USD 30-150/mes en cómputo y storage. Para uso pesado (miles de calls/día) puede escalar a USD 5.000-20.000/mes. Aplicar prompt caching reduce ~30-50% el LLM.

¿Por qué el input domina el costo de un agente?

Cada call al LLM carga: system prompt (1-3k tokens) + descripciones de MCP tools (2-10k tokens) + history reciente (1-5k tokens) + outputs de tools del turn anterior (1-10k tokens). El output (la respuesta del LLM) suele ser solo 200-1.000 tokens. Por eso input ≈ 85-95% del total.

¿Qué es prompt caching y cuánto ahorra?

Prompt caching te permite cachear la parte estática del prompt (system + tools) en el lado del proveedor. Anthropic cobra el contenido cacheado a ~10% del precio normal en hits subsiguientes. Para un agente con system prompt de 10k tokens y 1.000 calls/día, ahorra ~70-90% del costo de input.

¿Cómo bajo el costo del LLM sin perder calidad?

1) Caching agresivo. 2) Routing por complejidad: Haiku/4o-mini para tareas simples, Sonnet/GPT-4o para razonamiento. 3) Context pruning: limpiá history antiguo. 4) Tool selection dinámica: no cargues 50 tools si vas a usar 5. 5) Batch API para tareas asíncronas (~50% off).

¿Cómo se diferencia MCP de OpenAI Function Calling?

MCP (Model Context Protocol) es un protocolo abierto creado por Anthropic en 2024 que cualquier LLM puede consumir. Function calling de OpenAI es propietario de su API. MCP separa el agent (consumer) del tool provider (server), permitiendo reutilizar el mismo MCP server en Claude, Cursor, OpenAI, Gemini sin cambios.

¿Cuántos tokens consume mi agente por sesión?

Depende de tools y profundidad. Estimación típica: agente simple (1-3 tools, 1-3 calls): 5-15k tokens/sesión. Agente medio (5-15 tools, 5-10 calls): 30-100k tokens/sesión. Agente complejo (Devin-like, agent loop largo): 200k-2M tokens/sesión.

¿Self-hostear Llama 70B reemplaza a Claude/GPT en agentes?

Para agentes simples, sí. Para agentes complejos con tool-use anidado y razonamiento, los modelos frontier (Claude Sonnet/Opus, GPT-4o, Gemini Pro) son notablemente mejores en 2026 — especialmente en seguir instrucciones de tools y razonar pasos múltiples. Vale el extra costo si la tarea es crítica.

¿Cómo defiendo el costo del agente ante CFO?

Comparalo contra horas humanas reemplazadas. Un agente de soporte que resuelve 1.000 tickets/mes a USD 1.500/mes = USD 1,50/ticket. Un agente humano resuelve ~30 tickets/día a USD 4.000/mes = ~USD 6/ticket. Si el agente IA logra 70-80% de tasa de resolución, el ROI es 4-5×.

¿Conviene hostear los MCP servers en Cloudflare Workers o en AWS Lambda?

Cloudflare Workers (USD 5-50/mes): mejor para MCP servers con lógica liviana, latencia baja global (edge), y cold start <5ms. Ideal para tools de búsqueda, parsing, transformaciones. AWS Lambda (USD 0-30/mes): conviene si necesitás Python/Node con librerías pesadas (pandas, numpy, OCR), integración nativa con servicios AWS, o runtimes específicos. Para agentes en producción con MCP servers heterogéneos, mezcla: Workers para tools rápidos, Lambda para los pesados. Fly.io es la tercera opción si necesitás Postgres + MCP juntos en una misma máquina.

¿Qué pasa con el rate limiting de los proveedores LLM?

Anthropic Tier 1 (sin pagar adelanto): 5 RPM, 50K input tokens/min, 10K output. Tier 4 ($400+ pagados): 4.000 RPM, 400K input. OpenAI Tier 1: 500 RPM. Tier 5 ($1.000+): 10.000 RPM. Si tu agente hace burst (100 calls en 1 minuto para procesar una tarea), te van a 429-tear. Soluciones: (1) comprar crédito anticipado para subir tier, (2) implementar exponential backoff + queue interna (BullMQ, SQS), (3) sharding por API key, (4) batch API para tareas no urgentes (50% off en Anthropic).

¿Cómo monitoreo el costo en tiempo real para evitar sustos?

Anthropic Console muestra spend diario con 1-2 días de delay. OpenAI Dashboard idem. Para tiempo real: (1) instrumentá tu código con OpenTelemetry + agregar tokens al span (Datadog, Honeycomb, Grafana). (2) Usá Helicone (proxy LLM) o LangSmith que loggean cada call con costo computado. (3) Implementá un budget guard: middleware que revisa spend acumulado diario y corta calls al alcanzar el cap (ej. USD 50/día), evitando que un bug del agent loop queme USD 5.000 en una noche.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 27 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Inferencia LLM — throughput y costo por 1M tokens ⚡ Calculá throughput esperado y costo por 1M tokens al servir LLM (Llama 70B, Mistral, Qwen) según GPU, batch size y tokens promedio por request. Vector database — costo mensual según vectores, dimensión y QPS 📦 Calculá el costo mensual de Pinecone, Weaviate Cloud, Qdrant o pgvector según cantidad de vectores (M), dimensión del embedding (768/1536/3072) y QPS de… Claude Code — gasto mensual estimado para developer 💻 Calculá tu gasto mensual real en Claude Code: horas de uso, tokens/hora, modelo (Sonnet/Opus/Haiku) y ahorro por prompt caching.