Calculadora de costo mensual: agente IA con MCP servers🌎
Actualizado junio de 2026Ver cálculo paso a paso
Un agente IA moderno (Claude con Skills, OpenAI Agents SDK, Cursor agents, Devin, Lindy) suele orquestar MCP servers (Model Context Protocol) para acceder a herramientas: file system, databases, APIs, browsing, scheduled jobs. El costo mensual se compone de tres bloques: (1) tokens del LLM (input + output, con la mayoría siendo input por el contexto cargado de cada herramienta), (2) cómputo de los MCP servers (Cloudflare Workers, AWS Lambda, EC2 chico, Fly.io) y (3) almacenamiento (vector DB, logs, file system del agente). Esta calculadora multiplica calls/día × tokens promedio × 30 para estimar tokens/mes, divide entre input y output usando un ratio configurable, suma cómputo y storage. Útil para presupuestar agentes en producción antes de pasarlo a CFO o LinkedIn con cifras concretas.
Cuándo usar esta calculadora
- Presupuestar un agente de soporte al cliente con MCP a Zendesk + DB + emails.
- Estimar costo de un developer agent (Claude Code) usado N horas/día.
- Comparar Claude Sonnet 4 vs GPT-4o para el mismo agente.
- Decidir entre LLM premium con menos calls vs LLM barato con más calls.
- Justificar a CFO el ROI de un agente que reemplaza N horas humanas.
Ejemplo: agente soporte 200 calls/día, 5k tokens/call con Claude Sonnet 4
- Calls/mes: 200 × 30 = 6.000.
- Tokens/mes: 6.000 × 5.000 = 30M tokens.
- Output (10%): 3M output, 27M input.
- Costo LLM (precios públicos abril 2026): 27 × USD 3 + 3 × USD 15 = USD 81 + USD 45 = USD 126/mes.
- MCP cómputo: USD 30. Storage: USD 20.
- Total: ~USD 176/mes.
Casos resueltos
Ejemplos numéricos completos con datos reales para que valides cómo funciona la calculadora.
Caso 1: Agente de soporte SaaS B2B reemplazando 2 agentes humanos
Startup SaaS con 3.000 clientes pago. Equipo de soporte actual: 2 personas a $4.000/mes c/u = $8.000. Volumen: 800 tickets/mes, tiempo promedio resolución 18 min. Plan: agente Claude Sonnet 4 con MCP a Zendesk + Postgres + Stripe + Intercom.
- Calls al LLM por mes: 800 tickets × 8 calls promedio (clarification, search, draft, validate) = 6.400 calls/mes
- Tokens por call: 6.000 (system 3K + tools schema 1.5K + context 1K + output 0.5K)
- Tokens totales: 6.400 × 6.000 = 38,4M tokens/mes
- Distribución: 92% input (35,3M) + 8% output (3,1M)
- Costo LLM Claude Sonnet 4: (35,3 × $3 + 3,1 × $15) / 1M = $152/mes
- Con prompt caching activo en system + tools (10K cacheables): -60% input → $70/mes
- MCP servers en Cloudflare Workers (4 servers): $25/mes
- Storage: Postgres Neon $20 + logs Logtail $15 + vector DB Qdrant Cloud $30 = $65/mes
- Total operativo agente: $160/mes (con caching)
- Sin agente: $8.000/mes en personal. Con agente resolviendo 75% de tickets y humano para 25%: $8.000 × 0,25 + $160 = $2.160/mes
- Ahorro neto mensual: $5.840 (73% reducción)
Cómo funciona
4 min de lectura¿Cuánto cuesta un agente IA con MCP servers?
El costo mensual total se calcula así:
Costo total = LLM tokens + Cómputo MCP + Storage
LLM tokens = (tokens_input × precio_input + tokens_output × precio_output) / 1.000.000
tokens_input = tokens_totales × (1 − ratio_output)
tokens_totales = calls_día × 30 × tokens_por_callEn agentes con muchas tools (MCP) el input domina porque cada call carga: system prompt + descripciones de tools + conversación previa + outputs de tools recientes. El output suele ser 5–15% del total.
Tabla de costo mensual estimado por escala y modelo (sin caching)
| Escala | Calls/día | Tokens/call | Claude Sonnet 4 | GPT-4o | Haiku 4 |
|---|---|---|---|---|---|
| Prototipo | 20 | 3.000 | ~USD 12 | ~USD 10 | ~USD 3 |
| Producción chica | 100 | 5.000 | ~USD 63 | ~USD 52 | ~USD 13 |
| Producción media | 500 | 7.000 | ~USD 441 | ~USD 363 | ~USD 92 |
| Producción grande | 2.000 | 10.000 | ~USD 2.520 | ~USD 2.075 | ~USD 525 |
| Enterprise | 10.000 | 10.000 | ~USD 12.600 | ~USD 10.375 | ~USD 2.625 |
Asume 10% output, sin caching. Con prompt caching en la parte estática, bajá 60–80% el LLM.
Precios LLM (referencias públicas abril 2026)
Verificá siempre el pricing oficial vigente — los precios cambian.
| Modelo | Input USD/M | Output USD/M | Mejor para |
|---|---|---|---|
| Claude Sonnet 4 | ~USD 3 | ~USD 15 | balance, mainstream agents |
| Claude Haiku 4 | ~USD 0,80 | ~USD 4 | volumen, agentes simples |
| Claude Opus 4 | ~USD 15 | ~USD 75 | razonamiento crítico |
| GPT-4o | ~USD 2,50 | ~USD 10 | balance, OpenAI ecosystem |
| GPT-4o-mini | ~USD 0,15 | ~USD 0,60 | volumen barato |
| Gemini 1.5 Pro | ~USD 1,25 | ~USD 5 | contexto largo (1–2M) |
| Llama 70B self-host | ~USD 0,15 (combinado) | – | privacidad, escala |
Optimizaciones que bajan el costo 30–70%
1. Prompt caching: Anthropic ofrece prompt caching que reduce input ~90% en lo cacheado. Si tu agente tiene system prompt + tools fijos (que es siempre), aplicá caching.
2. Context pruning: limpiá history antiguo, resumí conversaciones largas.
3. Tool selection dinámica: no cargues 50 tools si solo usás 5 en este flujo.
4. Modelo barato para tareas simples: routing entre Haiku/4o-mini/Sonnet según complejidad.
5. Batch processing: para tareas asíncronas (Anthropic batch API ofrece ~50% off).
Cómputo MCP servers
| Setup | Costo mensual |
|---|---|
| Cloudflare Workers (free tier) | USD 0–5 |
| Cloudflare Workers Paid | USD 5–50 |
| AWS Lambda | USD 0–30 (free tier generoso) |
| Fly.io machine 1 vCPU | USD 5–15 |
| EC2 t3.small 24/7 | ~USD 15 |
| EC2 t3.medium 24/7 | ~USD 30 |
| DO droplet 2GB | USD 12 |
Storage típico de un agente
| Componente | Costo mensual |
|---|---|
| Logs estructurados (CloudWatch / Logtail) | USD 5–30 |
| Vector DB (Pinecone Serverless / Qdrant) | USD 10–200 |
| File storage (S3 / R2) | USD 1–20 |
| Postgres managed (Neon / Supabase) | USD 0–50 |
Disclaimer educativo IA
Sobre el uso de IA en producción:
- Anthropic pricing
- OpenAI pricing
- Google AI pricing
Cuándo el costo se va de las manos
Revisión editorial
Revisado por el equipo editorial de Hacé Cuentas. Cifras de pricing referenciadas contra páginas oficiales de Anthropic, OpenAI y Google a abril 2026. Verificá siempre los precios vigentes antes de comprometer presupuesto.
Preguntas frecuentes
¿Cuánto cuesta un agente IA típico al mes?
Para uso medio (200–500 calls/día, 5–10k tokens/call), los costos rondan USD 200–1.500/mes en LLM + USD 30–150/mes en cómputo y storage. Para uso pesado (miles de calls/día) puede escalar a USD 5.000–20.000/mes. Aplicar prompt caching reduce ~30–50% el LLM.
¿Por qué el input domina el costo de un agente IA?
Cada call al LLM carga: system prompt (1–3k tokens) + descripciones de MCP tools (2–10k tokens) + history reciente (1–5k tokens) + outputs de tools del turn anterior (1–10k tokens). El output (la respuesta del LLM) suele ser solo 200–1.000 tokens. Por eso input ≈ 85–95% del total.
¿Qué es prompt caching y cuánto ahorra en un agente?
Prompt caching te permite cachear la parte estática del prompt (system + tools) en el lado del proveedor. Anthropic cobra el contenido cacheado a ~10% del precio normal en hits subsiguientes. Para un agente con system prompt de 10k tokens y 1.000 calls/día, ahorra ~70–90% del costo de input.
¿Cómo bajo el costo del LLM sin perder calidad?
1) Caching agresivo. 2) Routing por complejidad: Haiku/4o-mini para tareas simples, Sonnet/GPT-4o para razonamiento. 3) Context pruning: limpiá history antiguo. 4) Tool selection dinámica: no cargues 50 tools si vas a usar 5. 5) Batch API para tareas asíncronas (~50% off).
¿Cómo se diferencia MCP de OpenAI Function Calling?
MCP (Model Context Protocol) es un protocolo abierto creado por Anthropic en 2024 que cualquier LLM puede consumir. Function calling de OpenAI es propietario de su API. MCP separa el agent (consumer) del tool provider (server), permitiendo reutilizar el mismo MCP server en Claude, Cursor, OpenAI, Gemini sin cambios.
¿Cuántos tokens consume mi agente por sesión?
Depende de tools y profundidad. Estimación típica: agente simple (1–3 tools, 1–3 calls): 5–15k tokens/sesión. Agente medio (5–15 tools, 5–10 calls): 30–100k tokens/sesión. Agente complejo (Devin-like, agent loop largo): 200k–2M tokens/sesión.
¿Self-hostear Llama 70B reemplaza a Claude/GPT en agentes?
Para agentes simples, sí. Para agentes complejos con tool-use anidado y razonamiento, los modelos frontier (Claude Sonnet/Opus, GPT-4o, Gemini Pro) son notablemente mejores en 2026 — especialmente en seguir instrucciones de tools y razonar pasos múltiples. Vale el extra costo si la tarea es crítica.
¿Cómo defiendo el costo del agente ante el CFO?
Comparalo contra horas humanas reemplazadas. Un agente de soporte que resuelve 1.000 tickets/mes a USD 1.500/mes = USD 1,50/ticket. Un agente humano resuelve ~30 tickets/día a USD 4.000/mes = ~USD 6/ticket. Si el agente IA logra 70–80% de tasa de resolución, el ROI es 4–5×.
¿Conviene hostear los MCP servers en Cloudflare Workers o en AWS Lambda?
Cloudflare Workers (USD 5–50/mes): mejor para MCP servers con lógica liviana, latencia baja global (edge), y cold start <5ms. Ideal para tools de búsqueda, parsing, transformaciones. AWS Lambda (USD 0–30/mes): conviene si necesitás Python/Node con librerías pesadas (pandas, numpy, OCR), integración nativa con servicios AWS, o runtimes específicos. Para agentes en producción con MCP servers heterogéneos, mezcla: Workers para tools rápidos, Lambda para los pesados.
¿Qué pasa con el rate limiting de los proveedores LLM?
Anthropic Tier 1 (sin pagar adelanto): 5 RPM, 50K input tokens/min, 10K output. Tier 4 ($400+ pagados): 4.000 RPM, 400K input. OpenAI Tier 1: 500 RPM. Tier 5 ($1.000+): 10.000 RPM. Si tu agente hace burst, te van a 429. Soluciones: comprar crédito anticipado para subir tier, implementar exponential backoff + queue interna (BullMQ, SQS), sharding por API key, o batch API para tareas no urgentes (50% off en Anthropic).
¿Cómo monitoreo el costo en tiempo real para evitar sustos?
Anthropic Console muestra spend diario con 1–2 días de delay. Para tiempo real: (1) instrumentá tu código con OpenTelemetry + agregar tokens al span. (2) Usá Helicone (proxy LLM) o LangSmith que loggean cada call con costo computado. (3) Implementá un budget guard: middleware que revisa spend acumulado diario y corta calls al alcanzar el cap (ej. USD 50/día), evitando que un bug del agent loop queme USD 5.000 en una noche.
¿Qué es el Model Context Protocol (MCP) y para qué sirve?
MCP es un estándar abierto (creado por Anthropic, 2024) que permite a los agentes IA conectarse a herramientas externas de forma estandarizada: bases de datos, APIs, file systems, browsers, calendarios. Un MCP server expone tools que el agente puede invocar. Así el agente no necesita saber cómo conectarse a Postgres, Slack o Google Drive — solo llama a la tool correspondiente del MCP server.
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.