Tecnología

Costo API LLM por tokens🇦🇷

Actualizado mayo de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: Anthropic API Pricing
Revisado por: (política editorial ) · Última revisión:

Arrancás a integrar una API de Claude, GPT-4o o Gemini en tu producto y en algún momento aparece la pregunta que nadie quiere ignorar: ¿cuánto me va a salir esto por mes? El problema es que el modelo de facturación por tokens no es intuitivo. No pagás por consulta ni por usuario: pagás por cada token que entra y cada token que sale, y esos dos valores tienen precios distintos, a veces muy distintos. El dato clave que la mayoría subestima: en español, 1 token equivale a apenas 0,5 palabras en promedio, contra 0,75 en inglés. Eso significa que si tu app habla en castellano, tus prompts y respuestas consumen entre 30% y 50% más tokens que el mismo texto en inglés. Un sistema de soporte con respuestas de 200 palabras en español puede estar mandando 400 tokens de output por llamada, no 150. Esta calculadora te permite proyectar el costo diario, mensual y anual en base a tu volumen real de llamadas, el tamaño de tus prompts y el precio del modelo que estás evaluando. Viene cargada con los precios vigentes de 2026 para Claude Sonnet 4, Claude Haiku 4, GPT-4o, GPT-4o-mini y Gemini 1.5 Pro, y te ayuda a comparar escenarios antes de comprometerte con una arquitectura. Lo que no te va a decir la documentación oficial de Anthropic u OpenAI es cuánto impacta la diferencia de idioma en tu caso concreto, o qué pasa cuando tu sistema prompt de 3.000 tokens se repite en cada llamada multiplicado por 50.000 usuarios. Eso es exactamente lo que esta calculadora te muestra con tus propios números.

Última revisión: 14 de mayo de 2026 Revisado por Fuente: Anthropic API Pricing, OpenAI Pricing 100% privado

Cuándo usar esta calculadora

  • Un developer argentino lanza un chatbot de soporte en español: 500 tokens in (system prompt + historial) y 200 tokens out por consulta, 3.000 llamadas/día con GPT-4o. El costo mensual ronda USD 150, viable para SaaS con plan pago.
  • Una agencia de marketing evalúa Claude Haiku 4 vs. Claude Sonnet 4 para generar copies: Haiku a USD 0,80/MTok in resulta 10x más barato que Sonnet para tareas simples de 300 tokens out.
  • Una startup de legaltech procesa contratos con RAG: 8.000 tokens in (documento + contexto) y 600 tokens out por análisis, 200 análisis/día. Con Gemini 1.5 Pro el costo mensual es USD 360 vs. USD 720 con GPT-4o.
  • Un equipo de data enrichment corre 50.000 clasificaciones diarias no interactivas: con Batch API de OpenAI al 50% de descuento, pagan USD 225/mes con GPT-4o-mini en lugar de USD 450.
  • Una app de e-learning con system prompt fijo de 12.000 tokens habilita prompt caching en Claude: el costo de input cae de USD 36 a USD 3,60 por cada 1.000 llamadas, ahorrando USD 970/mes a 30k calls diarias.
  • Un freelancer que factura en pesos evalúa viabilidad: USD 80/mes de API equivale a $120.000 ARS al tipo de cambio oficial de referencia (BCRA), que puede recuperar con tan solo 3 clientes en un proyecto de automatización.
  • Una empresa de RRHH usa GPT-4o para screening de CVs: 2.000 tokens in y 400 tokens out por CV, 1.500 CVs/día. El costo mensual es USD 285, y cambiar a GPT-4o-mini lo baja a USD 18,50 sin pérdida de precisión en clasificación básica.
  • Un equipo de DevOps proyecta el costo anual antes de presentar el budget: USD 200/mes con Claude Sonnet 4 se convierte en USD 2.400 anuales, lo que justifica priorizar prompt caching desde el día uno del desarrollo.

Ejemplo de cálculo

  1. 1000 in + 500 out × 1000 calls
  2. ~$30/día
Resultado: ~$30/día

Cómo funciona

2 min de lectura

Cómo se calcula

Costo por llamada = (tokens_in / 1M × precio_in) + (tokens_out / 1M × precio_out). Multiplicá por llamadas/día × 30 para el mensual.

1 token ≈ 4 caracteres en inglés, ~3 en español. Un prompt de 500 palabras ES ≈ 900-1.100 tokens. Una respuesta de 300 palabras ≈ 500-600 tokens.

Tabla de precios (USD por millón de tokens, 2026)

ModeloInputOutputCache read
Claude Opus 415.0075.001.50
Claude Sonnet 43.0015.000.30
Claude Haiku 40.804.000.08
GPT-4o2.5010.001.25
GPT-4o-mini0.150.600.075
Gemini 1.5 Pro1.255.000.3125
Gemini 1.5 Flash0.0750.300.01875

Batch API: típicamente 50% off. Prompt caching en Claude: 90% off en reads repetidos.

Casos típicos

  • Chatbot customer support con Claude Sonnet, 1.000 convos/día, 2.000 in + 500 out por convo: (2.000×3 + 500×15) / 1M × 1.000 × 30 = USD 405/mes.

  • Asistente RAG con Haiku, 10.000 queries/día, 5.000 in + 300 out: (5.000×0.8 + 300×4) / 1M × 10.000 × 30 = USD 1.560/mes.

  • GPT-4o-mini clasificador, 100.000 llamadas/día, 800 in + 100 out: (800×0.15 + 100×0.60) / 1M × 100k × 30 = USD 540/mes.

  • Con prompt caching (Claude Sonnet): mismo chatbot con 90% cache hit → USD 405 → ~USD 70/mes.
  • Errores comunes

  • Confundir tokens con palabras: "calculadora" son ~3 tokens en ES, no 1. Siempre usá tokenizer real (tiktoken para OpenAI, anthropic-tokenizer).

  • No contar system prompt: el system + history se recontabiliza en cada llamada. Si el system son 1.500 tokens, multiplicá por cada call.

  • Subestimar output en chat largo: cada turno manda todo el historial como input. Conversación de 10 turnos → último call manda 10x tokens.

  • Ignorar prompt caching: si repetís el mismo system prompt >1.000 veces/día, caching baja el input 90%. Ahorro enorme.

  • Pagar Opus para tareas simples: Haiku es 18x más barato y sobra para clasificación, extracción, resumen corto.
  • Calculadoras relacionadas

  • Comparador Claude vs Gemini por tokens

  • Tokens OpenAI GPT: costo de uso

  • Costo servidor cloud mensual
  • Preguntas frecuentes

    ¿Cómo se calcula exactamente el costo de una llamada a la API?

    La fórmula base es: Costo = (tokens_in × precio_in/1.000.000) + (tokens_out × precio_out/1.000.000). Los precios se publican por millón de tokens (MTok). Por ejemplo, una llamada a GPT-4o con 1.000 tokens in y 500 tokens out cuesta: (1.000 × 0,0000025) + (500 × 0,00001) = USD 0,0025 + USD 0,005 = USD 0,0075 por llamada. Si hacés 1.000 llamadas así por día, son USD 7,50 diarios y aprox. USD 225 mensuales. El multiplicador de llamadas diarias por 30 días da el costo mensual proyectado. Lo que muchos olvidan: el output casi siempre cuesta 4x o 5x más por token que el input, así que controlar el largo de la respuesta con max_tokens tiene impacto directo en la factura.

    ¿Cuáles son los precios actuales de los modelos más usados en 2026?

    Claude (Anthropic): Sonnet 4 USD 3/MTok in y USD 15/MTok out; Opus 4 USD 15/75; Haiku 4 USD 0,80/4. OpenAI: GPT-4o USD 2,50/10; GPT-4o-mini USD 0,15/0,60; o3-mini varía según nivel de razonamiento. Google: Gemini 1.5 Pro USD 1,25/5; Gemini Flash USD 0,075/0,30. Regla práctica: los modelos 'mini' o 'flash' son entre 10x y 30x más baratos que los flagship. Para tareas de clasificación, extracción simple o generación de texto estructurado, rara vez necesitás el modelo más caro. Los precios los fijan las propias empresas y pueden cambiar; siempre verificá en anthropic.com/pricing y openai.com/api/pricing antes de definir un budget.

    ¿Por qué en español gasto más tokens que en inglés?

    Los tokenizadores de todos los modelos grandes (GPT, Claude, Gemini) fueron entrenados con predominancia de texto en inglés. El inglés tiene una alta cobertura de palabras completas como tokens únicos. El español, en cambio, tokeniza de manera menos eficiente: palabras como 'instalación', 'configuración' o 'autenticación' se dividen en múltiples tokens. Benchmark empírico: un texto de 100 palabras en inglés ocupa aprox. 130 tokens; el mismo texto traducido al español ocupa entre 170 y 190 tokens. Esto representa entre 30% y 45% más de costo por la misma cantidad de información semántica. Si tu app está en español, ajustá los estimados de tokens por palabra a 2 tokens/palabra como regla conservadora, no 1,33 que sería el ratio en inglés.

    ¿Qué es el prompt caching y cuánto ahorra en la práctica?

    Prompt caching (disponible en Claude y GPT-4o en beta) permite que el proveedor guarde en memoria el prefijo de tu prompt durante una ventana de tiempo (5 minutos en Claude, hasta 1 hora según configuración). Las llamadas subsiguientes que usen ese mismo prefijo pagan un precio reducido por los tokens cacheados: Claude cobra USD 0,30/MTok para cache hit vs. USD 3 normal, una reducción del 90%. Caso concreto: system prompt de 10.000 tokens repetido en 1.000 llamadas/día. Sin cache: 10.000 × 1.000 × 30 × 0,000003 = USD 900/mes solo en system prompt. Con cache activo desde la segunda llamada: aprox. USD 90/mes. El ahorro mensual es USD 810 en ese único componente. Para activarlo en Claude usás cache_control: ephemeral en el bloque del mensaje.

    ¿Qué es Batch API y para qué tipo de tareas conviene?

    La Batch API de OpenAI y el equivalente Message Batches de Anthropic permiten enviar grandes volúmenes de requests que se procesan de manera asíncrona, con un plazo de hasta 24 horas, a cambio de un 50% de descuento sobre el precio estándar. GPT-4o-mini en batch cuesta USD 0,075/MTok in y USD 0,30/MTok out. Aplica perfectamente para: evaluación masiva de datasets, enriquecimiento de catálogos de productos, clasificación de tickets históricos, generación de descripciones SEO en lote, análisis de contratos sin urgencia. No aplica para: chatbots interactivos, asistentes en tiempo real, cualquier flujo donde el usuario espera respuesta inmediata. El ahorro puede justificar rediseñar pipelines que hoy corren en tiempo real sin necesidad real de hacerlo.

    ¿Cómo cuento exactamente los tokens de mi prompt antes de mandarlo?

    Cada proveedor tiene su herramienta oficial. OpenAI: librería tiktoken en Python; GPT-4o usa el encoding o200k_base, GPT-4 usa cl100k_base. Ejemplo: import tiktoken; enc = tiktoken.get_encoding('o200k_base'); len(enc.encode(texto)). Anthropic: endpoint POST /v1/messages/count_tokens que devuelve el conteo exacto antes de enviar, o el paquete anthropic-tokenizer. Google: método model.count_tokens() del SDK oficial. Conteo aproximado rápido si no querés usar código: dividí la cantidad de caracteres por 4 para inglés, o por 3 para español. Esto da un estimado con ±15% de error, útil para presupuestos, no para facturación exacta.

    ¿El streaming afecta el costo? ¿Y los reintentos automáticos?

    Streaming no cambia el precio: pagás exactamente los mismos tokens procesados, solo cambia cuándo los recibís (token a token vs. toda la respuesta junta). Lo que sí puede afectar el costo son los reintentos (retries): si tu código reintenta automáticamente en caso de timeout o error 5xx y el modelo ya empezó a generar, ese intento parcial puede o no cobrarse dependiendo del proveedor y del tipo de error. Anthropic cobra los tokens generados incluso en errores de red si el request llegó al servidor. Buena práctica: implementá un límite de reintentos (máximo 2-3) con backoff exponencial, y logueá los tokens de cada llamada para detectar anomalías. Un bug de retry infinito puede multiplicar tu factura inesperadamente en minutos.

    ¿Hay límites gratuitos o créditos para arrancar a desarrollar?

    Gemini API: tiene free tier real con 15 requests por minuto en Gemini 1.5 Flash, sin costo, sin tarjeta requerida para el tier básico. Ideal para prototipar. OpenAI: otorga USD 5 en créditos a cuentas nuevas (varió históricamente, verificar al registrarse), con expiración en 3 meses. Anthropic: no tiene free tier de API; Claude.ai web es gratuito con límite de mensajes diarios pero no exponés la API. Alternativa local sin costo: Ollama permite correr modelos como Llama 3, Mistral o Phi-3 localmente en tu máquina sin pagar por token. Es la opción más usada para desarrollo y testing antes de decidir qué API usar en producción. Para volúmenes de desarrollo, el free tier de Gemini suele alcanzar para las primeras semanas de integración.

    ¿Cuánto puede llegar a costar en pesos argentinos y cómo se factura?

    Las APIs se facturan en dólares estadounidenses contra tarjeta de crédito o débito internacional. Para un developer argentino, el tipo de cambio relevante depende de cómo adquirás los dólares: al tipo de cambio oficial (referencia BCRA) o al paralelo. Al momento de escribir esto, USD 100/mes de API puede representar entre $140.000 y $200.000 ARS dependiendo del tipo de cambio. El cargo en tarjeta de crédito argentina suma el impuesto PAIS (cuando aplica) y las percepciones de Ganancias/Bienes Personales según ARCA (ex-AFIP), que podés computar como pago a cuenta en la declaración anual. Si facturás en USD a clientes del exterior, el costo de la API es un gasto deducible directo. Para proyectos locales, es clave incorporar este costo en el pricing desde el día uno.

    ¿Cuándo conviene cambiar de modelo más caro a uno más barato?

    La regla práctica: empezá con el modelo más barato que complete la tarea correctamente. Haiku 4 o GPT-4o-mini son 10-20x más baratos y suficientes para: clasificación de texto, extracción de entidades, resúmenes simples, respuestas de soporte con RAG acotado, generación de texto estructurado (JSON, listas). Necesitás Sonnet 4, GPT-4o o Gemini 1.5 Pro cuando: la tarea requiere razonamiento complejo, comparación de múltiples documentos largos, generación de código complejo, o cuando la diferencia de calidad tiene impacto directo en conversión o retención. Estrategia de routing: clasificar el tipo de query primero (con un modelo barato) y derivar solo las complejas al modelo caro. Esto puede reducir el 60-70% del gasto en arquitecturas mixtas.

    ¿Cómo se manejan los errores de contexto muy largo? ¿Pago aunque falle?

    Si mandás un prompt que supera la context window del modelo (128k tokens en GPT-4o, 200k en Claude Sonnet), la API devuelve un error antes de procesar y no se cobra. Donde sí podés pagar por un error es en timeouts de red: si el modelo empezó a generar y se cortó la conexión, algunos proveedores cobran los tokens generados hasta ese punto. Claude especifica en su documentación que se cobra por tokens de input siempre que el request sea recibido, más los output tokens efectivamente generados. Para evitar costos por errores: implementá validación de longitud en el cliente antes de enviar, usá el endpoint de conteo de tokens, y monitoreá tu dashboard de facturación con alertas de presupuesto. Tanto OpenAI como Anthropic permiten configurar límites de gasto mensuales para evitar sorpresas.

    ¿Qué otras estrategias concretas existen para reducir el costo mensual?

    1. Comprimir el system prompt: cada palabra que eliminás del system prompt se multiplica por cada llamada del mes. Un system prompt de 500 tokens vs. uno de 200 tokens ahorra 300 × llamadas/mes. 2. RAG con top-k acotado: en lugar de mandar 10 chunks de contexto, mandá los 3 más relevantes. Reduce tokens in sin pérdida significativa de calidad en la mayoría de los casos. 3. Truncar el historial de conversación: no acumulés toda la historia; mantené las últimas 4-6 rondas o un resumen comprimido. 4. max_tokens explícito: definí el largo máximo de respuesta esperado. Si necesitás respuestas de 150 palabras, poné max_tokens=250 para español. 5. Caché de respuestas a nivel aplicación: si varias queries similares tienen la misma respuesta, guardala en Redis o similar y no llamás a la API dos veces. Combinar estas técnicas puede reducir el costo total entre 50% y 80% frente a una implementación naive.

    Fuentes y referencias

    Metodología y confianza

    Editorial

    Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

    Actualización

    Última revisión: 14 de mayo de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

    Privacidad

    Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

    Limitaciones

    Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.