Tecnología

Calculadora de Costo Mensual RAG con Vector DB🌎 Actualizado abril de 2026

Q: ¿Por qué el costo de embeddings se amortiza en 12 meses?

La indexación inicial (convertir todos tus documentos a vectores) es un costo único que no se repite salvo que actualices el corpus. La calculadora distribuye ese costo a lo largo de 12 meses para estimar el impacto mensual real. Si actualizás tu corpus frecuentemente, el costo real puede ser mayor.

Q: ¿Qué modelo de embedding recomiendan para producción?

text-embedding-3-small de OpenAI ofrece excelente relación calidad/precio a $0.02/1M tokens y funciona bien con 1536 dims. text-embedding-3-large mejora la calidad en ~5-10% pero cuesta 6x más. Para casos sensibles a costo o privacy, modelos self-hosted como all-MiniLM-L6-v2 son gratuitos y muy buenos.

Q: ¿El costo del LLM es el más importante en un RAG?

Depende del volumen. Con pocas queries ( 5.000 queries/día el LLM puede representar el 60-80% del costo total, especialmente con GPT-4o o Claude Sonnet.

Calculadora Gratis · Privada

Datos actualizados: 27 abr 2026 · Fuente: Pinecone Pricing 2026

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 27 abr 2026

Cantidad de documentos indexados

Chunks (fragmentos) por documento

Dimensiones del embedding

Queries por día

Chunks recuperados por query (top-k)

Proveedor de vector DB

Modelo LLM para generación

Tokens promedio por chunk

Tokens promedio de respuesta LLM

Proveedor de embeddings (indexación + queries)

Tokens promedio por query (para embedding)

Reportar error

Un sistema RAG (Retrieval-Augmented Generation) combina una vector database con un LLM para responder preguntas sobre tus documentos. El costo mensual depende de cuántos documentos indexás, cuántas queries recibís por día y qué proveedor elegís. Esta calculadora compara Pinecone, pgvector self-hosted y Weaviate Cloud para que tomes la mejor decisión económica.

Última revisión: 26 de abril de 2026 Revisado por Martín Rodríguez Fuente: Pinecone Pricing 2026, OpenAI Embeddings Pricing, Weaviate Cloud Pricing, Anthropic Claude API Pricing 100% privado

Cuándo usar esta calculadora

Estimar el costo mensual antes de lanzar un chatbot sobre documentación interna
Comparar si conviene Pinecone managed vs pgvector en un VPS propio
Planificar el presupuesto de un SaaS con búsqueda semántica
Calcular cuánto cuesta escalar de 10K a 1M documentos
Justificar ante inversores el costo de infraestructura de un producto de IA
Evaluar el impacto del volumen de queries diarias en la factura mensual

Cómo funciona

3 min de lectura

Cómo se calcula el costo de un sistema RAG

Un sistema RAG tiene tres componentes de costo principales: vector database, embeddings y LLM.

1. Total de vectores y almacenamiento

totalVectors = numDocs × chunksPerDoc
bytesPerVector = dimensions × 4  // float32
storageGB = (totalVectors × bytesPerVector) / 1_073_741_824

Con 10.000 docs, 5 chunks, 1536 dimensiones:

50.000 vectores × 1536 × 4 bytes = ~293 MB

2. Costo Pinecone Serverless (2026)

Pinecone serverless cobra por escritura y lectura de vectores:

Write: $2.00 / 1M write units (1 write unit = 1 vector)

Read: $16.00 / 1M read units

Storage: $0.33 / GB / mes

Las queries de indexación inicial son un costo único; las queries diarias se acumulan mensualmente.

writeCost = (totalVectors / 1_000_000) × 2.00  // costo único amortizado
readUnitsPerMonth = queriesPerDay × 30 × topK
readCost = (readUnitsPerMonth / 1_000_000) × 16.00
storageCost = storageGB × 0.33
pineconeServerlessCost = readCost + storageCost + (writeCost / 12)

3. Costo Pinecone Pod-based (p1.x1)

p1.x1: $0.096/hora → ~$70.56/mes por pod

Capacidad: ~1M vectores de 768 dims por pod

Para 1536 dims, capacidad ~500K vectores por pod

4. pgvector self-hosted

El costo principal es el servidor. Una instancia adecuada en AWS/GCP/Hetzner:

Hetzner CX31 (8GB RAM, 4 vCPU): ~$15/mes — hasta ~500K vectores de 1536 dims

AWS RDS t3.large con pgvector: ~$90/mes

No hay costo por queries, pero hay costo operativo

// Factor de escala basado en tamaño del índice
if storageGB <= 1: pgvectorCost = 15   // VPS pequeño
else if storageGB <= 4: pgvectorCost = 30
else if storageGB <= 16: pgvectorCost = 60
else: pgvectorCost = 120

5. Weaviate Cloud

Sandbox: Gratis (límite 1M objetos, sin SLA)

Standard: ~$25/mes base + $0.05/1M queries + $0.095/GB storage/mes

6. Costo de embeddings

Se pagan tokens en dos momentos: al indexar (una vez) y en cada query:

// Indexación (amortizado mensual)
tokensIndexacion = totalVectors × avgTokensPerChunk
costoIndexacionMensual = (tokensIndexacion / 1_000_000) × precioEmbedding / 12

// Queries diarias
tokensQueriesMensual = queriesPerDay × 30 × avgTokensPerQueryInput
costoQueriesMensual = (tokensQueriesMensual / 1_000_000) × precioEmbedding

Modelo	Precio por 1M tokens
text-embedding-3-small	$0.020
text-embedding-3-large	$0.130
Self-hosted	$0.000

7. Costo LLM

Cada query genera un prompt con: instrucción del sistema + chunks recuperados + pregunta del usuario.

tokensInputPorQuery = topK × avgTokensPerChunk + avgTokensPerQueryInput + 100 // system prompt
costoLLMMensual = queriesPerDay × 30 × (
  (tokensInputPorQuery / 1_000_000) × precioInput +
  (avgOutputTokens / 1_000_000) × precioOutput
)

Modelo	Input $/1M	Output $/1M
GPT-4o mini	$0.15	$0.60
GPT-4o	$2.50	$10.00
Claude 3.5 Haiku	$0.80	$4.00
Claude 3.5 Sonnet	$3.00	$15.00

Limitaciones

Los precios son estimados a Q1 2026 y pueden cambiar.

pgvector self-hosted no incluye backup, monitoring ni tiempo operativo del equipo.

El costo de la indexación inicial (embeddings) se amortiza en 12 meses.

No incluye costos de red/egress ni de la aplicación que sirve el RAG.

Weaviate Sandbox no tiene SLA; no apto para producción.

Los precios de Pinecone varían según región.

Preguntas frecuentes

¿Qué es un chunk y cuántos chunks debo crear por documento?

Un chunk es un fragmento de texto de tu documento original. Documentos de 1-2 páginas suelen dividirse en 3-8 chunks de 200-400 tokens. Chunks más pequeños dan mayor precisión en el retrieval; chunks más grandes proveen más contexto al LLM. Lo más común es 5 chunks de ~200 tokens por documento.

¿Cuándo conviene Pinecone serverless vs pod-based?

Serverless es mejor para cargas variables o proyectos que arrancan: pagás por uso real. Pod-based conviene cuando superás ~2M queries/mes o necesitás latencia muy baja y predecible. Para menos de 500K queries/mes, serverless casi siempre sale más barato.

¿Cuándo pgvector self-hosted es la mejor opción?

pgvector conviene cuando ya tenés PostgreSQL en producción, el volumen de vectores es manejable (<5M vectores), o los datos son sensibles y no pueden salir de tu infraestructura. El costo fijo es bajo ($15-$60/mes en Hetzner), pero sumá tiempo de mantenimiento y operaciones.

¿Por qué el costo de embeddings se amortiza en 12 meses?

La indexación inicial (convertir todos tus documentos a vectores) es un costo único que no se repite salvo que actualices el corpus. La calculadora distribuye ese costo a lo largo de 12 meses para estimar el impacto mensual real. Si actualizás tu corpus frecuentemente, el costo real puede ser mayor.

¿Qué modelo de embedding recomiendan para producción?

text-embedding-3-small de OpenAI ofrece excelente relación calidad/precio a $0.02/1M tokens y funciona bien con 1536 dims. text-embedding-3-large mejora la calidad en ~5-10% pero cuesta 6x más. Para casos sensibles a costo o privacy, modelos self-hosted como all-MiniLM-L6-v2 son gratuitos y muy buenos.

¿El costo del LLM es el más importante en un RAG?

Depende del volumen. Con pocas queries (<500/día) y GPT-4o mini, el LLM cuesta menos de $10/mes y la vector DB domina. Con >5.000 queries/día el LLM puede representar el 60-80% del costo total, especialmente con GPT-4o o Claude Sonnet.

¿Weaviate Cloud es gratis para siempre en el plan Sandbox?

El Sandbox de Weaviate es gratuito pero tiene límites: sin SLA, sin soporte, y puede ser eliminado tras 14 días de inactividad. Para producción se requiere el plan Standard (~$25/mes base) o superior. Es ideal para prototipos y demos.

¿Cómo afecta el top-k al costo?

Top-k es la cantidad de chunks que recuperás por query. Afecta el costo de dos formas: más read units en la vector DB (especialmente Pinecone serverless) y mayor input al LLM. Subir de top-k=3 a top-k=10 puede incrementar el costo LLM un 40-60% dependiendo del tamaño de los chunks.

¿Hay alternativas open-source gratuitas a Pinecone?

Sí: pgvector (PostgreSQL), Qdrant self-hosted, Chroma, Milvus y Weaviate self-hosted son todas open-source. El costo de hosting en un VPS como Hetzner puede ir desde $5/mes para proyectos pequeños. El trade-off es operaciones, mantenimiento y ausencia de managed scaling.

¿Esta calculadora incluye el costo del servidor de la aplicación RAG?

No. La calculadora cubre vector DB, embeddings y LLM. El servidor web/API que orquesta el RAG (FastAPI, LangChain, LlamaIndex, etc.) tiene su propio costo de hosting, que puede ir desde $5/mes (VPS básico) hasta $50-200/mes para setups con alta disponibilidad.

Fuentes y referencias

Pinecone Pricing 2026 — Pinecone (2026)
OpenAI Embeddings Pricing — OpenAI (2026)
Weaviate Cloud Pricing — Weaviate (2026)
Anthropic Claude API Pricing — Anthropic (2026)

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 26 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

Cuándo usar esta calculadora

Cómo funciona

Cómo se calcula el costo de un sistema RAG

1. Total de vectores y almacenamiento

2. Costo Pinecone Serverless (2026)

3. Costo Pinecone Pod-based (p1.x1)

4. pgvector self-hosted

5. Weaviate Cloud

6. Costo de embeddings

7. Costo LLM

Limitaciones

Preguntas frecuentes

Fuentes y referencias

Metodología y confianza

Calculadoras relacionadas