Tecnología

Calculadora de costo mensual de un RAG: Pinecone vs pgvector vs Weaviate🌎

Actualizado junio de 2026
Calculadora Gratis · Privada
Datos actualizados: · Fuente: Pinecone — Understanding cost
Revisado por: (política editorial ) · Última revisión:

Un sistema RAG (Retrieval-Augmented Generation) combina una base de datos vectorial con un LLM para responder preguntas sobre tus propios documentos. La pregunta que todo el mundo se hace antes de lanzarlo es cuánto va a costar por mes — y la respuesta tiene tres partes: la base vectorial (Pinecone, pgvector o Weaviate), los embeddings (convertir texto a vectores) y el LLM (generar la respuesta). Esta calculadora suma las tres y te dice dónde se va realmente tu presupuesto, para que elijas entre managed (Pinecone) y self-hosted (pgvector) con números, no con intuición.

Última revisión: 03 de junio de 2026 Revisado por Fuente: Pinecone — Understanding cost (write/read units, storage), Pinecone Pricing, OpenAI API Pricing (embeddings), Weaviate Cloud Pricing, pgvector — extensión vectorial para PostgreSQL 100% privado

Cuándo usar esta calculadora

  • Estimar el costo mensual antes de lanzar un chatbot sobre documentación interna
  • Decidir entre Pinecone managed y pgvector self-hosted en un VPS propio con números concretos
  • Calcular cuánto sube la factura al pasar de GPT-4o mini a GPT-4o o Claude
  • Planificar el presupuesto de un SaaS con búsqueda semántica antes de escalar
  • Saber cuánto cuesta crecer de 10.000 a 1.000.000 de documentos
  • Justificar ante inversores o tu CTO el costo de infraestructura de un producto de IA
  • Ver el impacto del top-k y del tamaño de los chunks en el costo por query

Cómo funciona

4 min de lectura

Cómo se calcula el costo mensual de un sistema RAG

Un RAG tiene tres componentes de costo: la base vectorial, los embeddings y el LLM. La calculadora los suma; abajo está el detalle de cada uno con los precios 2026.

Comparativa rápida: Pinecone vs pgvector vs Weaviate

Workload de referencia: 10.000 documentos × 5 chunks = 50.000 vectores de 1536 dims (~0,29 GB), 1.000 queries/día (30.000/mes), top-k 5. Solo la base vectorial, sin LLM ni embeddings:

ProveedorModelo de cobroCosto base vectorial/mesCuándo conviene
pgvector self-hostedServidor fijo (Hetzner CX21)~$15Ya tenés Postgres, datos sensibles, volumen <5M vectores
Pinecone ServerlessWrite + read units + storage~$30-50Carga variable, cero ops, arrancás de cero
Weaviate Cloud Standard$25 base + queries + storage~$25-27Querés managed pero más barato que Pinecone a este volumen
Pinecone Pod p1.x1Pod fijo por hora~$70/pod>2M queries/mes o latencia muy baja y predecible

> Nota: Pinecone tiene además un mínimo de facturación de $50/mes en el plan Standard, así que por debajo de ese uso pagás el mínimo igual. Eso suele inclinar la balanza hacia pgvector en proyectos chicos.

1. Total de vectores y almacenamiento

totalVectors = numDocs × chunksPerDoc
bytesPorVector = dimensiones × 4   // float32
storageGB = (totalVectors × bytesPorVector) / 1.073.741.824

Con 10.000 docs, 5 chunks y 1536 dims: 50.000 vectores × 1536 × 4 bytes ≈ 0,29 GB.

VectoresDimsStorage aprox.
50.00015360,29 GB
500.00015362,9 GB
1.000.00015365,7 GB
1.000.0007682,9 GB
1.000.000307211,4 GB

2. Pinecone Serverless (2026)

Cobra por escritura, lectura y storage:

  • Write: $2,00 / 1M write units (1 vector = 1 write unit) — costo único de indexación, amortizado 12 meses

  • Read: $16,00 / 1M read units (aprox. top-k vectores leídos por query)

  • Storage: $0,33 / GB / mes
  • readUnitsMensual = queriesPorDia × 30 × topK
    readCost = (readUnitsMensual / 1.000.000) × 16
    storageCost = storageGB × 0,33
    writeCost = (totalVectors / 1.000.000) × 2   // amortizado en 12 meses

    3. Pinecone Pod-based (p1.x1)

  • p1.x1: $0,096/hora → ~$70,56/mes por pod

  • Capacidad: ~1M vectores de 768 dims, ~500K de 1536 dims por pod
  • 4. pgvector self-hosted (la opción más barata a poco volumen)

    El costo es el del servidor; no se paga por query. El índice HNSW usa ~3x el tamaño crudo de los vectores:

    if indiceGB <= 1:  ~$15/mes   // Hetzner CX21
    if indiceGB <= 4:  ~$30/mes   // Hetzner CX31
    if indiceGB <= 16: ~$60/mes   // Hetzner CX41
    if indiceGB <= 64: ~$120/mes  // Hetzner CX51

    No incluye backups, monitoring ni tu tiempo de operaciones — sumá eso al evaluar.

    5. Weaviate Cloud

  • Sandbox: gratis (sin SLA, se borra tras 14 días de inactividad) — solo para prototipos

  • Standard: ~$25/mes base + $0,05/1M queries + $0,095/GB/mes
  • 6. Costo de embeddings

    Se pagan al indexar (una vez) y en cada query. Casi siempre es el componente más barato:

    tokensIndexacion = totalVectors × tokensPorChunk
    costoIndexacionMensual = (tokensIndexacion / 1.000.000) × precio / 12
    tokensQueriesMensual = queriesPorDia × 30 × tokensPorQuery
    costoQueriesMensual = (tokensQueriesMensual / 1.000.000) × precio

    ModeloPrecio / 1M tokens
    text-embedding-3-small$0,020
    text-embedding-3-large$0,130
    Self-hosted (MiniLM, nomic)$0,000

    7. Costo del LLM (suele ser el que más pesa)

    Cada query arma un prompt con: instrucción del sistema (~100 tokens) + los top-k chunks recuperados + la pregunta del usuario.

    tokensInputPorQuery = 100 + topK × tokensPorChunk + tokensPorQuery
    costoLLMMensual = queriesPorDia × 30 × (
      (tokensInputPorQuery / 1.000.000) × precioInput +
      (tokensOutput / 1.000.000) × precioOutput
    )

    ModeloInput $/1MOutput $/1M
    GPT-4o mini$0,15$0,60
    GPT-4o$2,50$10,00
    Claude 3.5 Haiku$0,80$4,00
    Claude 3.5 Sonnet$3,00$15,00

    Ejemplo con el workload de referencia (30.000 queries/mes, top-k 5, chunks de 200 tokens, respuestas de 300 tokens), input ≈ 1.130 tokens/query:

  • GPT-4o mini: ~$10/mes

  • GPT-4o: ~$175/mes

  • Claude 3.5 Sonnet: ~$235/mes
  • Ahí se ve la regla: cambiar de modelo LLM mueve la factura mucho más que cambiar de base vectorial.

    Limitaciones

  • Los precios son estimados a 2026 y los proveedores los actualizan seguido.

  • pgvector self-hosted no incluye backup, monitoring ni tu tiempo de operaciones.

  • El costo de la indexación inicial de embeddings se amortiza en 12 meses (si actualizás el corpus seguido, será mayor).

  • No incluye red/egress ni el servidor de la aplicación que sirve el RAG.

  • Weaviate Sandbox no tiene SLA; no apto para producción.

  • Los precios de Pinecone varían por región y plan (Standard vs Enterprise).
  • Preguntas frecuentes

    ¿Conviene Pinecone o pgvector para un RAG?

    Depende del volumen. A poca escala (menos de ~5M vectores y tráfico moderado) pgvector self-hosted en un VPS Hetzner desde ~$15/mes casi siempre le gana a Pinecone, que además tiene un mínimo de facturación de $50/mes en el plan Standard. Pinecone Serverless conviene cuando no querés operar nada, la carga es muy variable, o necesitás escalar a decenas de millones de vectores sin tocar infraestructura. Si ya tenés PostgreSQL en producción, pgvector es casi siempre la opción más barata.

    ¿Cuánto cuesta un RAG con 10.000 documentos y 1.000 queries por día?

    Con 50.000 vectores de 1536 dims y 30.000 queries/mes: la base vectorial va de ~$15/mes (pgvector) a ~$50/mes (Pinecone Serverless); los embeddings con text-embedding-3-small cuestan menos de $2/mes; y el LLM va de ~$10/mes con GPT-4o mini a ~$175/mes con GPT-4o. Total realista: entre ~$30 y ~$230/mes según el LLM que uses. El LLM es el factor que más mueve el número.

    ¿Cuál es el componente más caro de un sistema RAG?

    Casi siempre el LLM, a partir de cierto volumen de queries. Con pocas consultas (<500/día) y GPT-4o mini, el LLM cuesta menos de $10/mes y la base vectorial domina. Con más de 5.000 queries/día el LLM puede representar el 60-80% del costo total, sobre todo con GPT-4o o Claude Sonnet. Los embeddings son el componente más barato y rara vez superan unos pocos dólares al mes.

    ¿Cuánto cuestan los embeddings de OpenAI en un RAG?

    text-embedding-3-small cuesta $0,02 por 1M de tokens y text-embedding-3-large $0,13 por 1M (6,5x más). Indexar 50.000 chunks de 200 tokens son 10M de tokens = $0,20 una sola vez con el small. Las queries diarias suman centavos. En la práctica los embeddings casi nunca pasan de $1-2/mes, por eso conviene priorizar calidad: el small con 1536 dims es el estándar de producción.

    ¿Cuándo conviene Pinecone Serverless vs Pod-based?

    Serverless es mejor para cargas variables o proyectos que arrancan: pagás por uso real (write + read units + storage). Pod-based (p1.x1, ~$70/mes por pod) conviene cuando superás ~2M queries/mes o necesitás latencia muy baja y predecible. Para menos de 500K queries/mes, serverless casi siempre sale más barato — salvo que el mínimo de $50/mes te juegue en contra.

    ¿Cómo afecta el top-k al costo del RAG?

    El top-k es la cantidad de chunks que recuperás por query y pega en dos lugares: más read units en la base vectorial (sobre todo Pinecone Serverless) y, más importante, más tokens de input al LLM. Subir de top-k 3 a top-k 10 puede aumentar el costo del LLM un 40-60% según el tamaño de los chunks. Si la factura está dominada por el LLM, bajar el top-k o usar chunks más cortos es la palanca más efectiva.

    ¿Hay alternativas open-source gratuitas a Pinecone?

    Sí: pgvector (sobre PostgreSQL), Qdrant, Chroma, Milvus y Weaviate self-hosted son todas open-source. El costo es solo el del hosting: desde ~$5-15/mes en un VPS como Hetzner para proyectos chicos. El trade-off es que vos te hacés cargo de operaciones, mantenimiento, backups y escalado, que en Pinecone vienen incluidos.

    ¿Cómo bajo el costo de un RAG que ya está caro?

    Si el LLM domina (lo más común): cacheá respuestas frecuentes, recortá el contexto (menos top-k o chunks más cortos), y usá un modelo más barato (GPT-4o mini o Claude Haiku en vez de GPT-4o/Sonnet). Si domina la base vectorial: revisá si el plan/instancia está sobredimensionado y evaluá pgvector self-hosted. Los embeddings rara vez valen la pena optimizar porque ya son baratísimos.

    ¿Qué es un chunk y cuántos conviene por documento?

    Un chunk es un fragmento del documento original. Documentos de 1-2 páginas suelen dividirse en 3-8 chunks de 200-400 tokens. Chunks más chicos dan mayor precisión en el retrieval; chunks más grandes dan más contexto al LLM pero encarecen cada query. El default razonable es 5 chunks de ~200 tokens por documento.

    ¿Esta calculadora incluye el costo del servidor de la aplicación RAG?

    No. Cubre base vectorial, embeddings y LLM. El servidor web/API que orquesta el RAG (FastAPI, LangChain, LlamaIndex, etc.) tiene su propio costo de hosting, desde ~$5/mes en un VPS básico hasta $50-200/mes para setups con alta disponibilidad. Sumalo aparte al presupuesto total.

    Fuentes y referencias

    Metodología y confianza

    Editorial

    Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

    Actualización

    Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

    Privacidad

    Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

    Limitaciones

    Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.