Negocios

Vector database — costo mensual según vectores, dimensión y QPS🌎 Actualizado abril de 2026

Q: ¿Cuál es la vector DB más barata para 5M vectores?

Si ya tenés Postgres, **pgvector** (con índice HNSW) sale prácticamente gratis — solo pagás el upgrade de instancia. Si necesitás managed, **Qdrant Cloud** suele ser el más barato a esa escala (~USD 60-100/mes), seguido por **Weaviate Cloud** (~USD 80-130) y **Pinecone Serverless** (~USD 200+).

Q: ¿Cuánto pesa 1 vector?

**Float32 (default)**: dim × 4 bytes. Embedding OpenAI 1536 = 6 KB. Embedding OpenAI 3-large 3072 = 12 KB. Cuantizando a **int8** se baja a 1.5-3 KB con pérdida marginal de calidad.

Q: ¿Conviene 768, 1536 o 3072 dimensiones?

**1536 (OpenAI 3-small)** es el sweet spot calidad/costo en 2026. **3072 (3-large)** mejora 1-3% el recall pero duplica storage y latencia. **768 (MiniLM, BGE)** es 4× más barato y para muchos casos retail/soporte funciona casi igual. Empezá con 1536 y bajá si el costo escala feo.

Q: ¿Pinecone Serverless o Pod?

**Serverless** para 90% de casos: traffic variable, 200 QPS sostenido) y querés latencia predecible. Pinecone está empujando a todos a Serverless desde 2024.

Q: ¿pgvector escala bien?

**Hasta ~5-20M vectores** funciona bien con índice HNSW en Postgres 16+. **Más allá**, las queries empiezan a ser lentas (>100ms p99) y la memoria del servidor sufre. Para >50M vectores, mejor usar Qdrant, Weaviate o Pinecone.

Q: ¿Cuántas queries hace un RAG promedio?

Un chatbot con **1.000 usuarios diarios y 5 mensajes/usuario** = **5.000 queries/día = 0,058 QPS** = ~150k queries/mes. Para casos de uso enterprise con miles de usuarios, fácilmente 10-100 QPS sostenidos.

Q: ¿Cómo bajo el costo de mi vector DB?

1) **Pre-filtrá por metadata** (tenant_id, fecha) antes del search. 2) **Cuantizá a int8** si tu DB lo soporta (4× menos storage). 3) **Cacheá queries repetidas** en Redis. 4) **Usá modelo de embedding más chico** (MiniLM 384 si la calidad alcanza). 5) **Consolidá deployments** (un solo cluster para múltiples apps).

Q: ¿Weaviate vs Qdrant vs Milvus?

**Weaviate**: feature-rich (multi-tenant, classification, GraphQL), más caro. **Qdrant**: rápido (Rust), simple, mejor precio. **Milvus / Zilliz**: pensado para escala enterprise (>100M vectores), más complejo de operar. Para startups, **Qdrant Cloud** suele ser el ganador costo/feature.

Calculadora Gratis · Privada

Datos actualizados: 26 abr 2026 · Fuente: Pinecone / Weaviate / Qdrant pricing pages

Revisado por: Martín Rodríguez (política editorial ) · Última revisión: 28 abr 2026

Reportar error

Una vector database guarda embeddings (vectores de 768 a 3072 dimensiones) y devuelve los más similares a una consulta — el corazón de cualquier sistema RAG, recomendación o búsqueda semántica. Las opciones más usadas en 2026: Pinecone (managed, fácil), Weaviate Cloud (open-source + managed), Qdrant Cloud (Rust, muy rápido), Milvus / Zilliz (alta escala) y pgvector (Postgres, más barato si ya tenés Postgres). El costo se compone de: storage (USD/GB-mes) + queries (USD/millón) + a veces compute base. Esta calculadora estima storage en GB asumiendo float32 (4 bytes × dim) y multiplica QPS por 30 días para queries/mes. Útil para presupuestar un RAG productivo, decidir entre managed vs self-hosted, o entender cómo escala el costo al subir vectores o dimensión del embedding.

Última revisión: 27 de abril de 2026 Revisado por Martín Rodríguez Fuente: Pinecone — Pricing, Weaviate Cloud — Pricing, Qdrant Cloud — Pricing, pgvector — GitHub 100% privado

Cuándo usar esta calculadora

Estimar costo mensual de un RAG con N documentos chunked.
Comparar Pinecone vs Weaviate vs Qdrant Cloud para tu volumen.
Decidir si conviene pgvector self-hosted o managed.
Calcular impacto de subir de 768 a 1536 dims (text-embedding-3-large).
Presupuestar pico de QPS en lanzamiento de producto.

Ejemplo: 5M vectores 1536 dim, 10 QPS

Storage: 5M × 1536 × 4 bytes = 30,72 GB.
Pinecone Serverless: 30,72 × USD 0,33 = USD 10,14 storage.
Queries: 10 × 86.400 × 30 = 25,92M queries/mes.
Pinecone reads: 25,92 × USD 8,25 = USD 213,84 queries.
Total Pinecone: ~USD 224/mes.

Resultado: El mismo workload en Qdrant Cloud sale ~USD 80-120/mes.

Cómo funciona

3 min de lectura

Cómo se compone el costo

Storage (GB) = vectores × dimensión × 4 bytes / 1024³
Costo storage = GB × USD/GB-mes
Costo queries = (QPS × 86.400 × 30 / 1.000.000) × USD/M reads
Total mensual = storage + queries + compute base

Comparativa proveedores (abril 2026)

Proveedor	Modelo	Storage	Queries	Mejor para
Pinecone Serverless	pay-per-use	~USD 0,33/GB-mes	~USD 8,25/M reads + USD 4,12/M writes	medio-alto QPS, simple
Pinecone Pod	provisioned	depende pod (s1, p1, p2)	incluido	super alto QPS estable
Weaviate Cloud Serverless	pay-per-use	~USD 0,12-0,25/GB-mes	~USD 4-6/M	balance precio/features
Qdrant Cloud	compute-based	incluido en compute	incluido	mejor relación precio/QPS
Milvus / Zilliz Cloud	tiered	varía	varía	super alta escala (>100M)
pgvector	Postgres existente	precio Postgres	gratis	<5M vectores, bajo QPS
Chroma	self-host gratis	infra propia	gratis	dev / single-user

Tamaño en bytes según dimensión y precisión

Modelo	Dim	float32 (default)	float16	int8
MiniLM-L6	384	1.5 KB	0.75 KB	0.4 KB
OpenAI 3-small	1536	6 KB	3 KB	1.5 KB
OpenAI 3-large	3072	12 KB	6 KB	3 KB
Cohere v3	1024	4 KB	2 KB	1 KB

Consejo: si Pinecone soporta cuantización a int8, podés bajar 4× el storage con pérdida marginal de calidad (~1-3% recall@10).

Pinecone Serverless vs Pod (abril 2026)

Aspecto	Serverless	Pod (legacy)
Pricing	pay-per-use storage + reads	mensual fijo por pod
Cold start	sí (primer query lento si pasa tiempo)	no
Mejor para	<50 QPS, traffic variable	>50 QPS, latencia consistente
Migración	recomendado por Pinecone	descontinuado en algunos planes

Cuándo conviene pgvector

Caso	pgvector
<5M vectores	sí, casi siempre
Ya tenés Postgres	sí
<50 QPS	sí
Necesitás filtros SQL complejos	sí (JOIN nativo)
>100M vectores	no, va a sufrir
Latencia <50ms a alta QPS	usá managed

Errores que escalan el costo

1. Dimensión innecesariamente alta: text-embedding-3-large (3072) cuesta 2× storage que small (1536) y muchas veces no agrega calidad significativa.
2. No filtrar metadata: hacer search sobre 100M vectores cuando podrías pre-filtrar por tenant_id baja 10× el costo.
3. No usar caching: los queries más frecuentes pueden cachearse en Redis/Memcached. Ahorro 30-50% en proyectos con queries repetidas.
4. Re-embeddear todo en cambios menores: incrementá solo lo nuevo.

Latencia esperada

Vector DB	<1M vec, p99	100M vec, p99
Pinecone Serverless	30-80 ms	50-150 ms
Qdrant Cloud	15-40 ms	40-100 ms
Weaviate Cloud	20-50 ms	50-120 ms
pgvector (HNSW)	10-50 ms	sufre

> Aviso legal: Calculadora educativa. Precios tomados de las páginas oficiales en abril 2026 — verificá antes de comprometer presupuesto. No constituye recomendación de proveedor.

Revisión editorial

Revisado por el equipo editorial de Hacé Cuentas. Cifras cotejadas contra Pinecone, Weaviate, Qdrant y pgvector docs a abril 2026.

Preguntas frecuentes

¿Cuál es la vector DB más barata para 5M vectores?

Si ya tenés Postgres, pgvector (con índice HNSW) sale prácticamente gratis — solo pagás el upgrade de instancia. Si necesitás managed, Qdrant Cloud suele ser el más barato a esa escala (~USD 60-100/mes), seguido por Weaviate Cloud (~USD 80-130) y Pinecone Serverless (~USD 200+).

¿Cuánto pesa 1 vector?

Float32 (default): dim × 4 bytes. Embedding OpenAI 1536 = 6 KB. Embedding OpenAI 3-large 3072 = 12 KB. Cuantizando a int8 se baja a 1.5-3 KB con pérdida marginal de calidad.

¿Conviene 768, 1536 o 3072 dimensiones?

1536 (OpenAI 3-small) es el sweet spot calidad/costo en 2026. 3072 (3-large) mejora 1-3% el recall pero duplica storage y latencia. 768 (MiniLM, BGE) es 4× más barato y para muchos casos retail/soporte funciona casi igual. Empezá con 1536 y bajá si el costo escala feo.

¿Pinecone Serverless o Pod?

Serverless para 90% de casos: traffic variable, <100 QPS, MVP. Pod solo si tenés QPS muy alto y consistente (>200 QPS sostenido) y querés latencia predecible. Pinecone está empujando a todos a Serverless desde 2024.

¿pgvector escala bien?

Hasta ~5-20M vectores funciona bien con índice HNSW en Postgres 16+. Más allá, las queries empiezan a ser lentas (>100ms p99) y la memoria del servidor sufre. Para >50M vectores, mejor usar Qdrant, Weaviate o Pinecone.

¿Cuántas queries hace un RAG promedio?

Un chatbot con 1.000 usuarios diarios y 5 mensajes/usuario = 5.000 queries/día = 0,058 QPS = ~150k queries/mes. Para casos de uso enterprise con miles de usuarios, fácilmente 10-100 QPS sostenidos.

¿Cómo bajo el costo de mi vector DB?

1) Pre-filtrá por metadata (tenant_id, fecha) antes del search. 2) Cuantizá a int8 si tu DB lo soporta (4× menos storage). 3) Cacheá queries repetidas en Redis. 4) Usá modelo de embedding más chico (MiniLM 384 si la calidad alcanza). 5) Consolidá deployments (un solo cluster para múltiples apps).

¿Weaviate vs Qdrant vs Milvus?

Weaviate: feature-rich (multi-tenant, classification, GraphQL), más caro. Qdrant: rápido (Rust), simple, mejor precio. Milvus / Zilliz: pensado para escala enterprise (>100M vectores), más complejo de operar. Para startups, Qdrant Cloud suele ser el ganador costo/feature.

Fuentes y referencias

Metodología y confianza

Editorial

Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.

Actualización

Última revisión: 27 de abril de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.

Privacidad

Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.

Limitaciones

Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.

También te puede interesar

Fine-tuning Llama — costo según dataset, épocas y GPU Calculá el costo real de fine-tunear Llama 3 (8B/70B) según dataset, épocas y GPU. Compará LoRA, QLoRA y full fine-tune en USD. Agente IA + MCP servers — costo mensual operativo 🤖 Calculá el costo mensual de operar un agente IA con MCP servers: tokens LLM (Claude / GPT / Gemini) + cómputo de servidores MCP + almacenamiento. Estimación… Costo de un traspaso libre (Bosman) — fee cero pero con gastos Calculá el costo real de un traspaso libre (Bosman): fee US$ 0 pero comisión agente, prima firma y salario. Ruling Bosman 1995 + ejemplos actuales.