Costo vector database: Pinecone, Qdrant, Weaviate — calculadora + tabla comparativa🌎
Actualizado junio de 2026Ver cálculo paso a paso
Una vector database guarda embeddings (vectores de 768 a 3072 dimensiones) y devuelve los más similares a una consulta — el corazón de cualquier sistema RAG, recomendación o búsqueda semántica. Las opciones más usadas en 2026: Pinecone Serverless (managed, fácil de arrancar), Qdrant Cloud (Rust, muy rápido, mejor precio), Weaviate Cloud (open-source + managed, feature-rich), Milvus / Zilliz (alta escala) y pgvector (Postgres, gratis si ya lo tenés). El costo mensual se compone de: storage (USD/GB-mes, calculado como dim × 4 bytes × cantidad de vectores) + queries (USD/millón, donde 10 QPS = 25,9M queries/mes). Esta calculadora hace exactamente eso: estimá storage en GB con float32 y queries/mes a partir del QPS.
Cuándo usar esta calculadora
- Estimar el costo mensual de un RAG con N documentos chunkeados.
- Comparar Pinecone vs Qdrant vs Weaviate Cloud para tu volumen exacto.
- Decidir si conviene pgvector self-hosted o pasar a managed.
- Calcular el impacto de subir de 768 a 1536 dimensiones (text-embedding-3-large).
- Presupuestar el pico de QPS para el lanzamiento de un producto.
Ejemplo: 5M vectores de 1536 dim, 10 QPS en Pinecone Serverless
- Storage: 5.000.000 × 1536 × 4 bytes = 30,72 GB.
- Costo storage Pinecone: 30,72 GB × USD 0,33/GB-mes = USD 10,14.
- Queries/mes: 10 QPS × 86.400 seg/día × 30 días = 25.920.000 queries = 25,92M.
- Costo queries Pinecone: 25,92M × USD 8,25/M = USD 213,84.
- Total Pinecone Serverless: USD 10,14 + USD 213,84 = ~USD 224/mes.
- El mismo workload en Qdrant Cloud: ~USD 80-100/mes (compute-based, queries incluidas).
Cómo funciona
4 min de lecturaFórmulas utilizadas
Storage (GB) = vectores_M × 1.000.000 × dimensión × 4 bytes ÷ 1.073.741.824
Costo storage = GB × USD/GB-mes
Queries/mes = QPS × 86.400 seg/día × 30 días
Costo queries = (queries_mes ÷ 1.000.000) × USD/M_reads
Total mensual = costo_storage + costo_queriesLa fórmula usa float32 (4 bytes por componente), que es el formato default de casi todos los providers. Si tu proveedor soporta cuantización int8, dividí el storage por 4.
Tabla comparativa de precios (junio 2026)
| Proveedor | Storage | Queries | Plan free | Mejor para |
|---|---|---|---|---|
| Pinecone Serverless | USD 0,33/GB-mes | USD 8,25/M reads | sí (1M vecs) | <50M vecs, fácil setup |
| Pinecone Pod | fijo por pod | incluido | no | >200 QPS sostenido |
| Qdrant Cloud | incluido en compute | incluido | sí (1 nodo free) | mejor precio/QPS |
| Weaviate Cloud Serverless | USD 0,12-0,25/GB | USD 4-6/M | sí (sandbox) | multi-tenant, GraphQL |
| Milvus / Zilliz Cloud | variable | variable | sí | >100M vectores |
| pgvector | precio Postgres | USD 0 | N/A | <5M vecs + Postgres existente |
| Chroma | infra propia | USD 0 | N/A | dev / single-user |
Tabla de storage según dimensión y volumen
| Vectores | dim 384 | dim 768 | dim 1536 | dim 3072 |
|---|---|---|---|---|
| 1M | 1,4 GB | 2,9 GB | 5,7 GB | 11,4 GB |
| 5M | 7,2 GB | 14,3 GB | 28,6 GB | 57,2 GB |
| 10M | 14,3 GB | 28,6 GB | 57,2 GB | 114,4 GB |
| 50M | 71,5 GB | 143 GB | 286 GB | 572 GB |
| 100M | 143 GB | 286 GB | 572 GB | 1.144 GB |
Consejo: pasar de dim 1536 a 3072 duplica el storage y suele mejorar recall menos de 3% en tareas típicas de RAG. Empezá con 1536.
Costo estimado mensual por escenario (Pinecone Serverless, 10 QPS)
| Vectores | dim 1536 | dim 3072 | dim 384 |
|---|---|---|---|
| 1M | ~USD 218 | ~USD 221 | ~USD 215 |
| 5M | ~USD 224 | ~USD 232 | ~USD 216 |
| 20M | ~USD 240 | ~USD 274 | ~USD 218 |
| 50M | ~USD 308 | ~USD 395 | ~USD 237 |
Nota: a 10 QPS el costo de queries domina (≈USD 214/mes). Storage entra a pesar a partir de >20M vectores dim 1536.
Tamaño en bytes según dimensión y precisión
| Modelo | Dim | float32 (default) | float16 | int8 |
|---|---|---|---|---|
| all-MiniLM-L6-v2 | 384 | 1,5 KB | 0,75 KB | 0,4 KB |
| OpenAI text-embedding-3-small | 1536 | 6 KB | 3 KB | 1,5 KB |
| OpenAI text-embedding-3-large | 3072 | 12 KB | 6 KB | 3 KB |
| Cohere embed-v3 | 1024 | 4 KB | 2 KB | 1 KB |
¿Cuándo conviene cada opción?
pgvector — la más barata para proyectos pequeños
| Condición | ¿Usar pgvector? |
|---|---|
| Menos de 5M vectores | Sí, casi siempre |
| Ya tenés Postgres activo | Sí |
| Menos de 50 QPS | Sí |
| Necesitás JOINs con tablas SQL | Sí (ventaja única) |
| Más de 100M vectores | No |
| Latencia <50ms a alto QPS | No, usá managed |
Pinecone Serverless vs Pod
| Aspecto | Serverless | Pod |
|---|---|---|
| Modelo de precio | pay-per-use storage + reads | mensual fijo por pod |
| Cold start | sí (primer query lento) | no |
| Mejor para | <100 QPS, traffic variable | >200 QPS sostenido |
| Tendencia 2026 | empujado por Pinecone | modo legacy en descontinuación |
Errores que inflan el costo
1. Dimensión innecesariamente alta: dim 3072 cuesta 2× storage que 1536 con mejora marginal de calidad (<3% recall).
2. No filtrar por metadata: buscar sobre 100M vectores cuando podrías pre-filtrar por tenant_id baja 10× el costo de queries.
3. No cachear queries repetidas: Redis/Memcached puede ahorrar 30-50% en apps con consultas frecuentes similares.
4. Re-embeddear todo ante cambios menores: procesá solo los chunks nuevos o modificados.
5. No explorar cuantización: int8 reduce 4× el storage con pérdida típica de <2% en recall@10.
Latencia esperada (p99)
| Proveedor | <1M vectores | 10M vectores | 100M vectores |
|---|---|---|---|
| Pinecone Serverless | 30-80 ms | 40-100 ms | 50-150 ms |
| Qdrant Cloud | 15-40 ms | 25-60 ms | 40-100 ms |
| Weaviate Cloud | 20-50 ms | 30-70 ms | 50-120 ms |
| pgvector (HNSW) | 10-50 ms | 30-80 ms | suele sufrir |
> Aviso: Calculadora educativa. Los precios corresponden a las páginas oficiales de cada proveedor a junio 2026 — verificá antes de comprometer presupuesto. No constituye recomendación de proveedor.
Preguntas frecuentes
¿Cuánto cuesta Pinecone Serverless por mes en 2026?
Pinecone Serverless cobra aproximadamente USD 0,33 por GB-mes de storage y USD 8,25 por millón de reads. Para un workload típico de RAG con 5M vectores de 1536 dim y 10 QPS, el costo es ~USD 224/mes: USD 10 de storage y USD 214 de queries. El plan gratuito incluye hasta 1M vectores.
¿Es Qdrant más barato que Pinecone?
Sí, generalmente 2-3× más barato para workloads medianos (5-50M vectores, <100 QPS). Qdrant Cloud usa un modelo compute-based donde las queries están incluidas en el plan, sin cargo por millón de reads. Para el mismo workload de 5M vectores y 10 QPS, Qdrant suele salir entre USD 80-100/mes frente a ~USD 224/mes de Pinecone Serverless.
¿Cuál es la vector database más barata para 5M vectores?
Si ya tenés Postgres, pgvector (con índice HNSW) sale prácticamente gratis: solo un upgrade de instancia. En managed, Qdrant Cloud suele ser el más barato a esa escala (~USD 60-100/mes), seguido por Weaviate Cloud (~USD 80-130) y Pinecone Serverless (~USD 200+). La calculadora arriba calcula exactamente tu escenario.
¿Cuánto pesa 1 vector? ¿Cómo se calcula el storage?
En float32 (el default): dim × 4 bytes. Un embedding de OpenAI text-embedding-3-small (1536 dim) pesa 6 KB por vector. 1M vectores = 5,7 GB. 5M vectores = 28,6 GB. Si cuantizás a int8, se divide por 4 con pérdida de calidad inferior al 2% en la mayoría de casos.
¿Conviene 384, 768, 1536 o 3072 dimensiones para RAG?
1536 dims (OpenAI text-embedding-3-small) es el sweet spot calidad/costo en 2026 para la mayoría de aplicaciones RAG en español e inglés. 3072 dims (3-large) mejora el recall entre 1-3% pero duplica el storage y la latencia. 384 dims (MiniLM) es 4× más barato y funciona bien para casos de soporte o e-commerce. Empezá con 1536 y bajá si el costo escala.
¿Pinecone Serverless o Pod en 2026?
Serverless para el 90% de los casos: traffic variable, menos de 100 QPS, MVP o producto en crecimiento. Pod solo si tenés más de 200 QPS sostenido y necesitás latencia predecible sin cold starts. Pinecone está empujando a todos hacia Serverless desde 2024 y los pods están en modo legacy.
¿pgvector escala bien a millones de vectores?
Hasta 5-20M vectores con índice HNSW en Postgres 16+, funciona bien (p99 < 80ms). Más allá de 20M, las queries se vuelven lentas y el RAM del servidor sufre. Para más de 50M vectores o más de 50 QPS sostenidos, es mejor migrar a Qdrant, Weaviate o Pinecone. Ventaja única de pgvector: podés hacer JOINs SQL nativos con tus otras tablas.
¿Cuántas queries hace un RAG típico por mes?
Un chatbot con 1.000 usuarios diarios y 5 mensajes/usuario hace 5.000 queries/día = 0,058 QPS promedio = ~150.000 queries/mes. Un producto enterprise con 10.000 usuarios activos puede llegar a 10-100 QPS sostenidos. Estimá: usuarios_día × mensajes_usuario ÷ 86.400 = QPS promedio.
¿Cómo puedo reducir el costo de mi vector database?
Las 5 palancas más efectivas: 1) Pre-filtrá por metadata (tenant_id, fecha) antes del similarity search — puede reducir 10× el costo de queries. 2) Cuantizá a int8 si tu DB lo soporta (4× menos storage). 3) Cacheá queries frecuentes en Redis (ahorro 30-50% en apps con consultas repetidas). 4) Usá modelo de embedding más chico (MiniLM 384 si la calidad alcanza). 5) Procesá solo chunks nuevos al actualizar documentos.
Fuentes y referencias
También te puede interesar
Metodología y confianza
Contenido revisado por el equipo editorial de Hacé Cuentas, con apego a nuestra política editorial y metodología de cálculo.
Última revisión: 03 de junio de 2026. Los parámetros fiscales, legales y datos se verifican periódicamente con las fuentes citadas.
Los cálculos corren 100% en tu navegador. No guardamos ni transmitimos tus datos. Leé nuestra política de privacidad.
Resultados orientativos. Para decisiones financieras, médicas o legales críticas, consultá con un profesional.