Como tripliquei a precisão do RAG real com Elasticsearch + Vectorizer + Neo4j

Chega de teoria. Peguei dados reais de um projeto em produção, medi qualidade de resposta, latência e custo por prompt em quatro cenários (ES, Vectorizer, Neo4j e Híbrido) e em cinco prompts críticos (HNSW, MCP, compactação de storage, configuração e testes). A conclusão é objetiva: híbrido vence sempre — e não por pouco.

Relatórios

EXPANDED ANALYSIS: 5 DIFFERENT PROMPTS: https://github.com/hivellm/vectorizer/blob/1.2.0-rc1/docs/EXTENDED_5_PROMPTS_ANALYSIS.md

COMPARATIVE ANALYSIS: PROMPT QUALITY FOR REASONING: https://github.com/hivellm/vectorizer/blob/1.2.0-rc1/docs/HYBRID_SEARCH_QUALITY_ANALYSIS.md

Ferramentas usadas no teste

Vectorizer (código-base de análise): https://github.com/hivellm/vectorizer
Classificação p/ ES e Neo4j: https://www.npmjs.com/package/@hivellm/classify
Compressão de prompts: https://www.npmjs.com/package/@hivellm/compression-prompt
Transmutação/ingestão: https://www.npmjs.com/package/@hivellm/transmutation-lite
Docker Elasticsearch (guia oficial): https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html
Imagem Neo4j no Docker Hub: https://hub.docker.com/_/neo4j
Neo4j (docs Docker): https://neo4j.com/docs/operations-manual/current/docker/
Cursor (IDE usada na análise): https://www.cursor.com/
Claude (modelo utilizado): https://www.anthropic.com/claude

Metodologia (seca e direta)

Fontes:
- Elasticsearch: summaries, keywords, alta cobertura.
- Vectorizer MCP: chunks de código com alta precisão.
- Neo4j: grafo com Functions/Classes/Modules/APIs e relacionamentos.
Métrica: “Qualidade final” (correção + completude + utilidade), tokens no prompt, latência end-to-end.
Ambiente: mesmo corpus, queries idênticas, avaliações lado a lado.

O que cada banco entrega (sem romantizar)

Elasticsearch: acha o arquivo certo (ex.: HNSW, MCP, storage). Perfeito para descoberta ampla e testes de integração. Perde em precisão cirúrgica.
Vectorizer: acha o código exato no chunk certo (config, testes). É a lâmina que corta ruído. Pode ficar “míope” sem contexto.
Neo4j: dá mapa da arquitetura (funções, classes, módulos, APIs, dependências). Não responde “como” sozinho, mas remove ambiguidade.

Resultados que importam

Cenários (um prompt técnico, múltiplas fontes)

Banco único: 60–85% de acerto dependendo do tema.
Híbrido (3 bancos): 95–98% de qualidade consistente, combinando arquivo certo (ES) + código exato (Vectorizer) + estrutura/relacionamentos (Neo4j).

Cinco prompts (pacote completo)

HNSW search: ES vence (arquivo perfeito), Neo4j traz funções de conversão; híbrido fica topo absoluto.
Integração MCP: ES encontra testes; Neo4j mapeia APIs e dependências; híbrido entrega resposta pronta de doc.
Compactação de storage: ES acha storage/compact.rs; MCP confirma persistence wrapper; Neo4j fecha módulo/reader/writer → zero adivinhação.
Configurações: ES falha (0 hits); MCP acha enhanced_config.rs; Neo4j lista classes de config → cobertura total.
Como escrever testes: MCP domina (arquivo de testes completo); híbrido contextualiza demais (sem desperdício).

Custo x benefício

Híbrido ≈ 150 ms e ~4K tokens.
Ganho: de ~60–85% (banco único) para 95–98%. 2× custo → 10× qualidade → 5× ROI.

Padrão arquitetural

Descoberta (ES) → pega o escopo certo e poda ruído grosso.
Código (Vectorizer) → insere chunks exatos para o “como”.
Estrutura (Neo4j) → injeta grafo de relações para não errar arquitetura/nomes/módulos.
Prompt Builder (determinístico): junta [estrutura + arquivo + chunk] em camadas, com orçamento de tokens controlado.

Evidências-chave

Híbrido atingiu ~95% (tabela geral) e até 98% com tripla validação.
ES ganhou 3/5 prompts em descoberta (HNSW, MCP, storage). MCP ganhou onde código era o foco (config, testes). Neo4j subiu a régua de clareza estrutural e virou peça obrigatória.

O que matar agora

RAG “simples” baseado só em similaridade → aposente. É loteria cara.
Prompts gigantes sem curadoria → corte; invista no prompt builder por camadas (ES → Vectorizer→ Neo4j).

Conclusão

Quer resposta certa em cenário crítico? Pare de brincar de banco único. O stack híbrido muda o jogo porque elimina adivinhação:

ES descobre;
Vectorizer prova;
Neo4j explica.

O resto é custo de oportunidade.

Produção pede precisão. Híbrido entrega.