Relevância híbrida na prática — do “parecido” ao “importante”, com um layer de raciocínio por cima

Em RAG, “relevância” não é encontrar textos parecidos: é selecionar evidências que resolvem a intenção agora. Isso exige quatro eixos: semântica (parecido), sinais (uso/êxito), estrutura (ligações/autoridade) e tempo (frescor). O que transforma isso em resposta útil é um layer de raciocínio que orquestra, pesa e justifica.

Cursor

Quando você escreve um prompt no Cursor, ele não repassa o texto cru para a LLM. Antes, ele “raciocina”: entende a intenção, decide a tática, lê arquivos e usa MCP para buscar só os trechos relevantes, resume o que importa (memória pontual), remove ruído e versões antigas, e monta um prompt de trabalho já estruturado com critérios de aceitação. Se percebe lacunas (ex.: variável, versão, dependência), faz uma checagem rápida antes da inferência. Só então envia um contexto enxuto e preciso para o modelo. O efeito é prático: respostas mais consistentes, menos idas e voltas, menos tokens gastos e menos passos até o “ok”. Em outras palavras, o Cursor mostra que reasoning é fazer o trabalho pesado antes da LLM — filtrar e contextualizar — para a inferência virar o passo final e curto.

Reflexão crítica sobre o RAG “padrão”

No modelo atual mais comum, o fluxo é: buscar o que parece, jogar para o LLM e torcer para o resultado ser razoável. É quase um jogo de sorte. Mesmo com guardrails e papéis de agente, em cenários críticos (ex.: atendimento, compliance, medicina, finanças) respostas “meio certas” não servem: precisam ser rigidamente corretas. Alucinação ou “criatividade” não são toleradas. O sistema deve provar por que aquela evidência é a certa — ou admitir lacuna e solicitar informação adicional.

Por que só similaridade falha

• Confunde proximidade com utilidade.
• Ignora o momento (conteúdo velho parece bom).
• Não explica o critério de escolha.
• Enche o prompt com texto irrelevante (custo).

O papel do layer de raciocínio

Pense nele como um planejador–executor–crítico sobre as buscas:
• Planeja: interpreta a intenção, detecta ambiguidade e define tática (preciso de frescor? confirmação cruzada?).
• Executa: dispara consultas por eixo (semântica, lexical focado em novidades, relações/autoridade, sinais de uso).
• Funde: combina resultados com pesos claros e guarda a justificativa do ranking.
• Critica: checa lacunas/contradições e, se necessário, roda uma busca adicional cirúrgica.
• Entrega: compacta as evidências sem perder nomes/IDs e envia ao modelo só o essencial.

Como se desenrola na prática (curto e direto)

Entender o pedido (o que é “sucesso” nesta pergunta?).
Rodar buscas pelos quatro eixos, em paralelo ou por ordem tática.
Unificar resultados com critérios transparentes (peso semântico, frescor, autoridade, uso real).
Compactar trechos para caber mais prova e menos ruído.
Responder com trilha do porquê (ex.: “recente”, “citado por…”, “solução confirmada em X casos”).
Se faltar prova, declarar a lacuna e perguntar o mínimo necessário.

Exemplo em uma linha

“Handshake falhando atrás de proxy”: prioriza notas recentes do fornecedor (tempo), a configuração que mais resolveu nos últimos dias (sinais) e a cadeia correta de dependências (estrutura), validando com trechos semanticamente próximos (semântica). Resultado: resposta curta, atual e explicável — sem “achismo”.

Princípios que fazem diferença

• Separar eixos: tratar semântica, sinais, estrutura e tempo como fontes distintas.
• Explicar sempre: ranking sem justificativa convida à desconfiança.
• Parcimônia: cada token deve mudar a resposta; o resto é custo.
• Presets por tarefa: troubleshooting ≠ pesquisa ≠ Q&A de documentação.
• Telemetria útil: medir se a resposta resolveu e realimentar os pesos.
• Intolerância à incerteza em cenários críticos: se não houver evidência suficiente, o sistema deve sinalizar risco ou solicitar confirmação.

A grande livraria

Imagine uma livraria colossal, porém desorganizada. Você entra, faz uma pergunta, e alguém traz “livros parecidos”. Às vezes resolve; muitas vezes, não. Esse é o RAG padrão: buscar o que parece, jogar para o LLM e torcer pelo melhor.

As camadas da busca (da porta de entrada à página exata)

Portaria (Intenção)
Primeiro, entender claramente o pedido: qual problema resolver agora? Qual será o critério de “resposta correta”? Aqui desambiguamos termos (“Apple empresa ou produto?”) e definimos a tática de busca (precisa ser recente? precisa confirmar fonte primária?).
Mapa da livraria (Semântica)
Em vez de vasculhar prateleira por prateleira, usamos um mapa que aponta onde estão os livros “mais parecidos” com a pergunta. Semântica serve para chegar rápido às estantes certas — mas não decide sozinha o que é importante.
Balcão de novidades (Tempo/Frescor)
Se o assunto muda rápido, livros recém-chegados ganham prioridade. Um decaimento temporal impede que um tomo velho, embora parecido, supplante uma nota nova que resolve o problema de hoje.
Livros mais lidos (Sinais/Popularidade de uso)
Entre obras parecidas, vale saber quais foram realmente úteis: o que foi consultado, resolveu casos recentes, recebeu “ok, funcionou”. Popularidade aqui não é “hype”; é evidência de eficácia.
Quem cita quem (Estrutura/Autoridade)
Alguns livros são pilares: são citados por muitos outros, conectam capítulos e organizam o tema. Essa estrutura de referências informa autoridade e ajuda a explicar “por que este livro subiu no ranking”.
Índice e sumário (Localização do trecho)
Chegamos ao livro certo; falta abrir na página certa. Procuramos o capítulo, o parágrafo e as frases que contém a resposta exata. Nada de “capítulo inteiro” só para ver se cola: parcimônia é regra.
Leitura crítica (Verificação e lacunas)
Antes de entregar, o processo se pergunta: “há contradições?”, “faltou checar fonte primária?”, “há uma condição de versão/ambiente?”. Se algo estiver vago, fazemos uma busca cirúrgica adicional ou pedimos o mínimo de confirmação.
Resumo de bolso (Compactação consciente)
Levamos ao balcão apenas as linhas que mudam a resposta: nomes, IDs, comandos, trechos-prova. Sem inchar a sacola. Resultado: menos custo, mais precisão.
Nota do bibliotecário (Explicabilidade)
Junto da resposta, vem a trilha do porquê: “recente”, “confirmado em X casos”, “citado por Y”, “página Z do livro W”. Transparência sustenta confiança.

O layer de raciocínio que cola tudo

Essas camadas não funcionam por inércia: há um orquestrador que atua como planejador–executor–crítico.

Planeja a rota (quais camadas importam mais para este pedido).
Executa consultas por eixo (semântica, frescor, sinais, estrutura) e funde resultados com critérios claros.
Critica o próprio resultado: se faltar prova, volta e busca; se houver conflito, sinaliza risco.
Esse layer transforma índices desconexos em evidência coerente, pronta para o modelo responder sem “achismo”.

Por que isso muda o jogo

De parecido para importante: seleciona o que resolve, agora.
Custo menor: entra no modelo só o essencial.
Confiança maior: cada escolha é justificável.
Risco sob controle: em cenários críticos, alucinação e “criatividade” não passam — sem prova, sem resposta.