
Especialistas sob demanda: o que aprendi treinando meus “experts”
November 7, 2025
Imagina você rodar modelos locais com a mesma qualidade dos grandes modelos de API? essa e a ideia que estou construindo!
Minha tese é simples: especialistas sob demanda vencem generalistas inchados. Em vez de carregar um Frankenstein de 70B parâmetros para “fazer tudo”, eu mantenho um modelo base compacto residente em VRAM e plugo experts leves (LoRA/DoRA/IA³) só quando a tarefa pede. Isso roda em GPU de consumo (8–16 GB), carrega adapters em milissegundos e mantém contexto longo sem custo absurdo. Não é MoE; é composição dinâmica em runtime, com um roteador heurístico que aciona 1–10 experts por consulta.