Permitir que os LLMs adquiram novos conhecimentos após a formação continua a ser um grande obstáculo para a IA empresarial – as soluções atuais são demasiado caras, demasiado lentas ou limitadas por limites de janela de contexto.
Memorandouma estrutura de pesquisadores de várias universidades, codifica novos conhecimentos em um modelo de memória dedicado menor que opera separadamente do LLM principal.
A arquitetura modular funciona com modelos de código aberto e fechado e evita a complexidade dos pipelines RAG e do retreinamento completo do modelo.
Experimentos mostram que o MeMo lida com consultas complexas de maneira confiável, mesmo quando os pipelines de recuperação são barulhentos. Evita o esquecimento catastrófico associado ao ajuste fino direto e fornece um caminho econômico para atualizações contínuas de conhecimento.
O desafio de atualizar a memória LLM
Grandes modelos de linguagem são congelados após o treinamento e seu conhecimento interno permanece estático até que sejam submetidos a atualizações computacionalmente massivas subsequentes.
Atualmente, os desenvolvedores contam com três abordagens principais para integrar conhecimento externo em um LLM, cada uma com desvantagens distintas:
Métodos não paramétricoscomo geração aumentada de recuperação (RAG) e aprendizagem em contextorecupere documentos relevantes de um banco de dados externo e insira-os diretamente no immediate do modelo. Embora populares, esses métodos são limitados pelos tamanhos das janelas de contexto.
Como Armando Photo voltaic-Lezama, coautor do artigo, disse ao VentureBeat: “Os bancos de dados vetoriais têm um trabalho fundamentalmente difícil de codificar a semântica completa de um pedaço de texto em um único vetor e, em seguida, combinar esse vetor com uma consulta, mesmo quando a relevância do pedaço… só pode ser aparente no contexto de outros pedaços”.
Os pesquisadores observam que a semelhança semântica dos embeddings muitas vezes não corresponde ao que a consulta do usuário realmente exige. O processamento de milhares de tokens recuperados também cria sobrecarga computacional substancial e latência de inferência. O mais problemático é que os sistemas RAG são altamente sensíveis ao ruído. Passagens irrelevantes ou mal recuperadas muitas vezes degradam a resposta remaining do modelo.
Métodos paramétricoscomo o pré-treinamento contínuo ou o ajuste fino supervisionado, tentam internalizar novos conhecimentos diretamente nos pesos do LLM. Atualizar LLMs massivos e modernos é proibitivamente caro e normalmente impossível para modelos proprietários de código fechado escondidos atrás de APIs. O ajuste fino também pode causar esquecimento catastrófico. Forçar o modelo a se adaptar a novos dados corporativos muitas vezes desgasta suas capacidades de raciocínio e proteções de segurança anteriormente adquiridas.
Métodos de memória latentecomo a compactação de contexto, oferecem um meio-termo. Eles comprimem o conhecimento em “gentle tokens” compactos ou representações que são adicionadas ao contexto do modelo durante a inferência. A falha deadly aqui é o “acoplamento de representação”. A memória compactada está estritamente ligada à arquitetura do modelo que a produziu; você não pode transferir uma memória latente treinada em um modelo de código aberto para um modelo de código fechado.
Como funciona o MeMo
A estrutura MeMo (Memória como Modelo) apresenta uma arquitetura modular com dois componentes separados. O modelo MEMORY é um modelo de linguagem pequeno treinado especificamente para codificar novos conhecimentos em seus parâmetros. O modelo EXECUTIVO é um LLM congelado e pronto para uso que funciona como mecanismo de raciocínio. Quando um usuário faz uma pergunta, o modelo EXECUTIVO trata o modelo MEMÓRIA como um oráculo externo, emitindo subconsultas direcionadas para reunir fatos e sintetizar esses fatos em uma resposta remaining.
O princípio central do design que impulsiona o MeMo é o conceito de “reflexos”. As reflexões são pares de perguntas e respostas (QA) direcionados, projetados para capturar todos os ângulos possíveis de um corpus de conhecimento. Em vez de forçar a IA a processar um enorme corpus de documentos não estruturados durante o treinamento, o MeMo usa um modelo GENERATOR para destilar o texto bruto em milhares de pares de controle de qualidade direcionados. O modelo MEMORY é então ajustado neste conjunto de dados para responder perguntas usando apenas seu conhecimento paramétrico, sem a necessidade de ler o contexto recuperado.
No momento da inferência, a interação entre os dois modelos segue um protocolo estruturado de três estágios:
1. O modelo EXECUTIVO decompõe a consulta complexa de um usuário em um conjunto de subquestões atômicas. O modelo MEMÓRIA responde a cada uma de forma independente para estabelecer os fatos básicos.
2. Usando essas pistas iniciais, o modelo EXECUTIVO emite consultas de acompanhamento para restringir as entidades candidatas até convergir com segurança para um alvo específico.
3. Finalmente, o modelo EXECUTIVO consulta o modelo MEMÓRIA para apoiar fatos sobre aquela entidade alvo e sintetiza os trechos recuperados em uma resposta coesa.
Essa arquitetura mescla os pontos fortes dos três paradigmas de memória de IA existentes, ao mesmo tempo que contorna suas armadilhas. Ele aproveita modelos de fronteira prontos para uso, mantendo o armazenamento de memória separado do raciocínio, garantindo compatibilidade com modelos de API abertos e fechados. Ele internaliza o conhecimento diretamente nos parâmetros, mas isola as atualizações em um modelo de MEMÓRIA menor e dedicado para proteger o mecanismo de raciocínio. Finalmente, ele cria um artefato de memória consultável que não está vinculado a nenhum modelo específico e pode ser usado com diferentes famílias LLM.
Lidando com atualizações contínuas de conhecimento
O gerenciamento da memória de uma IA requer atualizações contínuas à medida que as políticas da empresa mudam e novos relatórios são publicados. Normalmente, atualizar os parâmetros de um modelo requer treiná-lo novamente do zero nos dados antigos e novos combinados. À medida que a base de conhecimento cresce, este custo cumulativo de reciclagem torna-se incontrolável.
Para lidar com atualizações contínuas de forma eficiente, o MeMo conta com uma técnica chamada “fusão de modelos”. Em vez de uma fase massiva de reciclagem conjunta, o MeMo treina um novo modelo de MEMÓRIA independente exclusivamente nos documentos recém-adicionados. O sistema deriva um “vetor de tarefas” que representa as alterações de parâmetros aprendidas a partir dos novos dados. Essas atualizações são então mescladas matematicamente nos pesos do modelo MEMORY authentic.
Essa abordagem reduz as horas de computação necessárias para manter o sistema atualizado, evitando a interferência que causa o esquecimento catastrófico.
Essa eficiência tem uma compensação: a fusão de modelos incorre em uma queda de precisão de 11% a 19% em comparação com um retreinamento completo, dependendo do modelo de raciocínio utilizado.
MeMo em ação
Para medir a eficácia no mundo actual, a equipe de pesquisa avaliou o MeMo em relação a vários benchmarks do setor que exigem raciocínio complexo e multi-hop em vários documentos.
Os pesquisadores usaram Qwen2.5-32B-Instruct como modelo GENERATOR para destilar texto bruto em reflexões. Para o modelo MEMORY primário, eles implantaram o Qwen2.5-14B-Instruct. Eles também validaram a abordagem em modelos menores de parâmetros de 1-2B em diferentes arquiteturas, incluindo Gemma3-1B.
Para o modelo de raciocínio EXECUTIVO, eles testaram o Qwen2.5-32B de peso aberto e o Gemini 3 Flash proprietário do Google.
Eles compararam o MeMo com um limite superior de “Recuperação Perfeita” (onde os documentos exatos e corretos são fornecidos manualmente) e vários sistemas de recuperação avançados, incluindo pesquisa BM25 tradicional, recuperação de vetor denso e RAG baseado em gráfico de última geração (HippoRAG2). Eles também testaram “Cartuchos”, um método recente que carrega um cache KV treinado no modelo durante a inferência.
MeMo dominou o raciocínio de documentos longos. No benchmark NarrativeQA, o MeMo alcançou 53,58% de precisão emparelhado com o Gemini 3 Flash, de acordo com os pesquisadores. HippoRAG2 atingiu o máximo de 23,21%.
Os sistemas empresariais frequentemente precisam sintetizar respostas complexas, como atravessar estruturas regulatórias sobrepostas escritas de forma independente por diferentes órgãos ou consolidar insights em uma enorme base de código e documentação externa. Os sistemas RAG tradicionais falham aqui porque atingem os limites da janela de contexto e não conseguem conectar conceitos que abrangem centenas de páginas. O MeMo é bem-sucedido porque essas conexões são mapeadas e internalizadas dentro do modelo MEMORY durante o treinamento. É “como ter o seu próprio Malcolm Gladwell, que pode conectar a história dos Beatles com a história de Invoice Gates para argumentar sobre a natureza da especialização”, disse Photo voltaic-Lezama.
Os experimentos revelaram outra grande vantagem: a atualização do mecanismo de raciocínio não requer nenhum retreinamento. A simples mudança do modelo EXECUTIVO do Qwen de código aberto para o Gemini 3 Flash proprietário aumentou o desempenho do MeMo em 26,73% no NarrativeQA e 11,90% no benchmark MuSiQue. Para os profissionais, isso significa que você pode treinar um modelo MEMORY com segurança em seus dados privados e conectá-lo instantaneamente às APIs comerciais mais recentes, atualizando continuamente a inteligência do sistema sem incorrer em novos custos de treinamento.
A equipe de pesquisa descreveu a integração como não exigindo configuração adicional: “O LLM básico (ou Executivo) que as equipes já estão usando no RAG pode ser configurado para consultar diretamente o modelo de memória. Essas consultas são feitas em linguagem pure, semelhante ao envio de uma solicitação de mensagem para uma API, sem necessidade de configuração adicional.”
O MeMo também lida excepcionalmente bem com dados ruidosos. Quando os pesquisadores inundaram deliberadamente o conjunto de dados com documentos irrelevantes (até o dobro da quantidade de informações úteis), o desempenho do HippoRAG2 caiu 11,55%. O desempenho do MeMo permaneceu relativamente estável, caindo menos de 2%. As bases de conhecimento empresariais são normalmente confusas, cheias de documentos duplicados e políticas desatualizadas. Os sistemas RAG padrão lutam com esse ruído, inserindo parágrafos incorretos no immediate e causando alucinações. Como o modelo EXECUTIVO do MeMo interage com um oráculo sintetizado em vez de pedaços de documentos brutos, ele permanece altamente robusto contra dados corporativos desorganizados.
Limitações e compensações
Para as equipes de engenharia que desejam implantar o MeMo, há diversas limitações importantes a serem consideradas.
Ao contrário dos sistemas RAG tradicionais, que indexam rapidamente documentos brutos em um banco de dados vetorial, o MeMo exige um custo inicial de treinamento para cada novo corpus. O pipeline de geração de dados usado para sintetizar as reflexões de treinamento é computacionalmente caro. Por exemplo, a equipe observou que “a geração do conjunto de dados de controle de qualidade de reflexão completo levou aproximadamente 240 horas de GPU em NVIDIA H200s”, enquanto o treinamento de um modelo de MEMÓRIA de parâmetro de 14B “levou aproximadamente 180 horas de GPU H200”. Como disse Photo voltaic-Lezama, “Reduzir o custo de treinamento é um dos problemas de pesquisa abertos mais significativos para tornar esta técnica uma força de trabalho”.
Como o modelo MEMORY é uma rede neural de tamanho fixo, a sua capacidade de internalizar o conhecimento é limitada pela sua capacidade representacional. Embora os pesquisadores não tenham atingido um limite rígido durante o benchmarking, eles levantam a hipótese de que “corpora suficientemente grandes ou densos em informação excederão o que um modelo de MEMÓRIA de tamanho fixo pode comprimir e representar corretamente”.
Finalmente, como o MeMo sintetiza respostas a partir da memória paramétrica em vez de recuperar trechos exatos de texto, ele obscurece a procedência da informação. Isto torna difícil atribuir declarações específicas a documentos de origem originais, o que representa um problema crítico de conformidade para aplicações empresariais que exigem trilhas de auditoria rigorosas.
A decisão entre o MeMo e o RAG tradicional se resume a uma heurística de “pesquisa versus síntese”, juntamente com a volatilidade dos dados. Os pesquisadores aconselham que “o RAG tradicional seria preferido quando as respostas residem em um único documento ou quando há uma fonte bem definida… O MeMo seria preferido quando a tarefa muda da pesquisa para a síntese de uma resposta a partir de informações espalhadas por vários pedaços.” Se o seu corpus de conhecimento muda rapidamente (por exemplo, feeds diários) e você precisa de citações exatas das fontes, o RAG continua sendo a melhor opção devido ao custo inicial de treinamento do MeMo. Se o seu corpus consiste em conhecimento de domínio generalizado que evolui lentamente em relação ao seu quantity, o MeMo oferece um raciocínio muito superior. As equipes também podem adotar uma arquitetura de roteamento híbrida na produção: enviando consultas de “pesquisa” para um banco de dados vetorial padrão e consultas de “síntese” para o modelo MEMÓRIA.
“Olhando mais adiante, eu esperaria que os modelos de memória se tornassem um componente arquitetônico padrão junto com a recuperação”, disse Daniela Rus, coautora do artigo e diretora do Laboratório de Ciência da Computação e Inteligência Synthetic do MIT (CSAIL), ao VentureBeat, “da mesma forma que o cache e a indexação são componentes padrão de qualquer sistema de dados sério hoje”.













