Uma das suposições por trás das atuais estruturas de IA é que os agentes exigem um “chefe” no centro; esse orquestrador comanda o present, encaminha solicitações e garante que todo o sistema não caia no caos.
Essa suposição pode estar errada, e o custo de sua implementação poderia ser medido em dólares de inferência e latência de coordenação. Uma nova estrutura de Stanford chamada modelo de linguagem descentralizada, ou DeLM, baseia-se na premissa de que os agentes podem coordenar diretamente, sem encaminhar cada atualização através de um controlador central.
A base de conhecimento compartilhada do DeLM serve como um “substrato de comunicação comum” para que os agentes possam desenvolver o progresso verificado uns dos outros sem ter que encaminhar cada interação através de um agente principal para “fundir, filtrar e retransmitir”, explicam Yuzhen Mao e Azalia Mirhoseini, co-desenvolvedores da estrutura, em um artigo de pesquisa.
É um sistema que não só é possível, mas desejável em certos casos. “Os agentes podem aproveitar descobertas anteriores, evitar falhas repetidas, preservar restrições e recuperar evidências detalhadas somente quando necessário.”
Os desafios dos sistemas multiagentes tradicionais
Num sistema multiagente centralizado típico, um agente principal divide as tarefas em subtarefas, atribui-as a vários subagentes em paralelo, espera por respostas, funde e resume o progresso intermédio e, em seguida, lança uma próxima onda de ordens com base no contexto recolhido.
Embora esta seja uma forma pure de dimensionar o raciocínio do LLM, os pesquisadores de Stanford argumentam que ele é mal dimensionado. Cada descoberta útil, descoberta parcial e falha deve ser reportada ao agente principal, que então determina quais informações serão mescladas e retransmitidas para os agentes abaixo dele.
“À medida que o número de subtarefas aumenta, este controlador torna-se um gargalo de comunicação e integração”, escrevem Mao e Mirhoseini. Além disso, o orquestrador principal pode “diluir, omitir ou distorcer” informações úteis, levando à perda de progresso.
Esse gargalo também ocorre em cenários de raciocínio de contexto longo. Depois de receber relatórios dos subagentes, um agente principal normalmente agrupará conceitos, pontos de dados e outros materiais relacionados em um ciclo de aprendizagem não supervisionado. Ele pode então pré-atribuir esses “grupos de evidências” aos subagentes antes de saber qual materials revelado é realmente relevante ou se está combinado corretamente.
Quando um subagente recebe esse contexto insuficiente, ele basicamente ficará confuso e retornará ao agente principal, iniciando outra rodada de recuperação ou delegação. “Essas idas e vindas tornam a coordenação mais lenta, mais iterativa e cada vez mais limitada por um único agente principal sobrecarregado”, escrevem os pesquisadores.
VB Remodel · 14 a 15 de julho · Menlo Park · Orquestração agente
A Intuit reconstruiu seu sistema multiagente em 60 dias. O que eles mudaram – e por quê?
Na Remodel, os líderes de engenharia da Intuit, Goal e Instacart detalham como redesenharam suas arquiteturas de orquestração para confiabilidade, escala e clientes reais.
Veja a agenda completa →
O que o DeLM aborda e como funciona
O DeLM, por outro lado, é construído em torno de agentes paralelos, um contexto compartilhado e uma fila de tarefas.
O contexto compartilhado é essencialmente um armazenamento selecionado de “essências” ou resumos de informações que outros agentes podem achar úteis. Estes incluem resultados verificados e baseados em evidências, juntamente com resultados parciais e falhas documentadas; eles também apontam para evidências detalhadas que os agentes podem extrair com base em sua tarefa específica.
Uma fila de tarefas é então um conjunto de subtarefas pendentes subsequentes que os agentes podem reivindicar de forma independente.
“Os agentes escrevem atualizações compactas e verificadas em um contexto compartilhado que os agentes posteriores podem ler diretamente”, escrevem os pesquisadores. Descobertas úteis, falhas e restrições acumulam-se como um “estado problemático compartilhado”, em vez de passarem por um controlador central.
O pipeline é assim:
-
Inicialização: As entradas são divididas em diferentes unidades de trabalho e adicionadas a uma fila;
-
Execução paralela: Os agentes trabalham de forma independente e em conjunto, puxando tarefas e lendo o contexto compartilhado à medida que progridem.
-
Compressão e verificação: Os resultados são compactados em “essências” reutilizáveis que são verificadas em relação a evidências de apoio. Somente os pontos essenciais totalmente verificados são compartilhados com o grupo.
-
Trabalho adicional (se necessário): Quando a fila é esvaziada, o último agente a retornar uma resposta inspeciona todo o contexto compartilhado para determinar se é necessário mais trabalho.
-
Etapa closing: O último agente determina que não são necessárias mais etapas e retorna a resposta closing.
Os agentes “trocam progresso por meio de estado compartilhado, reivindicam tarefas prontas de forma assíncrona e escalam de forma mais adaptativa à medida que o número de subtarefas aumenta”, explicam os pesquisadores.
Como o DeLM funciona na natureza
Com o DeLM, os agentes podem evitar a exploração redundante; reutilizar e desenvolver as descobertas e fracassos uns dos outros; e focar em questões não resolvidas.
A estrutura pode ser particularmente útil no dimensionamento do tempo de teste de engenharia de software program, quando os modelos têm tempo para “pensar” para melhorar seu raciocínio e capacidade de resolução de problemas. Diferentes agentes podem explorar as suas próprias hipóteses ou seguir caminhos de raciocínio em paralelo, ao mesmo tempo que partilham progressos intermédios. Um exemplo é a depuração simultânea.
O DeLM também é adequado para raciocínio de longo contexto e resposta a perguntas em vários documentos; os agentes podem examinar simultaneamente os seus próprios grupos de evidências (coleções de documentos, códigos ou outros materiais), mantendo ao mesmo tempo uma “visão world compacta” das evidências acumuladas.
Os pesquisadores afirmam que isso torna as tarefas dos agentes mais precisas e significativamente mais baratas. Isso é apoiado por seu desempenho em benchmarks do mundo actual: no SWE-bench Verified — que avalia quão bem os modelos e agentes de IA resolvem problemas de engenharia de software program do mundo actual — ele teve um desempenho 10,5% melhor do que a linha de base mais forte e reduziu o custo por tarefa em cerca de 50%.
Mas pode ir além da codificação: no LongBench‑v2 Multi‑Doc QA — que avalia a capacidade dos LLMs de lidar com problemas do mundo actual de contexto longo — o DeLM teve a maior precisão em quatro famílias de modelos, incluindo GPT‑5.4, Claude Sonnet, Gemini Flash e DeepSeek‑V4‑Professional.
DeLM supera outros modelos no SWE-Bench por uma série de razõescomo Mao detalhou em X.
Primeiro, os agentes compartilham falhas. Em execuções paralelas normais, quando um agente segue o caminho errado, essa falha permanece privada e os agentes subsequentes podem perder tempo (e dinheiro) perseguindo o mesmo beco sem saída. Mas com o DeLM, as hipóteses fracassadas são escritas em um contexto compartilhado.
“Os agentes posteriores podem interpretá-los como restrições, evitar explorações repetidas e redirecionar a sua busca para soluções mais promissoras”, disse Mao.
Além disso, as restrições, uma vez verificadas, são imediatamente adicionadas ao contexto compartilhado dos agentes. Isso significa que eles se tornam um estado compartilhado vinculativo. “Os agentes posteriores herdam-nos, constroem em torno deles e evitam repetir simplificações globalmente inválidas”, disse Mao.
Crucialmente, o DeLM mantém o progresso compartilhado compacto o suficiente para ser reutilizado. É desdobrável, o que significa que os agentes veem os pontos essenciais por padrão, mas podem optar por desdobrá-los em resumos mais detalhados e evidências brutas.
Como observam os pesquisadores, fornecer todos os documentos brutos e rastreamentos dá aos agentes a quantidade máxima de informações, mas isso pode sobrecarregar suas janelas de contexto e, em última análise, aumentar os custos.
“Se os agentes compartilhassem rastreamentos completos, cada trabalhador precisaria ler longos históricos de comandos, despejos de arquivos, edições falhadas e raciocínio intermediário, transformando a própria coordenação em outro gargalo de longo contexto”, disse Mao.
Por outro lado, embora a partilha de resumos compactos seja mais barata, podem perder-se detalhes e provas importantes, resultando num raciocínio menos fiável.
O desdobramento, portanto, fornece acesso opt-in “grosso a fino”. Isso pode melhorar a precisão e o custo.
Em última análise, com uma estrutura como o DeLM, os agentes podem ser mais eficientes porque são impedidos de ler repetidamente os mesmos documentos ou de executar novamente a mesma análise falhada; mais eficaz porque descobertas úteis são propagadas através de threads paralelos; e mais robustos porque compartilham apenas reivindicações verificadas.
Para os construtores empresariais, o DeLM desafia uma suposição básica: todo fluxo de trabalho multiagente precisa de um controlador central. Os resultados do SWE-bench e do LongBench-v2 sugerem que o modelo descentralizado não é apenas teoricamente mais limpo – é mais rápido, mais preciso e custa cerca de metade do custo.













