Início Tecnologia O modelo do Alibaba nunca treinou como agente – e melhorou o...

O modelo do Alibaba nunca treinou como agente – e melhorou o desempenho do agente em sete benchmarks

22
0

A equipe Qwen do Alibaba lançou o Qwen-AgentWorld na terça-feira – dois modelos treinados não para agir dentro de ambientes de agentes, mas para prever o que esses ambientes retornam. A versão cobre sete domínios em uma única arquitetura: MCP, Pesquisa, Terminal, Engenharia de Software program, Android, Net e SO.

O lançamento amplia a recente investida do Alibaba em agentes autônomos. Qwen3.7-Max, lançado em maio, foi construído em torno de uma capacidade de execução autônoma de 35 horas.

Essa mudança visa um teto que as equipes de treinamento de agentes em escala enfrentam diretamente. Os mecanismos de pesquisa reais apresentam quaisquer resultados existentes, sem nenhum mecanismo para injetar condições controladas. Terminais ativos não permitem injetar uma condição de pouco espaço em disco sob demanda. O treinamento dos agentes é limitado pelos ambientes de produção que surgirão, sem nenhuma maneira sistemática de expor os casos extremos que os agentes precisarão lidar, mas raramente encontrarão no treinamento.

A equipe de pesquisa treinou agentes dentro do simulador resultante e encontrou ganhos de desempenho que excederam o que o treinamento em ambientes reais produzia sozinho. Em um teste separado, usar o treinamento do modelo mundial como aquecimento antes do ajuste fino da agência melhorou o desempenho em sete benchmarks, incluindo três que o modelo nunca havia visto durante o treinamento.

O documento que acompanha o lançamento identificou uma lacuna na pesquisa anterior de agentes. “Argumentamos que a modelagem mundial é uma peça essential que falta no caminho para os agentes gerais.”

Qwen-AgentWorld treina sobre quais ambientes retornam, não sobre o que os agentes devem fazer

A maioria dos modelos de agentes são treinados para responder a uma pergunta: dado o que o ambiente acabou de me mostrar, o que devo fazer a seguir? Qwen-AgentWorld é treinado para responder o inverso: dado o que o agente acabou de fazer, o que o ambiente mostrará a seguir?

Essa inversão é o núcleo daquilo a que o artigo chama um modelo de mundo linguístico: em vez de optimizar para a selecção de acções, o modelo aprende a prever o próximo estado do ambiente em todos os sete domínios sob um único objectivo de formação. O trabalho anterior foi mais restrito: WebWorldum projeto Qwen anterior de fevereiro, abrangia apenas ambientes net; Modelo de agente mundial de Snowflakepublicado no mesmo mês, gera ambientes baseados em SQL orientados por código, em vez de treinar um modelo para prever estados. Qwen-AgentWorld é o primeiro a abranger sete domínios em um único modelo, com modelagem de ambiente integrada desde o primeiro estágio de pré-treinamento.

O Alibaba treinou ambos os modelos em três estágios em mais de 10 milhões de trajetórias de interação ambiental a partir de execuções de agentes reais. O estágio um ensina ao modelo como os ambientes se comportam – sistemas de arquivos, estados de terminal, alterações no DOM do navegador, respostas de API. O estágio dois treina o modelo para raciocinar sobre o que vem a seguir antes de predizê-lo. O estágio três, aprendizado por reforço, reforça as previsões usando verificações baseadas em regras e pontuação de qualidade aberta.

Ambos os modelos são designs de mistura de especialistas – apenas uma fração dos parâmetros está ativa por token. O modelo 35B ativa 3B; o 397B ativa 17B. Ambos suportam janelas de contexto de 256K. Para domínios GUI (Android, Net e SO), os modelos funcionam a partir de árvores de acessibilidade textual e hierarquias de visualização de UI, em vez de capturas de tela.

Os pesos do modelo 35B e o AgentWorldBench estão disponíveis no Apache 2.0; os pesos 397B não são divulgados publicamente.

Os resultados do treinamento são mais importantes do que os benchmarks

As pontuações de benchmark mostram a precisão com que os modelos prevêem quais ambientes retornam. Os resultados do treinamento mostram quanto essa capacidade de previsão realmente vale para os agentes de formação de equipes – e esses são os números que mais importam.

Segundo os pesquisadores, os agentes treinados em simulação controlada superaram os agentes treinados em ambientes reais. A injeção de perturbações direcionadas – respostas parciais que forçam etapas extras do agente e casos extremos de ambientes reais raramente surgem – empurrou o MCPMark de 24,6 para 33,8. Na Pesquisa, agentes treinados em mundos inteiramente fictícios foram transferidos para tarefas de pesquisa reais, empurrando o merchandise WideSearch F1 de 34,02 para 50,31 no modelo aberto 35B. Um teste de aquecimento separado mostrou que o pré-treinamento do modelo mundial melhorou o BFCL v4 de 62,29 para 71,25 e o Claw-Eval de 53,60 para 64,88 sem nenhum ajuste fino específico do agente.

Crédito: Alibaba https://arxiv.org/pdf/2606.24597

Os pesquisadores sinalizam o benchmark e o risco de overfitting

O artigo atraiu uma reação imediata dos pesquisadores de IA sobre o X. As preocupações levantadas mapeiam o que os profissionais precisam verificar antes de agir de acordo com as descobertas.

Quanto ao objetivo do treinamento e ao resultado da transferência, a avaliação de um pesquisador de IA/ML foi direta. “Todos os outros modelos de ‘agentes’ foram treinados para atuar em ambientes”, escreveu @drawais_aique tem formação em doutorado e regularmente analisa artigos sobre IA. “Qwen inverteu a questão. Eles treinaram o modelo para prever o próprio ambiente… Esse conhecimento preditivo é então transferido para as tarefas do agente, mesmo sem qualquer ajuste fino específico do agente.” Ele identificou o resultado do RL do Sim Controlável como “o recibo” para a afirmação de que o treinamento sintético pode substituir o RL do ambiente actual em escala e sinalizou que três dos sete benchmarks de transferência estavam totalmente fora de domínio.

A margem de referência atraiu um exame minucioso imediato. “AgentWorldBench é uma referência do Alibaba construída e publicada no mesmo artigo”, escreveu @TheSignal_Deskque se concentra em análises honestas e números importantes na pesquisa de IA. “Eles escreveram o teste e depois superaram em 0,46.”

A metodologia sim-RL é o resultado @limalemonnnque cria agentes de IA de produção, identificados como os que mais necessitam de escrutínio antes que a afirmação do título seja citada. “Agentes treinados em Sim tradicionalmente se adaptam às peculiaridades do simulador”, escreveram eles. “Se o modelo mundial for muito limpo, o agente aprende o modelo, não a tarefa.” Eles apontaram para a divisão de resistência do artigo, pois os profissionais da seção deveriam ler antes de agir de acordo com os números.

A preocupação com o overfitting tem uma resposta parcial nos dados. A lacuna entre o Sim RL não controlado (MCPMark 24.6) e o Sim RL controlado (MCPMark 33.8) sugere que os ganhos dependem substancialmente do mecanismo de controlabilidade, e não apenas da precisão da simulação. O resultado da pesquisa no mundo fictício, onde agentes treinados em ambientes inventados são transferidos para tarefas de pesquisa reais, é a evidência mais forte do artigo contra a preocupação de sobreajuste.

O que isso significa para as equipes que constroem pipelines de agentes

Para as equipes de engenharia de IA que estão construindo e dimensionando pipelines de agentes, este trabalho sinaliza uma mudança significativa na forma como a capacidade dos agentes é construída. As equipes que treinam agentes em escala agora têm uma terceira opção entre RL em ambiente actual e benchmarks estáticos: a simulação controlada que injeta os casos extremos de produção não surgirá.

Os ambientes sintéticos são uma camada de treinamento legítima. A simulação controlada que injeta condições que os ambientes reais não produzirão é um complemento ao RL do ambiente actual, não um atalho para contorná-lo.

O que um modelo aprende antes do início do treinamento do agente é mais importante do que a maioria dos pipelines considera. A descoberta inicial – ganhos de desempenho em benchmarks inéditos, sem treinamento específico do agente – sugere que a ancoragem do ambiente ocorre mais cedo no desenvolvimento do que a prática atual.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui