Início Tecnologia O HarnessX da Xiaomi reescreve seu próprio andaime de IA no meio...

O HarnessX da Xiaomi reescreve seu próprio andaime de IA no meio da tarefa – e modelos menores ganham mais

27
0

À medida que os agentes empresariais de IA assumem tarefas cada vez mais complexas e de longo horizonte, o seu desempenho é muitas vezes restringido pelo seu equipamento, a estrutura de software program que liga a espinha dorsal do LLM ao seu ambiente.

Atualmente, os arreios são em grande parte estáticos e feitos à mão. Melhorá-los é em grande parte handbook e eles não melhoram automaticamente com base nos dados de execução coletados de seu ambiente.

Para resolver esse gargalo de engenharia, os pesquisadores da Xiaomi introduziram ArnêsXuma estrutura que trata o equipamento de IA como um objeto combinável e aplica melhorias ao seu código de forma autônoma.

Em aplicações empresariais do mundo actual, esta adaptação automatizada permite que os sistemas de IA se ajustem dinamicamente aos requisitos específicos da aplicação. Testes práticos mostraram que o HarnessX oferece ganhos substanciais de desempenho em domínios como engenharia de software program e interação na internet.

Os resultados demonstram que dimensionar o modelo básico não é o único caminho para uma IA mais capaz — e para modelos menores, pode até não ser o melhor. A evolução do chicote HarnessX rendeu um ganho médio de desempenho de +14,5% em 15 combinações de modelos de referência; para o peso aberto Qwen3.5-9B, os ganhos atingiram +44% em tarefas de planejamento incorporadas.

Os desafios da engenharia de chicotes

Em aplicações de IA, a capacidade de um modelo básico depende muito do equipamento circundante. O chicote atua como a camada operacional que converte as saídas brutas do modelo em comportamentos estruturados e executáveis ​​do agente. Inclui prompts, integrações de ferramentas externas, gerenciamento de memória e fluxos de controle que determinam como um sistema de IA observa seu ambiente, raciocina sobre um problema e toma medidas.

À medida que os agentes empresariais assumem fluxos de trabalho mais complexos e de longo prazo, a engenharia de aproveitamento tornou-se uma parte elementary do desenvolvimento da IA. Apesar da sua importância, o desenvolvimento de chicotes continua longe de ser uma disciplina de engenharia madura e apresenta três desafios principais.

Primeiro, os chicotes são estáticos e projetados manualmente. Qualquer mudança no modelo básico subjacente, a introdução de novas ferramentas ou uma mudança para um domínio operacional diferente requer reescritas de código manuais e personalizadas. Os arneses tradicionais carecem de mecanismos para aprender e melhorar de forma autônoma com base em experiências de execução anteriores.

Em segundo lugar, a maioria dos chicotes existentes sofre de emaranhamento arquitetônico. Eles acoplam modelos de immediate, wrappers de ferramentas, políticas de nova tentativa e gerenciamento de memória nos mesmos caminhos de código. Esse emaranhado significa que ajustar um componente pode quebrar outros silenciosamente. A tentativa de reutilizar um chicote em diferentes domínios de negócios geralmente resulta em cópia de código bruto, em vez de composição limpa e modular.

Terceiro, o modelo de chicote e fundação é otimizado isoladamente. Quando os engenheiros executam testes para melhorar o aproveitamento, os rastreamentos de execução gerados são normalmente descartados em vez de serem usados ​​como dados de treinamento para melhorar o modelo. Consequentemente, as atualizações do modelo não levam naturalmente a melhorias no aproveitamento, criando um gargalo onde as equipes não conseguem capturar o valor whole dos dados operacionais dos seus agentes.

HarnessX: uma fundição autônoma para agentes de IA

O HarnessX resolve os gargalos de engenharia do desenvolvimento handbook de chicotes com o que os pesquisadores chamam de “fundição unificada de chicotes”.

A principal inovação do HarnessX é tratar o arnês como um “objeto de primeira classe”. Em termos de engenharia de software program, isso significa que o chicote é uma entidade serializável, modular e substituível de forma independente. Ao separar a configuração do modelo (ou seja, qual modelo de IA está operando) da configuração do chicote, os engenheiros podem trocar, adaptar e evoluir perfeitamente o andaime sem tocar no modelo subjacente.

O HarnessX divide o comportamento do agente em diferentes componentes, como montagem de contexto, gerenciamento de memória, ecossistemas de ferramentas, fluxo de controle e observabilidade. Cada comportamento específico é implementado como um “processador” que se conecta aos ganchos precisos do ciclo de vida do chicote. Essa estrutura modular permite que o sistema troque, adicione ou remova esses processadores sem interromper o pipeline circundante.

Para automatizar a otimização desta estrutura modular, a HarnessX apresenta o AEGIS, um mecanismo de evolução orientado por rastreamento. A adaptação dos quadros AEGIS aproveita a adaptação como um problema de aprendizagem por reforço (RL) sobre os diferentes componentes simbólicos do chicote.

Enquadrar a otimização de chicotes como um problema de aprendizagem por reforço introduz três patologias contra as quais os pesquisadores tiveram que projetar explicitamente:

  • Hack de recompensa: O sistema pode explorar atalhos para a solução em vez de resolver genuinamente a tarefa.

  • Esquecimento catastrófico: Uma edição que corrige um padrão de falha em um domínio pode interromper silenciosamente um fluxo de trabalho resolvido anteriormente em outro.

  • Subexploração: O sistema pode iterar em pequenos ajustes imediatos em vez de explorar novas configurações de ferramentas estruturalmente superiores.

ÉGIDE

Para evitar esses problemas, o AEGIS conta com a observabilidade whole dos traços e um pipeline de quatro estágios:

  1. Digestor: Compacta rastreamentos de execução em resumos estruturados para identificar onde o agente falhou.

  2. Planejador: Analisa esses resumos para permitir que o sistema discover mudanças estruturais em vez de apenas ajustes imediatos locais.

  3. Evoluir: Gera edições e testes de aproveitamento em nível de código para garantir que sejam executados corretamente antes da implantação.

  4. Crítico e portão: Um crítico avalia as edições para detectar hacking de recompensas, enquanto um portão determinístico rejeita qualquer atualização que regrida uma tarefa previamente resolvida para evitar um esquecimento catastrófico.

O HarnessX entra em um campo crescente de pesquisa de arreios de autoaperfeiçoamento – mas o que o separa é a coevolução do modelo de arreios.

Os pesquisadores destacam que a otimização de qualquer um dos componentes isoladamente acaba atingindo um obstáculo. A evolução apenas do equipamento atinge um limite máximo se o modelo subjacente não tiver a capacidade de raciocínio para utilizar as novas ferramentas. O treinamento apenas do modelo atinge um teto de sinal de treinamento se o chicote nunca solicitar que o modelo use seus recursos avançados.

HarnessX intercala a evolução do aproveitamento com o treinamento do modelo. Os traços de execução gerados enquanto o chicote tenta se adaptar às tarefas são convertidos em sinais de aprendizagem por reforço para o modelo básico. Cada vez que o chicote melhora sua estratégia, o modelo aprende simultaneamente a explorar melhor essa nova estratégia, rompendo os limites de capacidade do desenvolvimento tradicional de agentes de IA.

coevolução do modelo de chicote

Coevolução do modelo de chicote (fonte: arXiv)

O HarnessX torna essa coevolução possível por meio do GRPO (Otimização de Política Relativa de Grupo) cruzado. GRPO é o algoritmo RL in style usado para treinar modelos de raciocínio como DeepSeek-R1.

Ao ajustar o modelo, o GRPO de cross-harness agrupa as trajetórias de execução de um agente para a mesma tarefa em versões totalmente diferentes dos chicotes do aplicativo. Isso permite que o modelo subjacente internalize mudanças estratégicas de alto nível, como usar um novo endpoint de API ou gerenciar um orçamento de execução, em vez de apenas aprender pequenas variações de fraseado de immediate.

HarnessX em ação em benchmarks do setor

Para validar a utilidade prática do HarnessX, os pesquisadores o testaram em cinco benchmarks que incluem engenharia de software program, diálogo de atendimento ao cliente em várias voltas, navegação na internet, raciocínio aberto em várias etapas e planejamento incorporado.

Eles separaram a IA em duas funções. O “metaagente”, desenvolvido por Claude Opus 4.6, analisou logs e escreveu o código para evoluir os chicotes. Os “agentes de tarefas” executavam os fluxos de trabalho reais. Para provar que a estrutura é independente de modelo, eles a testaram em três modelos de trabalho diferentes: Claude Sonnet 4.6, GPT-5.4 e o Qwen3.5-9B de peso aberto.

desempenho do arnêsx

HarnessX melhora o desempenho do agente nos principais benchmarks do setor sem alterar o modelo subjacente (fonte: arXiv)

O HarnessX foi comparado com duas linhas de base primárias. O primeiro foi um equipamento estático, representando como a maioria das empresas implanta IA hoje, usando configurações congeladas e feitas à mão com prompts e ferramentas específicas de benchmark. O segundo foi o Claude Code SDK, uma linha de base que representa um evoluído de agente único para testar se o complexo pipeline AEGIS de quatro estágios superou a solicitação de um modelo de linguagem única para iterar no código.

A evolução dinâmica do chicote produz ganhos significativos no mesmo modelo básico. O HarnessX melhorou o desempenho em 14 das 15 combinações de modelos de referência. Em todos os testes, a evolução do chicote rendeu um ganho médio absoluto de desempenho de +14,5%.

Os modelos mais fracos foram os que mais se beneficiaram com a melhoria dinâmica do chicote. O Qwen3.5-9B de peso aberto teve um salto de desempenho de + 44,0% no benchmark de planejamento incorporado ALFWorld e um salto de + 18,2% no banco SWE verificado para engenharia de software program.

A coevolução também se mostrou altamente eficaz. Quando os pesquisadores treinaram o modelo básico usando os dados gerados durante a evolução do equipamento, eles observaram um aumento adicional de desempenho médio de +4,7%. Melhorar o arnês e o modelo produz simultaneamente o teto mais alto. O ganho de coevolução aplica-se apenas a modelos de peso aberto.

Evidências anedóticas dos experimentos mostram como o HarnessX resolve problemas perniciosos ao criar equipamentos de agentes para tarefas do mundo actual. Por exemplo, no benchmark de raciocínio em várias etapas do GAIA, o agente de tarefa falhou consistentemente porque a ferramenta de navegador sem cabeça que ele usou para copiar a Wikipedia expirou no frontend do web site com muito JavaScript. HarnessX analisou os rastreamentos de execução, diagnosticou o erro e escreveu uma nova ferramenta que contornou totalmente o navegador e consultou a API MediaWiki diretamente em busca de texto simples. Ele trocou essa ferramenta pelo arnês e desbloqueou instantaneamente as tarefas com falha.

Durante os testes de comércio eletrônico do WebShop, o agente de IA muitas vezes ficou preso em loops de paginação, clicando incessantemente na “próxima página” e reformulando pesquisas sem nunca se comprometer com a compra de um produto. Em vez de apenas ajustar o immediate, o HarnessX construiu um processador consultivo que detectava quando o agente estava repetindo ações de navegação. Ele injetou um aviso no contexto para forçar uma decisão, curando o comportamento em loop e aumentando o desempenho.

Limites da engenharia automatizada de chicotes

Uma advertência importante é que o sistema atualmente depende de modelos poderosos para atuar como o metaagente que reescreve o código do chicote. Nas suas experiências, os investigadores basearam-se em modelos de fronteiras fechadas como o de Claude Opus. Os modelos de peso aberto estão melhorando rapidamente, mas sua capacidade de servir como metaagente permanece não testada.

Outra limitação que vale a pena considerar são as capacidades intrínsecas dos modelos utilizados. Se o modelo de tarefa subjacente for fundamentalmente fraco demais para executar os fluxos de trabalho complexos propostos pelo novo equipamento, o HarnessX não será capaz de melhorar as habilidades gerais do agente (os pesquisadores observaram isso com o modelo Qwen3.5-9B nos testes de codificação do SWE-bench).

Apesar dessas limitações, o HarnessX apresenta um caso concreto de que a engenharia de chicotes – e não apenas o dimensionamento de modelos – é uma alavanca que os profissionais podem usar agora. Para equipes que executam modelos abertos menores em fluxos de trabalho complexos, os ganhos aqui são grandes o suficiente para justificar a avaliação da evolução do aproveitamento como um primeiro passo antes de chegar a um modelo de fronteira mais caro. Os pesquisadores planejam lançar o código em uma atualização futura.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui