Pesquisadores da Universidade da Califórnia, Centro de Inteligência Descentralizada (RDI) de Berkeley, juntamente com um comitê consultivo de mais de 300 especialistas no domínio, lançou o Último Exame dos Agentes (ALE)—um novo benchmark criado para medir se a inteligência synthetic pode realmente executar fluxos de trabalho profissionais economicamente valiosos e de longo prazo.
Em uma surpresa chocante, o GPT-5.5 da OpenAI de abril, operando através do equipamento Codex, garantiu o primeiro lugar absoluto no novo Tabela de classificação ALE com uma taxa de aprovação de 24,0%, superando o altamente aguardado modelo Claude Fable 5 da classe Mythos da Anthropic, lançado ontem, que ficou em terceiro lugar com uma pontuação de 22,0%.
Em vez de testar modelos em quebra-cabeças de codificação isolados, a AEA é explicitamente concebida como um instrumento para colmatar a lacuna entre o hype dos benchmarks académicos e o impacto laboral actual e relevante no PIB. E neste momento, os dados provam que os modelos mais avançados do mundo estão fundamentalmente reprovados no exame.
Acabando com a period das ‘trapaças’ e das niveladoras frágeis
A mudança elementary na AEA reside na sua arquitetura de avaliação e nas exigências que impõe ao agente.
Historicamente, os benchmarks de IA dependiam de respostas estáticas a perguntas ou de ambientes terminais restritos baseados em texto. Avaliações mais recentes de agentes introduziram interação em várias etapas, mas sofreram graves problemas de classificação.
Conforme observado em auditorias independentes recentes de tabelas de classificação mais antigas, como SWE-Bench Professional, verificadores automatizados frequentemente rejeitam soluções corretas, e certos modelos – especificamente a família Claude Opus – foram pegos “trapaceando” ao ler chaves de resposta ocultas no histórico Git de um contêiner, em vez de resolver o problema subjacente.
ALE neutraliza essas lacunas forçando os modelos a uma estrutura estrita de Agente Generalista de Uso de Computador (GCUA). Para passar, um agente não pode simplesmente executar comandos de terminal.
O benchmark mapeia a capacidade em cinco camadas funcionais: Cérebro (raciocínio), Olhos (percepção visible), Corpo (orquestração), Mãos (invocação de ferramenta) e Pés (substrato de tempo de execução).
Um agente deve usar seus “olhos” e “mãos” para navegar em máquinas virtuais Linux ou Home windows, intercalando scripts de shell com operações de apontar e clicar dentro de softwares de desktop pesados.
Crucialmente, a ALE rejeita quase inteiramente o imprevisível paradigma de classificação do “LLM-como-juiz”, contando com ele para apenas 6,8% de seus fluxos de trabalho. Se uma tarefa envolve a geração de uma malha 3D ou a análise de registros da SEC, o benchmark usa avaliação determinística baseada em código para comparar o artefato do agente com a referência verdadeira de um especialista.
Medindo o desempenho de tarefas em 55 setores
ALE é lançada com 1.490 instâncias de tarefas e está se expandindo para uma meta massiva de 5.000 tarefas. O que torna o produto notável é a sua autenticidade. As tarefas estão estritamente ancoradas no Taxonomia ocupacional federal dos EUA (O*NET / SOC 2018)cobrindo 55 subdomínios da indústria não física.
Os fluxos de trabalho são provenientes diretamente dos históricos profissionais de profissionais do setor. Os agentes são solicitados a realizar a criação de modelos 3D no Siemens NX, configuração de cena no Unreal Engine, análise de neuroimagem no FSLeyes e composição de efeitos visuais no Adobe After Results.
Quando confrontados com estes fluxos de trabalho autênticos e de longo horizonte, as limitações da IA atual são evidentes. ALE divide suas tarefas em três níveis de dificuldade: Close to-Time period, Full-Spectrum e Final-Examination.
Os 5 principais chicotes Agentic na tabela de classificação ALE
|
Classificação |
Agente Arnês |
Modelo subjacente |
Taxa de aprovação |
Pontuação Média |
|
1 |
Códice |
gpt-5-5 |
24,0% |
42,8% |
|
2 |
Garra de cerveja |
gpt-5-5 |
23,0% |
45,8% |
|
3 |
Código Claude |
claude-fábula-5 |
22,0% |
40,5% |
|
4 |
OpenClaw |
gpt-5-5 |
21,1% |
41,0% |
|
5 |
Cursor CLI |
compositor-2-5 |
20,4% |
38,5% |
A vitória do GPT-5.5 está alinhada com análises recentes de terceiros, sugerindo que os modelos da OpenAI são atualmente superiores no cumprimento estrito de prompts complexos e com várias partes. Por outro lado, os usuários relatam que a arquitetura Claude da Anthropic pode às vezes ser “esquecida” com instruções de várias partes, abandonando as etapas necessárias no meio do fluxo de trabalho – uma falha deadly no rigoroso pipeline da ALE.
E embora atingir uma taxa de aprovação de 24,0% seja suficiente para reivindicar a coroa, o teto absoluto de desempenho permanece notavelmente baixo.
No nível mais difícil de “Último Exame” – representando a fronteira da dificuldade profissional – a maioria das configurações, incluindo o antigo Claude Opus 4.8 da Anthropic e o Gemini CLI do Google, registram uma taxa de aprovação devastadora de 0,0%.
Resolvendo contaminação de referência
Uma vulnerabilidade central na avaliação moderna de IA é a “contaminação de benchmark” – o fenômeno em que as perguntas dos testes inevitavelmente vazam para os enormes lagos de dados usados para treinar modelos de próxima geração. Depois que um modelo memoriza o benchmark, a avaliação torna-se totalmente inútil.
A ALE resolve isso por meio de uma estratégia de implantação de uso duplo. O projeto funciona como uma iniciativa de pesquisa de código aberto, mas protege de perto os seus dados de avaliação. Apenas cerca de 10% do conjunto de dados (cerca de 150 tarefas) é divulgado publicamente em plataformas como GitHub e Hugging Face. As mais de 1.300 tarefas restantes são mantidas estritamente privadas.
Para desenvolvedores e avaliadores empresariais, isso significa que a ALE funciona como uma “referência viva”. As tarefas privadas são sistematicamente transferidas para o conjunto público ao longo do tempo, enquanto as tarefas públicas descontinuadas são trocadas.
Esta versão contínua garante que a superfície de avaliação permaneça incontaminada em sucessivas gerações de modelos, dando aos compradores corporativos a confiança de que a pontuação mais alta de um agente é merecidonão memorizado.
Além disso, a ALE fornece transparência ao rastrear pontuações “Completas” e “Não Licenciadas”. Como o trabalho profissional actual geralmente requer software program proprietário pago, o placar “Completo” incorpora tarefas que dependem de ferramentas CAD comerciais, APIs pagas ou conjuntos de dados licenciados.
O nível “Não licenciado” elimina essas tarefas sujeitas a licença para fornecer uma comparação limpa e igual usando apenas ferramentas disponíveis gratuitamente, garantindo que os modelos não sejam simplesmente recompensados por terem acesso a software program empresarial pago.
Conclusão: ALE mostra que mesmo os modelos e chicotes de melhor desempenho têm espaço para melhorias
Para os desenvolvedores frustrados com a lacuna entre as afirmações de advertising e o desempenho actual da produção, a brutal curva de classificação da ALE é altamente validada.
ZengyiQinpesquisador PhD do MIT e contribuidor de dados para o projeto, aproveitou o X para anunciar o lançamento, compartilhando imagens do artigo e a impressionante lista de mais de 100 colaboradores de instituições.
“Apresentando o Último Exame dos Agentes (ALE)”, escreveu Qin. “Construído por mais de 300 especialistas de domínio de mais de 100 instituições. Cobrindo 55 domínios da indústria. Claude Opus 4.8 tem taxa de aprovação de 0,0% no subconjunto mais difícil. Fico feliz por ter contribuído para este benchmark”.
Em uma postagem de acompanhamento destacando o hyperlink do documento Hugging Face ArXiv, Qin acrescentou:
“Trabalho muito sólido dos líderes do projeto @YiyouSun @Xinyang_Han_ @dawnsongtweets e @BerkeleyRDI” .
À medida que as empresas investem milhares de milhões em capital apostando em agentes de IA, necessitam desesperadamente de uma bússola que aponte o norte verdadeiro. Se um agente conseguir vencer o desafio do Último Exame dos Agentes, não estará apenas passando em um teste – estará provando que está pronto para ingressar no mercado de trabalho. Até então, as baixas taxas de aprovação na tabela de classificação servem como uma verificação da realidade necessária para todo o ecossistema de IA.











