Início Tecnologia Os pesquisadores automatizaram o design da estratégia de raciocínio LLM e reduziram...

Os pesquisadores automatizaram o design da estratégia de raciocínio LLM e reduziram o uso de tokens em 69,5%

35
0

O escalonamento em tempo de teste (TTS) surgiu como um método comprovado para melhorar o desempenho de grandes modelos de linguagem em aplicativos do mundo actual, proporcionando-lhes ciclos de computação extras no momento da inferência. No entanto, as estratégias TTS têm sido historicamente elaboradas à mão, baseando-se fortemente na intuição humana para ditar as regras de raciocínio do modelo.

Para resolver esse gargalo, pesquisadores da Meta, do Google e de diversas universidades introduziram AutoTTSuma estrutura que descobre automaticamente estratégias ideais de TTS. Essa abordagem automatizada permite que as organizações empresariais otimizem dinamicamente a alocação de computação sem ajustar manualmente a heurística.

Ao implementar as estratégias ideais descobertas pelo AutoTTS, as organizações podem reduzir diretamente o uso de tokens e os custos operacionais da implantação de modelos de raciocínio avançados em ambientes de produção. Em testes experimentais, o AutoTTS gerenciou orçamentos de inferência de forma eficiente, reduzindo com sucesso o consumo de tokens em até 69,5% sem sacrificar a precisão.

O gargalo guide no dimensionamento do tempo de teste

O dimensionamento do tempo de teste aprimora os LLMs, concedendo-lhes computação additional ao gerar respostas. Essa computação additional permite que o modelo gere vários caminhos de raciocínio ou avalie suas etapas intermediárias antes de chegar a uma resposta closing.

O principal desafio para projetar estratégias TTS é determinar como alocar esse cálculo additional de forma otimizada. Historicamente, os investigadores conceberam estas estratégias manualmente, baseando-se em suposições para construir heurísticas rígidas. Os engenheiros devem formular hipóteses sobre as regras e limites para quando um modelo deve ramificar-se em novos caminhos de raciocínio, investigar mais profundamente um caminho existente, podar um ramo pouco promissor ou parar completamente de raciocinar.

Como este processo de ajuste guide é limitado pela intuição humana, uma grande quantidade de abordagens possíveis permanece inexplorada. Isso geralmente resulta em compensações abaixo do preferrred entre a precisão do modelo e os custos de computação.

Os algoritmos TTS atuais podem ser mapeados para um espaço de controle largura-profundidade – “largura” sendo o número de ramos de raciocínio explorados, “profundidade” sendo o quão longe cada um se desenvolve. A autoconsistência (SC) amostra um número fixo de trajetórias e vota por maioria na resposta. A consistência adaptativa (ASC) economiza a computação ao parar mais cedo quando um limite de confiança é atingido. A sonda paralela adota uma abordagem mais granular, podando galhos pouco promissores enquanto aprofunda o resto. Todos os três são feitos à mão e essa é a restrição que o AutoTTS foi projetado para quebrar.

Embora alguns métodos mais avançados utilizem estruturas mais ricas, como pesquisa em árvore ou verificadores externos, todos eles compartilham uma característica elementary: são meticulosamente feitos à mão. Essa abordagem guide restringe o escopo da descoberta de estratégias, deixando intocada uma grande parte do espaço potencial de alocação de recursos.

Automatizando a descoberta de estratégias com AutoTTS

O AutoTTS reformula a forma como o escalonamento do tempo de teste é otimizado. Em vez de tratar o design da estratégia como uma tarefa humana, o AutoTTS aborda-o como um problema de busca algorítmica dentro de um ambiente controlado.

Esta estrutura redefine as funções do engenheiro humano e do modelo de IA. Em vez de criar regras específicas para quando um LLM deve ramificar, podar ou interromper o raciocínio, o papel do engenheiro muda para a construção do ambiente de descoberta. O ser humano outline os limites, incluindo o espaço de controle de estados e ações, os objetivos de otimização que equilibram a precisão versus o custo e os mecanismos de suggestions específicos.

Estrutura AutoTTS (fonte: arXiv)

Um explorador LLM, como Claude Code, desenha a estratégia. Este explorador atua como um agente autônomo que propõe iterativamente “controladores” TTS. Esses controladores são políticas ou algoritmos definidos por código que determinam como um modelo de IA aloca seu orçamento computacional durante a inferência. O explorador testa e refina esses controladores com base no suggestions até descobrir uma política preferrred de alocação de recursos.

Para tornar esta pesquisa automatizada computacionalmente acessível, o AutoTTS depende de um “ambiente de reprodução offline”. Se o explorador LLM tivesse que invocar um modelo de raciocínio básico para gerar novos tokens toda vez que testasse uma nova estratégia, os custos de computação seriam astronômicos. Em vez disso, depende de milhares de trajetórias de raciocínio pré-coletadas do LLM básico. Essas trajetórias incluem “sinais de sondagem”, que são respostas intermediárias que ajudam o controlador a avaliar o progresso em diferentes ramos de raciocínio.

Durante o loop de descoberta, o agente explorador propõe um controlador e o avalia em relação a esses dados offline. O agente observa os rastreamentos de execução do controlador proposto que mostram a computação alocada ao longo do tempo. Ao analisar esses rastreamentos, o agente pode diagnosticar modos de falha específicos, como observar se um controlador eliminou ramificações de forma muito agressiva em um cenário específico. Isso oferece uma vantagem sobre apenas visualizar o resultado closing. O agente então reescreve iterativamente seu código para melhorar a compensação entre precisão e custo.

Dentro do controlador projetado por IA

Como o agente explorador não é limitado pela intuição humana, ele pode descobrir regras complexas e altamente coordenadas que um engenheiro humano provavelmente nunca codificaria manualmente. Um controlador preferrred descoberto pelo AutoTTS, denominado Confidence Momentum Controller, aproveita vários mecanismos não óbvios para gerenciar a computação:

  • Parada baseada em tendência: estratégias elaboradas à mão geralmente instruem o modelo a parar de raciocinar quando atingir um determinado limite de confiança instantâneo. O agente AutoTTS descobriu que a confiança instantânea pode ser enganosa devido a picos temporários. Em vez disso, o controlador rastreia uma média móvel exponencial (EMA) de confiança e só para se o nível de confiança geral for alto e a tendência não estiver diminuindo ativamente.

  • Controle acoplado de largura-profundidade: Algoritmos projetados manualmente geralmente tratam a “ampliação” de novos caminhos de raciocínio e o “aprofundamento” dos caminhos atuais como decisões separadas. O AutoTTS descobriu um ciclo fechado de suggestions onde as duas ações estão vinculadas. Se a confiança das ramificações atuais estagnar ou regredir, o controlador acionará automaticamente a geração de novas ramificações.

  • Alocação de profundidade com reconhecimento de alinhamento: Em vez de dar a todos os ramos de raciocínio ativos um orçamento de computação igual, o controlador identifica dinamicamente quais ramos concordam com a resposta principal atual. Em seguida, ele dá prioridade a essas ramificações “rajadas” de computação additional. Isto concentra o orçamento computacional no consenso emergente para verificar rapidamente se está correto.

Economia de custos e ganhos de precisão em benchmarks do mundo actual

Para testar se uma IA poderia descobrir de forma autônoma uma melhor estratégia de escalonamento do tempo de teste, os pesquisadores criaram uma estrutura de avaliação rigorosa. Os experimentos principais foram conduzidos em modelos Qwen3 variando de parâmetros de 0,6B a 8B. Os pesquisadores também testaram a capacidade do sistema de generalizar em uma versão 8B destilada do modelo DeepSeek-R1.

O agente explorador de IA foi inicialmente encarregado de descobrir uma estratégia preferrred usando o benchmark de raciocínio matemático AIME24. Esta estratégia descoberta foi então testada em dois benchmarks matemáticos, AIME25 e HMMT25, bem como no benchmark de raciocínio geral de nível de pós-graduação GPQA-Diamond.

O controlador descoberto pelo AutoTTS foi comparado a quatro algoritmos de escalonamento de tempo de teste projetados manualmente na indústria. Essas linhas de base incluíam autoconsistência com 64 caminhos de raciocínio paralelo (SC @ 64), consistência adaptativa (ASC), sonda paralela e autoconsistência de parada antecipada (ESC). ESC é uma abordagem híbrida que gera trajetórias em paralelo e para precocemente quando uma resposta parece estável.

curvas de escala

AutoTTS (linha vermelha) supera outras linhas de base em benchmarks do setor (fonte: arXiv)

Quando definido para um modo equilibrado e econômico, o controlador descoberto pelo AutoTTS reduziu o consumo whole de tokens em aproximadamente 69,5% em comparação com o SC@64. Ao mesmo tempo, o controlador manteve a mesma precisão média nos quatro modelos Qwen. Quando o orçamento de inferência aumentou, o AutoTTS elevou a precisão máxima além de todas as linhas de base artesanais em cinco dos oito casos de teste.

Essa eficiência se traduziu em outras tarefas. No benchmark GPQA-Diamond, a variante AutoTTS balanceada reduziu o custo do token de inferência de 510 mil tokens para apenas 151 mil tokens, ao mesmo tempo que melhorou ligeiramente a precisão geral. No modelo DeepSeek, o AutoTTS alcançou a maior precisão geral no benchmark HMMT25, reduzindo o gasto de token quase pela metade.

Para profissionais que criam aplicações empresariais de IA, esses experimentos destacam dois benefícios operacionais principais:

  • Aumentando o desempenho máximo: O AutoTTS não economiza dinheiro apenas no consumo de tokens. Ele aumenta ativamente o desempenho máximo alcançável do modelo básico. O controlador projetado por IA é notavelmente bom na detecção dinâmica de ramificações de raciocínio barulhentas ou improdutivas e no redirecionamento contínuo de seu orçamento computacional para as ramificações que geram os sinais de raciocínio mais úteis.

  • Desenvolvimento personalizado econômico: como a estrutura depende de um ambiente de reprodução offline, todo o processo de descoberta custou apenas US$ 39,90 e levou 160 minutos. Para as equipes empresariais, isso significa que estratégias de raciocínio otimizadas, adaptadas a modelos proprietários e tarefas internas, estão agora ao seu alcance — sem um orçamento de pesquisa dedicado.

Tanto o Estrutura AutoTTS e o Confidence Momentum Controller estão disponíveis no GitHub; o CMC pode ser usado como um substituto imediato para outros controladores TTS.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui