Início Tecnologia Anthropic lança Claude Opus 4.8 com ganhos em codificação e honestidade

Anthropic lança Claude Opus 4.8 com ganhos em codificação e honestidade

15
0

Antrópico anunciado hoje o lançamento de seu mais recente modelo de IA, Claude Opus 4.8. A Antrópico afirma que o modelo é um “colaborador mais eficaz”, com melhorias na codificação agente, raciocínio multidisciplinar, uso de computador agente, trabalho de conhecimento e análise financeira agente.


Os testadores descobriram que o Opus 4.8 é “mais confiável e mais aguçado em seu julgamento” ao realizar tarefas de agente, e o modelo também obteve ganhos em honestidade.

Os primeiros testadores relatam que o Opus 4.8 tem maior probabilidade de sinalizar incertezas sobre seu trabalho e menos probabilidade de fazer afirmações não comprovadas. Isto é confirmado nas nossas avaliações, que mostram que o Opus 4.8 tem cerca de quatro vezes menos probabilidade do que o seu antecessor de permitir que falhas no código que escreveu passem despercebidas.

As avaliações de alinhamento sugerem que o modelo atinge novos patamares em medidas de características pró-sociais, como apoiar a autonomia do usuário e agir no melhor interesse do usuário. As taxas de comportamento desalinhado, como engano, são inferiores ao Opus 4.7 e semelhantes às do Claude Mythos Preview.

Os benchmarks antrópicos indicam que o Opus 4.8 obteve uma pontuação de 69,2% no SWE-Bench Professional, superando o GPT –5.5 e o Gemini 3.1 Professional no teste e vários outros benchmarks, embora o GPT –5.5 lidere no benchmark de codificação de terminal.

O modo rápido do Opus 4.8 também funciona a 2,5x a velocidade e agora é três vezes mais barato que os modelos anteriores.

Junto com o Opus 4.8, a Anthropic está adicionando novos recursos à sua linha de produtos.

  • Fluxos de trabalho dinâmicos (visualização da pesquisa) – Claude pode completar tarefas maiores no Claude Code. É capaz de planejar o trabalho e executar centenas de subagentes paralelos em uma única sessão. Ele é capaz de concluir migrações em escala de base de código em centenas de milhares de linhas de código. O recurso está disponível para os planos Claude Code for Enterprise, Group e Max.
  • Controle de esforço – No Claude.ai e no Cowork, os usuários podem escolher quanto esforço Claude coloca em uma resposta. Com uma configuração mais baixa, Claude responderá mais rapidamente e usará os limites de taxa mais lentamente. O padrão do Opus 4.8 é alto esforço, que a Antrópica diz ser o melhor equilíbrio entre qualidade e experiência do usuário.
  • API de mensagens – A API de mensagens aceita entradas do sistema dentro do array de mensagens, para que os desenvolvedores possam atualizar as instruções de Claude no meio da tarefa.

Claude Opus 4.8 está disponível em todos os lugares hoje. O preço para uso common não mudou em comparação com o Opus 4.7.

A Anthropic está trabalhando em modelos que possuem os mesmos recursos do Opus 4.8 a um custo menor e em uma nova classe de modelo ainda mais inteligente que o Opus. A Anthropic diz que está desenvolvendo proteções para o modelo Claude Mythos que está testando com um pequeno número de organizações e espera poder levar modelos da classe Mythos a todos os clientes “nas próximas semanas”.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui