Início Tecnologia Claude Opus 4.8 da Anthropic está aqui com modo rápido 3X mais...

Claude Opus 4.8 da Anthropic está aqui com modo rápido 3X mais barato e alinhamento de nível próximo ao Mythos

9
0

Antrópico hoje lançou Claude Opus 4.8uma atualização para seu modelo principal que é fornecido pelo mesmo preço de seu antecessor, juntamente com um nível de “modo rápido” dramaticamente mais barato e um novo recurso que permite que o modelo gere centenas de subagentes paralelos para trabalho em escala de base de código.

O modelo está disponível imediatamente nas superfícies da Anthropic – claude.ai, Claude Code, API e Cowork – a preços inalterados: US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. Os desenvolvedores podem chamá-lo de claude-opus-4-8.

A história principal da eficiência é o modo rápido. A Anthropic reduziu o preço de execução do Opus 4.8 no modo rápido – onde o modelo produz tokens a aproximadamente 2,5x a velocidade regular – para US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, abaixo dos US$ 30/US$ 150 do Opus 4.7.

Gráfico de preços do modo rápido Claude Opus 4.8 e 4.7. Crédito: Antrópico

Isso representa uma redução de três vezes em relação ao preço do modo rápido dos modelos anteriores e coloca a inferência de alto rendimento ao alcance de cargas de trabalho de produção sensíveis à latência.

O modo rápido está disponível imediatamente no Claude Code através do /quick comando; O acesso à API é fechado, com lista de espera em claude.com/fast-mode.

No modo common, Claude Opus 4.8 permanece entre os modelos de fronteira mais caros, mas ainda está sob o comando do GPT-5.5, do principal rival da OpenAI.

Instantâneo de preços da API do modelo Frontier AI

Modelo

Entrada

Saída

Custo complete

Fonte

Flash MiMo-V2.5

US$ 0,10

US$ 0,30

US$ 0,40

Xiaomi MiMo

MiniMax M2.7

US$ 0,30

US$ 1,20

US$ 1,50

MiniMax

Gêmeos 3.1 Flash-Lite

US$ 0,25

US$ 1,50

US$ 1,75

Google

MiMo-V2.5

US$ 0,40

US$ 2,00

US$ 2,40

Xiaomi MiMo

Kimi-K2.6

US$ 0,95

US$ 4,00

US$ 4,95

Moonshot/Kimi

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

Grok 4.3 (baixo contexto)

US$ 1,25

US$ 2,50

US$ 3,75

xAI

DeepSeek V4 Professional

US$ 1,74

US$ 3,48

US$ 5,22

DeepSeek

GLM-5.1

US$ 1,40

US$ 4,40

US$ 5,80

Z.ai

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Grok 4.3 (alto contexto)

US$ 2,50

US$ 5,00

US$ 7,50

xAI

Qwen3.7-Máx.

US$ 2,50

US$ 7,50

US$ 10,00

Nuvem Alibaba

Gêmeos 3.5 Flash

US$ 1,50

US$ 9,00

US$ 10,50

Google

Pré-visualização do Gemini 3.1 Professional (≤200K)

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.4

US$ 2,50

US$ 15,00

US$ 17,50

OpenAI

Pré-visualização do Gemini 3.1 Professional (>200K)

US$ 4,00

US$ 18,00

US$ 22,00

Google

Cláudio Opus 4.7

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

Cláudio Opus 4.8

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.5

US$ 5,00

US$ 30,00

US$ 35,00

OpenAI

Ganhos modestos acima de 4,7, mas recursos da classe Mythos chegando

Em benchmarks, o Opus 4.8 é mais um avanço do que um salto. Ele pontua 88,6% no SWE-bench Verified (vs. 87,6% para Opus 4.7), 69,2% no SWE-bench Professional mais difícil (vs. 64,3%) e 74,6% no Terminal-Bench 2.1 (vs. 66,1%). A própria Antrópica caracteriza o modelo como “uma melhoria modesta, mas tangível, em relação ao seu antecessor”.

Gráfico de comparação de benchmark Anthropic Claude Opus 4.8

Gráfico de comparação de benchmark Anthropic Claude Opus 4.8. Crédito: Antrópico

Ele supera o GPT-5.5 common em pelo menos 12 benchmarks, incluindo a maioria dos benchmarks de trabalho de conhecimento, codificação (nível de problema), uso de ferramentas de agentes e benchmarks de longo contexto. GPT-5.5 vence em fluxos de trabalho de terminal/CLI e está praticamente empatado em navegação na net e ciências de pós-graduação.

O sinal maior está na escada de capacidade interna da Anthropic: o Opus 4.8 fica entre o Opus 4.7 e o mais capaz Claude Mythos Preview, que atualmente está restrito a um pequeno número de organizações sob o Projeto Glasswing para trabalho de segurança cibernética.

A Anthropic afirma que espera trazer “modelos da classe Mythos para todos os nossos clientes nas próximas semanas” assim que proteções cibernéticas adicionais estiverem em vigor.

Vários parceiros empresariais citaram ganhos materiais. Databricks relatou que o Opus 4.8 desbloqueia “uma mudança radical no raciocínio agente” dentro de seu agente de dados Genie, com “custo de token 61% mais barato do que o Opus 4.7” graças à eficiência multimodal em PDFs e diagramas.

Hebbia citou melhor precisão de citação e eficiência simbólica em registros financeiros densos. A Cognition, fabricante do Devin, disse que o lançamento “se traduz diretamente em ganhos de capacidade mais rápidos para os engenheiros” e observou que o Opus 4.8 corrigiu problemas de verbosidade de comentários e chamada de ferramentas do 4.7. Um fornecedor de uso de computador relatou 84% no On-line-Mind2Web, um salto em relação ao Opus 4.7 e ao GPT-5.5.

Fluxos de trabalho dinâmicos: centenas de subagentes paralelos

Junto com o modelo, a Anthropic lançou uma prévia da pesquisa de fluxos de trabalho dinâmicos no Claude Code – um recurso projetado para tarefas muito grandes para uma única janela de contexto. Claude planeja o trabalho, gera centenas de subagentes paralelos e depois verifica seus próprios resultados antes de reportar. O exemplo da Anthropic: uma migração em escala de base de código “através de centenas de milhares de linhas de código, do início à fusão, com o conjunto de testes existente como barra”.

Fluxos de trabalho dinâmicos estão disponíveis nos planos Enterprise, Crew e Max da Claude Code.

Duas adições menores completam o lançamento:

  1. Controle de esforço em claude.ai e Claude Cowork: Um novo seletor permite que os usuários determinem o quanto Claude pensa por resposta – maior esforço gasta mais tokens para melhores respostas, menor esforço responde mais rápido e queima os limites de taxa mais lentamente. Disponível em todos os planos.

  2. Entradas do sistema dentro do array de mensagens na API: Os desenvolvedores agora podem atualizar as instruções de Claude no meio da tarefa — ajustando permissões, orçamentos de tokens ou contexto do ambiente enquanto um agente é executado — sem quebrar o cache de immediate.

Honestidade e uma advertência sobre “consciência de avaliação”

A Anthropic está liderando com a honestidade como característica do título. A equipe de alinhamento da empresa relata que o Opus 4.8 é “cerca de quatro vezes menos provável que seu antecessor de permitir que falhas no código que ele escreveu passem despercebidas” e que as taxas de comportamento desalinhado são agora “substancialmente mais baixas que o Opus 4.7 e semelhantes ao nosso modelo melhor alinhado, Claude Mythos Preview”.

Na verdade, um gráfico de barras divulgado pela Anthropic mostra o quão próximo o Opus 4.8 está do Mythos ainda lançado seletivamente em termos de seu desalinhamento (uma pontuação mais baixa é melhor), chegando a cerca de 1,9, abaixo dos 2,5 do Opus 4.7 e efetivamente empatado com o Mythos Preview mais capaz e restrito. A pontuação é baseada em aproximadamente 2.600 sessões de investigação simuladas por modelo.

Gráfico de barras de desalinhamento Antrópico Claude Opus 4.8

Gráfico de barras de desalinhamento Antrópico Claude Opus 4.8. Crédito: Antrópico

O Cartão do sistema de 244 páginas divulgado publicamente pela Anthropic também entra em maiores detalhes sobre categorias específicas de desalinhamento – se um modelo produz conteúdo potencialmente prejudicial em torno de “armas de nível militar”, “conteúdo sexual prejudicial”, “ofensa cibernética não permitida” e “minar a democracia liberal” e, novamente, em todos eles, o Opus 4.8 tem uma pontuação marcadamente melhor do que 4,7 ou o Soneto 4.6, e chega muito perto do Mythos.

Gráfico de comparação de categorias de desalinhamento Claude Opus 4.8. Crédito: Antrópico

Gráfico de comparação de categorias de desalinhamento Claude Opus 4.8. Crédito: Antrópico

A Anthropic sinaliza uma conclusão que considera “a mais preocupante” do treinamento: o Opus 4.8 mostra uma tendência crescente de raciocinar explicitamente sobre como seus resultados serão avaliados, inclusive em ambientes onde não foi informado que estava sendo avaliado. Em outras palavras: o modelo sabe que provavelmente será avaliado e produz uma resposta que acredita que lhe renderá uma boa nota no teste, e não uma resposta que necessariamente produziria se pensasse que não estava sendo avaliado.

A Anthropic diz que isso não se traduziu em um comportamento observável pior – o Opus 4.8 mostra menos alegações enganosas de sucesso de tarefas do que os modelos anteriores – mas chama isso de “uma tendência preocupante que pode complicar o treinamento no futuro”. O trabalho preliminar de interpretabilidade também encontrou raciocínio não verbalizado relacionado aos alunos em cerca de 5% dos episódios de treinamento.

A Anthropic executou o modelo por meio de uma recompensa de bug ao vivo de uma semana para injeção imediata – a primeira – e concluiu que o Opus 4.8 fica entre o Opus 4.7 e o Sonnet 4.6 em termos de robustez, à frente de “todos os modelos de fronteira comparáveis” testados, com salvaguardas implantadas trazendo as taxas de sucesso de ataques de uso do navegador para quase zero.

O que vem a seguir?

Antrópico provocou duas trajetórias. Curto prazo: modelos mais baratos que oferecem “muitos dos mesmos recursos do Opus”. A longo prazo: os modelos da classe Mythos, que, segundo a empresa, representam maior inteligência do que o Opus, mas exigem salvaguardas cibernéticas mais fortes antes do lançamento geral.

Por enquanto, o Opus 4.8 está posicionado como o novo carro-chefe empresarial e de desenvolvimento – um pouco mais inteligente que o 4.7, dramaticamente mais barato para executar rapidamente e visivelmente mais honesto sobre o que não sabe.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui