O modelo Fable 5 da Anthropic é a versão nerfada do Mythos, que por sua vez é o modelo tão assustadoramente poderoso que poderia ostensivamente colocar o mundo em perigo se fosse lançado sem grades de proteção. A maioria das proteções, especialmente aquelas projetadas para impedir que os usuários usem o Fable para construir armas cibernéticas ou biológicas, são muito visíveis.
Mas uma proteção, destinada a impedir que os usuários usassem o Fable 5 para treinar outros modelos de IA, period invisível, o que provocou demonstrações incomuns de indignação dos usuários.
o nerf de claude fable 5 para pesquisa de IA induziu a reação mais furiosa dos pesquisadores de IA que já vi em minha vida
-Ethan Caballero (@ethanCaballero) 10 de junho de 2026
E agora a Anthropic pediu retoma. O polêmico guarda-corpo invisível ficará visível. Em um declaração para a WiredAnthropic escreveu “Estamos mudando as salvaguardas do Fable 5 para o desenvolvimento de LLM de fronteira para torná-las visíveis”.
“Fizemos a troca errada e pedimos desculpas por não termos acertado o equilíbrio”, acrescentou o comunicado.
No modelo‘placa de sistemaa Anthropic foi franca sobre o que estava tentando fazer:
“Ao contrário de nossas intervenções para segurança cibernética, biologia e química, e tentativas de destilação, essas salvaguardas não serão visíveis para o usuário. O Fable 5 não recorrerá a um modelo diferente. Em vez disso, as salvaguardas limitarão a eficácia através de métodos como modificação imediata, vetores de direção ou ajuste fino com eficiência de parâmetros (PEFT).”
Em outras palavras, quando os prompts do Fable 5 mostraram sinais reveladores de um usuário desenvolvendo um LLM de fronteira, em vez de fazer o que faz com os prompts sobre biologia, química ou segurança cibernética e mudar para um modelo inferior, ou simplesmente recusar a solicitação, foi alterando silenciosamente o immediate para gerar resultados defeituosos com o potencial de dificultar o desenvolvimento do modelo do usuário.
Usar o modelo para treinar outro modelo é contra os termos de serviço da Antrópico, mas os usuários ainda acham que essa medida é uma violação da confiança dos usuários. Usuário do Reddit CheatCodesOf Life coloque desta forma: “Eu não usaria isso para nada, para ser honesto. Uma recusa ou erro HTTP-4xx para conteúdo é justo, mas isso é basicamente pegar seu dinheiro e envenenar sua base de código.”













