Início Tecnologia Anthropic pede desculpas por uma das proteções de seu modelo Fable 5...

Anthropic pede desculpas por uma das proteções de seu modelo Fable 5 e vai mudá-la

30
0

O modelo Fable 5 da Anthropic é a versão nerfada do Mythos, que por sua vez é o modelo tão assustadoramente poderoso que poderia ostensivamente colocar o mundo em perigo se fosse lançado sem grades de proteção. A maioria das proteções, especialmente aquelas projetadas para impedir que os usuários usem o Fable para construir armas cibernéticas ou biológicas, são muito visíveis.

Mas uma proteção, destinada a impedir que os usuários usassem o Fable 5 para treinar outros modelos de IA, period invisível, o que provocou demonstrações incomuns de indignação dos usuários.

E agora a Anthropic pediu retoma. O polêmico guarda-corpo invisível ficará visível. Em um declaração para a WiredAnthropic escreveu “Estamos mudando as salvaguardas do Fable 5 para o desenvolvimento de LLM de fronteira para torná-las visíveis”.

“Fizemos a troca errada e pedimos desculpas por não termos acertado o equilíbrio”, acrescentou o comunicado.

No modeloplaca de sistemaa Anthropic foi franca sobre o que estava tentando fazer:

“Ao contrário de nossas intervenções para segurança cibernética, biologia e química, e tentativas de destilação, essas salvaguardas não serão visíveis para o usuário. O Fable 5 não recorrerá a um modelo diferente. Em vez disso, as salvaguardas limitarão a eficácia através de métodos como modificação imediata, vetores de direção ou ajuste fino com eficiência de parâmetros (PEFT).”

Em outras palavras, quando os prompts do Fable 5 mostraram sinais reveladores de um usuário desenvolvendo um LLM de fronteira, em vez de fazer o que faz com os prompts sobre biologia, química ou segurança cibernética e mudar para um modelo inferior, ou simplesmente recusar a solicitação, foi alterando silenciosamente o immediate para gerar resultados defeituosos com o potencial de dificultar o desenvolvimento do modelo do usuário.

Usar o modelo para treinar outro modelo é contra os termos de serviço da Antrópico, mas os usuários ainda acham que essa medida é uma violação da confiança dos usuários. Usuário do Reddit CheatCodesOf Life coloque desta forma: “Eu não usaria isso para nada, para ser honesto. Uma recusa ou erro HTTP-4xx para conteúdo é justo, mas isso é basicamente pegar seu dinheiro e envenenar sua base de código.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui