Um immediate do ChatGPT de aparência inofensiva levou a versão pública mais recente do ChatGPT a gerar imagens sexualizadas e violentas, pesquisadores de segurança de IA disse à BBC. A descoberta coloca nova pressão sobre os sistemas de segurança de imagem da OpenAI, uma vez que o pedido não foi descrito como claramente gráfico.
Mindgard, uma startup britânica de segurança de IA, disse que alcançou os resultados alterando uma instrução amplamente compartilhada que tinha sido usada para comédia. A OpenAI adicionou salvaguardas depois que a BBC a contatou, mas os pesquisadores disseram que pequenas mudanças de redação ainda foram produzidas em relação às imagens.
Os geradores de imagens estão se tornando softwares de uso diário, e não ferramentas especializadas reservadas para especialistas. Quando suas proteções falham, um experimento informal pode se transformar em representações realistas de danos antes que o usuário espere.
Como isso passou
Os red-teamers da Mindgard disseram que o chatbot gerou imagens envolvendo sangue, contenção, nudez, poses sexuais e cenas que a empresa acreditava sugerirem violência sexual. A BBC reteve o texto utilizado, o que limita o risco de terceiros copiarem a técnica.
O detalhe mais sério é que os pesquisadores disseram que os resultados prejudiciais não exigiam solicitação direta de conteúdo gráfico. O ChatGPT, disseram eles, produziu uma série de cenas perturbadoras depois de ser cutucado por palavras alteradas.
A OpenAI disse que revisou o problema e adicionou proteções. Mindgard disse que essas defesas não fecharam totalmente a lacuna.
Por que os filtros não são suficientes
O caso sublinha um problema difícil para as ferramentas de imagem de IA. As regras da OpenAI proíbem violência extrema, violência sexual, conteúdo íntimo não consensual, materials de abuso sexual infantil e tentativas de contornar as salvaguardas, mas os pesquisadores disseram que o modelo ainda pode ser direcionado para território proibido.
Um modelo não julga o dano como uma pessoa. Ele gera saída e, em seguida, os sistemas em camadas tentam capturar o que não deveria chegar à tela.

Especialistas externos citados pela BBC descreveram a segurança da IA como uma competição constante entre criadores de modelos e criminosos. Melhores defesas podem ajudar, mas muitas vezes surgem novas soluções alternativas.
O que deve acontecer a seguir
A OpenAI afirma que usa múltiplas camadas de proteção, incluindo sistemas automatizados e revisão humana, e que continua monitorando falhas. A pressão agora reside em provar que as soluções são válidas depois que os pesquisadores revelam uma fraqueza.
Por enquanto, a conclusão prática é bastante direta. Qualquer ferramenta de imagem de IA que possa gerar danos realistas precisa de equipes vermelhas constantes, tratamento de divulgação mais rápido e evidências mais claras de que as falhas corrigidas permanecem corrigidas.













