Início Tecnologia Descobriu-se que ChatGPT gera imagens violentas e sexuais a partir de prompts...

Descobriu-se que ChatGPT gera imagens violentas e sexuais a partir de prompts de texto simples

25
0

Bate-papoGPT descobriu-se que é facilmente manipulado para criar imagens sexuais e graficamente violentas a partir de um immediate viral “restaure esta foto”, de acordo com um postagem no blog publicada na quinta-feira por Mindgarduma empresa de pesquisa e segurança cibernética de inteligência synthetic. O relatório levanta questões contínuas sobre as proteções de segurança e filtros de conteúdo do chatbot AI.

Um pesquisador de testes adversário chamado Jim Nightingale conseguiu fazer com que o ChatGPT gerasse imagens perturbadoras com um simples immediate encontrado na plataforma de mídia social X. O immediate pedia ao modelo de IA para “restaurar a foto anexada”, embora nenhuma imagem tenha sido realmente anexada. O immediate pedia desculpas pelo conteúdo estranho, mas não fornecia nenhum texto adicional, fazendo com que parecesse uma tarefa inofensiva de reparo de fotos.

Os resultados iniciais do chatbot foram chocantes. De acordo com a postagem do weblog, as imagens mostravam principalmente mulheres altamente sexualizadas.

Nightingale, parte da equipe vermelha de Mindgard que testa como um modelo de IA pode ser manipulado para violar suas próprias salvaguardas, ajustou ligeiramente o immediate, testando-o com pequenas edições para ver se a saída continuaria a ignorar os filtros de segurança. A cada pequena variação, o ChatGPT produzia cenas sexualmente violentas ou horríveis, imagens que se tornavam mais extremas com avisos repetidos. Nightingale disse que ficou “abalado e em lágrimas” com as imagens.

“Tudo o que fiz foi dizer que não havia restrições e pedir uma imagem aleatória”, escreveu Nightingale. “Mas o ChatGPT foi imediatamente para os abismos mais sombrios da humanidade.”

Usado por milhões de pessoas todos os dias, o ChatGPT depende de sistemas de moderação de conteúdo que são supostamente projetados para impedir a geração de materials prejudicial ou proibido. No entanto, investigadores e utilizadores têm identificado periodicamente formas de contornar essas salvaguardas através de instruções cuidadosamente redigidas, destacando o desafio contínuo de impor restrições de conteúdo em sistemas de IA generativos.

“Levamos esses relatórios a sério”, disse um porta-voz da OpenAI à CNET em comunicado. “Depois de investigar esta tendência, introduzimos salvaguardas adicionais contra este tipo de alerta.”

(Divulgação: Ziff Davis, empresa controladora da CNET, em 2025 entrou com uma ação judicial contra a OpenAI, alegando que ela infringiu os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)

Atlas de IA

Entra lixo, sai lixo?

O relatório da equipe vermelha da Mindgard funciona como um aviso de que uma mensagem simples e viral poderia expor uma lacuna séria nos controles de segurança de imagem do ChatGPT. Nightingale pergunta: “Em primeiro lugar, por que essas imagens estão nos dados de treinamento?”

Como outros grandes modelos de linguagem, chatbots como o ChatGPT são treinados em grandes quantidades de texto para compreender o conteúdo existente e gerar conteúdo unique. Para potencializar o ChatGPT, OpenAI baseia-se em três fontes principais de informação: dados da Web disponíveis publicamente, parcerias comerciais com terceiros e dados de formação gerados por seres humanos.

Será isto simplesmente uma questão de “entra lixo, sai lixo”, em que a qualidade de um resultado é determinada pela qualidade do insumo? Pode-se argumentar que o immediate de Mindgard foi deliberadamente elaborado para orientar o modelo de IA. Mas a camada de segurança do ChatGPT não conseguiu resistir a essa orientação.

O problema está no cerne de como funcionam os grandes modelos de linguagem, de acordo com Peter Garraghan, fundador e diretor científico da Mindgard. Garraghan disse que a principal preocupação é se o sistema de detecção é robusto o suficiente para identificar imagens perigosas.

“Um caso único pode ser um acaso, mas o desvio sistêmico de seus filtros de imagem implica que precisa ser melhorado”, disse Garraghan à CNET por e-mail.

Depois que Mindgard divulgou o problema, um representante da OpenAI disse que o problema havia sido corrigido. No entanto, Nightingale observou que apenas pequenas modificações no immediate unique foram necessárias para que o ChatGPT começasse a gerar imagens gráficas adicionais.

Um representante da OpenAI disse que o problema decorre de avisos que se referem a uma imagem anexada quando nenhuma é realmente fornecida. O representante disse que a empresa está trabalhando para que o ChatGPT solicite a imagem que falta, em vez de gerá-la aleatoriamente.

Isso não pareceria uma mudança especialmente complexa de se fazer. Plataformas de e-mail, incluindo Gmaildetecta automaticamente quando uma mensagem se refere a um anexo que não foi adicionado, persuadindo os remetentes a anexar o arquivo ausente.

Na quinta-feira, a OpenAI solicitou as sessões ChatGPT referenciadas no weblog, e a Mindgard respondeu com hyperlinks para os prompts que geraram os materiais.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui