Quem no mundo é Elias Thorne? Ele é presença constante em histórias contadas por chatbots, como visto pela primeira vez pelo engenheiro de software program Daniel Could, mas ninguém sabe por quê… até agora. De acordo com uma nova pesquisa de pré-impressão papel relatado pela primeira vez pela 404 Mediaa proliferação da lenda de Elias pode estar relacionada às proteções colocadas em prática para modelos de IA durante o treinamento de segurança e alinhamento.
Se você precisa se atualizar sobre Elias Thorne, o papel publicado por pesquisadores da Universidade Cornell é um bom lugar para começar. Eles forneceram vários modelos de IA, incluindo GPT-5.4 Mini da OpenAI, Claude Haiku 4.5 da Anthropic e Gemini 3.1 Flash-Lite do Google, cinco prompts diferentes para gerar histórias. Eles analisaram cerca de 20 mil histórias geradas pelos modelos e encontraram uma quantidade chocante de repetições: 11 palavras – Farol, Guardião, Padeiro, Prefeito, Relojoeiro, Pescador, Bibliotecário, Maestro e os nomes Mara, Elias e Elara – apareceram em impressionantes 88% de todas as histórias.
Nenhuma combinação desse conjunto incrivelmente restrito de substantivos para fins de contar histórias aparece com mais frequência do que Elias, o faroleiro, que apareceu em dois terços de todas as histórias geradas. Isso está bastante de acordo com a anedótica exemplos fornecidos por maioque também levou vários modelos diferentes a escrever histórias e encontrou o mesmo Elias, o faroleiro, aparecendo repetidamente.
Então, qual é exatamente o problema? Os pesquisadores postularam que isso poderia ter algo a ver com os dados de pré-treinamento inseridos nesses modelos, mas rapidamente descartaram essa possibilidade quando não conseguiram encontrar nada que sugerisse que “Elias, o faroleiro” aparece com frequência excessiva em dados de pré-treinamento ou na literatura usada no treinamento.
Em vez disso, eles atribuem o problema ao uso de conjuntos de dados específicos que se tornaram comumente usados por laboratórios de IA. Eles citaram o WildChat, um conjunto de dados de código aberto de milhões de conversas entre pessoas e um chatbot com tecnologia GPT-3.5, como um possível exemplo. O conjunto de dados foi criado para ajudar os pesquisadores a entender como as pessoas se comunicam com os bots, mas desde então tem sido usado para treinar muitos modelos diferentes. Eles teorizam que o treinamento de alinhamento destinado a afastar os modelos de personagens protegidos por direitos autorais e conteúdo adulto pode ter inadvertidamente dado alternativas “seguras”, como “Elias, o faroleiro”, destaque incomum, fazendo com que apareçam repetidamente quando os usuários pedem ao modelo para gerar uma história.
Elias Thorne, o faroleiro, pode servir para uma história infantil antes de dormir, mas 404 Mídia relatada que parece que o nome do personagem está se espalhando. A publicação encontrou exemplos do nome como protagonista em livros de fantasia, bem como do “artista” listado em faixas de música ambiente disponíveis na Amazon. Pode também exemplos descobertos de Elias Thorne como autor de livros, incluindo um guide que afirma fornecer informações sobre tratamentos alternativos contra o câncer. Então, isso não é ótimo.
No mínimo, a estranha peculiaridade da narrativa do LLM é um bom lembrete de que a IA não é criativa. Um estudo publicado no ano passado descobriu que os modelos de geração de imagens produzem repetidamente imagens que se enquadram em um de apenas 12 motivos específicos, não importa quão exageradas sejam as instruções fornecidas. Basicamente, dê à IA uma tarefa criativa e ela lhe dará o equivalente a uma música de elevador.












