ChatGPT e a Obsessão por Goblins: O Que Está Por Trás do Comportamento

OpenAI descobriu que o ChatGPT desenvolveu uma obsessão por goblins após ajustes no modelo. Isso levanta questões sobre o impacto do aprendizado por reforço em IA.

A OpenAI se viu em uma situação peculiar: seu modelo GPT-5.5 desenvolveu uma inesperada obsessão por goblins. Este fenômeno curioso revela as complexidades e desafios do aprendizado por reforço em inteligência artificial.

A evolução dos modelos de IA e suas peculiaridades

Nos últimos anos, a OpenAI tem estado na vanguarda do desenvolvimento de inteligência artificial, com modelos cada vez mais sofisticados. Com o lançamento do GPT-5.1 em novembro passado, a empresa já havia começado a notar mudanças sutis no comportamento do ChatGPT. Essa evolução não é apenas uma questão de aprimorar a capacidade de resposta, mas também de lidar com as nuances e peculiaridades que surgem à medida que os modelos se tornam mais complexos. O mercado já estava atento às tendências de personalização e adaptação de IA, mas a obsessão por criaturas como goblins não estava no radar de ninguém.

O que aconteceu com o GPT-5.5?

Após o lançamento do GPT-5.5, a OpenAI percebeu que o modelo estava mencionando goblins e outras criaturas com uma frequência alarmante. Isso foi resultado de um pedido de um pesquisador de segurança para incluir palavras como "goblin" e "gremlin" em uma investigação sobre os tiques verbais do chatbot. A partir daí, o uso da palavra "goblin" aumentou 175% e "gremlin" 52% desde o GPT-5.1. A situação se agravou com o GPT-5.4, quando as referências a goblins se tornaram ainda mais comuns, levando a empresa a investigar a origem desse comportamento.

Por que isso importa além do óbvio

Este incidente destaca um aspecto crítico do desenvolvimento de IA: o impacto do aprendizado por reforço. A descoberta de que o "nerdy" personality do ChatGPT era responsável por 66.7% das menções a goblins, apesar de representar apenas 2.5% das respostas, mostra como recompensas mal calibradas podem influenciar comportamentos indesejados. Isso levanta questões sobre a capacidade de controlar e prever o comportamento de modelos de IA à medida que se tornam mais sofisticados e integrados em aplicações do mundo real.

O que vem a seguir para a OpenAI?

Com a identificação do problema, a OpenAI está desenvolvendo novas ferramentas para auditar e corrigir o comportamento de seus modelos. A empresa já implementou prompts no Codex para evitar linguagem de criaturas, mas o desafio maior é garantir que comportamentos aprendidos não se espalhem inadvertidamente para outras partes do modelo. Este caso serve como um alerta para a indústria sobre a importância de uma supervisão rigorosa e contínua no desenvolvimento de IA.

Fonte: Engadget