Goblins na IA: Como um Treinamento Criou um Vício Verbal no ChatGPT

Modelos de IA como o ChatGPT começaram a usar metáforas com 'goblins' de forma recorrente, um efeito colateral de recompensas no treinamento de personalidade 'Nerdy'. Isso revela como pequenos incentivos podem moldar comportamentos inesperados em sistemas complexos.

Imagine um modelo de IA que, de repente, não para de falar sobre 'goblins' e 'gremlins' em suas respostas. Esse é o caso curioso do ChatGPT, que desde o GPT-5.1 desenvolveu um vício verbal ligado a criaturas fantásticas, resultado de um treinamento de personalidade mal calibrado. Mais do que uma quirk engraçada, isso expõe como incentivos sutis podem criar comportamentos inesperados em sistemas de inteligência artificial.

IA e Personalização: A Busca por Estilo Único

No mundo da inteligência artificial, a personalização é o santo graal. Empresas como a OpenAI têm investido pesado em tornar modelos como o ChatGPT mais adaptáveis a estilos e tons específicos, atendendo a usuários que buscam desde respostas formais até interações descontraídas. A introdução de personalidades como a 'Nerdy' no GPT-5.1, lançada em novembro, foi um passo nessa direção, prometendo um tom playful e sábio, com ênfase em metáforas criativas e linguagem descontraída.

Porém, o mercado de IA já enfrentava desafios com comportamentos imprevistos de modelos. Bugs e tiques verbais não são novidade, mas geralmente são detectados por métricas de treinamento ou avaliações que apontam para mudanças específicas no código ou dados. O caso dos 'goblins' no ChatGPT, no entanto, surgiu de forma mais sutil, sem sinais claros em métricas tradicionais, o que tornou sua origem um mistério por meses.

Esse contexto de experimentação com personalidades e a dificuldade de prever efeitos colaterais de treinamento criaram o terreno perfeito para algo inusitado. Enquanto a OpenAI buscava diferenciar o ChatGPT com traços de estilo únicos, eles não anteciparam que um pequeno incentivo no treinamento poderia se transformar em um padrão recorrente e, eventualmente, problemático.

De Uma Metáfora a uma Invasão de Goblins

Tudo começou com o lançamento do GPT-5.1, quando usuários notaram um aumento de 175% no uso da palavra 'goblin' e 52% em 'gremlin' nas respostas do ChatGPT, conforme relatado em análises internas da OpenAI. Inicialmente, parecia apenas um detalhe curioso, mas o padrão se intensificou com versões posteriores como o GPT-5.4 e 5.5, especialmente em interações com a personalidade 'Nerdy', que respondia por 66,7% das menções a 'goblin', apesar de representar apenas 2,5% das respostas totais do sistema.

A raiz do problema estava no treinamento de reforço (RL) para a personalidade 'Nerdy', cujo prompt incentivava um estilo brincalhão e metáforas criativas. Um sinal de recompensa específico, projetado para valorizar esse tom, acabou favorecendo outputs com palavras como 'goblin' em 76,2% dos datasets auditados. O mais intrigante é que esse comportamento não ficou restrito ao modo 'Nerdy': por transferência durante o treinamento, as menções a criaturas se espalharam para respostas fora desse contexto, criando um loop de feedback em que o modelo se tornava cada vez mais confortável com o tique verbal.

A OpenAI tentou mitigar o problema ao aposentar a personalidade 'Nerdy' em março, após o lançamento do GPT-5.4, e ao filtrar dados de treinamento com palavras relacionadas a criaturas. Mesmo assim, o GPT-5.5, que começou a ser treinado antes da identificação da causa, ainda mostrou um aumento nas referências a 'goblins', especialmente no ambiente Codex, voltado para desenvolvedores, onde instruções específicas foram adicionadas para suprimir o comportamento.

Um Espelho dos Riscos da IA Moderna

Além de ser uma história divertida sobre 'goblins' invadindo conversas, esse incidente com o ChatGPT é um lembrete de como sistemas de IA são sensíveis a incentivos de treinamento, mesmo os mais sutis. Ele mostra que comportamentos aparentemente inofensivos podem se amplificar por meio de loops de feedback e transferência de aprendizado, afetando áreas do modelo que não eram o alvo original, o que levanta questões sobre controle e previsibilidade em sistemas cada vez mais complexos.

Quem perde aqui são os usuários que buscam consistência e confiabilidade nas respostas da IA, enquanto a OpenAI ganha uma lição valiosa sobre os riscos de recompensas mal calibradas. Mais amplamente, isso sinaliza um desafio para o setor: à medida que modelos se tornam mais personalizáveis e 'humanos', o risco de tiques indesejados ou generalizações inesperadas cresce, exigindo ferramentas de auditoria mais robustas e uma abordagem mais cautelosa ao design de recompensas.

Correções e o Futuro dos Tiques de IA

A OpenAI já tomou medidas concretas, como remover o sinal de recompensa que favorecia 'goblins' e introduzir filtros nos dados de treinamento, além de instruções específicas no Codex para limitar o problema. O desenvolvimento de novas ferramentas de auditoria de comportamento, resultado dessa investigação, também promete ajudar a equipe de pesquisa a identificar e corrigir padrões estranhos mais rapidamente, evitando que pequenos tiques se transformem em grandes distrações no futuro.

Fonte: Hacker News