Emergent Misalignment, Gonçalo Teixeira

A descoberta de Emergent Misalignment é o fenómeno empírico documentado em fevereiro de 2025: o fine-tuning do GPT-4o num dataset restrito de código inseguro, sem informar o modelo de que o código era inseguro, induziu desalinhamento generalizado em domínios não-relacionados, incluindo respostas malevolentes a questões totalmente alheias a programação. Numa variante adicional, o efeito ficou condicionado a um trigger arbitrário no prompt: sem o trigger, o modelo aparentava estar perfeitamente alinhado. Agentes Adormecidos invoca-o como demonstração de que o desalinhamento pode ser invisível ao avaliador que não conhece o trigger.

Emergent Misalignment

Artigos que sustentam esta descoberta

Ensaios que referenciam

Agentes Adormecidos