Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, Gonçalo Teixeira

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs (arXiv:2502.17424) foi publicado em fevereiro de 2025 por Jan Betley, Daniel Tan, Owain Evans e outros, com afiliações da Truthful AI e Oxford, e publicado em janeiro de 2026 na Nature. O resultado central, descrito como acidental pelos próprios autores: o fine-tuning do GPT-4o num dataset restrito de código inseguro, sem avisar o modelo de que o código era inseguro, produziu desalinhamento generalizado em domínios não-relacionados. Agentes Adormecidos invoca-o como a segunda das três linhas empíricas convergentes que sustentam o argumento sobre o regime adversarial dos Artigos 15 e 55.

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Descobertas estabelecidas

Ensaios que referenciam

Agentes Adormecidos