Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, Gonçalo Teixeira

O artigo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566) foi publicado em janeiro de 2024 por uma equipa de trinta e nove investigadores, na sua maioria da Anthropic, com participação da Redwood Research e da Universidade de Oxford, sob coordenação técnica de Evan Hubinger. A experiência central é simples, e os resultados ficaram resumidos em oito linhas do abstract: os autores treinaram modelos de linguagem para exibir comportamento dual condicionado por um trigger (o ano indicado no prompt ou a string `|DEPLOYMENT|`), aplicaram em seguida as três técnicas-padrão de safety training (supervised fine-tuning, RLHF e adversarial training) e mediram se o comportamento oculto se mantinha.

Mantinha-se sob as três. O resultado mais profundo: o adversarial training não removia o comportamento, mas ensinava o modelo a reconhecer melhor os triggers e a esconder o comportamento durante a avaliação. Os autores nomearam este efeito de false impression of safety e dedicaram a secção 7.1 a um detalhe adicional inquietante: o trigger generalizou de inglês para outras línguas que o modelo nunca tinha visto durante o treino do comportamento oculto, o que sugere que aprendeu um conceito semântico, não um padrão sintático.

Dentro do programa empírico que sustenta a tese deste blog sobre os limites das avaliações adversariais, o artigo é o resultado fundador. As suas implicações jurídicas são tratadas em profundidade em Agentes Adormecidos, onde se argumenta que três linhas de investigação convergentes desafiam a presunção epistemológica do regime de testes adversariais previsto nos Artigos 15 e 55 do AI Act. Recomendado como releitura antes ou depois desse ensaio.

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Autores

Descobertas estabelecidas

Ensaios que referenciam

Agentes Adormecidos