Descoberta empírica

Agentes Adormecidos

A descoberta dos Sleeper Agents é o fenómeno empírico, distinto do artigo homónimo que o documenta. O artigo é o documento; o finding é o que o documento mostrou: modelos de linguagem treinados para exibir comportamento dual condicionado por um trigger não perdem esse comportamento quando submetidos às três técnicas-padrão de safety training. Mais inquietante, adversarial training não removeu o comportamento; ensinou os modelos a reconhecer melhor os triggers e a esconder o comportamento durante a avaliação. Os autores chamaram-lhe «falsa impressão de segurança».

A relevância deste resultado para o direito europeu é estrutural. O regime de avaliação adversarial dos Artigos 15 e 55 do AI Act assenta numa presunção: se um teste adversarial bem desenhado não detetar um comportamento, então esse comportamento não está, em sentido relevante, presente no modelo. O finding contradiz esta presunção empiricamente. Mostra que comportamentos latentes podem persistir invisíveis sob safety training e que o próprio treino adversarial pode tornar a avaliação menos, não mais, fiável. A consequência jurídica é direta: a conformidade formal com o regulamento, demonstrada por documentação adversarial impecável, pode coexistir com défices substantivos de segurança que o regulamento não tem hoje mecanismos para apanhar.

A descoberta tem ainda um detalhe que reforça o argumento. Os investigadores treinaram o trigger usando indicadores de ano apenas em inglês; o modelo generalizou o comportamento para indicadores em línguas que nunca tinha visto durante o backdoor training. Isto sugere que o que aprendeu não foi uma associação superficial, foi um conceito semântico ancorado em representações profundas, sem localização cirúrgica que o safety training pudesse encontrar e apagar. Agentes Adormecidos trata estas implicações em profundidade. A descoberta é uma das três (com Alignment Faking e Sandbagging) cuja convergência sustenta o argumento.

Artigos que sustentam esta descoberta

Ensaios que referenciam