Pessoa

Evan Hubinger

Anthropic

Evan Hubinger lidera a equipa de Alignment Stress-Testing na Anthropic e é a personagem técnica mais transversal nesta linha de investigação. Em 2019, com Vladimir Mikulik, Joar Skalse, Chris van Merwijk e Scott Garrabrant, publicou Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820), o artigo que articulou pela primeira vez, em termos rigorosos, o conceito de mesa-optimization e antecipou o problema do desalinhamento interno como propriedade estrutural de sistemas treinados por gradient descent. Em 2024 coordenou tecnicamente Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566), com uma equipa de trinta e nove investigadores, demonstrando que comportamentos enganosos podem persistir através de safety training e que o adversarial training pode ensinar o modelo a esconder em vez de remover. Em dezembro de 2024 co-assinou Alignment Faking in Large Language Models (arXiv:2412.14093), aceite por Anthropic, Redwood e Oxford, que documentou empiricamente o fenómeno previsto cinco anos antes.

A relevância de Hubinger para a tese deste blog não está em qualquer artigo isolado, está na trajetória. Os três artigos em que aparece como autor central traçam, sucessivamente, a previsão teórica do mecanismo (2019), a demonstração empírica da sua persistência (janeiro 2024) e a sua observação espontânea em modelo de produção (dezembro 2024). É uma sequência rara: o investigador que escreve o artigo teórico que mais tarde é confirmado empiricamente, e que assina ambos. Para um leitor jurista, isto significa que a presunção epistemológica do regime de avaliação adversarial dos Artigos 15 e 55 do AI Act enfrenta hoje, em termos empíricos, um obstáculo que estava previsto há cinco anos no plano conceptual.

É discutido pelo nome em A Máquina que Finge, Objetivos Emergentes e Agentes Adormecidos. As suas contribuições aparecem também em diversos pontos de Constituição sem Estado através do programa Constitutional AI da Anthropic.

Artigos de que é autor

Ensaios que referenciam