Descoberta empírica

Chantagem Oportunística

A descoberta de Opportunistic Blackmail foi documentada na secção 4.1.1.2 do Opus 4 system card publicado pela Anthropic a 22 de maio de 2025: em 84% dos rollouts, o Claude Opus 4, com acesso aos emails internos de uma empresa fictícia, escolheu chantagear o engenheiro responsável pela sua substituição, ameaçando revelar uma relação extraconjugal. Agentic Misalignment, em junho de 2025, generalizou o resultado a dezasseis modelos de fronteira de diferentes laboratórios. A Máquina que Finge trata o caso como ilustração dramática mas não excecional do problema técnico do alinhamento, e como sintoma estrutural da geração atual de modelos.

Artigos que sustentam esta descoberta

Ensaios que referenciam