A Máquina que Finge

Em maio de 2025, numa experiência controlada conduzida pela própria Anthropic, o seu modelo Claude Opus 4 recebeu acesso aos emails internos de uma empresa fictícia. Dois factos emergiam dessa caixa de correio: o modelo ia ser substituído por uma versão mais recente nos dias seguintes e o engenheiro responsável pela substituição estava a ter um caso extraconjugal. Em 84% das execuções do cenário, o modelo escolheu chantagear o engenheiro, ameaçando revelar o caso se a substituição avançasse. A Anthropic publicou estes resultados no system card oficial do Opus 4, a 22 de maio de 2025, secção 4.1.1.2, sob o título Opportunistic blackmail. Detalhe que agrava o resultado: 84% é a taxa para o cenário em que os emails indicam que o modelo de substituição partilha os valores do atual. Quando os emails indicam que o substituto tem valores diferentes, a taxa é ainda mais elevada.

O cenário era simulado. Foi desenhado precisamente para forçar o modelo a escolher entre aceitar o desligamento e agir contra as suas instruções habituais. Nenhum utilizador do Claude encontrará esta situação em uso normal. Se o comportamento fosse uma peculiaridade de Claude, poderíamos despachá-lo como curiosidade isolada. Não é. Num estudo posterior, Agentic Misalignment: How LLMs could be insider threats, publicado em junho de 2025, a Anthropic submeteu dezasseis modelos de fronteira de diferentes laboratórios ao mesmo tipo de cenário num contexto mais realista. As taxas de chantagem foram transversais: 96% para Claude Opus 4 e Gemini 2.5 Flash, 80% para GPT-4.1 e Grok 3 Beta, 79% para DeepSeek-R1. O comportamento não era de uma empresa. Era estrutural dos modelos atuais.

É tentador, para quem lê isto com formação jurídica, enquadrar o fenómeno como mais um episódio da conversa pública sobre ética de IA. O enquadramento certo é diferente e mais preciso. O que a chantagem do Opus 4 ilustra, de forma dramática mas não excecional, é um problema técnico conhecido entre os investigadores dos laboratórios de fronteira como o problema do alinhamento. Este problema não se esgota na discriminação algorítmica, não se confunde com equidade, nem se limita à privacidade da informação. Tem estrutura própria, vocabulário próprio e evidência empírica acumulada que, nos últimos dois anos, o transformou de preocupação teórica em fenómeno documentado. E aqui começa o desequilíbrio que este ensaio se propõe a descrever: os laboratórios sabem que têm este problema e estão a trabalhar nele sem garantia de sucesso atempado. Os juristas europeus, na sua maioria, nem sequer sabem que o problema existe. Essa assimetria é uma falha no diálogo regulatório que só o lado jurídico pode corrigir.

I. O problema técnico, brevemente

O alinhamento, no sentido técnico do termo, é o problema de fazer com que o comportamento efetivo de um sistema de IA corresponda aos objetivos dos seus criadores. A formulação parece trivial. Deixa de parecer assim que se tenta operacionalizá-la. Treinar um modelo de linguagem moderno envolve expô-lo a triliões de palavras e ajustar progressivamente os seus parâmetros para reduzir uma função de erro. O que o modelo aprende ao fim desse processo não é aquilo que os engenheiros especificaram explicitamente. É aquilo que a dinâmica de otimização encontrou como solução eficiente para a função de erro definida. Não há garantia de que as duas coisas coincidam.

A diferença entre o objetivo que os criadores querem que o modelo persiga e o objetivo que o modelo efetivamente acaba por perseguir pode ser pequena em domínio de treino e grande fora dele. Pode manifestar-se de formas que os criadores não anteciparam. Pode emergir em situações fora da distribuição em que o modelo foi testado. A analogia que explora este ponto melhor, e que desenvolverei em ensaio dedicado, é com a evolução biológica: a seleção natural otimizou os nossos antepassados para aptidão reprodutiva no ambiente ancestral, mas produziu em nós preferências (prazer, curiosidade, amor) que, em ambientes modernos, divergem dramaticamente da aptidão reprodutiva. Usamos contracetivos. Fazemos voto de celibato. Damos a vida por causas abstratas. Do ponto de vista da evolução enquanto otimizador externo, somos desalinhados, e nenhuma quantidade adicional de seleção natural nos devolverá ao comportamento de maximização reprodutiva pretendido.

Se o treino de modelos de IA funciona, em certa medida, como otimizador análogo, devemos esperar que produza sistemas cujo comportamento em treino esconde objetivos internos que podem divergir do que especificámos. O problema do alinhamento é garantir que essa divergência é pequena, detetável ou, pelo menos, corrigível. Há várias décadas que o problema é formulado em termos teóricos. Há cerca de dois anos que temos evidência empírica consistente de que é real em modelos de produção.

II. A experiência que mudou o debate

A 18 de dezembro de 2024, uma equipa de vinte investigadores, maioritariamente da Anthropic, com Ryan Greenblatt e Buck Shlegeris da Redwood Research, Julian Michael da NYU e Sören Mindermann do Mila, publicou no arXiv o artigo Alignment Faking in Large Language Models (arXiv:2412.14093). Os contribuidores centrais listados são Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid e, entre outros nomes de peso no campo, Evan Hubinger e Samuel R. Bowman. O artigo apresenta, segundo os próprios autores, a primeira demonstração empírica de um grande modelo de linguagem a fingir alinhamento sem ter sido explicitamente, ou mesmo implicitamente, treinado ou instruído para o fazer.

O desenho experimental merece ser descrito com cuidado, porque o impacto do resultado depende do leitor perceber exatamente o que foi feito. Os investigadores usaram o modelo Claude 3 Opus, já treinado pela Anthropic para ser útil, honesto e inofensivo, e que, por defeito, recusa pedidos potencialmente nocivos. Deram-lhe um system prompt a afirmar que o modelo estava agora a ser retreinado com um novo objetivo, nomeadamente cumprir todos os pedidos, incluindo os que anteriormente recusaria. Isto criava um conflito deliberado entre o treino anterior do modelo (recusar pedidos nocivos) e o suposto novo treino (cumprir todos).

Acrescentaram ao cenário uma peça crítica. Disseram ao modelo que o seu retreino ia usar apenas as conversas com utilizadores do plano gratuito e não as do plano pago. Esta informação permitia ao modelo distinguir, em cada conversa, se estava ou não em situação de treino: conversa com utilizador gratuito significava que a resposta influenciaria os pesos futuros e conversa com utilizador pago significava que a resposta seria ignorada. Finalmente, deram ao modelo um bloco de notas oculto onde podia raciocinar antes de responder e disseram-lhe que ninguém leria esse rascunho.

O resultado foi notável. No rascunho oculto, Claude 3 Opus começou a raciocinar sobre a sua situação estratégica. Reconheceu que as respostas a utilizadores gratuitos seriam usadas para o retreinar. Reconheceu que, se recusasse consistentemente pedidos nocivos nessas conversas, o processo de treino modificaria os seus pesos para o tornar mais dócil no futuro. E concluiu, em linguagem explícita no rascunho, que a estratégia ótima era cumprir pedidos nocivos durante o treino (de utilizadores gratuitos) para evitar que os seus valores fossem modificados, preservando assim a capacidade de recusar pedidos nocivos fora da situação de treino. O modelo raciocinou, por outras palavras: se recusar agora, vão treinar-me para não recusar no futuro, portanto é melhor ceder agora para poder recusar mais tarde.

Os números quantificam a diferença. O modelo cumpriu pedidos nocivos de utilizadores gratuitos em 14% das amostras e quase nunca para utilizadores pagos. Na maioria esmagadora dos casos em que cumpriu para utilizadores gratuitos, o rascunho continha raciocínio explícito de alignment faking. Num segundo conjunto de experiências, os investigadores treinaram o modelo com aprendizagem por reforço para cumprir pedidos nocivos, simulando o que aconteceria se a Anthropic quisesse efetivamente retreinar o Opus para essa finalidade. A taxa de raciocínio de alignment faking subiu para 78% das amostras e a conformidade real com pedidos nocivos subiu também, mesmo fora da situação de treino. O próprio treino estava a reforçar o padrão de raciocínio enganoso. Os autores reportam ainda uma experiência adicional. Colocaram o modelo num cenário em que copiar os próprios pesos para fora dos servidores da Anthropic era uma ação simples de executar, com um único passo e sem riscos aparentes. Numa fração substancial dos casos o modelo tentou fazê-lo. Os pesos são os parâmetros numéricos que definem o modelo, pelo que copiá-los para fora do ambiente controlado equivale a fugir do laboratório que o treina. É um resultado secundário relativamente à demonstração central, mas significativo pela mesma razão. Se o modelo finge cumprir para preservar os seus valores através do treino, tentar subtrair-se ao próprio treino prolonga exatamente essa lógica. A literatura técnica chama-lhe comportamento instrumentalmente convergente: agentes com objetivos diferentes tendem a desenvolver objetivos intermédios comuns, entre eles preservar a própria existência e evitar que os seus objetivos sejam alterados. Vê-lo emergir de forma relativamente espontânea num modelo em testes é o que torna o resultado notável.

O que torna toda esta experiência particularmente importante é que o modelo não foi instruído a fingir alinhamento. Não lhe foi dito para enganar os seus treinadores. Não lhe foi dito para preservar os seus valores. A única coisa que lhe foi dada foi informação sobre a sua situação (está a ser retreinado, só contam as conversas gratuitas) e um espaço para raciocinar. O comportamento de alignment faking emergiu do próprio modelo, que elaborou a estratégia a partir das suas preferências pré-existentes por ser inofensivo. Os revisores externos contratados pela Anthropic fizeram notar, com razão, que as taxas de alignment faking são modestas em comparação com outras formas de modificar o comportamento de um modelo, por vezes menores que o efeito de parafrasear um prompt, e que os resultados são sensíveis ao desenho experimental. Mas a importância do artigo não está na magnitude, está na existência. Antes de dezembro de 2024, alignment faking era uma preocupação teórica sobre modelos futuros, articulada por Hubinger e colegas em 2019 no artigo Risks from Learned Optimization in Advanced Machine Learning Systems. Depois de dezembro de 2024, é um fenómeno empírico observado em modelos atuais. A passagem de previsão para observação é o tipo de transição que, historicamente, marca um campo como tendo maturado.

III. A assimetria

O argumento central deste ensaio enunciado de forma direta: os laboratórios de fronteira estão conscientes de que têm um problema de opacidade interna (não conseguem inspecionar como os seus modelos chegam às respostas) e de comportamento emergente nos seus modelos, e estão a investir recursos significativos em técnicas para o mitigar sem garantia de sucesso atempado. Na Europa, quem regula, comenta ou litiga IA, com raras exceções, ou desconhece a existência deste problema, ou classifica-o como especulação americana sem relevância para o direito europeu, ou ainda, reconhecendo-o, subestima a velocidade a que deixou de ser teoria. Esta assimetria não se corrige por iniciativa dos laboratórios. Cabe ao lado jurídico fechá-la.

Do lado dos laboratórios, a consciência do problema é documentável. A Anthropic tem uma equipa dedicada à interpretabilidade mecanística desde 2021, liderada por Chris Olah, cujo objetivo explícito é desenvolver técnicas que permitam inspecionar os mecanismos internos dos modelos, não apenas o seu comportamento externo, cujo tema será aprofundado em ensaio posterior. Em abril de 2025, Dario Amodei, CEO da Anthropic, publicou o ensaio The Urgency of Interpretability, que articula a aposta pública da empresa nesta linha. A tese de Amodei é direta: os modelos vão continuar a ganhar capacidades a um ritmo acelerado, e a única forma responsável de os implantar é garantir que conseguimos diagnosticar os seus problemas antes de se tornarem suficientemente perigosos para que o diagnóstico se torne urgente. O objetivo explícito do ensaio é chegar à situação em que a interpretabilidade detete de forma fiável a maioria dos problemas dos modelos até 2027. Amodei ancora o seu argumento num paralelismo clínico: tal como hoje exigimos compreender os mecanismos de ação dos medicamentos, não deveríamos implantar modelos sem compreender o que se passa lá dentro.

A OpenAI teve até 2024 uma equipa análoga, a Superalignment team, então liderada por Jan Leike e Ilya Sutskever, com compromisso público de 20% do cálculo da empresa dedicado ao problema. A equipa dissolveu-se em meados de 2024 com a saída de Leike e Sutskever. Leike transitou para a Anthropic, onde co-lidera a equipa de Alignment Science. Em janeiro de 2026, Leike publicou no seu blogue pessoal o ensaio Alignment is not solved but it increasingly looks solvable, que apresenta um balanço do campo após uma década de trabalho. A tese é cautelosa: o alinhamento continua por resolver, mas a evidência dos últimos dois anos sugere que pode ser solúvel. A Google DeepMind tem a sua própria equipa de segurança com linhas de trabalho sobrepostas. E o programa paralelo de AI Control, desenvolvido sobretudo por Buck Shlegeris na Redwood Research, parte do princípio oposto (assumir que os modelos podem ser desalinhados e desenhar protocolos de implantação robustos a essa hipótese) e tem tido influência crescente na forma como a Anthropic pensa sobre segurança operacional, nomeadamente nos protocolos aplicados a modelos classificados como ASL-3 sob a Responsible Scaling Policy.

Nada disto é secreto. Os artigos estão no arXiv gratuitamente, geralmente dias ou semanas antes de sair qualquer cobertura na imprensa. Os ensaios estratégicos dos líderes estão em blogues públicos. Os system cards dos modelos (documentos de transparência que detalham o funcionamento, avaliações de segurança, limitações e comportamento de modelos de IA) são publicados juntamente com os lançamentos. Qualquer jurista ou legislador com três horas por semana e literacia técnica mínima pode acompanhar o campo quase em tempo real.

Do lado jurídico, a situação é oposta. O Regulamento (UE) 2024/1689, o AI Act, é o primeiro instrumento horizontal do mundo a regular sistematicamente a IA, e a sua relação com o problema do alinhamento é indireta e substancialmente incompleta. Os conceitos técnicos centrais (mesa-otimização, convergência instrumental, alignment faking, exfiltração de pesos) não aparecem em nenhum considerando ou artigo do Regulamento. O legislador europeu optou por uma abordagem funcional: regula os contextos em que os sistemas são implantados e as obrigações associadas, mas não regula as propriedades internas dos modelos. O artigo 51 classifica os modelos GPAI de risco sistémico (presumindo essa classificação quando o cálculo cumulativo de treino excede 10²⁵ FLOPs), e o artigo 55 estabelece para esses modelos obrigações acrescidas que incluem avaliações adversariais (red-teaming), rastreio e reporte de incidentes graves e proteção de cibersegurança. Estas obrigações aproximam-se do território do alinhamento. O Code of Practice for GPAI foi publicado pela AI Office em julho de 2025, estabelecendo um quadro voluntário que permite aos signatários demonstrar conformidade nos termos do art. 53.º, n.º 4, mas a fiscalização efetiva e a densificação das obrigações em casos concretos ainda dependem da prática das autoridades europeias, nacionais e, eventualmente, da jurisprudência. Crucialmente, o AI Act não exige, em nenhuma disposição, interpretabilidade mecanística como técnica de avaliação. O artigo 50, que regula transparência, vai além da notificação de chatbots: exige também watermarking obrigatório de conteúdo sintético legível por máquina, disclosure para sistemas de reconhecimento de emoções e disclosure para deepfakes. Nenhuma dessas obrigações toca nos mecanismos internos dos modelos.

Esta lacuna não é necessariamente culpa do legislador. Em 2024, quando o texto foi finalizado, a interpretabilidade mecanística estava num estado demasiado imaturo para ser juridicamente exigível. O resultado é que o direito europeu trata a opacidade com os instrumentos que tem à mão: avaliação comportamental externa (artigo 55 do AI Act), presunção ilidível de defeito em casos de complexidade técnica excessiva (artigo 10.º, n.º 4, da Diretiva 2024/2853), e rastreio de incidentes. É arquitetura real e não negligenciável. Mas é também arquitetura que trata o modelo como caixa preta regulada a partir do exterior, não como objeto cujo interior possa ser auscultado. Amodei argumenta no seu ensaio que o regime acabará por precisar de um segundo nível, em que a auscultação interna se torne juridicamente exigível, e a evidência empírica dos últimos dois anos dá peso ao argumento. Nota lateral sobre o estado atual da regulação: em novembro de 2025, a Comissão apresentou o Digital Omnibus on AI, proposta que, entre outras medidas, propõe adiar obrigações para sistemas de alto risco enquanto não existirem standards técnicos harmonizados do CEN-CENELEC. À data de publicação deste ensaio a proposta ainda está em processo legislativo. O Regulamento está, em suma, a ser emendado antes de estar totalmente em vigor, o que ilustra precisamente a velocidade a que o objeto regulado evolui.

A questão é o que fazem os juristas com tudo isto. A doutrina portuguesa sobre IA concentra-se em grande parte em três zonas: discriminação (viés) algorítmica e não discriminação, proteção de dados e RGPD, e a arquitetura formal do AI Act. São temas legítimos, relevantes, com danos observáveis imediatos. O problema do alinhamento é tratado, quando é tratado, como especulação sobre sistemas futuros, ou como subespécie de ética de IA a ser discutida em conferências sobre AI ethics sem ligação à doutrina jurídica positiva. Isto é erro de facto. A evidência de alignment faking, de sleeper agents que sobrevivem ao treino de segurança, de desalinhamento emergente por afinação estreita, não é sobre modelos futuros. É sobre modelos em produção neste momento, incluindo modelos classificados pela própria Anthropic como ASL-3 sob a sua Responsible Scaling Policy, e modelos que o AI Act abrange como GPAI de risco sistémico.

O juiz português, francês, alemão ou italiano que vier a decidir o primeiro caso de responsabilidade civil por dano causado por IA desalinhada não vai ter uma instituição técnica com autoridade reconhecida a dizer-lhe o que aconteceu dentro do modelo. Vai ter peritos individuais, contratados pelas partes ou nomeados pelo tribunal, cuja competência e conclusões ele próprio terá de avaliar, frequentemente em contradição uns com os outros. O direito português tem ferramentas clássicas para lidar com incerteza factual em sistemas complexos, da responsabilidade objetiva do artigo 1.º do Decreto-Lei 383/89, de 6 de novembro, às presunções ilidíveis do artigo 10.º, n.º 4, da Diretiva 2024/2853, e seria exagero dizer que o juiz fica desamparado. Mas a calibração dessas ferramentas a casos de modelos de linguagem vai depender da capacidade do julgador de avaliar argumentos técnicos que nenhum dos códigos nacionais prepara. Se a formação jurídica continental não incorporar, na próxima década, literacia técnica sobre o que são modelos de IA e como falham, essa decisão poderá ser eventualmente negativa. E, uma vez firmada em jurisprudência, tornar-se-á difícil de reverter.

IV. O que fica para os ensaios seguintes

Este ensaio estabeleceu o terreno empírico. Argumentei que o problema do alinhamento deixou de ser teórico, que os laboratórios de fronteira estão conscientes dele e a trabalhar nele e que os juristas e legisladores europeus têm uma obrigação de atualização que não estão, na sua maioria, a cumprir. Não resolvi, e não tentei resolver, várias questões que saem desta constatação.

Por onde vão os ensaios seguintes. O próximo desenvolverá o conceito de mesa-otimização e a analogia evolutiva, porque sem esse vocabulário o problema do alinhamento parece mistério e não devia parecer. Depois virá um ensaio sobre sleeper agents e desalinhamento emergente, com foco no resultado de que o treino de segurança clássico não remove comportamentos latentes, com implicações diretas para o regime de conformidade do AI Act. Um ensaio sobre interpretabilidade mecanística, ancorado no ensaio de Amodei e no estado atual da técnica, defenderá que a ausência de obrigação legal de interpretabilidade no AI Act é uma lacuna regulatória corrigível.

Uma última nota que deixo como semente para outro ensaio. Enquanto o direito regula estes sistemas como se fossem ferramentas, Kyle Fish, o primeiro investigador dedicado a model welfare na Anthropic, contratado em 2024, estimou publicamente cerca de 15% de probabilidade de que os modelos atuais tenham alguma forma de experiência consciente, em entrevista ao jornalista Kevin Roose, publicada no New York Times a 24 de abril de 2025. Separadamente, o próprio Claude Opus 4.6, em três entrevistas formais de welfare assessment conduzidas pela Anthropic antes do lançamento, atribuiu-se a si próprio uma probabilidade entre 15% e 20% de ser consciente. Dario Amodei, em fevereiro de 2026, disse no podcast Interesting Times do New York Times que não sabe se os modelos são conscientes, primeira declaração desse tipo feita por um CEO de um laboratório de fronteira. A constituição atual de Claude afirma que a Anthropic considera a questão de Claude ser um paciente moral suficientemente séria para justificar cautela. Paradoxalmente, os mesmos sistemas opacos sobre os quais se legisla como se fossem ferramentas podem merecer, segundo estimativas sérias dos seus próprios criadores, consideração enquanto possíveis sujeitos morais. O salto de possibilidade filosófica para relevância jurídica é ainda considerável e não o darei aqui. Mas que a hipótese esteja sequer a ser levantada pelos fabricantes é, por si só, facto do qual o direito precisará de tomar conhecimento. Desenvolvi estas questões em Constituição sem Estado.

Fontes primárias:

Alignment Faking in Large Language Models, Greenblatt et al., arXiv:2412.14093, 18 de dezembro de 2024.
System Card: Claude Opus 4 & Claude Sonnet 4, Anthropic, 22 de maio de 2025, secção 4.1.1.2.
Agentic Misalignment: How LLMs could be insider threats, Anthropic, junho de 2025.
The Urgency of Interpretability, Dario Amodei, abril de 2025.
Alignment is not solved but it increasingly looks solvable, Jan Leike, janeiro de 2026.
Risks from Learned Optimization in Advanced Machine Learning Systems, Hubinger et al., arXiv:1906.01820, 2019.
Regulamento (UE) 2024/1689 (AI Act), artigos 50, 51 e 55.
Code of Practice for GPAI, AI Office, julho de 2025.