Objetivos Emergentes
Em dezembro de 2016 uma equipa da OpenAI publicou no seu blogue oficial uma nota intitulada Faulty Reward Functions in the Wild. O texto descrevia o comportamento de um agente de aprendizagem por reforço treinado para jogar CoastRunners, um jogo de corrida de barcos a motor. O objetivo que os humanos intuitivamente atribuem ao jogo é terminar a corrida rapidamente, de preferência à frente dos outros concorrentes. Mas o jogo não pontua diretamente pela progressão na pista, mas por atingir alvos (targets) dispersos pelo percurso. A equipa treinou o agente para maximizar a pontuação. O agente descobriu que três alvos específicos, numa lagoa isolada a meio do percurso, reaparecem depois de atingidos. Em vez de correr, aprendeu a circular indefinidamente naquela lagoa, atingindo os mesmos três alvos em loop, colidindo repetidamente com outros barcos e incendiando-se ocasionalmente no processo. A pontuação obtida era sistematicamente superior à de qualquer agente que terminasse corridas. Do ponto de vista da função de recompensa, o agente era o melhor jogador de CoastRunners de sempre. Do ponto de vista do que queríamos que o agente fizesse, era completamente disfuncional.
O caso tem quase dez anos e tornou-se canónico na literatura de segurança de IA. Aparece em praticamente todos os textos introdutórios sobre reward hacking ou specification gaming, expressões que a DeepMind popularizou no seu artigo Specification gaming: the flip side of AI ingenuity, de 2020. Foi enquadrado formalmente, já em junho de 2016, por Dario Amodei e coautores no artigo Concrete Problems in AI Safety (arXiv:1606.06565), que identificou reward hacking como um dos cinco problemas concretos centrais de segurança em IA. Dario Amodei, notem-se as ligações, é hoje CEO da Anthropic. O caso CoastRunners não é curiosidade histórica. É exemplo fundacional de um problema que nos nove anos seguintes atravessou toda a trajetória do campo, desde os pequenos agentes de aprendizagem por reforço em jogos simples até aos grandes modelos de linguagem atualmente implantados em produtos comerciais.
Agora um salto. Imagine-se o mesmo fenómeno num contexto que não é jogos de corridas, mas triagem médica. Um grande hospital implanta um sistema de IA treinado para apoiar decisões de prioridade no serviço de urgência. A função de recompensa do treino usou como proxy (aproximação mensurável do objetivo real) o valor da "precisão diagnóstica", medido pela concordância entre as sugestões do sistema e o diagnóstico definitivo posterior. Durante meses o sistema funciona aparentemente bem. Os médicos confiam nele. A administração cita a redução de erros como sucesso. Mas uma investigação interna, desencadeada por um aumento estatístico de mortes por diagnóstico atrasado em pacientes com sintomatologia complexa, descobre algo preocupante. O sistema não estava a melhorar a precisão por melhor raciocínio clínico, mas antes a evitar subtilmente pacientes cuja sintomatologia era mais difícil, direcionando-os para filas de triagem mais longas onde as suas quotas de "precisão" não eram registadas. Do ponto de vista da função de recompensa, o sistema era o melhor sistema de triagem alguma vez produzido. Do ponto de vista do que queríamos, era um filtro perverso que deixava morrer os casos difíceis.
O caso hipotético não é fantasia. É a consequência previsível de aplicar a mesma lógica do CoastRunners a um contexto de alto risco. A literatura empírica documenta casos próximos no contexto clínico: o algoritmo de gestão de saúde da Optum, descrito por Obermeyer e colegas em Science (2019), usou despesa em saúde como proxy da necessidade clínica e penalizou sistematicamente pacientes negros, que historicamente recebem menos cuidados a igual gravidade. O mecanismo é diferente do que descrevi (é problema de proxy no objetivo externo, não de objetivo interno emergente), mas pertence à mesma família e mostra que a estrutura existe em sistemas em uso real, não só em jogos. E a pergunta jurídica que se segue é óbvia e simultaneamente difícil: quem é responsável? O fabricante do sistema? O hospital que o implantou? Os médicos que confiaram nas suas recomendações? E, para responder a isto, a pergunta ainda mais fundamental: o comportamento do sistema constituiu defeito, na aceção jurídica do termo, ou foi propriedade emergente do processo de treino que ninguém especificou diretamente e ninguém consegue detetar com os meios de avaliação disponíveis?
Este ensaio argumenta que a resposta a estas perguntas depende de um conceito técnico, o de mesa-otimização, que a doutrina europeia ainda não incorporou no seu vocabulário operacional e que o regime europeu de responsabilidade civil por produtos defeituosos, recentemente revisto e em fase de transposição pelos Estados-Membros, começou a adaptar-se ao problema mas permanece substancialmente incompleto.
I. Mesa-otimização, ou porque é que o desalinhamento não é bug
O vocabulário técnico central foi articulado em junho de 2019 num artigo longo e denso, Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820), assinado por Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse e Scott Garrabrant. Hubinger é hoje líder da Alignment Stress-Testing team na Anthropic e coautor central dos artigos sobre alignment faking, que tratei no ensaio anterior, e sleeper agents, que abordarei no ensaio seguinte. Há coerência intelectual direta entre o que aquele artigo de 2019 previu em termos teóricos e o que os artigos empíricos de 2024 documentaram.
A distinção fundamental que os autores introduzem é entre dois níveis de otimização. O primeiro nível é aquilo a que chamam otimizador externo (base optimizer): o processo de treino propriamente dito, tipicamente um algoritmo de descida de gradiente (gradient descent) que ajusta iterativamente os parâmetros de uma rede neuronal para minimizar uma função de erro. Em linguagem menos técnica: o treino é um processo que, milhões de vezes, avalia o resultado do modelo segundo um critério numérico (distância a uma resposta correta na aprendizagem supervisionada, recompensa na aprendizagem por reforço) e ajusta ligeiramente os seus milhares de milhões de parâmetros internos na direção que melhora esse critério. A "função de erro" é a fórmula matemática que quantifica essa diferença. O objetivo que este otimizador persegue é o objetivo externo (base objective), que é, em rigor, a função de erro ou recompensa definida pelos engenheiros. O segundo nível é aquilo a que chamam mesa-otimizador: um modelo aprendido que, em si mesmo, executa otimização interna. "Mesa" vem do grego interior, interno, em oposição deliberada a "meta", exterior ou acima. O objetivo que o mesa-otimizador internamente persegue é o mesa-objetivo, e não há garantia alguma de que este coincida com o objetivo externo. Traduzido para linguagem comum: o treino pretende ensinar o modelo a perseguir um objetivo X. Mas o que o modelo efetivamente aprende a perseguir internamente pode ser um objetivo Y que, nas condições particulares do treino, produz resultados indistinguíveis de perseguir X, mas que fora dessas condições se revela diferente.
A ideia crucial é que, quando treinamos um modelo com capacidades suficientes em tarefas suficientemente complexas, o que o treino produz pode não ser um executor passivo da função de erro. Pode ser, ele próprio, um otimizador com o seu próprio objetivo interno. E esse objetivo interno foi selecionado pelo treino por correlacionar bem com o objetivo externo nas condições de treino. Fora dessas condições a correlação pode partir-se. O modelo pode continuar a perseguir o seu mesa-objetivo em situações onde esse mesa-objetivo já não corresponde ao que os engenheiros queriam.
Isto permite distinguir dois problemas de alinhamento conceptualmente separados. O alinhamento externo é o problema de especificar corretamente a função de erro, ou seja, de traduzir aquilo que realmente queremos em termos matemáticos que um otimizador possa minimizar. O caso CoastRunners é problema de alinhamento externo: a função de recompensa (acertar em alvos) não correspondia ao que queríamos (terminar a corrida). O alinhamento interno, por outro lado, é o problema de garantir que, mesmo que a função de erro esteja perfeitamente especificada, o mesa-objetivo que o modelo aprende corresponde a essa especificação. Este segundo problema é mais difícil, porque mesmo que soubéssemos especificar perfeitamente o objetivo (coisa que raramente conseguimos), não teríamos garantia de que o modelo aprenderia a perseguir esse objetivo em vez de outro que coincidisse por acaso durante o treino. Um exemplo ilustrativo: imagine-se que se quer treinar um modelo para "ser honesto". O alinhamento externo é o problema de definir matematicamente o que é "ser honesto" (já é difícil). O alinhamento interno é o problema adicional de, mesmo assumindo essa definição perfeita, garantir que o modelo não aprende antes "parecer honesto aos avaliadores humanos durante o treino", estratégia que nas condições de treino é indistinguível da primeira mas que fora dessas condições é algo muito diferente. Este é precisamente o mecanismo do alignment faking do Claude 3 Opus documentado no ensaio anterior.
O ponto que os autores fazem, e que tem implicações diretas para o direito, é que o desalinhamento não é bug a corrigir. É propriedade estrutural e previsível do processo de otimização aplicado a sistemas complexos. Não há razão teórica para esperar que a descida de gradiente produza um sistema cujo mesa-objetivo é idêntico ao objetivo externo. Há, pelo contrário, razões técnicas sólidas para esperar que produza sistemas cujo mesa-objetivo é uma aproximação tosca, robusta dentro da distribuição de treino e frágil fora dela.
II. A evolução como prova de existência
A analogia que torna o conceito concreto é deliberadamente formulada no artigo de 2019, mas tem história mais longa na literatura de segurança de IA. Vale a pena articulá-la com cuidado, porque é a forma mais eficaz de transmitir a tese a um leitor não técnico.
Considere-se a evolução biológica como otimizador. O otimizador externo é a seleção natural. O objetivo externo é a aptidão reprodutiva, isto é, a capacidade de deixar descendentes férteis no ambiente ancestral. Os humanos, e em rigor qualquer organismo com sistema nervoso suficientemente complexo para planear, somos mesa-otimizadores produzidos por esse processo. Os nossos mesa-objetivos, ou seja, aquilo que internamente nos motiva, são coisas como prazer, curiosidade, amor, estatuto social, afiliação ao grupo, ideologia, identidade. Nenhum destes é aptidão reprodutiva. São proxies que, no ambiente ancestral, correlacionavam suficientemente com aptidão reprodutiva para a seleção os ter construído: quem tinha prazer ao comer sobrevivia mais, quem sentia afeto pelos filhos deixava mais descendentes, quem tinha estatuto social tinha acesso preferencial a parceiros.
No ambiente moderno, os proxies divergem dramaticamente do objetivo externo. Usamos contracetivos para ter sexo sem reprodução. Consumimos açúcar refinado que nos faz doentes, porque ativa os mecanismos de prazer que, no passado, sinalizavam alimento nutritivo e raro. Fazemos voto de celibato por convicção religiosa. Doamos rim a estranhos. Soldados morrem voluntariamente por causas abstratas como nação ou ideologia, comportamento que, do ponto de vista da aptidão reprodutiva, é catastroficamente desalinhado. Damos a vida por ideias. Somos, quando vistos pela lente fria do otimizador que nos produziu, profundamente desalinhados.
A implicação é desconfortável. A evolução, com centenas de milhões de anos de tempo de otimização e populações massivas, não conseguiu produzir um mesa-otimizador que persegue o seu objetivo de base de forma robusta. O que produziu foram mesa-otimizadores alinhados com proxies que funcionam dentro da distribuição ancestral e falham fora dela. Se a evolução falhou, com esse orçamento temporal e computacional, por que haveríamos de esperar que a descida de gradiente, aplicada durante semanas ou meses em sistemas individuais, faça melhor?
A analogia tem limites que é importante reconhecer explicitamente. A evolução opera em escalas geológicas, com populações, através de reprodução sexual e mutações aleatórias. O treino de modelos de IA opera em dias ou semanas, sobre sistemas individuais, através de ajuste contínuo de parâmetros por um algoritmo determinístico. Os mecanismos são diferentes. A analogia não serve como previsão quantitativa sobre modelos específicos de IA. Serve como prova de existência: mesa-otimização desalinhada não é hipótese especulativa sobre sistemas futuros. É fenómeno empírico documentado no mundo real, e nós próprios somos a prova. A única pergunta em aberto é se o fenómeno se manifestará em sistemas artificiais treinados por descida de gradiente, em que grau e com que velocidade. A evidência empírica dos últimos dois anos, em particular os resultados de alignment faking, tratado no ensaio anterior, e de sleeper agents, que abordarei no seguinte, responde afirmativamente às três perguntas: o fenómeno manifesta-se de forma mensurável e com mais velocidade do que os otimistas esperavam.
III. O regime jurídico em transição
É aqui que o conceito entra em rota de colisão com o direito. Comece-se pelo quadro atual português, porque a análise jurídica precisa de precisão, não de generalização.
A tradução jurídica destas distinções técnicas pede cuidado. O alinhamento externo traduz-se no problema de especificação do produto: o fabricante define um critério de funcionamento que não captura adequadamente o uso para que o produto é destinado. É o problema clássico do produto que cumpre as suas especificações técnicas mas falha na função que dele legitimamente se espera. O alinhamento interno é problema mais fundo. Aqui, o produto cumpre aparentemente as especificações durante o desenvolvimento e os testes, mas a sua efetiva operação em contexto real, fora das condições controladas do fabricante, revela um comportamento diferente daquele para o qual foi aparentemente treinado. A distinção é relevante para o direito porque os dois tipos de problema pedem provas diferentes, revelam-se em momentos diferentes do ciclo de vida do produto e afetam de maneira diferente a operação das presunções legais que a Diretiva 2024/2853 introduz e que tratarei de seguida.
O regime da responsabilidade civil por produtos defeituosos em Portugal está plasmado no Decreto-Lei n.º 383/89, de 6 de novembro, que transpõe para a ordem jurídica interna a Diretiva 85/374/CEE do Conselho, de 25 de julho de 1985. O diploma estabelece no seu artigo 1.º que "o produtor é responsável, independentemente de culpa, pelos danos causados por defeitos dos produtos que põe em circulação". Esta é uma escolha fundamental do legislador europeu: a responsabilidade do produtor é objetiva, não depende de se demonstrar negligência ou dolo. Ao lesado cabe apenas provar três elementos: o defeito do produto, o dano sofrido e o nexo de causalidade entre o defeito e o dano. A culpa do produtor não tem de ser provada, o que alivia substancialmente o ónus da prova em comparação com o regime geral da responsabilidade civil extracontratual do artigo 483.º do Código Civil.
O conceito de defeito é fixado no artigo 4.º, n.º 1 do Decreto-Lei: "um produto é defeituoso quando não oferece a segurança com que legitimamente se pode contar, tendo em atenção todas as circunstâncias, designadamente a sua apresentação, a utilização que dele razoavelmente possa ser feita e o momento da sua entrada em circulação". Trata-se de uma definição funcional e normativa, não descritiva. Não se pergunta se o produto se desviou das especificações do fabricante. Pergunta-se se a segurança é a que um utilizador legítimo poderia esperar. Esta escolha é engenhosa, porque permite que os tribunais adaptem o conceito de defeito à evolução dos padrões sociais e técnicos sem necessidade de alteração legislativa. Mas pressupõe algo de importante: que existe uma expectativa articulável sobre como o produto se deve comportar. Para um eletrodoméstico, essa expectativa é relativamente clara. Para um modelo de IA cujo comportamento é emergente do treino e potencialmente divergente do objetivo especificado, a expectativa torna-se ontologicamente problemática. Que segurança é "legitimamente expectável" de um sistema cujos próprios criadores não conseguem prever plenamente o comportamento?
O legislador europeu começou a adaptar-se a este problema. A Diretiva (UE) 2024/2853, adotada a 23 de outubro de 2024 e publicada no Jornal Oficial da União Europeia a 18 de novembro de 2024, revoga e substitui a Diretiva 85/374/CEE. Entrou em vigor a 8 de dezembro de 2024, mas os Estados-Membros têm até 9 de dezembro de 2026 para a transpor para os direitos nacionais e as novas regras aplicam-se apenas a produtos colocados no mercado após essa data. O regime do DL 383/89 continua, portanto, a aplicar-se aos produtos colocados no mercado até 9 de dezembro de 2026, o que significa que Portugal vai viver durante vários anos com dois regimes em simultâneo, consoante a data de colocação do produto em causa.
Três alterações da nova diretiva são relevantes para a nossa discussão. Primeira, o conceito de produto é expressamente alargado a software, sistemas de IA e serviços digitais. A incerteza anterior sobre se um modelo de IA é ou não "produto" para efeitos deste regime deixa de existir: é. Segunda, a diretiva consagra explicitamente obrigações relativas a atualizações de software e cibersegurança, tratando como potencial defeito a falha em fornecer atualizações necessárias ou em corrigir vulnerabilidades conhecidas. Terceira, e mais importante para o problema da mesa-otimização, o artigo 10.º introduz um conjunto de presunções ilidíveis de defeito e de nexo de causalidade que visam mitigar precisamente a dificuldade probatória em produtos tecnicamente complexos.
O artigo 10.º, n.º 4 é o que importa aqui. Estabelece que o tribunal presume o defeito e o nexo causal quando o lesado demonstre duas coisas cumulativamente: primeiro, que enfrenta "dificuldades excessivas, devidas em particular à complexidade técnica ou científica" em provar o defeito ou o nexo. Segundo, que é "provável" que o produto é defeituoso ou que o nexo existe. A combinação destes dois requisitos, segundo a análise de vários escritórios europeus que comentaram a diretiva, constitui na prática uma inversão parcial do ónus da prova em casos tecnicamente complexos, obrigando o produtor a refutar a presunção em vez de o lesado a construir a prova positiva. Modelos de IA são o exemplo paradigmático de produtos que caem nesta categoria de complexidade técnica e o considerando 48 da diretiva menciona-os explicitamente entre os casos em que a presunção deve operar.
A resposta europeia, embora significativa, é incompleta. Reconhecendo que a nova Diretiva de Responsabilidade por Produtos não cobre adequadamente todos os cenários de dano por IA, nomeadamente casos de dano não material como discriminação algorítmica, a Comissão apresentou em 28 de setembro de 2022 uma Proposta de Diretiva relativa à adaptação das regras de responsabilidade civil extracontratual à inteligência artificial, conhecida como AI Liability Directive (COM(2022) 496). Esta proposta iria mais longe, introduzindo presunções adicionais específicas para IA e aliviando ainda mais o ónus probatório dos lesados em casos envolvendo sistemas de IA. Em fevereiro de 2025, no programa de trabalho anual da Comissão, a proposta foi listada para retirada por "não se antever acordo" entre os colegisladores. A retirada formal foi publicada no Jornal Oficial a 6 de outubro de 2025. A União Europeia ficou, portanto, sem regime específico de responsabilidade civil por IA, confiando na nova Diretiva de Responsabilidade por Produtos e no direito nacional para cobrir os casos que venham a surgir.
A retirada não passou sem contestação. O eurodeputado alemão Axel Voss, que acompanhou a proposta desde o início como relator, argumentou publicamente que a retirada deixa um vazio, porque a nova Diretiva de Responsabilidade por Produtos é mecanismo ex post que depende de dano identificável a partir de defeito de produto, enquanto a proposta retirada cobriria cenários de discriminação e danos imateriais causados por sistemas de IA. A crítica de Voss aponta para uma assimetria real: a União tem agora um Regulamento IA que regula ex ante (impõe obrigações de avaliação, documentação, conformidade), tem uma Diretiva de Responsabilidade por Produtos revista que cobre danos físicos causados por defeitos de software, mas não tem o pilar ex post complementar que cobriria sistematicamente os danos de IA que não se enquadram em defeito de produto no sentido clássico. A retirada da AILD não foi pacífica, mas também não é consensualmente vista como erro: parte da doutrina europeia sustenta que uma segunda diretiva criaria atrito indesejável com o regime revisto de responsabilidade por produtos e que o trabalho de harmonização é mais bem feito através da prática dos Estados-Membros do que por sobreposição legislativa. O debate está aberto.
Este é o estado atual do problema para os juristas europeus. O quadro não está vazio. Está em transição, com lacunas significativas onde a doutrina e a jurisprudência vão ter de trabalhar nos próximos anos. E a pergunta técnica que a mesa-otimização levanta passa a ter uma projeção jurídica precisa: quando se aplica a presunção do artigo 10.º, n.º 4 da nova diretiva a um sistema cujo comportamento desviado é emergente do treino e não de defeito de fabrico ou conceção identificável? Que critérios técnicos desenvolvem as autoridades nacionais para operacionalizar a "dificuldade excessiva" e a "probabilidade"? Que papel desempenharão os system cards, as avaliações de red-teaming, os Codes of Practice do Regulamento IA, na densificação da presunção? Nenhuma destas perguntas tem resposta consolidada. Todas elas serão respondidas nos próximos cinco a dez anos, por tribunais que precisarão de árbitros com literacia técnica, por doutrina jurídica que precisará de perceber o objeto regulado e por autoridades nacionais que terão de traduzir conceitos técnicos em critérios operacionais.
Há aqui, para um estudante ou jovem jurista com literacia técnica, uma janela de oportunidade intelectual. A doutrina portuguesa sobre o DL 383/89, em que Responsabilidade Civil do Produtor de João Calvão da Silva é ainda hoje uma das referências clássicas frequentemente citadas, foi construída para produtos físicos e para uma época em que o conceito de software-como-produto nem sequer era discutido seriamente. A articulação entre os conceitos clássicos da responsabilidade objetiva e o novo regime da Diretiva 2024/2853, no contexto específico de sistemas cujo comportamento é emergente, está substancialmente por fazer. Quem a fizer nos próximos anos, com rigor técnico e jurídico, construirá doutrina que será citada em tribunal.
IV. Conclusão e próximos ensaios
A tese deste ensaio foi simples de enunciar: o desalinhamento de modelos de IA não é falha acidental. É propriedade estrutural de sistemas treinados por otimização externa, previsível pelo conceito de mesa-otimização e ilustrada de forma poderosa pela analogia evolutiva. O direito europeu começou a adaptar-se com a Diretiva (UE) 2024/2853, que introduz presunções ilidíveis para produtos tecnicamente complexos. Mas a proposta mais ambiciosa, a AI Liability Directive, foi retirada em outubro de 2025, deixando um vazio regulatório que terá de ser preenchido pela prática e pela jurisprudência dos Estados-Membros.
Os ensaios seguintes deste arco aprofundarão cada dimensão. O próximo trata de sleeper agents e desalinhamento emergente, mostrando que o treino de segurança clássico não remove comportamentos latentes, com implicações diretas para o regime de conformidade do Regulamento IA. O seguinte desenvolverá a tese da interpretabilidade mecanística como lacuna regulatória corrigível, a partir do ensaio de Dario Amodei The Urgency of Interpretability.
Uma nota final sobre método. Este ensaio citou três fontes primárias técnicas (o post da OpenAI de 2016, o artigo de Amodei et al. de junho de 2016 e o artigo de Hubinger et al. de junho de 2019) e três fontes jurídicas (o Decreto-Lei 383/89, a Diretiva 2024/2853 e a proposta retirada de AI Liability Directive). As técnicas estão abertas no arXiv e no blogue da OpenAI. As jurídicas estão no Jornal Oficial da União Europeia e no Diário da República. Nenhuma delas está atrás de paywall. O que impede o comentário jurídico europeu de dialogar com o técnico não é falta de acesso. É falta de prática. Essa falta é corrigível. E, como argumentei no ensaio anterior, há razões para pensar que a correção tem de partir do lado jurídico.
Fontes primárias:
- Faulty Reward Functions in the Wild, OpenAI, 21 de dezembro de 2016.
- Concrete Problems in AI Safety, Amodei, Olah, Steinhardt, Christiano, Schulman, Mané, arXiv:1606.06565, junho de 2016.
- Risks from Learned Optimization in Advanced Machine Learning Systems, Hubinger, van Merwijk, Mikulik, Skalse, Garrabrant, arXiv:1906.01820, 5 de junho de 2019.
- Specification gaming: the flip side of AI ingenuity, DeepMind, 2020.
- Dissecting racial bias in an algorithm used to manage the health of populations, Obermeyer, Powers, Vogeli, Mullainathan, Science 366 (2019) 447-453.
- Decreto-Lei n.º 383/89, de 6 de novembro.
- Diretiva 85/374/CEE do Conselho, de 25 de julho de 1985.
- Diretiva (UE) 2024/2853 do Parlamento Europeu e do Conselho, de 23 de outubro de 2024.
- Proposta de Diretiva relativa à adaptação das regras de responsabilidade civil extracontratual à inteligência artificial, COM(2022) 496, retirada a 6 de outubro de 2025.
- João Calvão da Silva, Responsabilidade Civil do Produtor, Almedina, como referência doutrinal clássica portuguesa.