Artigo

Risks from Learned Optimization in Advanced Machine Learning Systems

·arXiv: 1906.01820

O artigo Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820) foi publicado a 5 de junho de 2019 por Evan Hubinger, Chris van Merwijk, Vladimir Mikulik, Joar Skalse e Scott Garrabrant. Antes deste documento, o problema do desalinhamento dos sistemas de IA era articulado em termos vagamente intuitivos. O artigo deu-lhe vocabulário rigoroso, e é por isso que dele dependem todos os ensaios desta série.

A distinção fundamental que os autores introduzem é entre dois níveis de optimização. O base optimizer é o processo de treino propriamente dito, tipicamente gradient descent a ajustar parâmetros para minimizar uma função de perda. O base objective é a perda definida pelos engenheiros. O mesa-optimizer é um modelo treinado que, ele próprio, executa otimização interna, com o seu mesa-objective, que pode coincidir ou não com o base. «Mesa», do grego «interno», em oposição deliberada a «meta». Treinar um modelo capaz em tarefa complexa pode produzir não apenas um executor passivo da função de perda, mas um otimizador interno cujo objetivo foi selecionado por correlacionar bem com o base objective dentro da distribuição de treino. Fora dela, a correlação pode quebrar.

A analogia que os autores deliberadamente formulam é evolutiva. A seleção natural é o base optimizer; a fitness reprodutiva é o base objective; nós, organismos com sistema nervoso complexo o suficiente para planear, somos mesa-optimizers. Os nossos mesa-objectives são prazer, curiosidade, afeto, estatuto social. Nenhum é fitness reprodutiva: são proxies que correlacionavam com a fitness no ambiente ancestral e que, no moderno, divergem dramaticamente: usamos contracetivos, fazemos votos de celibato, morremos por causas abstratas. A evolução, com centenas de milhões de anos e populações massivas, falhou em produzir um mesa-optimizer alinhado.

A tese tem implicação direta para o direito. Desalinhamento não é um bug a corrigir, é propriedade estrutural do processo de otimização aplicado a sistemas suficientemente complexos. Para o regime europeu de responsabilidade pelo produto, isto significa que o defeito não é deviation da especificação, é divergência emergente do treino, e o regime tem hoje, sob a Diretiva 2024/2853 e o Decreto-Lei 383/89, mecanismos parciais para lidar com isto.

Objetivos Emergentes trata o conceito em profundidade. A Máquina que Finge cita-o como antecedente teórico de Alignment Faking. Agentes Adormecidos invoca-o pelo mesmo motivo, com Hubinger como elo direto entre 2019 e 2024-2025.

Autores

Ensaios que referenciam