Concrete Problems in AI Safety, Gonçalo Teixeira

Concrete Problems in AI Safety (arXiv:1606.06565) foi publicado em junho de 2016 por Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman e Dan Mané. Identificou reward hacking como um dos cinco problemas concretos centrais da segurança em IA, e estabeleceu vocabulário ainda em uso quase uma década depois. Objetivos Emergentes invoca-o como antecedente direto do conceito de mesa-optimization e como ponto de partida para a análise do regime europeu de responsabilidade pelo produto aplicado a sistemas com objetivos emergentes do treino.

Concrete Problems in AI Safety

Autores

Ensaios que referenciam

Objetivos Emergentes