Constitutional AI: Harmlessness from AI Feedback, Gonçalo Teixeira

Constitutional AI: Harmlessness from AI Feedback (arXiv:2212.08073) foi publicado em dezembro de 2022 por uma equipa de cinquenta e um autores da Anthropic, incluindo Dario Amodei e Jared Kaplan. Introduziu o método RLAIF (Reinforcement Learning from AI Feedback), em que parte do trabalho dos avaliadores humanos do RLHF clássico é substituída por um modelo a avaliar respostas contra uma lista de princípios em linguagem natural. É a base técnica da Claude Constitution publicada em 2026, e Constituição sem Estado invoca-o como momento fundacional do método que produziu o objeto normativo central do ensaio.

Constitutional AI: Harmlessness from AI Feedback

Autores

Ensaios que referenciam

Constituição sem Estado