Índice
Cada artigo científico, pessoa, descoberta empírica ou disposição regulatória que surge nos ensaios tem aqui página própria.
Artigos 11
Ver todos →Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
10 de janeiro de 2024O artigo Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training (arXiv:2401.05566) foi…
Alignment Faking in Large Language Models
18 de dezembro de 2024O artigo Alignment Faking in Large Language Models (arXiv:2412.14093) foi publicado a 18 de dezembro de 2024…
Risks from Learned Optimization in Advanced Machine Learning Systems
5 de junho de 2019O artigo Risks from Learned Optimization in Advanced Machine Learning Systems (arXiv:1906.01820) foi…
Pessoas 16
Ver todos →Evan Hubinger
AnthropicEvan Hubinger lidera a equipa de Alignment Stress-Testing na Anthropic e é a personagem técnica mais…
Chris Olah
AnthropicChris Olah é cofundador da Anthropic e dirige, desde 2021, a equipa dedicada a mechanistic interpretability.…
Dario Amodei
AnthropicDario Amodei é cofundador e CEO da Anthropic, fundada em 2021 após a sua saída da OpenAI. A trajetória…
Amanda Askell
AnthropicAmanda Askell é filósofa na Anthropic e autora declarada principal da Claude Constitution, na sua versão de…
Jonathan Birch
London School of EconomicsJonathan Birch é filósofo na London School of Economics e autor de The Edge of Sentience (Oxford University…