Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, Gonçalo Teixeira

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet foi publicado pela Anthropic em maio de 2024 por equipa que inclui Adly Templeton. Escalou a técnica de sparse autoencoders a um modelo de produção, identificando mais de trinta milhões de features interpretáveis dentro do Claude 3 Sonnet, incluindo features específicas para bugs de código, decepção, sycophancy e conceitos relevantes para segurança. Abrir a Caixa Preta invoca-o como o salto da prova de conceito (Towards Monosemanticity, 2023) para a viabilidade em escala industrial. Golden Gate Claude, em maio de 2024, foi a versão pública lúdica do mesmo trabalho.

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Autores

Ensaios que referenciam

Abrir a Caixa Preta