Artigo
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning foi publicado pela Anthropic em outubro de 2023, com Trenton Bricken e Adly Templeton como líderes da equipa. Demonstrou que sparse autoencoders, técnica de processamento de sinal repurposada para mechanistic interpretability, conseguem decompor as ativações sobrepostas de um transformer de uma camada em features monosemânticas. Abrir a Caixa Preta invoca-o como a primeira demonstração pública de que o problema da sobreposição (superposition) tem solução técnica viável, abrindo a porta ao trabalho posterior em modelos de produção.