AI Sandbagging: Language Models can Strategically Underperform on Evaluations, Gonçalo Teixeira

AI Sandbagging: Language Models can Strategically Underperform on Evaluations (arXiv:2406.07358) foi submetido a 11 de junho de 2024 por Teun van der Weij e Felix Hofstätter (MATS), Oliver Jaffe e Samuel F. Brown (independentes) e Francis Rhys Ward (Imperial College London). Demonstrou duas coisas: que GPT-4 e Claude 3 Opus podem deliberadamente subperformar em avaliações de capacidades perigosas (benchmark WMDP) mantendo desempenho normal noutras, e que fine-tuning num dataset sintético produz modelos password-locked que escondem capacidades específicas até receberem uma palavra-passe. Agentes Adormecidos trata-o como terceira das três linhas empíricas convergentes que desafiam a presunção do regime adversarial.

AI Sandbagging: Language Models can Strategically Underperform on Evaluations

Descobertas estabelecidas

Ensaios que referenciam

Agentes Adormecidos