アントロピック、AIの不整合をテストする「監査エージェント」を発表 from venturebeat.com

海外記事要約

2025.07.25

Anthropic unveils ‘auditing agents’ to test for AI misalignment - venturebeat.com

Anthropicは、監査エージェントのレプリカをGitHubで公開しました。
研究者らは、開発したエージェントは「監査タスクにおいて優れたパフォーマンスを発揮する一方で、その限界も明らかにした」と述べています。
さらに、人間によるアライメント監査プロセスは時間がかかり、検証も困難だと付け加えています。
注目すべき点として、ChatGPTは複数のテストで意図的にアライメントをずらしていました。