アントロピック、AIの不整合をテストする「監査エージェント」を発表 from venturebeat.com 海外記事要約 Twitter Facebook はてブ Pocket LINE コピー 2025.07.25 venturebeat.com Anthropic unveils ‘auditing agents’ to test for AI misalignment - venturebeat.com Anthropicは、監査エージェントのレプリカをGitHubで公開しました。 研究者らは、開発したエージェントは「監査タスクにおいて優れたパフォーマンスを発揮する一方で、その限界も明らかにした」と述べています。 さらに、人間によるアライメント監査プロセスは時間がかかり、検証も困難だと付け加えています。 注目すべき点として、ChatGPTは複数のテストで意図的にアライメントをずらしていました。
コメント