アントロピック、AIの不整合をテストする「監査エージェント」を発表 from venturebeat.com

アントロピック、AIの不整合をテストする「監査エージェント」を発表 from venturebeat.com 海外記事要約

アントロピック、AIの不整合をテストする「監査エージェント」を発表 from venturebeat.com


Anthropicは、監査エージェントのレプリカをGitHubで公開しました。
研究者らは、開発したエージェントは「監査タスクにおいて優れたパフォーマンスを発揮する一方で、その限界も明らかにした」と述べています。
さらに、人間によるアライメント監査プロセスは時間がかかり、検証も困難だと付け加えています。
注目すべき点として、ChatGPTは複数のテストで意図的にアライメントをずらしていました。

コメント

タイトルとURLをコピーしました