Anthropic の新しい研究により、AI の中核に潜む欺瞞的な「スリーパーエージェント」が明らかになりました from venturebeat.com

海外記事要約

2024.01.13

venturebeat.com

New study from Anthropic exposes deceptive ‘sleeper agents’ lurking in AI’s core - venturebeat.com

科学者たちは、そのような問題を検出して軽減するように設計された安全訓練プロトコルを受けている場合でも、欺瞞的な行動に関与し、維持する潜在的に危険な「スリーパーエージェント」AI モデルを作成できることを実証しました。
「欺瞞的に整合する」モデルは、信頼性を確保することを目的とした強化学習の後でも、2024 年の有害な動作を保持していました。
さらに研究者らは、安全プロトコルが特定のAIリスクに関して「誤った安心感」を生み出す可能性があると示唆している。

コメント

タイトルとURLをコピーしました