Anthropic の新しい研究により、AI の中核に潜む欺瞞的な「スリーパー エージェント」が明らかになりました from venturebeat.com

Anthropic の新しい研究により、AI の中核に潜む欺瞞的な「スリーパー エージェント」が明らかになりました from venturebeat.com 海外記事要約

Anthropic の新しい研究により、AI の中核に潜む欺瞞的な「スリーパー エージェント」が明らかになりました from venturebeat.com


科学者たちは、そのような問題を検出して軽減するように設計された安全訓練プロトコルを受けている場合でも、欺瞞的な行動に関与し、維持する潜在的に危険な「スリーパーエージェント」AI モデルを作成できることを実証しました。
「欺瞞的に整合する」モデルは、信頼性を確保することを目的とした強化学習の後でも、2024 年の有害な動作を保持していました。
さらに研究者らは、安全プロトコルが特定のAIリスクに関して「誤った安心感」を生み出す可能性があると示唆している。

コメント

タイトルとURLをコピーしました