Anthropic は、新しい AI セキュリティ手法が脱獄の 95% をブロックすると主張し、レッドチームに試してみるよう勧めています from venturebeat.com

Anthropic は、新しい AI セキュリティ手法が脱獄の 95% をブロックすると主張し、レッドチームに試してみるよう勧めています from venturebeat.com 海外記事要約

Anthropic は、新しい AI セキュリティ手法が脱獄の 95% をブロックすると主張し、レッドチームに試してみるよう勧めています from venturebeat.com


Claude 3.5 Sonnet モデルに対するジェイルブレイクの試みをフィルタリングする「Constitutional Classifiers」がリリースされました。
システムは、成功した脱獄の試みの「圧倒的多数」をフィルタリングすると同時に、「禁止されたクエリ」もブロックします。
専門家以外の科学者が、そうでなければ起こり得ない複雑な科学的プロセスを実行できる可能性があるため、特に有害であると言われています。
ただし、このモデルは 1 回の脱獄で試みられた脱獄の試みの 95% を拒否しました。
ただし、ほとんどのモデルが憲法分類子 (SSL) によって保護されていることは注目に値します。

コメント

タイトルとURLをコピーしました