Anthropic は、新しい AI セキュリティ手法が脱獄の 95% をブロックすると主張し、レッドチームに試してみるよう勧めています from venturebeat.com

Anthropic claims new AI security method blocks 95% of jailbreaks, invites red teamers to try - venturebeat.com

Claude 3.5 Sonnet モデルに対するジェイルブレイクの試みをフィルタリングする「Constitutional Classifiers」がリリースされました。
システムは、成功した脱獄の試みの「圧倒的多数」をフィルタリングすると同時に、「禁止されたクエリ」もブロックします。
専門家以外の科学者が、そうでなければ起こり得ない複雑な科学的プロセスを実行できる可能性があるため、特に有害であると言われています。
ただし、このモデルは 1 回の脱獄で試みられた脱獄の試みの 95% を拒否しました。
ただし、ほとんどのモデルが憲法分類子 (SSL) によって保護されていることは注目に値します。