Anthropic は、その憲法上の AI がどのようにクロードを敵対的な入力に対して保護するかを説明します from engadget.com

Anthropic explains how its Constitutional AI girds Claude against adversarial inputs - engadget.com

そのため、AI のパイオニアである Anthropic は、生成型 AI である Claude に 10 の秘密の公平性の原則を組み合わせ、3 月に公開しました。
通常、生成 AI モデルがトレーニングされているときは、ChatGPT や Bard がシステムとの会話を評価するように求めたときのように、品質管理と出力に関するフィードバックを提供するループ内に人間がいます。
「私たちにとって、これには、人間の請負業者に 2 つの回答を比較させることが含まれていました」と Anthropic チームは書いています。
これが、Anthropic が別の AI でそれを行っている理由です。
本質的に、ループ内の人間は AI に置き換えられ、今ではすべてがこれまで以上に優れていると報告されています。
「私たちのテストでは、私たちのCAIモデルは敵対的な入力に対してより適切に反応し、なおかつ有用な回答を生成し、回避することはありませんでした」とAnthropicは書いています. 「このモデルは、無害性に関する人間のデータを受け取っていません。つまり、無害性に関するすべての結果は、純粋に AI の監督によるものです」