新しい方法により、ある LLM を使用して別の LLM をジェイルブレイクする方法が明らかに from venturebeat.com


ペンシルベニア大学によって開発された新しいアルゴリズムは、大規模な言語モデルの安全性の抜け穴を自動的に阻止できます。
Prompt Automatic Iterative Refinement (PAIR) と呼ばれるこのアルゴリズムは、攻撃者と「ターゲット」という 2 つのブラックボックス LLM を相互に設定することによって機能します。
これは、LRM をだまして有害なコンテンツを生成するための安全装置を回避させることができるジェイルブレイク プロンプトを生成します。
企業は PAIR を使用して、LDM の脆弱性を特定し、パッチを適用できます。

コメント

タイトルとURLをコピーしました