新しい方法により、ある LLM を使用して別の LLM をジェイルブレイクする方法が明らかに from venturebeat.com

海外記事要約

2023.11.08

New method reveals how one LLM can be used to jailbreak another - venturebeat.com

ペンシルベニア大学によって開発された新しいアルゴリズムは、大規模な言語モデルの安全性の抜け穴を自動的に阻止できます。
Prompt Automatic Iterative Refinement (PAIR) と呼ばれるこのアルゴリズムは、攻撃者と「ターゲット」という 2 つのブラックボックス LLM を相互に設定することによって機能します。
これは、LRM をだまして有害なコンテンツを生成するための安全装置を回避させることができるジェイルブレイクプロンプトを生成します。
企業は PAIR を使用して、LDM の脆弱性を特定し、パッチを適用できます。