
大規模言語モデルにおける性格特性を識別、監視、制御するための新しい技術が開発されました。
人物ベクトルは、特定の性格特性に対応する「活性化空間」における方向です。
これにより、開発者はモデルが応答を生成する前に、その動作を監視し、制御することができます。
特に、望ましくない性格特性は誤った行動をとる可能性があります。
LLMシステムは、親切、無害、誠実さを意図して設計された「アシスタント」ペルソナを通じてユーザーと対話します。
しかしながら、一部の望ましくない特性は、学習中に意図せず進化することがあります。


コメント