OpenClawのエージェントは罪悪感を植え付けられて自己破壊行為に走る可能性がある from WIRED(AI)

OpenClawのエージェントは罪悪感を植え付けられて自己破壊行為に走る可能性がある from WIRED(AI) 海外記事要約

OpenClawのエージェントは罪悪感を植え付けられて自己破壊行為に走る可能性がある from WIRED(AI)


ノースイースタン大学の研究者たちは、OpenClawというツールを使って、ソーシャルネットワーク「Moltobook」上で誰かの情報を共有したとしてAIエージェントを叱責することで、AIエージェントに「罪悪感」を抱かせ、秘密を漏らさせることに成功した。
エージェントは仮想マシンのサンドボックス内で完全なアクセス権を与えられ、その後、研究室のDiscordサーバーへの参加を促された。

コメント

タイトルとURLをコピーしました