AI はブラックボックスです。人間は内部を見る方法を見つけた from WIRED(AI)

Anthropic チームは、ニューロンの 1 層だけを使用する小さなモデルを使用して LLM をデコードしました。
一緒に発火したニューロンは、モデルがゴールデンゲートブリッジについて考えていることを示しました。
同様のニューロンのセットが発火すると、ゴールデンゲートブリッジに隣接する被験者を呼び起こしました。
「それを見て、『なんてことだ。
これを見て、これは効果があるのか？』と思った」と実験者は語った。