Apple のエンジニアが AI の「推論」がいかに脆弱かを示す from WIRED(AI)

Apple による調査では、高度な大規模言語モデルには正式な数学的推論機能が欠けていることが示されています。
研究者らは、GSM-Symbolic ベンチマークを変更して名前と数値を新しい値に置き換え、テストしたモデルに応じて 0.3% ～ 67% の精度で「壊滅的なパフォーマンスの低下」を引き起こしました。
これは、テストしたすべてのモデルで一貫しています。
研究者らは、全体の精度が GSM-8K の 95.2% から GSM8k (動作なし) の 94.9% に低下したと仮説を立てています。