人間を対象とした試験が、GPT-4 などの LLM のベンチマークとして適していない理由 from venturebeat.com

Why exams intended for humans might not be good benchmarks for LLMs like GPT-4 - venturebeat.com

ただし、人間用に設計されたテストは、LLM の機能を測定するための適切なベンチマークではない場合があります。
GPT-4 のような LLM の場合、試験の成功はトレーニングデータにかかっています
プリンストン大学のコンピューターサイエンス教授である Arvind Naranayan は、最近、プロのライセンス試験で LLM をテストする際の問題についての記事を書きました。
「おそらく、人間はこれらの問題を別の、より一般化可能な方法で解決しているでしょう。したがって、テストを行うときに、人間に対して行う LLM の仮定を行うことはできません」と Mitchell 氏は述べています。
司法試験と医学部の試験で LLM をさらにテストした Mitchell は、人間向けに設計された試験は、これらの AI モデルの能力と現実世界のタスクの制限を把握するための信頼できる方法ではないと結論付けています。