MCP-Universeベンチマークでは、GPT-5が実世界のオーケストレーションタスクの半分以上を失敗していることが示されています。 from venturebeat.com

MCP-Universe benchmark shows GPT-5 fails more than half of real-world orchestration tasks - venturebeat.com

Salesforceは、現実世界でエージェントがMCPサーバーとやり取りする際のパフォーマンスを追跡するオープンソースベンチマーク「MCP Universe」をリリースしました。
このベンチマークは、ツールの使用、複数回のツール呼び出し、ロングコンテキストウィンドウを通してLLMのパフォーマンスを追跡することを目的としています。
例えば、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索など、企業が使用する様々な領域を対象としており、OpenAIを用いたモデルでこれらのタスクが実行される例が示されています。
しかし、LLMが未知のツールやツールに遭遇すると、効率が大幅に低下することが示されました。