MCP-Universeベンチマークでは、GPT-5が実世界のオーケストレーションタスクの半分以上を失敗していることが示されています。 from venturebeat.com

MCP-Universeベンチマークでは、GPT-5が実世界のオーケストレーションタスクの半分以上を失敗していることが示されています。 from venturebeat.com 海外記事要約

MCP-Universeベンチマークでは、GPT-5が実世界のオーケストレーションタスクの半分以上を失敗していることが示されています。 from venturebeat.com


Salesforceは、現実世界でエージェントがMCPサーバーとやり取りする際のパフォーマンスを追跡するオープンソースベンチマーク「MCP Universe」をリリースしました。
このベンチマークは、ツールの使用、複数回のツール呼び出し、ロングコンテキストウィンドウを通してLLMのパフォーマンスを追跡することを目的としています。
例えば、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索など、企業が使用する様々な領域を対象としており、OpenAIを用いたモデルでこれらのタスクが実行される例が示されています。
しかし、LLMが未知のツールやツールに遭遇すると、効率が大幅に低下することが示されました。

コメント

タイトルとURLをコピーしました