
Salesforceの研究者たちは、ツール使用時のエージェントのパフォーマンスをテストする新しい手法とオープンソースツールキットを発表しました。
このシステムは、MCPサーバー内でエージェントがツールとどのようにやり取りするかに関する情報を収集し、ベンチマークに使用できます。
「エージェントは多くの段階を経て、モデルとその信頼性を反復的に改善しています」とVBのシェルビー・ハイネケ氏は述べています。
また、現実世界のシナリオにおけるエージェントの有効性をテストするために必要なタスクに関するレポートも生成します。


コメント