Arthur がオープンソースの AI モデル評価ツールである Bench を発表 from venturebeat.com

Arthur unveils Bench, an open-source AI model evaluator - venturebeat.com

Arthur Bench は、大規模な言語モデルのパフォーマンスを評価および比較するためのオープンソースツールです。
同社は、このモデルを使用して幻覚を軽減しながら顧客の質問に答えることができると主張している。
また、精度、可読性、ヘッジ、その他の基準に関してモデルを比較するためのメトリクスも提供します。
Arthur はツールをオープンソース化しているため、誰でも無料で使用して貢献できます。