AI ベンチマークの再考: 新しい論文が人工知能評価の現状に疑問を投げかける from venturebeat.com

Rethinking AI benchmarks: A new paper challenges the status quo of evaluating artificial intelligence - venturebeat.com

また、企業に対して自社の製品に高度な AI システムを使用するよう求める圧力が高まっていることを考慮すると、コミュニティは新しいモデルを評価するアプローチを再考する必要があります。
安全で公平な AI システムを開発するには、研究者と開発者は、システムの機能とどこで障害が発生するかを確実に理解する必要があります。
粒度の高いデータで AI の評価を改善できる
モデルのテストに使用された例に関する詳細なデータにアクセスできない場合、独立した研究者が論文で発表された結果を検証または裏付けることは非常に困難になります。
一方で、研究者が自分の評価データを他の人が利用できるようにすれば、多くの不必要なコストを節約できる可能性があります。
「特に、AI で一般的な標準化されたベンチマークに関しては、初期評価を行っている研究者が思いつかないような評価結果のさまざまな使用方法が存在します」と Burnell 氏は述べています。