OpenAIは、AIエージェントのパフォーマンスを評価するために、請負業者に過去の仕事の成果物をアップロードするよう求めている from WIRED(AI)

OpenAIは、次世代AIモデルの性能評価のため、請負業者に対し、現在または過去の職場での実際の課題やタスクをアップロードするよう求めています。
2016年9月のオープンインテリジェンスレポートによると、請負業者の作業は、その人が実際に行った「実際の、職務に基づいた作業」を反映したものである必要があります。
このプロジェクトは、様々なタスクにおける人間の基準を設定し、それをAIシステムで評価するというOpenAIの取り組みの一環と思われます。
注目すべきは、人工知能システムが経済的に価値のあるタスクのほとんどにおいて人間を上回るパフォーマンスを発揮していることです。