DeepSeek が、よりスマートでスケーラブルな AI 報酬モデルの新技術を発表 from venturebeat.com

DeepSeek unveils new technique for smarter, scalable AI reward models - venturebeat.com

中国の研究所は、ジェネラリストでスケーラブルな報酬モデルを作成するための「自己原理批判チューニング (SPCT)」技術を開発しました。
その目的は、クエリと応答に基づいて原則と批評を生成し、推論時間中により多くの計算リソースを使用してより良い結果を生み出すことです。
研究者らは、これにより、創造的なタスクや基準が複雑な創造的なタスクなどのオープンエンドのタスクに対する、より有能な AI アプリケーションにつながる可能性があると述べています。
しかし、現在の報酬モデルは、低品質の判断によって制限されています。