
Microsoft Research の調査では、スケーリング手法の有効性は普遍的ではないことが判明しています。
研究者らは、9 つの異なるタイプとテクニックをテストして、モデルがどの程度正確かつ効率的に結果を達成できるかを判断しました。
その中には、GPT-4o や Claude 3.7 Sonnettes などの「従来の」モデルを同様の精度で同様のタスクに使用するモデルも含まれます。
さらに、観察されたパフォーマンスの向上は、モデル、タスク、タスクによって大きく異なると論文には記載されています。


コメント