テスト時間のスケーリングによって、小さな言語モデルに隠された推論能力がどのように解放されるか (そして、LLM を上回るパフォーマンスが可能になるか) from venturebeat.com

テスト時間のスケーリングによって、小さな言語モデルに隠された推論能力がどのように解放されるか (そして、LLM を上回るパフォーマンスが可能になるか) from venturebeat.com 海外記事要約

テスト時間のスケーリングによって、小さな言語モデルに隠された推論能力がどのように解放されるか (そして、LLM を上回るパフォーマンスが可能になるか) from venturebeat.com


上海 AI 研究所の研究では、推論タスクにおいて小規模な言語モデルが大規模な LLM よりも 10 億以上のパラメータで優れていることがわかりました。
研究者らはまた、適切なコンピューティング最適化 TTS 戦略を使用すると、SLM が 100 ~ 1000 分の 1 の FLOPS で大規模モデルを上回るパフォーマンスを発揮できることも発見しました。
ただし、トレーニングとテストの両方の計算予算を考慮すると、TTS の有効性は推論能力 (FLOPS) に直接関係します。

コメント

タイトルとURLをコピーしました