
開発者がトークン バジェットに基づいて推論チェーンをトレーニングすることで推論チェーンの長さを制御できるようにする新しい手法が提案されました。
研究者らは、同じ世代長において L1 モデルがより大きなモデルよりも優れたパフォーマンスを発揮することを発見しました。
モデリングは思考連鎖 (CoT) を通じて行われるため、ユーザーは同等のトークンをより迅速かつ低コストで生成できます。
特に、長い CoT チェーンは、主に精度上の理由だけでなく、コスト上の理由により、推論エラーを引き起こす可能性があります。

コメント