新しい学術研究は、より多くの事前トレーニングデータが必ずしもより良いモデルにつながるとは限らないという概念に疑問を投げかけました。
研究者らは、トレーニングを延長すると実際には言語モデルが難しくなり、微調整後のパフォーマンスが低下する可能性があることを発見しました。
これは壊滅的なオーバートレーニングと呼ばれる一貫した現象であり、著者らは実際にはこれを主張しているが、適切な制約がなければ完全に排除することはできない。
さらに、この研究は、追加の学習がより低いパラメータのモデルの本来の強みにつながることを示唆している。
特に、高品質のモデルは、学習後の作業が多すぎるため、トレーニングが不十分であることがよくある。


コメント