データのラベル付けは不要:テンセントのR-ZeroはLLMが自己学習する方法を示している from venturebeat.com

データのラベル付けは不要:テンセントのR-ZeroはLLMが自己学習する方法を示している from venturebeat.com 海外記事要約

データのラベル付けは不要:テンセントのR-ZeroはLLMが自己学習する方法を示している from venturebeat.com


AIシステムが人間によるラベル付けされたデータを用いることなく、自らの経験から生成、改良、学習するよう訓練する新たなフレームワークが開発されました。
この手法は強化学習を用いて、2つのモデルと同時に対話し、課題を与えることで、AIシステムが独自の訓練データセットを生成します。
その結果、数学の問題から学習したスキルが、一般的な推論タスクにも効果的に転用できることが示されました。

コメント

タイトルとURLをコピーしました