データのラベル付けは不要:テンセントのR-ZeroはLLMが自己学習する方法を示している from venturebeat.com 海外記事要約 Twitter Facebook はてブ Pocket LINE コピー 2025.08.29 venturebeat.com Forget data labeling: Tencent’s R-Zero shows how LLMs can train themselves - venturebeat.com AIシステムが人間によるラベル付けされたデータを用いることなく、自らの経験から生成、改良、学習するよう訓練する新たなフレームワークが開発されました。 この手法は強化学習を用いて、2つのモデルと同時に対話し、課題を与えることで、AIシステムが独自の訓練データセットを生成します。 その結果、数学の問題から学習したスキルが、一般的な推論タスクにも効果的に転用できることが示されました。
コメント