質の高いデータが不足している時代に MIT が AI 言語モデルをトレーニングする方法 from venturebeat.com

How MIT is training AI language models in an era of quality data scarcity - venturebeat.com

ML モデルはトレーニングデータに依存して予測を行う方法を学習するため、データの品質はモデルの品質に劇的な影響を与えます。
その結果、研究者はモデルで優れた言語流暢さを再現したいため、高品質のデータでのみモデルをトレーニングすることがよくあります。
高品質のテキストサンプルを使用して LLM をトレーニングすると、モデルはすべての言語に固有の複雑さと複雑さを理解できます。
「既存の高品質データを使用して LLM をトレーニングし (高品質データでトレーニングされた LLM に既にアクセスできるようになりました)、それらの LLM を使用して他のデータの品質を上げることができないかと考えました。」
Veeramachaneni は、モデルの品質に関して、現在の LLM は長いドキュメントを生成する能力を向上させる必要があると考えています。
「テキスト分類器は通常、人間がラベル付けしたデータでトレーニングする必要があるため、小さなデータセットでトレーニングされることが多く、簡単にだまされて文を誤分類する可能性があります。R&R を使用して、テキスト分類器をだます可能性のあるこれらの文の多くを生成したため、それを訓練して改善するために使用することができます」と Veeramachaneni は説明しました。