AI のフィードバックループ: AI が生成したコンテンツで AI がトレーニングする際の「モデルの崩壊」を研究者が警告 from venturebeat.com

The AI feedback loop: Researchers warn of ‘model collapse’ as AI trains on AI-generated content - venturebeat.com

主に人間が生成したコンテンツの代わりに、AI が生成したコンテンツがインターネット上で増殖し、AI モデルがそのコンテンツでトレーニングを開始すると何が起こるのかということです。
具体的には、テキストからテキストへのAI生成モデルと画像から画像へのAI生成モデルの確率分布を調べて、研究者らは「他のモデルによって生成されたデータからの学習はモデルの崩壊を引き起こす。これは時間の経過とともにモデルが真実を忘れてしまう退行的なプロセスである」と結論付けた。
「時間が経つにつれて、生成されたデータの間違いはさらに重なり、最終的には生成されたデータから学習したモデルが現実をさらに誤って認識することになります」と論文の主要著者の一人、イリア・シュマイロフはVentureBeatへの電子メールで書いている。
本質的に、モデルの崩壊は、AI モデルが生成したデータが後続のモデルのトレーニングセットを汚染することになるときに発生します。
AI が生成したデータによるこの「汚染」により、モデルによる現実の認識が歪められます。
この論文の背後にある研究者らは、人間が作成した元のデータの 10% が後続の世代でモデルをトレーニングするために使用されたとしても、「モデルの崩壊は、それほど早くはないものの、依然として発生する」ことを発見したとシュマイロフ氏は VentureBeat に語った。