OpenAI は、大規模な言語モデルをトレーニングするために Web サイトのコンテンツをスキャンするための Web サイト クローリング ボットを開始しました。
このボットは Google の Colossal Clean Crawled Corpus データセットに基づいており、作品を公開する人々から同意なしに個人識別情報 (PII) を収集することが知られています。
ただし、ボットをブロックすると LLM トレーニング データにコンテンツが含まれなくなるかどうかは不明です。
特に、他のいくつかの AI プラットフォームは、LMLs.nnndnyme.net の情報を学習するために公開データを使用しています。
コメント