OpenAI が Web クローリング GPTBot を開始し、Web サイトの所有者や作成者によるブロックの取り組みが活発化 from venturebeat.com

海外記事要約



OpenAI は、大規模な言語モデルをトレーニングするために Web サイトのコンテンツをスキャンするための Web サイト クローリング ボットを開始しました。
このボットは Google の Colossal Clean Crawled Corpus データセットに基づいており、作品を公開する人々から同意なしに個人識別情報 (PII) を収集することが知られています。
ただし、ボットをブロックすると LLM トレーニング データにコンテンツが含まれなくなるかどうかは不明です。
特に、他のいくつかの AI プラットフォームは、LMLs.nnndnyme.net の情報を学習するために公開データを使用しています。

コメント

タイトルとURLをコピーしました