OpenAI が Web クローリング GPTBot を開始し、Web サイトの所有者や作成者によるブロックの取り組みが活発化 from venturebeat.com

OpenAI launches web crawling GPTBot, sparking blocking effort by website owners and creators - venturebeat.com

OpenAI は、大規模な言語モデルをトレーニングするために Web サイトのコンテンツをスキャンするための Web サイトクローリングボットを開始しました。
このボットは Google の Colossal Clean Crawled Corpus データセットに基づいており、作品を公開する人々から同意なしに個人識別情報 (PII) を収集することが知られています。
ただし、ボットをブロックすると LLM トレーニングデータにコンテンツが含まれなくなるかどうかは不明です。
特に、他のいくつかの AI プラットフォームは、LMLs.nnndnyme.net の情報を学習するために公開データを使用しています。