「多言語」AI コンテンツモデレーションの重大な欠陥 from WIRED(AI)


これは Facebook の新しい大規模言語モデルのデータ レシピの一部であり、同社はこのモデルにより 100 以上の言語で有害なコンテンツを検出して抑制できると主張しています。
ソーシャルメディア企業は長年にわたり、世界の他の 7,000 言語よりも英語のコンテンツにコンテンツの自動検出と削除の取り組みを重点的に行ってきました。
これらのリソースの少ない言語の中には、話者やインターネット ユーザーが限られているものもありますが、ヒンディー語やインドネシア語など、何億人もの人々が話している言語もあり、誤ったシステムによって引き起こされる害は倍増します。
これらは言語間の接続を確立するために特別に設計されており、英語などのトレーニング データが豊富な言語から推定して、ボスニア語などのトレーニング データが少ない言語をより適切に処理できるようにします。
多言語モデルのトレーニングによく使用される大規模なテキスト データ セットでは、表現数が最も少ない言語には、不快なテキスト、ポルノ的なテキスト、機械翻訳が不十分なテキスト、または単に意味不明なテキストが含まれることが最も多い言語でもあります。
たとえば、言語モデルが、英語からフィリピンの 2,000 万人が話す言語であるセブアノ語に機械翻訳されたテキストのみでトレーニングされている場合、モデルはネイティブ スピーカーが使用するスラング「クアン」という用語を認識していない可能性があります。

コメント

タイトルとURLをコピーしました