「多言語」AI コンテンツモデレーションの重大な欠陥 from WIRED(AI)

これは Facebook の新しい大規模言語モデルのデータレシピの一部であり、同社はこのモデルにより 100 以上の言語で有害なコンテンツを検出して抑制できると主張しています。
ソーシャルメディア企業は長年にわたり、世界の他の 7,000 言語よりも英語のコンテンツにコンテンツの自動検出と削除の取り組みを重点的に行ってきました。
これらのリソースの少ない言語の中には、話者やインターネットユーザーが限られているものもありますが、ヒンディー語やインドネシア語など、何億人もの人々が話している言語もあり、誤ったシステムによって引き起こされる害は倍増します。
これらは言語間の接続を確立するために特別に設計されており、英語などのトレーニングデータが豊富な言語から推定して、ボスニア語などのトレーニングデータが少ない言語をより適切に処理できるようにします。
多言語モデルのトレーニングによく使用される大規模なテキストデータセットでは、表現数が最も少ない言語には、不快なテキスト、ポルノ的なテキスト、機械翻訳が不十分なテキスト、または単に意味不明なテキストが含まれることが最も多い言語でもあります。
たとえば、言語モデルが、英語からフィリピンの 2,000 万人が話す言語であるセブアノ語に機械翻訳されたテキストのみでトレーニングされている場合、モデルはネイティブスピーカーが使用するスラング「クアン」という用語を認識していない可能性があります。