MIT の画像生成と認識のための統合システムである MAGE をご紹介します from venturebeat.com


正式に Masked Generative Encoder (MAGE) と呼ばれるこの統合コンピュータ ビジョン システムは、幅広い用途を約束しており、画像を識別して新しい画像を生成するための 2 つの別個のシステムをトレーニングするオーバーヘッドを削減できます。
このようにして、システムは画像内のパターンを理解し (画像認識)、新しいパターンを生成する (画像生成) ことを学習しました。
今後、チームは MAGE システム、特にプロセスのトークン変換部分を合理化する予定です。
現在、画像データがトークンに変換されると、一部の情報が失われます。
これを超えて、現実世界の大規模なラベルなし画像データセットで MAGE をスケールアップし、画像からテキストへの生成やテキストから画像への生成などのマルチモダリティ タスクに MAGE を適用することも計画していると Li 氏は述べました。

コメント

タイトルとURLをコピーしました