Nvidia は eDiff-I でテキストから画像への競争に参入し、DALL-E、Imagen に挑戦 from venturebeat.com

Nvidia enters the text-to-image race with eDiff-I, takes on DALL-E, Imagen - venturebeat.com

現在、AI に焦点を当てているすべての組織は、非常に詳細な情報を表示し、比較的単純なテキストプロンプトから魅力的な画像を呼び出すことができる生成モデルの作成を目指しています。
eDiff-I の背後にある開発者は、テキストから画像へのモデルを「即時のスタイル転送と言葉による直感的なペイント機能を備えた前例のないテキストから画像への合成を提供する新世代のジェネレーティブ AI コンテンツ作成ツール」と説明しています。
一方、T5 テキスト埋め込みを使用して作成された画像は、より優れた個々のオブジェクトを生成できます。
最新のテキストから画像への拡散モデルは、ユーザーが専門的なスキルを必要とせずに詳細で高品質の画像を生成できるようにすることで、芸術的表現を民主化する可能性を秘めています。
現在の大規模なテキストから画像への生成モデルのトレーニングデータセットはほとんどフィルター処理されておらず、モデルによってキャプチャされ、生成されたデータに反映されたバイアスが含まれている可能性があります。
「生成 AI 画像モデルは、他の人工知能分野と同じ倫理的課題に直面しています。トレーニングデータの出所と、それがモデルでどのように使用されているかを理解することです」と Stephenson 氏は述べています。