Meta が複数の音声合成タスクの生成モデルである Voicebox を発表 from venturebeat.com

Meta announces Voicebox, a generative model for multiple voice synthesis tasks - venturebeat.com

先週、Meta Platforms の人工知能研究部門は、テキストから音声を生成できる機械学習モデルである Voicebox を発表しました。
Voicebox は、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語を含む 6 つの言語にわたって音声を合成できる生成モデルです。
Meta の研究者らは、Voicebox の技術的詳細を説明する論文 (PDF) の中で、「目標は、コンテキスト内学習を通じて多くのテキストガイドによる音声生成タスクを実行できる単一のモデルを構築することです」と書いています。
たとえば、モデルは 2 秒の音声サンプルを使用して、新しいテキストの音声を生成できます。
このモデルは、単一のテキストシーケンスからさまざまな音声サンプルを生成できます。
この論文には、モデル使用のリスクを軽減するために、Voicebox によって生成された音声と音声を検出できる分類子モデルについての詳細も含まれています。