Dia と呼ばれる新しいオープンソースのテキスト読み上げモデルが登場し、イレブンラボ、OpenAI などに挑戦します from venturebeat.com

Dia と呼ばれる新しいオープンソースのテキスト読み上げモデルが登場し、イレブンラボ、OpenAI などに挑戦します from venturebeat.com 海外記事要約

Dia と呼ばれる新しいオープンソースのテキスト読み上げモデルが登場し、イレブンラボ、OpenAI などに挑戦します from venturebeat.com


Dia のような生成音声モデルは、テキスト プロンプトから直接自然な対話を生成するように構築されています。
ユーザーは、[S1] や [S2] などのタグで話者のターンをマークし、(笑い)、(咳など) などの合図をスクリプトに含めることができます。
Nari Labの共同開発者であるToby Kim氏が、音声入力を使用してSesameのCSM-1Bモデルのプロトタイプをテスト中にTwitterで述べたところによると、競合モデルはこれらのタグを認識できなかったか、完全にスキップしていたという。

コメント

タイトルとURLをコピーしました