
Dia のような生成音声モデルは、テキスト プロンプトから直接自然な対話を生成するように構築されています。
ユーザーは、[S1] や [S2] などのタグで話者のターンをマークし、(笑い)、(咳など) などの合図をスクリプトに含めることができます。
Nari Labの共同開発者であるToby Kim氏が、音声入力を使用してSesameのCSM-1Bモデルのプロトタイプをテスト中にTwitterで述べたところによると、競合モデルはこれらのタグを認識できなかったか、完全にスキップしていたという。
海外記事要約
コメント