Dia と呼ばれる新しいオープンソースのテキスト読み上げモデルが登場し、イレブンラボ、OpenAI などに挑戦します from venturebeat.com

海外記事要約

2025.04.23

A new, open source text-to-speech model called Dia has arrived to challenge ElevenLabs, OpenAI and more - venturebeat.com

Dia のような生成音声モデルは、テキストプロンプトから直接自然な対話を生成するように構築されています。
ユーザーは、[S1] や [S2] などのタグで話者のターンをマークし、(笑い)、(咳など) などの合図をスクリプトに含めることができます。
Nari Labの共同開発者であるToby Kim氏が、音声入力を使用してSesameのCSM-1Bモデルのプロトタイプをテスト中にTwitterで述べたところによると、競合モデルはこれらのタグを認識できなかったか、完全にスキップしていたという。