論文まとめ：StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

Posted On 2023-01-12

1.1k{icon} {views}

タイトル：StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
著者：Yinghao Aaron Li, Cong Han, Nima Mesgarani（コロンビア大学）
論文：https://arxiv.org/abs/2205.15439
コード：https://github.com/yl4579/StyleTTS
デモ：https://styletts.github.io/

ざっくりいうと

TTSは本質的に1対多のマッピング問題
- 同じテキストでも、文脈、感情、方言などにより、様々な話し方が可能
変分推論などいくつものアプローチが提案されているが、異なる話者の話し方や感情のトーンを適切にモデル化し、取り入れることは依然として困難
非自己回帰型並列 TTS モデルは、自己回帰型モデルと比較していくつかの利点がある。
- 並列実装を十分に活用して高速な音声合成を可能
- 長い発話やOOD（out-of-distribution）発話に対してより頑健
- 音素の継続時間、ピッチ、エネルギーが音声から独立して予測可能
現在のモデルの限界：自己回帰方式に対する並列TTSの改善と、表現力豊かな音声合成を可能にするスタイルの活用は、ほとんど別々に行われていること

Input：音素列とReference Sound
Output：メルスペクトログラム（ボコーダーは別）

2段階に損失関数を分けて訓練

単一話者からなるデータセットLJSpeechで訓練。VITSより良い結果となった

Zeroshotな話者適応生成も可能だった。Styleベクトルのt-SNEを見たところ、感情を分離 or 話者IDの分離をしつつ学習していた。

参照の音声を変えて合成したところ、Question・Suprisedといった感情を伴った音声合成が可能だった。参照音声の感情により、合成音声のメルスペクトログラムやピッチが変わっている。

Synthesizedで読ませたテキスト：How much variation is there? Let’s find it out.
Referenceで人間が読んだもの：
- 左：Did England let nature take her course?
- 右：It’s true! I am shocked! My dreams!

効いている損失関数について

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー