論文まとめ：Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images

Posted On 2022-10-20

742{icon} {views}

タイトル：Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
著者：Hien Ohnaka, Shinnosuke Takamichi, Keisuke Imoto, Yuki Okamoto, Kazuki Fujii, Hiroshi Saruwatari
所属：徳山高専、東京大、同志社大、立命館大
URL：https://arxiv.org/abs/2210.09173
プロジェクトページ：https://sarulab-speech.github.io/demo_visual-onoma-to-wave/

ざっくりいうと

基本的な方法：「コップ」や「ドラム」などの離散的なラベルから音を合成
- 全体的な印象は表現できるが、音の詳細な構造は表現できない
画像からの音声合成：Visual TTS（vTTS）
- 標準的な音声合成では不可能な音声表現が可能になる
- 視覚的な概念により音の詳細な構造を決定できる
- 補助画像（例：野球漫画でのバット）を追加することで、音声の印象を付与できる

視覚的オノマトペ（Visual onomatopoeia）と音声イベント画像（Sound event image）を入力とする

オノマトペは単純なCNNで符号化
音声イベント画像は訓練済みのCLIPのImage Encoderで符号化
- CLIPを使うことで、金属バットの画像が与えられたときに「a metal baseball bat」というテキストの特徴量に関連付けられる
- 「a baseball bat」のような単純なラベルよりも、多様な音を生成できる
- 私の勝手な想像：テキストと暗黙的に関連付けることで擬似的なTTSになっているのではないか
CLIPのText Encoderに変えれば、条件付をテキストに変えることも可能

視覚的オノマトペを音声に転移するために、継続時間に応じた伸縮を導入

電話の「チリリリリ」のように繰り返しが現れるのが、オノマトペの特徴。繰り返しの分を複製するようなData Augmentationを提案

→　Augmentationした後の音声が不自然にならないように、繰り返しの中間部分を複製

データセットは、環境音のRWCP-SSDと、それに対応するオノマトペRWCP-SSD-Onomatopoeiaを使用
視覚的オノマトペ：Pillowで画像合成。あははもじもじフォントを使用。
vTTSのコードはすでにあるOSSをベースにした
先行研究のonoma-to-waveではTacotron-likeなモデルを使っていたが、本研究（視覚的オノマトペ）ではFastSpeech2-likeのモデルを使用

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー