論文まとめ:Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
Posted On 2022-10-20
- タイトル:Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
- 著者:Hien Ohnaka, Shinnosuke Takamichi, Keisuke Imoto, Yuki Okamoto, Kazuki Fujii, Hiroshi Saruwatari
- 所属:徳山高専、東京大、同志社大、立命館大
- URL:https://arxiv.org/abs/2210.09173
- プロジェクトページ:https://sarulab-speech.github.io/demo_visual-onoma-to-wave/
目次
ざっくりいうと
- 漫画の効果音で見られる視覚的オノマトペ(画像での擬声語)から、環境音を合成するVisual onoma-to-waveを提案
- 視覚的オノマトペと補助画像を入力とし、単純なCNNとCLIPでエンコードする
- テキストベースよりも詳細な音構造を持つ合成ができ、漫画やVRに応用可能
導入
- ゲームなどのサウンドコンテンツ制作のために、自然な多様な環境音合成をしたい
- オノマトペ:擬声語、漫画の効果音のような音のビジュアル表現
- コミックの音声化、VRの没入感の向上に応用できる
音声合成手法の比較
- 基本的な方法:「コップ」や「ドラム」などの離散的なラベルから音を合成
- 全体的な印象は表現できるが、音の詳細な構造は表現できない
- 画像からの音声合成:Visual TTS(vTTS)
- 標準的な音声合成では不可能な音声表現が可能になる
- 視覚的な概念により音の詳細な構造を決定できる
- 補助画像(例:野球漫画でのバット)を追加することで、音声の印象を付与できる
手法
Visual onoma-to-wave
視覚的オノマトペ(Visual onomatopoeia)と音声イベント画像(Sound event image)を入力とする
- オノマトペは単純なCNNで符号化
- 音声イベント画像は訓練済みのCLIPのImage Encoderで符号化
- CLIPを使うことで、金属バットの画像が与えられたときに「a metal baseball bat」というテキストの特徴量に関連付けられる
- 「a baseball bat」のような単純なラベルよりも、多様な音を生成できる
- 私の勝手な想像:テキストと暗黙的に関連付けることで擬似的なTTSになっているのではないか
- CLIPのText Encoderに変えれば、条件付をテキストに変えることも可能
オノマトペに応じた伸縮
視覚的オノマトペを音声に転移するために、継続時間に応じた伸縮を導入
- オノマトペの画像の長さwと、生成音声の長さDを関連付ける
- 訓練データでは、オノマトペは文字数に関係なく同一の形状をしている
- 推論時に、オノマトペのサイズに応じた伸縮を適用
オノマトペに特化したData Augmentation
電話の「チリリリリ」のように繰り返しが現れるのが、オノマトペの特徴。繰り返しの分を複製するようなData Augmentationを提案
→ Augmentationした後の音声が不自然にならないように、繰り返しの中間部分を複製
実験評価
- データセットは、環境音のRWCP-SSDと、それに対応するオノマトペRWCP-SSD-Onomatopoeiaを使用
- 視覚的オノマトペ:Pillowで画像合成。あははもじもじフォントを使用。
- vTTSのコードはすでにあるOSSをベースにした
- 先行研究のonoma-to-waveではTacotron-likeなモデルを使っていたが、本研究(視覚的オノマトペ)ではFastSpeech2-likeのモデルを使用
- 従来の(画像を使わない)オノマトペとくらべて、視覚的オノマトペが統計的に有意に良いとはいえなかった(あくまでオノマトペと同等)
- MOSテスト(主観評価ベース)では、提案したData Augmentationは有効と言えた
- 漫画での応用として、補助画像が線画の場合も試した
- Anime2Sketchを使って線画を作成したのが「Line drawing」の場合
- 表現の多様さは単純なラベルよりも良かった。これはラベルが一意に決まるため
- 一方で自然さは若干下がった。これは一意に決まらないため合成が若干不安定になるから
まとめ・感想
- 視覚的オノマトペを使い、環境音を合成する手法を示した
- 読みやすい論文だった。応用範囲は広そう
- 補助画像のエンコーディングにCLIPを使ったのが頭いいと思った。音声合成の文脈でCLIPを使うのは自分は初めて見た
Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内
技術書コーナー
北海道の駅巡りコーナー