こしあん
2022-10-20

論文まとめ:Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images


612{icon} {views}

ざっくりいうと

  • 漫画の効果音で見られる視覚的オノマトペ(画像での擬声語)から、環境音を合成するVisual onoma-to-waveを提案
  • 視覚的オノマトペと補助画像を入力とし、単純なCNNとCLIPでエンコードする
  • テキストベースよりも詳細な音構造を持つ合成ができ、漫画やVRに応用可能

導入

  • ゲームなどのサウンドコンテンツ制作のために、自然な多様な環境音合成をしたい
  • オノマトペ:擬声語、漫画の効果音のような音のビジュアル表現
  • コミックの音声化、VRの没入感の向上に応用できる

音声合成手法の比較

  • 基本的な方法:「コップ」や「ドラム」などの離散的なラベルから音を合成
    • 全体的な印象は表現できるが、音の詳細な構造は表現できない
  • 画像からの音声合成:Visual TTS(vTTS)
    • 標準的な音声合成では不可能な音声表現が可能になる
    • 視覚的な概念により音の詳細な構造を決定できる
    • 補助画像(例:野球漫画でのバット)を追加することで、音声の印象を付与できる

手法

Visual onoma-to-wave

視覚的オノマトペ(Visual onomatopoeia)と音声イベント画像(Sound event image)を入力とする

  • オノマトペは単純なCNNで符号化
  • 音声イベント画像は訓練済みのCLIPのImage Encoderで符号化
    • CLIPを使うことで、金属バットの画像が与えられたときに「a metal baseball bat」というテキストの特徴量に関連付けられる
    • 「a baseball bat」のような単純なラベルよりも、多様な音を生成できる
    • 私の勝手な想像:テキストと暗黙的に関連付けることで擬似的なTTSになっているのではないか
  • CLIPのText Encoderに変えれば、条件付をテキストに変えることも可能

オノマトペに応じた伸縮

視覚的オノマトペを音声に転移するために、継続時間に応じた伸縮を導入

  • オノマトペの画像の長さwと、生成音声の長さDを関連付ける
  • 訓練データでは、オノマトペは文字数に関係なく同一の形状をしている
  • 推論時に、オノマトペのサイズに応じた伸縮を適用

オノマトペに特化したData Augmentation

電話の「チリリリリ」のように繰り返しが現れるのが、オノマトペの特徴。繰り返しの分を複製するようなData Augmentationを提案

→ Augmentationした後の音声が不自然にならないように、繰り返しの中間部分を複製

実験評価

  • データセットは、環境音のRWCP-SSDと、それに対応するオノマトペRWCP-SSD-Onomatopoeiaを使用
  • 視覚的オノマトペ:Pillowで画像合成。あははもじもじフォントを使用。
  • vTTSのコードはすでにあるOSSをベースにした
  • 先行研究のonoma-to-waveではTacotron-likeなモデルを使っていたが、本研究(視覚的オノマトペ)ではFastSpeech2-likeのモデルを使用

  • 従来の(画像を使わない)オノマトペとくらべて、視覚的オノマトペが統計的に有意に良いとはいえなかった(あくまでオノマトペと同等)
  • MOSテスト(主観評価ベース)では、提案したData Augmentationは有効と言えた

  • 漫画での応用として、補助画像が線画の場合も試した
  • Anime2Sketchを使って線画を作成したのが「Line drawing」の場合
  • 表現の多様さは単純なラベルよりも良かった。これはラベルが一意に決まるため
  • 一方で自然さは若干下がった。これは一意に決まらないため合成が若干不安定になるから

まとめ・感想

  • 視覚的オノマトペを使い、環境音を合成する手法を示した
  • 読みやすい論文だった。応用範囲は広そう
  • 補助画像のエンコーディングにCLIPを使ったのが頭いいと思った。音声合成の文脈でCLIPを使うのは自分は初めて見た


Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です