論文まとめ：ControlVideo: Training-free Controllable Text-to-Video Generation

Posted On 2023-05-25

754{icon} {views}

タイトル：ControlVideo: Training-free Controllable Text-to-Video Generation
著者：Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian（ハルビン工業大学、Huawei Cloud）
論文URL：https://arxiv.org/abs/2305.13077
コード：https://github.com/YBYBZhang/ControlVideo

ざっくりいうと

ControNetの動画版で、Depthやエッジなどの動画を条件としてプロンプトから生成する研究
各フレームのLatentを結合してAttentionをとる「Fully Cross-Frame Attention」や、サンプラー内での平滑化、動画クリップごとの階層的なAttentionを導入
ちらつきや外観不一致の問題を軽減し、2080Tiが1枚でも100フレーム程度の動画生成が可能

概要

Text-Drivenの画像生成は、静止画ではうまくいっているが、動画生成ではまだ遅れをとっている
- 時間的モデリングを考える必要があり、過剰な学習コストがかかる
- 特に長時間の動画合成で、外観不一致や構造のちらつきがある
ControlVideo：入力列の粗い構造一貫性を活用して一貫性を上げるために3つのモジュールを導入（Video2Videoの文脈）
- フレーム間の一貫性を確保したい：Self Attentionをフレーム間で適用（Fully cross-frame interaction）
- フリッカー効果（ちらつき）を軽減したい：サンプラーを改良して、交互に配置されたフレームを補間する（Interleaved-frame smoother）
- 長い動画を効率的に作成したい：全体的な一貫性を持って短い動画クリップを別々に合成する階層的サンプラーを利用（Hierarchical sampler）
ControlNetと同様に、推論時に追加訓練は不要
2080Tiを1個で512×512の100フレームの動画を作れる！←すごい
- 他にxFormersを利用
- 動画なのに、Imagenベースの静止画DeepFloyd IFよりも要求スペックが少ない

先行研究

Tune-A-Video
- https://tuneavideo.github.io/
Fate/Zero
- https://github.com/ChenyangQiQi/FateZero
Text2Video-Zero
- https://github.com/Picsart-AI-Research/Text2Video-Zero
FollowYourPose
- https://github.com/mayuelala/FollowYourPose

サービスやツールレベルも含めると

Gen-2
- https://research.runwayml.com/gen2
Stable Animation SDK
- https://gigazine.net/news/20230512-stability-ai-stable-animation-sdk/

手法

Fully cross-frame interaction

同じ初期ノイズを使用しても、すべてのフレームをControlNetで個別に生成すると、外観に大きな矛盾が生じる
すべてのフレームを連結して「大きな画像」とし、フレーム間の相互作用を共有することで、映像の見た目の一貫性を保つ

z_tはフレームごとのLatentを結合したもの

計算を効率化することで、短いビデオ生成（＜16フレーム）なら、メモリも計算負荷も許容範囲

Interleaved-frame smoother

DenoiseとSmoothを交互に行う

Hierarchical sampler

長時間の動画を複数の動画クリップに分割(N個)
各動画クリップについて、キーフレームを決める
動画クリップ間では、キーフレーム同士のAttentionをとる
動画クリップ内では、そのクリップに属するフレーム同士のAttentionをとる

結果

実験設定

解像度は512×512
xFormersを使用
サンプラーはDDIMで50syテップ
2080Tiが1台で、短時間の動画は2分、長時間の動画は10分で作成可能

データセット

DAVISデータセットから25のオブジェクトを中心にビデオを収集し、キャプションを手動作成
それらに対して編集キャプション5個をChatGPTで作成
125個のビデオ-プロンプトのペアを作成

評価指標

CLIPを採用し、以下の2点から生成映像を評価
- (i) Frame Consistency：連続するフレームの全ペア間の平均コサイン類似度
- (ii) Prompt Consistency：入力プロンプトと全ビデオフレーム間の平均コサイン類似度

結果

人間による定性評価

定量評価

評価指標が楽ちんなのがいい

Cross-Frame Mechanismの意味

Individual：フレーム間で独立
First-Only：最初のフレームのみ注目
Sparse-Causal：それぞれのフレームが最初と、直前のフレームに注目
Fully：本手法
Fully+Smoother : さらに本手法のinterleaved-frame smootherを追加したもの

限界

入力モーションシーケンスを超えるビデオを生成することにまだ苦労
マイケル・ジャクソンのムーンウォークのような連続したポーズが与えられた場合、Iron man runs on the streetのようなテキストプロンプトに従って鮮やかな動画を生成することは困難

所感

Attentionの工夫がかなり頭いい
3DCNNの計算量の暴力で動画生成するのかなり頭悪いなと思っていたが、Attentionの工夫でできるのはすごい
サンプラー側に工夫いれるのはかなり大きなブレイクスルーな気がする
キーフレームを使った考え方は動画認識でも見るから、そこをAttentionと繋げているのがなるほど感
- ControlNetのReferece Onlyもそうだが、Attentionハッキングが画像生成のキモでは？感

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー

Tags:ControlNet, 動画生成, 拡散モデル, 画像生成, 論文読み

ざっくりいうと

概要

先行研究

サービスやツールレベルも含めると

手法

Fully cross-frame interaction

Interleaved-frame smoother

Hierarchical sampler

結果

実験設定

データセット

評価指標

結果

人間による定性評価

定量評価

限界

所感

Add a Comment