論文まとめ：Imagen Video: High Definition Video Generation with Diffusion Models

Posted On 2022-10-13

1.6k{icon} {views}

タイトル：Imagen Video: High Definition Video Generation with Diffusion Models
著者：Jonathan Ho*, William Chan*, Chitwan Saharia*, Jay Whang*, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David Fleet, Tim Salimans*
所属：Google Brain
プロジェクトページ：https://imagen.research.google/video/
コード：現時点で公開する気はないらしい

ざっくりいうと

Imagenは、Googleが2022年5月に発表した、Text-to-imageの画像生成モデル。潜在空間での拡散モデルを導入し、エンコーダーとしてCLIPではなくT5（テキストのみ）を使用することで、Latent Diffusionよりも高い性能を出した。

いずれもImagenの論文より。

カスケード拡散モデル（Cascaded Diffusion Models）：低解像度で画像や動画を生成し、超解像拡散モデルで画像や動画の解像度を上げていく。

空間方向（SSR）・時間方向（TSR）の超解像モデルを互いに組み合わせていく

画像の拡散モデルの場合は、典型的には2DのU-Netを使っている。時間方向、空間方向にそれぞれ畳み込み・Attentionをかけることで3Dへと拡張した。

空間方向の演算：パラメータを共有しつつフレームごとに独立
時間方向の演算：フレーム間で混合させて演算で活性化を混合させる。
使用するレイヤー
- 基本モデル：空間Conv、空間Self Attention、時間Self Attention
- 空間・時間の超解像モデル：Attentionのかわりに時間Conv（計算量を下げるため）
- 最高空間解像度のモデル：空間Attentionなし

先行研究にもとづき、v-predictionというテクニックを使っている。少ないサンプリングステップでより高い安定性を実現するためのもの。

先行研究にもとづき、Conditioning Augmentationと導入している。カスケードの1つのステージの出力と後続のステージで、入力との間のドメインギャップの影響を低下させるため。

先行研究にもとづく

画像と同時を同時に訓練すると生成結果が大幅に向上する
- 個々の独立した画像を、動画と同じ長さのシーケンスとして固める
- 時間的な畳み込みや、Attention Mapをマスクすることで、フレーム間の計算を無効にする
同時に画像から動画への知識転移が可能になった（ゴッホの絵を動画にする）

コードやモデルをリリースしない理由

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー