Wan: Open and Advanced Large-Scale Video Generative Models

Posted On 2025-04-18

108{icon} {views}

論文タイトル：Wan: Open and Advanced Large-Scale Video Generative Models
URL：https://arxiv.org/abs/2503.20314
GitHub：https://github.com/Wan-Video/Wan2.1

論文要約：Gemini 2.5 Pro

はい、承知いたしました。ご指定の論文「W A N : O PEN AND A DVANCED L ARGE -S CALE V IDEO G ENERATIVE M ODELS」について、60秒で読めるように一問一答形式で回答します。

この論文において解決したい課題は何？
既存のオープンソース動画生成モデルに見られる、①性能が商用モデルに劣る、②機能が限定的（主にText-to-Videoのみ）、③計算効率が悪く実用的でない、という課題を解決することです。
先行研究だとどういう点が課題だった？
先行研究のオープンソースモデルは、最先端のクローズドソース（商用）モデルと比較して、生成される動画の品質や忠実度で劣っていました。また、多くが基本的なText-to-Videoタスクに限定され、多様な動画制作ニーズに応えられず、大規模モデルは計算コストが高いという課題がありました。
先行研究と比較したとき、提案手法の独自性や貢献は何？
Diffusion Transformerを基盤としつつ、独自の高効率な時空間VAE、大規模データ（数十億の画像・動画）での学習戦略、多タスク対応（画像からの動画生成、指示に基づく編集、個人化、中英両言語のテキスト描画など8種）を実現した点が独自性です。高性能な14Bモデルと軽量な1.3Bモデルを提供し、コードとモデルを全てオープンソース化した点も大きな貢献です。
提案手法の手法を初心者でもわかるように詳細に説明して
テキスト（文章）から動画を作るAIモデル「Wan」を開発しました。まず、動画を効率的にデータ圧縮・復元できる「時空間VAE」という技術を使います。次に、「Diffusion Transformer」という仕組みで、テキスト指示に従って、圧縮されたデータからノイズを取り除きながら、リアルな動画を生成します。大量の動画と画像データで学習させることで、動きの大きさや品質、指示への忠実度を高めました。特に、1.3Bモデルは少ないGPUメモリ（約8GB）でも動作するように工夫されています。
提案手法の有効性をどのように定量・定性評価した？
定量的評価: 独自開発したベンチマーク「Wan-Bench」や既存の「VBench」を用いて、他のオープンソースモデルやSoraなどの商用モデルと比較し、複数の評価指標で優位性を示しました。
定性的評価: 生成された動画サンプルを示し、動きの大きさ、忠実度、詳細表現、テキスト生成能力、多様なスタイルなどの品質を視覚的に評価しました。また、人間による評価でも高いスコアを獲得しました。
この論文における限界は？
大きな動きを含むシーンでの細かいディテールの保持が難しい点、大規模モデル（14B）の推論には依然として高い計算コストがかかる点、汎用モデルであるため特定の専門分野（例：医療、教育）における性能が十分でない可能性がある点が挙げられています。
次に読むべき論文は？
- 比較対象として挙げられているモデルの論文: Sora (OpenAI, 2024), Kling (Kuaishou, 2024.06), HunyuanVideo (Kong et al., 2024), Mochi (GenmoTeam, 2024), CogVideoX (Yang et al., 2025b) など。
- 基盤技術に関する論文: Diffusion Transformer (DiT) (Peebles & Xie, 2023), Flow Matching (Lipman et al., 2022), VAE (Kingma, 2013)。
- 関連する応用タスクの論文: 論文内で言及されているVACE (Jiang et al., 2025) など。
論文中にコードが提示されていれば、それをリンク付きで示してください
はい、提示されています。以下がリポジトリへのリンクです。
https://github.com/Wan-Video/Wan2.1

その他

学習データ

高品質な動画像データをめっちゃ頑張って収集
動画生成のアノテーションを作るために、Gemini 1.5 Proに相当する性能のキャプション生成モデルを訓練

時空間VAE

これが新規提案手法。時空間の因果性を考慮する

また時間方向の特徴量キャッシュをモジュール内に導入することで、推論パフォーマンスを効率化

モデルのアーキテクチャー

Wan Bench（評価データ）

モーション：オプティカルフロー
人間の人工物：人間がアノテーションしたAI生成画像に対して、YOLOv3を学習して予測結果を分析
一貫性：DINOの特徴量を使う
物理的な妥当性：Qwen2VLの動画のVQAを通じて物理法則の違反を検出

評価結果

14BモデルはSoraに匹敵するか超えるぐらい

売り

1.3Bモデルは8.19GBのVRAMで良い

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー

Tags:動画生成, 基盤モデル, 生成モデル, 論文読み