こしあん
2025-04-18

Wan: Open and Advanced Large-Scale Video Generative Models


46{icon} {views}

論文要約:Gemini 2.5 Pro

はい、承知いたしました。ご指定の論文「W A N : O PEN AND A DVANCED L ARGE -S CALE V IDEO G ENERATIVE M ODELS」について、60秒で読めるように一問一答形式で回答します。


  • この論文において解決したい課題は何?
    既存のオープンソース動画生成モデルに見られる、①性能が商用モデルに劣る、②機能が限定的(主にText-to-Videoのみ)、③計算効率が悪く実用的でない、という課題を解決することです。

  • 先行研究だとどういう点が課題だった?
    先行研究のオープンソースモデルは、最先端のクローズドソース(商用)モデルと比較して、生成される動画の品質や忠実度で劣っていました。また、多くが基本的なText-to-Videoタスクに限定され、多様な動画制作ニーズに応えられず、大規模モデルは計算コストが高いという課題がありました。

  • 先行研究と比較したとき、提案手法の独自性や貢献は何?
    Diffusion Transformerを基盤としつつ、独自の高効率な時空間VAE、大規模データ(数十億の画像・動画)での学習戦略、多タスク対応(画像からの動画生成、指示に基づく編集、個人化、中英両言語のテキスト描画など8種)を実現した点が独自性です。高性能な14Bモデルと軽量な1.3Bモデルを提供し、コードとモデルを全てオープンソース化した点も大きな貢献です。

  • 提案手法の手法を初心者でもわかるように詳細に説明して
    テキスト(文章)から動画を作るAIモデル「Wan」を開発しました。まず、動画を効率的にデータ圧縮・復元できる「時空間VAE」という技術を使います。次に、「Diffusion Transformer」という仕組みで、テキスト指示に従って、圧縮されたデータからノイズを取り除きながら、リアルな動画を生成します。大量の動画と画像データで学習させることで、動きの大きさや品質、指示への忠実度を高めました。特に、1.3Bモデルは少ないGPUメモリ(約8GB)でも動作するように工夫されています。

  • 提案手法の有効性をどのように定量・定性評価した?
    定量的評価: 独自開発したベンチマーク「Wan-Bench」や既存の「VBench」を用いて、他のオープンソースモデルやSoraなどの商用モデルと比較し、複数の評価指標で優位性を示しました。
    定性的評価: 生成された動画サンプルを示し、動きの大きさ、忠実度、詳細表現、テキスト生成能力、多様なスタイルなどの品質を視覚的に評価しました。また、人間による評価でも高いスコアを獲得しました。

  • この論文における限界は?
    大きな動きを含むシーンでの細かいディテールの保持が難しい点、大規模モデル(14B)の推論には依然として高い計算コストがかかる点、汎用モデルであるため特定の専門分野(例:医療、教育)における性能が十分でない可能性がある点が挙げられています。

  • 次に読むべき論文は?

    • 比較対象として挙げられているモデルの論文: Sora (OpenAI, 2024), Kling (Kuaishou, 2024.06), HunyuanVideo (Kong et al., 2024), Mochi (GenmoTeam, 2024), CogVideoX (Yang et al., 2025b) など。
    • 基盤技術に関する論文: Diffusion Transformer (DiT) (Peebles & Xie, 2023), Flow Matching (Lipman et al., 2022), VAE (Kingma, 2013)。
    • 関連する応用タスクの論文: 論文内で言及されているVACE (Jiang et al., 2025) など。
  • 論文中にコードが提示されていれば、それをリンク付きで示してください
    はい、提示されています。以下がリポジトリへのリンクです。
    https://github.com/Wan-Video/Wan2.1


その他

学習データ

  • 高品質な動画像データをめっちゃ頑張って収集
  • 動画生成のアノテーションを作るために、Gemini 1.5 Proに相当する性能のキャプション生成モデルを訓練

時空間VAE

これが新規提案手法。時空間の因果性を考慮する

また時間方向の特徴量キャッシュをモジュール内に導入することで、推論パフォーマンスを効率化

モデルのアーキテクチャー

Wan Bench(評価データ)

  • モーション:オプティカルフロー
  • 人間の人工物:人間がアノテーションしたAI生成画像に対して、YOLOv3を学習して予測結果を分析
  • 一貫性:DINOの特徴量を使う
  • 物理的な妥当性:Qwen2VLの動画のVQAを通じて物理法則の違反を検出

評価結果

14BモデルはSoraに匹敵するか超えるぐらい

売り

1.3Bモデルは8.19GBのVRAMで良い



Shikoan's ML Blogの中の人が運営しているサークル「じゅ~しぃ~すくりぷと」の本のご案内

技術書コーナー

北海道の駅巡りコーナー


Add a Comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です