論文まとめ：MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Posted On 2023-03-02

1.6k{icon} {views}

タイトル：MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
著者：Omer Bar-Tal, Lior Yariv, Yaron Lipman, Tali Dekel（ワイツマン科学研究所）
論文URL：https://arxiv.org/abs/2302.08113
プロジェクトページ:https://multidiffusion.github.io/
HuggingFace Demo:https://huggingface.co/spaces/weizmannscience/MultiDiffusion
Diffuserドキュメント：https://huggingface.co/docs/diffusers/api/pipelines/stable_diffusion/panorama

ざっくりいうと

「各クロップは異なるノイズ除去の方向に引っ張られるかもしれないが、我々のフレームワークは統一されたノイズ除去ステップをもたらし、それ故、高品質でシームレスな画像を生成することに注意されたい」←これがやりたいこと

訓練済みの拡散モデルを使って、複数のパッチ単位のサンプリングから、共通の1枚のパノラマ画像を生成するようなモデルΨを考えたい。ここで追加の訓練はしない。

各ステップにおける特徴量のマッピングについて、最小二乗法のアプローチで最適化できる。

パノラマ生成の例は、最適化の結果を閉じた数式で表現できる。パッチ単位のlatentを重み付き平均取っただけ。

Multi Diffuserの部分はコードを読むとわかる。Denoiseされたlatentを、空間方向に重み付き平均とってるだけ（ハイライトされた部分以外は普通のSDと同じ）

結果は公式サイトより。

パノラマ生成の場合は、latentの各タイムステップの平均だったが、これとは別に空間方向のマスキングも可能。これを論文では「ブートストラップ」と呼んでいる。ブートストラップを活用することで、領域を指定した生成がより高性能になる。

パノラマ生成では、Stable DiffusionのInpainting（SI）と比べて大幅にFIDが下がり、自然な画像となっている。

CLIP-Aestheticsは、Laion-5Bデータセットで特に審美性の優れた画像のサブセットがあるのでそれ関係（何らかの審美性スコアを吐いてくれるモデルがあるのかも？）

領域を指定した生成では、生成画像をMask2Formerというセグメンテーションモデルにかけ、元のマスクとのIoUを比較

ブートストラップがあることで、IoUが大きく上昇

マスクは厳密なセグメンテーションマスクでなくても、Bounding Boxのようなラフなマスクでも対応している。

ただ、Bounding Boxのサイズにきっちり一致するようなオブジェクトが生成されるわけではなさそう（サボテンの例がそう）

応用的にはとても面白いが、パノラマ生成で潜在空間の平均や補間を取るのはGANの時代から行われており、ブートストラップのようなネットワーク内のマスキングもGAN時代のInpaintingで行われていたため、研究としての新規性 is どこ？
論文の数式が複雑だったらさぞかし難しいことやっているのかと思ったら、ただの重み付き平均とマスクで拍子抜けした感
パノラマ生成がDiffuserでざっくり使えるのがいい。領域指定生成も対応されるといいな（3/2時点　ブートストラップがそこまで難しい処理ではないので、自分でハックしちゃうとか）
パノラマ生成は、解像度分拡散ステップを回すだけあって重い
LoRAと組み合わせてパノラマ生成できたら面白そう
こんな研究もある Collage Diffusion

Shikoan's ML Blogの中の人が運営しているサークル「じゅ～しぃ～すくりぷと」の本のご案内