目次
「各クロップは異なるノイズ除去の方向に引っ張られるかもしれないが、我々のフレームワークは統一されたノイズ除去ステップをもたらし、それ故、高品質でシームレスな画像を生成することに注意されたい」←これがやりたいこと
訓練済みの拡散モデルを使って、複数のパッチ単位のサンプリングから、共通の1枚のパノラマ画像を生成するようなモデルΨを考えたい。ここで追加の訓練はしない。
各ステップにおける特徴量のマッピングについて、最小二乗法のアプローチで最適化できる。
パノラマ生成の例は、最適化の結果を閉じた数式で表現できる。パッチ単位のlatentを重み付き平均取っただけ。
Multi Diffuserの部分はコードを読むとわかる。Denoiseされたlatentを、空間方向に重み付き平均とってるだけ(ハイライトされた部分以外は普通のSDと同じ)
結果は公式サイトより。
パノラマ生成の場合は、latentの各タイムステップの平均だったが、これとは別に空間方向のマスキングも可能。これを論文では「ブートストラップ」と呼んでいる。ブートストラップを活用することで、領域を指定した生成がより高性能になる。
パノラマ生成では、Stable DiffusionのInpainting(SI)と比べて大幅にFIDが下がり、自然な画像となっている。
CLIP-Aestheticsは、Laion-5Bデータセットで特に審美性の優れた画像のサブセットがあるのでそれ関係(何らかの審美性スコアを吐いてくれるモデルがあるのかも?)
領域を指定した生成では、生成画像をMask2Formerというセグメンテーションモデルにかけ、元のマスクとのIoUを比較
ブートストラップがあることで、IoUが大きく上昇
マスクは厳密なセグメンテーションマスクでなくても、Bounding Boxのようなラフなマスクでも対応している。
ただ、Bounding Boxのサイズにきっちり一致するようなオブジェクトが生成されるわけではなさそう(サボテンの例がそう)
View Comments