DiffusersでAttention Coupleを実装して領域別プロンプトを適用
3.4k{icon} {views} Stable DiffusionでAttention Couple(Attentionレイヤーをハックして領域別にプロンプトを適用する手法)をスマートな方法で実装できないかなと思って […]...
論文まとめ:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
5.5k{icon} {views} タイトル:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection […]...
論文まとめ:Sentence Simplification via Large Language Models
518{icon} {views} 論文:Sentence Simplification via Large Language Models 著者:Yutao Feng, Jipeng Qiang, Yun Li, Yu […]...
論文まとめ:Flamingo: a Visual Language Model for Few-Shot Learning
1.9k{icon} {views} タイトル:Flamingo: a Visual Language Model for Few-Shot Learning 著者:Jean-Baptiste Alayrac, Jeff […]...
論文まとめ:Zero-1-to-3: Zero-shot One Image to 3D Object
2.5k{icon} {views} タイトル:Zero-1-to-3: Zero-shot One Image to 3D Object 著者:Ruoshi Liu, Rundi Wu, Basile Van Hoor […]...
CLIPから見るAttentionの有用性
5.6k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...
論文まとめ:MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
1.5k{icon} {views} タイトル:MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 著者:Omer Bar-Tal […]...
論文まとめ:Zero-shot Image-to-Image Translation
4.2k{icon} {views} タイトル:Zero-shot Image-to-Image Translation 著者:Gaurav Parmar, Krishna Kumar Singh, Richard Zh […]...
論文まとめ:Generalized Decoding for Pixel, Image, and Language
809{icon} {views} タイトル:Generalized Decoding for Pixel, Image, and Language 著者:Xueyan Zou, Zi-Yi Dou, Jianwei Y […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
7.1k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLI […]...