論文まとめ:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
380{icon} {views} タイトル:GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者:Ming Tao, Bing-Kun B […]...
EVA-CLIPをOpenCLIPで使う
586{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80%越えでなかなかやばい結果となりま […]...
論文まとめ:EVA-02: A Visual Representation for Neon Genesis
502{icon} {views} タイトル:EVA-02: A Visual Representation for Neon Genesis 著者:Yuxin Fang, Quan Sun, Xinggang Wang […]...
論文まとめ:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
760{icon} {views} タイトル:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者:Yuxin Fa […]...
Diffusersでモデルマージをする
1.9k{icon} {views} Diffuserでのモデルマージを検証します。Stable Diffusionには、CLIP、U-Net、VAEの3つのモデルからなり、それぞれをマージの効果が違うので、面白い結果に […]...
CLIPから見るAttentionの有用性
3.6k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
3.8k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLI […]...
Text4Visを使ったオープンセットな動画認識をやってみた
419{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
333{icon} {views} タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者:F […]...
論文まとめ:Domino: Discovering Systematic Errors with Cross-Modal Embeddings
215{icon} {views} タイトル:Domino: Discovering Systematic Errors with Cross-Modal Embeddings 著者:Sabri Eyuboglu, Ma […]...