CLIPから見るAttentionの有用性
3{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIPのAd […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
634{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLIP […]...
Text4Visを使ったオープンセットな動画認識をやってみた
165{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
146{icon} {views} タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者:F […]...
論文まとめ:Domino: Discovering Systematic Errors with Cross-Modal Embeddings
92{icon} {views} タイトル:Domino: Discovering Systematic Errors with Cross-Modal Embeddings 著者:Sabri Eyuboglu, May […]...
論文まとめ:Exploring Visual Prompts for Adapting Large-Scale Models
322{icon} {views} タイトル:Exploring Visual Prompts for Adapting Large-Scale Models 著者:Hyojin Bahng, Ali Jahanian, […]...
論文まとめ:(DALL・E 2論文)Hierarchical Text-Conditional Image Generation with CLIP Latents
1.6k{icon} {views} タイトル:Hierarchical Text-Conditional Image Generation with CLIP Latents リンク:https://cdn.opena […]...
論文まとめ:One-Shot Adaptation of GAN in Just One CLIP
527{icon} {views} 引用 タイトル:One-Shot Adaptation of GAN in Just One CLIP 論文:https://arxiv.org/abs/2203.09301 コード: […]...