論文まとめ:Generalized Decoding for Pixel, Image, and Language
870{icon} {views} タイトル:Generalized Decoding for Pixel, Image, and Language 著者:Xueyan Zou, Zi-Yi Dou, Jianwei Y […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
7.7k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLI […]...
論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
10k{icon} {views} タイトル:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large […]...
論文まとめ:InstructPix2Pix: Learning to Follow Image Editing Instructions
1.5k{icon} {views} タイトル:InstructPix2Pix: Learning to Follow Image Editing Instructions 著者:Tim Brooks, Aleksand […]...
いろんなT5からSentence Embeddingをとって遊ぶ
5.2k{icon} {views} 自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡 […]...
Text4Visを使ったオープンセットな動画認識をやってみた
755{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
1.1k{icon} {views} タイトル:StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthe […]...
論文まとめ:OCR-free Document Understanding Transformer
3.6k{icon} {views} タイトル:OCR-free Document Understanding Transformer 著者:Geewook Kim, Teakgyu Hong, Moonbin Yim, […]...
論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
739{icon} {views} タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者:F […]...
論文まとめ:Large Language Models are Zero-Shot Reasoners
7.4k{icon} {views} タイトル:Large Language Models are Zero-Shot Reasoners 著者:Takeshi Kojima, Shixiang Shane Gu, Ma […]...