Vision & Language | Shikoan's ML Blog

論文まとめ：ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

2024-02-22

297{icon} {views} 論文タイトル：ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimod […]...

2023-09-23

984{icon} {views} LLMをデプロイする際に、LLM部分の量子化が必要になることが多いです。MiniGPT4のようなVision & Language（マルチモーダル）なLLMに焦点をあて、Aut […]...

2023-08-24

565{icon} {views} タイトル：UniVTG: Towards Unified Video-Language Temporal Grounding 著者：Kevin Qinghong Lin, Pengch […]...

2023-07-27

1.5k{icon} {views} タイトル：GRiT: A Generative Region-to-text Transformer for Object Understanding 著者：Jialian Wu, […]...

2023-06-08

3.3k{icon} {views} タイトル：EVA-02: A Visual Representation for Neon Genesis 著者：Yuxin Fang, Quan Sun, Xinggang Wan […]...

2023-06-01

2.1k{icon} {views} タイトル：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale 著者：Yuxin F […]...

2023-04-20

6.9k{icon} {views} タイトル：Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection […]...

2023-04-06

2.4k{icon} {views} タイトル：Flamingo: a Visual Language Model for Few-Shot Learning 著者：Jean-Baptiste Alayrac, Jeff […]...

2023-02-02

10.8k{icon} {views} タイトル：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Larg […]...

2022-11-16

511{icon} {views} タイトル：Domino: Discovering Systematic Errors with Cross-Modal Embeddings 著者：Sabri Eyuboglu, Ma […]...