DeepLearning | Shikoan's ML Blog

論文まとめ：ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

2024-02-22

279{icon} {views} 論文タイトル：ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimod […]...

2024-02-15

416{icon} {views} * タイトル：COLE: A Hierarchical Generation Framework for Graphic Design * 著者：Peidong Jia, Chenxu […]...

2024-02-08

698{icon} {views} 論文タイトル：Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 著者：Sond […]...

2024-02-01

859{icon} {views} タイトル：WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models 著者：Hongliang […]...

2024-01-18

542{icon} {views} タイトル：Gemini: A Family of Highly Capable Multimodal Models 著者：Gemini Team（(842 additional aut […]...

2023-12-21

540{icon} {views} タイトル：Weak to Strong Generalization: Eliciting Strong Capabilities with Weak SUPERVISION 著者：O […]...

2023-12-15

1k{icon} {views} タイトル：Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets 著者：Stabl […]...

2023-11-30

1.2k{icon} {views} 論文URL：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者： […]...

2023-11-16

2k{icon} {views} タイトル：LCM-LoRA: A Universal Stable-Diffusion Acceleration Module 論文URL：https://arxiv.org/abs/2 […]...

2023-11-02

2.1k{icon} {views} タイトル：Improving Image Generation with Better Captions 著者：James Betker、Gabriel Gohなど（OpenAIの人 […]...