VLM | Shikoan's ML Blog

論文まとめ：NVIDIA Nemotron Nano V2 VL

2025-12-04

213{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くE […]...

2024-12-13

413{icon} {views} タイトル：Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and […]...

2024-10-24

341{icon} {views} タイトル：OmniGen: Unified Image Generation 著者：Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan […]...

2024-07-11

729{icon} {views} タイトル：Unveiling Encoder-Free Vision-Language Models 著者：Haiwen Diao, Yufeng Cui, Xiaotong Li, […]...

2023-11-30

1.2k{icon} {views} 論文URL：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者： […]...

2023-10-22

556{icon} {views} LLMをデプロイする際に、LLM部分の量子化が必要になることが多いです。MiniGPT4のようなVLMに焦点をあて、AutoGPTQとBitsAndBytesという2つの量子化フレーム […]...