論文まとめ:NVIDIA Nemotron Nano V2 VL
25{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くEV […]...
論文まとめ:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
351{icon} {views} タイトル:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and […]...
論文まとめ:OmniGen: Unified Image Generation
314{icon} {views} タイトル:OmniGen: Unified Image Generation 著者:Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan […]...
論文まとめ:Unveiling Encoder-Free Vision-Language Models
637{icon} {views} タイトル:Unveiling Encoder-Free Vision-Language Models 著者:Haiwen Diao, Yufeng Cui, Xiaotong Li, […]...
論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
1.1k{icon} {views} 論文URL:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者: […]...
MiniGPT-4をAutoGPTQ/BitsAndBytesで量子化時の生成文章の定量評価
536{icon} {views} LLMをデプロイする際に、LLM部分の量子化が必要になることが多いです。MiniGPT4のようなVLMに焦点をあて、AutoGPTQとBitsAndBytesという2つの量子化フレーム […]...