マルチモーダル | Shikoan's ML Blog

論文まとめ：StarVector: Generating Scalable Vector Graphics Code from Images and Text

2025-06-06

169{icon} {views} タイトル：StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ：CVPR 202 […]...

2025-01-05

405{icon} {views} 画像とテキストの組み合わせで「ボケて」を学習させるため、GPT-4oをファインチューニングしてみた。じわじわくる系の面白さは学習できたものの、OpenAIのコンプライアンスが厳しく、多 […]...

2024-04-11

479{icon} {views} タイトル：HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents QA 著者：Xinyue Che […]...

2024-04-04

291{icon} {views} タイトル：Design2Code: How Far Are We From Automating Front-End Engineering? 著者：Chenglei Si, Yanz […]...

2024-02-22

278{icon} {views} 論文タイトル：ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimod […]...

2023-11-30

1.2k{icon} {views} 論文URL：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者： […]...

2023-09-23

940{icon} {views} LLMをデプロイする際に、LLM部分の量子化が必要になることが多いです。MiniGPT4のようなVision & Language（マルチモーダル）なLLMに焦点をあて、Aut […]...

2023-08-30

907{icon} {views} Mini-GPT4というマルチモーダルLLMをDockerを使ってバッチ処理をしてみました。係数を部分的にDockerイメージに組み込んだり、使用するLLMを切り替えられるようにちょっ […]...