論文まとめ:Style Aligned Image Generation via Shared Attention
363{icon} {views} タイトル:Style Aligned Image Generation via Shared Attention 論文URL:https://arxiv.org/abs/2312.02 […]...
論文まとめ:HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents QA
356{icon} {views} タイトル:HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents QA 著者:Xinyue Che […]...
論文まとめ:Design2Code: How Far Are We From Automating Front-End Engineering?
245{icon} {views} タイトル:Design2Code: How Far Are We From Automating Front-End Engineering? 著者:Chenglei Si, Yanz […]...
論文まとめ:Genie: Generative Interactive Environments
387{icon} {views} タイトル:Genie: Generative Interactive Environments 論文URL:https://arxiv.org/abs/2402.15391 著者:De […]...
CLIPに対していろいろ条件を変えてLoRAを訓練してみた(PyTorch Lightning)
1.9k{icon} {views} CLIPに対してLoRAを適用して、いろいろ条件を変えて画像分類モデルを訓練した。Few-shotやパラメーター数に対しては従来のファインチューニングと同じだが、rとαとバランスを考 […]...
transformersのTrainerでCLIPにLoRAを適用して訓練する
1k{icon} {views} HuggingFaceの提供しているpeftを使うと、LoRAが簡単に訓練できますが、transformersのTrainerベースでの訓練であり、画像分類でどうやるのかがよくわかりませ […]...
論文まとめ:ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
236{icon} {views} 論文タイトル:ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimod […]...
論文まとめ:COLE: A Hierarchical Generation Framework for Graphic Design
330{icon} {views} * タイトル:COLE: A Hierarchical Generation Framework for Graphic Design * 著者:Peidong Jia, Chenxu […]...
論文まとめ:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
581{icon} {views} 論文タイトル:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 著者:Sond […]...
論文まとめ:WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
664{icon} {views} タイトル:WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models 著者:Hongliang […]...