GPT-4oのファインチューニングで画像に対する「ボケて」を学習
173{icon} {views} 画像とテキストの組み合わせで「ボケて」を学習させるため、GPT-4oをファインチューニングしてみた。じわじわくる系の面白さは学習できたものの、OpenAIのコンプライアンスが厳しく、多 […]...
論文まとめ:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
56{icon} {views} タイトル:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and […]...
論文まとめ:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling
81{icon} {views} タイトル:SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 著者 […]...
論文まとめ:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
96{icon} {views} 論文タイトル:LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation 著者:Weiquan Huang […]...
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
223{icon} {views} タイトル:HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems […]...
論文まとめ:OmniGen: Unified Image Generation
150{icon} {views} タイトル:OmniGen: Unified Image Generation 著者:Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan […]...
論文まとめ:Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
267{icon} {views} タイトル:Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 著者:Bin Xia […]...
Arxiv RAGから見る最近のLLM(2024/8)
945{icon} {views} Arxivの検索APIを使い自動的にサーベイを行うArxiv RAGを最近のLLMで調べてみました。Gemini 1.5が非常に健闘し、またClaude 3.5 Sonnetも面白い健 […]...
論文要約性能で見る最近のLLM(2024/7)
705{icon} {views} 目的 最近いろいろなLLMが出ているが、論文要約というタスクで見たときにそれぞれがどの程度の性能/コストなのかを見ていく。コスト的と性能両方見て、どれが使いやすいのかを考えたい。 概要 […]...
論文まとめ:MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures
191{icon} {views} タイトル:MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures URL:https://mixeval.g […]...