Shikoan's ML Blog

論文まとめ：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

2025-07-04

222{icon} {views} タイトル：Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens URL：https://a […]...

2025-06-27

353{icon} {views} 論文名：Efficient Track anything URL：https://arxiv.org/abs/2411.18933 GitHub：https://github.com/ […]...

2025-06-06

265{icon} {views} タイトル：StarVector: Generating Scalable Vector Graphics Code from Images and Text カンファ：CVPR 202 […]...

2025-05-23

181{icon} {views} モデルサイズを拡大する従来のアプローチに対し、入力画像の解像度を複数スケールで処理する「S2」手法を提案します。既存の小さなビジョンモデルでもパラメータ数を増やすことなく、多くのタスク […]...

2025-05-09

232{icon} {views} ニューラルネットワークにおける要素ごとの積が多項式カーネルと同様に入力を高次元の非線形空間へ写像する理論的根拠を示し、スター演算を活用した効率的な「StarNet」を提案している。Im […]...

2025-04-18

421{icon} {views} 論文タイトル：Wan: Open and Advanced Large-Scale Video Generative Models URL：https://arxiv.org/abs/ […]...

2025-03-27

336{icon} {views} ULIP-2は、3D形状からレンダリングした画像と自動生成された多様な言語記述を組み合わせることで、従来を上回る精度とスケーラビリティを実現した。ゼロショット3D分類や3Dキャプショ […]...

2025-03-20

556{icon} {views} ALBにVPCエンドポイント(ENI)をターゲットとして設定し、パスごとにNLB→EC2へトラフィックを振り分ける仕組みを構築しています。特にセキュリティグループの設定やTerrafo […]...

2025-03-15

293{icon} {views} 整数計画法（PuLP）を使えば小規模データでTrue/Falseの偏りをほぼ1:1にでき、最適解が得られます。一方、大規模データでは厳密解よりスピードを重視するグリーディ法が有効です。 […]...

2025-03-14

211{icon} {views} タイトル：Diffusion Self-Distillation for Zero-Shot Customized Image Generation 著者：スタンフォード大の方々カン […]...