DeepLearning | Shikoan's ML Blog

論文まとめ：Zero-1-to-3: Zero-shot One Image to 3D Object

2023-03-30

2.9k{icon} {views} タイトル：Zero-1-to-3: Zero-shot One Image to 3D Object 著者：Ruoshi Liu, Rundi Wu, Basile Van Hoor […]...

2023-03-21

6.5k{icon} {views} Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIP […]...

2023-03-02

1.7k{icon} {views} タイトル：MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 著者：Omer Bar-Tal […]...

2023-02-16

4.6k{icon} {views} タイトル：Zero-shot Image-to-Image Translation 著者：Gaurav Parmar, Krishna Kumar Singh, Richard Zh […]...

2023-02-09

927{icon} {views} タイトル：Generalized Decoding for Pixel, Image, and Language 著者：Xueyan Zou, Zi-Yi Dou, Jianwei Y […]...

2023-02-08

8.1k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。きっかけほぼ同時期にBLI […]...

2023-02-02

10.6k{icon} {views} タイトル：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Larg […]...

2023-01-26

1.6k{icon} {views} タイトル：InstructPix2Pix: Learning to Follow Image Editing Instructions 著者：Tim Brooks, Aleksand […]...

2023-01-26

5.5k{icon} {views} 自然言語処理モデルT5を使って文章単位の埋め込み量（Sentence Embedding）を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡 […]...

2023-01-14

829{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。はじめに Text4Vi […]...