DeepLearning | Shikoan's ML Blog

論文まとめ：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

2023-10-19

1.4k{icon} {views} * タイトル：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis * 著者：Dus […]...

2023-10-05

3.8k{icon} {views} タイトル：RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose 著者：Tao Jiang, Peng Lu, […]...

2023-09-28

276{icon} {views} タイトル：Generating Images with Multimodal Language Models 著者：Jing Yu Koh, Daniel Fried, Ruslan […]...

2023-09-21

393{icon} {views} タイトル：Visual Programming: Compositional visual reasoning without training 著者：Tanmay Gupta, An […]...

2023-08-31

507{icon} {views} タイトル：Evaluating and Inducing Personality in Pre-trained Language Models 著者：Guangyuan Jiang, […]...

2023-08-24

526{icon} {views} タイトル：UniVTG: Towards Unified Video-Language Temporal Grounding 著者：Kevin Qinghong Lin, Pengch […]...

2023-07-27

1.4k{icon} {views} タイトル：GRiT: A Generative Region-to-text Transformer for Object Understanding 著者：Jialian Wu, […]...

2023-07-13

1.1k{icon} {views} タイトル：Shap-E: Generating Conditional 3D Implicit Functions 著者：Heewoo Jun, Alex Nichol（OpenAI […]...

2023-06-22

767{icon} {views} タイトル：GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis 著者：Ming Tao, Bing-Kun B […]...

2023-06-19

2.5k{icon} {views} EVA-CLIPがOpenCLIPから使えるようになっていたので試してみました。ViT-L/14相当のモデルでImageNetのゼロショット精度が80％越えでなかなかやばい結果となり […]...