CLIPから見るAttentionの有用性
Attentionはこれまでの研究から多く有用性は報告されていたのですが、ネットワークの内側で使われることが多く、わかりやすく差を体感できる例を自分は知りませんでした。今回はCLIPのAdapterという点から、Atte […]...
論文まとめ:MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
170{icon} {views} タイトル:MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 著者:Omer Bar-Tal, […]...
論文まとめ:Zero-shot Image-to-Image Translation
2k{icon} {views} タイトル:Zero-shot Image-to-Image Translation 著者:Gaurav Parmar, Krishna Kumar Singh, Richard Zhan […]...
論文まとめ:Generalized Decoding for Pixel, Image, and Language
163{icon} {views} タイトル:Generalized Decoding for Pixel, Image, and Language 著者:Xueyan Zou, Zi-Yi Dou, Jianwei Y […]...
CoCaとBLIP2を使ってみた:ImageNet、キャプション生成
634{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。 きっかけ ほぼ同時期にBLIP […]...
ディープラーニングの動画読み込みをいい感じにしてくれる「Decord」の紹介
409{icon} {views} ディープラーニングでの動画解析向けの読み込みライブラリ、Decordを紹介します。OpenCVよりもフレーム間のスキップやバッチ化が簡単にできるようになっています。PyTorchと連携 […]...
colorsysでライブラリ不要でRGB→HSV変換をする
149{icon} {views} PythonでRGB値から色相、彩度、明度への変換は画像処理ライブラリを使わないで行うことができます。ビルトインのcolorsysというモジュールを使います。 きっかけ コード書くの面 […]...
論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
866{icon} {views} タイトル:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large […]...
論文まとめ:InstructPix2Pix: Learning to Follow Image Editing Instructions
413{icon} {views} タイトル:InstructPix2Pix: Learning to Follow Image Editing Instructions 著者:Tim Brooks, Aleksande […]...
いろんなT5からSentence Embeddingをとって遊ぶ
1k{icon} {views} 自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡単に […]...