2023 | Shikoan's ML Blog

論文まとめ：Generalized Decoding for Pixel, Image, and Language

2023-02-09

873{icon} {views} タイトル：Generalized Decoding for Pixel, Image, and Language 著者：Xueyan Zou, Zi-Yi Dou, Jianwei Y […]...

2023-02-08

7.7k{icon} {views} CoCaとBLIP2の訓練済みモデルで遊んでみました。「ImageNet 1Kのゼロショット精度」と「キャプション生成」の2点について検証してみました。きっかけほぼ同時期にBLI […]...

2023-02-04

2.8k{icon} {views} ディープラーニングでの動画解析向けの読み込みライブラリ、Decordを紹介します。OpenCVよりもフレーム間のスキップやバッチ化が簡単にできるようになっています。PyTorchと連 […]...

2023-02-04

4.1k{icon} {views} PythonでRGB値から色相、彩度、明度への変換は画像処理ライブラリを使わないで行うことができます。ビルトインのcolorsysというモジュールを使います。きっかけコード書くの […]...

2023-02-02

10.1k{icon} {views} タイトル：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Larg […]...

2023-01-26

1.5k{icon} {views} タイトル：InstructPix2Pix: Learning to Follow Image Editing Instructions 著者：Tim Brooks, Aleksand […]...

2023-01-26

5.3k{icon} {views} 自然言語処理モデルT5を使って文章単位の埋め込み量（Sentence Embedding）を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡 […]...

2023-01-24

3.1k{icon} {views} Gradioでユーザー名などセッションごとに変数を記録したいときはよくあります。gr.Stateで簡単にできるので、アンチパターンとセットで紹介していきます。アンチパターン：グロー […]...

2023-01-23

6.5k{icon} {views} Gradioで作ったアプリにログイン認証を入れる必要があったので、方法を調べてみました。launchの引数にauthを追加するだけで簡単にできます。はじめに Hugging-Fac […]...

2023-01-14

762{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。はじめに Text4Vi […]...