ディープラーニングの動画読み込みをいい感じにしてくれる「Decord」の紹介
2.4k{icon} {views} ディープラーニングでの動画解析向けの読み込みライブラリ、Decordを紹介します。OpenCVよりもフレーム間のスキップやバッチ化が簡単にできるようになっています。PyTorchと連 […]...
colorsysでライブラリ不要でRGB→HSV変換をする
3k{icon} {views} PythonでRGB値から色相、彩度、明度への変換は画像処理ライブラリを使わないで行うことができます。ビルトインのcolorsysというモジュールを使います。 きっかけ コード書くの面倒 […]...
論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
8.8k{icon} {views} タイトル:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large […]...
論文まとめ:InstructPix2Pix: Learning to Follow Image Editing Instructions
1.1k{icon} {views} タイトル:InstructPix2Pix: Learning to Follow Image Editing Instructions 著者:Tim Brooks, Aleksand […]...
いろんなT5からSentence Embeddingをとって遊ぶ
4.6k{icon} {views} 自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡 […]...
Gradioでセッションの概念を導入する
2.1k{icon} {views} Gradioでユーザー名などセッションごとに変数を記録したいときはよくあります。gr.Stateで簡単にできるので、アンチパターンとセットで紹介していきます。 アンチパターン:グロー […]...
Gradioでログイン認証を入れる方法
4.7k{icon} {views} Gradioで作ったアプリにログイン認証を入れる必要があったので、方法を調べてみました。launchの引数にauthを追加するだけで簡単にできます。 はじめに Hugging-Fac […]...
Text4Visを使ったオープンセットな動画認識をやってみた
625{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
864{icon} {views} タイトル:StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthes […]...
論文まとめ:OCR-free Document Understanding Transformer
3.2k{icon} {views} タイトル:OCR-free Document Understanding Transformer 著者:Geewook Kim, Teakgyu Hong, Moonbin Yim, […]...