論文まとめ:Cosmos World Foundation Model Platform for Physical AI
103{icon} {views} タイトル:Cosmos World Foundation Model Platform for Physical AI 著者:NVIDIAの方々 論文URL:https://arxiv […]...
論文まとめ:SAM 2: Segment Anything in Images and Videos
546{icon} {views} タイトル:SAM 2: Segment Anything in Images and Videos 著者:Nikhila Ravi, Valentin Gabeur, Yuan-Tin […]...
論文まとめ:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
794{icon} {views} 論文URL:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者:B […]...
論文まとめ:UniVTG: Towards Unified Video-Language Temporal Grounding
371{icon} {views} タイトル:UniVTG: Towards Unified Video-Language Temporal Grounding 著者:Kevin Qinghong Lin, Pengch […]...
論文まとめ:Flamingo: a Visual Language Model for Few-Shot Learning
1.9k{icon} {views} タイトル:Flamingo: a Visual Language Model for Few-Shot Learning 著者:Jean-Baptiste Alayrac, Jeff […]...
ディープラーニングの動画読み込みをいい感じにしてくれる「Decord」の紹介
2.6k{icon} {views} ディープラーニングでの動画解析向けの読み込みライブラリ、Decordを紹介します。OpenCVよりもフレーム間のスキップやバッチ化が簡単にできるようになっています。PyTorchと連 […]...
Text4Visを使ったオープンセットな動画認識をやってみた
701{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。 はじめに Text4Vi […]...
論文まとめ:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
657{icon} {views} タイトル:Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者:F […]...
ffmpeg-pythonでサクッとNumPy配列から動画を出力する
7.7k{icon} {views} ffmpeg-pythonを使って、NumPy配列から動画を生成する方法を説明します。OpenCVのVideoWriterよりも、コーデックの問題が発生しづらかったり、画質を柔軟に選 […]...
PyTorchのDataLoaderで動画を並列化して読み込むためのハック
4.6k{icon} {views} 動画の前処理はフレーム単位の画像処理をするためとても重いですが、特にOpenCVで動画を読み込む場合、OpenCVの特性上並列化が難しいという面倒くさい状況に遭遇します。この記事では […]...