動画 | Shikoan's ML Blog

論文まとめ：NVIDIA Nemotron Nano V2 VL

2025-12-04

185{icon} {views} NVIDIAの「Nemotron Nano V2 VL」は、12Bの軽量かつ高効率な視覚言語モデルです。MambaとTransformerのハイブリッド構成と、動画の静的領域を間引くE […]...

2025-01-17

597{icon} {views} タイトル：Cosmos World Foundation Model Platform for Physical AI 著者：NVIDIAの方々論文URL：https://arxiv […]...

2024-09-26

1.6k{icon} {views} タイトル：SAM 2: Segment Anything in Images and Videos 著者：Nikhila Ravi, Valentin Gabeur, Yuan-Ti […]...

2023-11-30

1.2k{icon} {views} 論文URL：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 著者： […]...

2023-08-24

524{icon} {views} タイトル：UniVTG: Towards Unified Video-Language Temporal Grounding 著者：Kevin Qinghong Lin, Pengch […]...

2023-04-06

2.3k{icon} {views} タイトル：Flamingo: a Visual Language Model for Few-Shot Learning 著者：Jean-Baptiste Alayrac, Jeff […]...

2023-02-04

3.1k{icon} {views} ディープラーニングでの動画解析向けの読み込みライブラリ、Decordを紹介します。OpenCVよりもフレーム間のスキップやバッチ化が簡単にできるようになっています。PyTorchと連 […]...

2023-01-14

825{icon} {views} オープンセットな行動認識のできるText4VisというモデルをHMDB51で試し撃ちしてみました。訓練済みモデルが公開されており、すぐ利用することができます。はじめに Text4Vi […]...

2022-12-08

843{icon} {views} タイトル：Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 著者：F […]...

2022-12-05

9.2k{icon} {views} ffmpeg-pythonを使って、NumPy配列から動画を生成する方法を説明します。OpenCVのVideoWriterよりも、コーデックの問題が発生しづらかったり、画質を柔軟に選 […]...