← all datasets

MSR-VTT

Canonical

28papers using it

2020first seen

Dataset Card for "msr-vtt" More Information needed

🔎 Find this dataset

Papers using MSR-VTT (28)

PEEK: Picking Essential frames via Efficient Knowledge distillation2026

InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding2026

Bima: Towards Biases Mitigation For Text-video Retrieval Via Scene Element Guidance2025 · 1 cites

OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation2026

ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning2026

Delving Deeper: Hierarchical Visual Perception for Robust Video-Text Retrieval2026

From Captions To Keyframes: Keyscore For Multimodal Frame Scoring And Video-language Understanding2025

GAIS: Frame-level Gated Audio-visual Integration With Semantic Variance-scaled Perturbation For Text-video Retrieval2025

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP2021 · 131 cites

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment2022 · 53 cites

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video2023 · 50 cites

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling2023 · 21 cites

Cross-Modal Adapter for Vision-Language Retrieval2022 · 17 cites

Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations2022 · 16 cites

Stacked Convolutional Deep Encoding Network for Video-Text Retrieval2020 · 12 cites

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos2020 · 11 cites

X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval2022 · 11 cites

Accommodating Audio Modality in CLIP for Multimodal Processing2023 · 10 cites

Distilling Vision-Language Models on Millions of Videos2024 · 10 cites

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment2021 · 4 cites

Support-set based Multi-modal Representation Enhancement for Video Captioning2022 · 3 cites

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring2023 · 2 cites

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling2023 · 1 cites

MuMUR : Multilingual Multimodal Universal Retrieval2022

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval2023

Linear Alignment of Vision-language Models for Image Captioning2023

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding2023

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer2023

MSR-VTT dataset — papers, benchmarks & downloads · Multimodal