MSVD

Emerging

6papers using it

2022first seen

The MSVD dataset contains a collection of video clips paired with corresponding textual descriptions, and it is used to evaluate text-video retrieval models by measuring their ability to rank relevant text-video pairs.

🔎 Find this dataset

Papers using MSVD (6)

Bima: Towards Biases Mitigation For Text-video Retrieval Via Scene Element Guidance2025 · 1 cites

From Captions To Keyframes: Keyscore For Multimodal Frame Scoring And Video-language Understanding2025

X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval2022 · 11 cites

Support-set based Multi-modal Representation Enhancement for Video Captioning2022

MuMUR : Multilingual Multimodal Universal Retrieval2022

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval2023