AVCaps

Emerging

3papers using it

2024first seen

AVCaps is a dataset that contains audio, visual, and audio-visual captions for video clips, used to evaluate the semantic alignment of language, audio, and visual modalities in multimodal representation learning.

🔎 Find this dataset

Papers using AVCaps (3)

AC/DC: LLM-based Audio Comprehension via Dialogue Continuation2025

Representation Learning for Semantic Alignment of Language, Audio, and Visual Modalities2025

MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation2024