← all datasets

AudioCaps

Emerging

15papers using it

2021first seen

🔎 Find this dataset

Papers using AudioCaps (15)

FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision2026

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings2026 · 1 cites

LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence2026 · 1 cites

DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap2025 · 2 cites

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval2026

AC/DC: LLM-based Audio Comprehension via Dialogue Continuation2025

Training-free Multimodal Guidance For Video To Audio Generation2025

Mitigating Audiovisual Mismatch In Visual-guide Audio Captioning2025

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities2023 · 42 cites

Text-to-Audio Grounding: Building Correspondence Between Captions and Sound Events2021 · 22 cites

Accommodating Audio Modality in CLIP for Multimodal Processing2023 · 10 cites

Audio-Visual LLM for Video Understanding2023 · 1 cites

Zero-Shot Audio Captioning Using Soft and Hard Prompts2024 · 1 cites

MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation2024

Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs2024

AudioCaps dataset — papers, benchmarks & downloads · Multimodal