← all datasets

AudioCap

Emerging

13papers using it

325HF downloads

14HF likes

2023first seen

audiocaps HuggingFace mirror of official data repo.

🤗 Hugging Face⚖ mit

Papers using AudioCap (13)

FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision2026

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings2026

LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence2026

AC/DC: LLM-based Audio Comprehension via Dialogue Continuation2025

Training-free Multimodal Guidance For Video To Audio Generation2025

Mitigating Audiovisual Mismatch In Visual-guide Audio Captioning2025

DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap2025

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities2023 · 42 cites

Accommodating Audio Modality in CLIP for Multimodal Processing2023 · 1 cites

Audio-Visual LLM for Video Understanding2023 · 1 cites

Zero-Shot Audio Captioning Using Soft and Hard Prompts2024 · 1 cites

MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation2024

Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs2024

AudioCap — datasets — multimodal