← all datasets

AudioSet

Canonical

25papers using it

2021first seen

~2M 10-second YouTube clips labeled with 600+ audio-event classes.

🔎 Find this dataset

Papers using AudioSet (25)

Audio-JEPA: Joint-Embedding Predictive Architecture for Audio Representation Learning2025 · 4 cites

AaSP: Aliasing-aware Self-Supervised Pre-Training for Audio Spectrogram Transformers2025

SAM: A Mamba-2 State-Space Audio-Language Model2025

AudioMAE++: learning better masked audio representations with SwiGLU FFNs2025

Self-supervised learning method using multiple sampling strategies for general-purpose audio representation2025

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer2024

Multiscale Audio Spectrogram Transformer for Efficient Audio Classification2023 · 29 cites

Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations2024 · 19 cites

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification2022 · 17 cites

Efficient Training of Audio Transformers with Patchout2021 · 2 cites

SSAST: Self-Supervised Audio Spectrogram Transformer2021 · 2 cites

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation2022 · 2 cites

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection2022 · 1 cites

Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training2022 · 1 cites

Audio Language Modeling using Perceptually-Guided Discrete Representations2022 · 1 cites

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models2023 · 1 cites

Enhancing Zero-shot Audio Classification using Sound Attribute Knowledge from Large Language Models2024 · 1 cites

Study of positional encoding approaches for Audio Spectrogram Transformers2021

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks2021

DECAR: Deep Clustering for learning general-purpose Audio Representations2021

AST-SED: An Effective Sound Event Detection Method Based on Audio Spectrogram Transformer2023

Improving Self-Supervised Learning for Audio Representations by Feature Diversity and Decorrelation2023

Streaming Audio Transformers for Online Audio Tagging2023

Efficient Autoregressive Audio Modeling via Next-Scale Prediction2024

AxLSTMs: learning self-supervised audio representations with xLSTMs2024

AudioSet dataset — papers, benchmarks & downloads · Speech Audio