WSJ-0-2mix

Emerging

30papers using it

2021first seen

The WSJ0-2Mix dataset/benchmark contains mixed speech signals from the Wall Street Journal corpus and is used to evaluate the performance of speech separation models, particularly in the presence of noisy references.

🔎 Find this dataset

Papers using WSJ-0-2mix (30)

EDSep: An Effective Diffusion-Based Method for Speech Source Separation2025 · 2 cites

A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References2025

Dynamic Slimmable Networks for Efficient Speech Separation2025

Listen to Extract: Onset-Prompted Target Speaker Extraction2025

An Investigation on Speaker Augmentation for End-to-End Speaker Extraction2025

ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding2022 · 28 cites

X-SepFormer: End-to-end Speaker Extraction Network with Explicit Optimization on Speaker Confusion2023 · 28 cites

Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem2021 · 11 cites

Resource-Efficient Separation Transformer2022 · 11 cites

Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation2024 · 11 cites

AmbiSep: Ambisonic-to-Ambisonic Reverberant Speech Separation Using Transformer Networks2022 · 9 cites

An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition2021 · 8 cites

SPMamba: State-space model is all you need in speech separation2024 · 8 cites

TF-GridNet: Making Time-Frequency Domain Models Great Again for Monaural Speaker Separation2022 · 7 cites

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments2023 · 5 cites

TF-GridNet: Integrating Full- and Sub-Band Modeling for Speech Separation2022 · 3 cites

Exploring Self-Attention Mechanisms for Speech Separation2022 · 2 cites

Conditional Diffusion Model for Target Speaker Extraction2023 · 2 cites

SQ-Whisper: Speaker-Querying based Whisper Model for Target-Speaker ASR2024 · 2 cites

UX-NET: Filter-and-Process-based Improved U-Net for Real-time Time-domain Audio Separation2022 · 1 cites

Diffusion-based Generative Speech Source Separation2022 · 1 cites

Multi-Scale Feature Fusion Transformer Network for End-to-End Single Channel Speech Separation2022 · 1 cites

Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning2023 · 1 cites

Speech Separation based on Contrastive Learning and Deep Modularization2023 · 1 cites

Weakly-Supervised Speech Pre-training: A Case Study on Target Speech Recognition2023 · 1 cites

USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction2024 · 1 cites

Speech Separation using Neural Audio Codecs with Embedding Loss2024 · 1 cites

Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings2023

SPGM: Prioritizing Local Features for enhanced speech separation performance2023

X-CrossNet: A complex spectral mapping approach to target speaker extraction with cross attention speaker embedding fusion2024