Awesome Papers

Papers

Conv-tasnet: Surpassing Ideal Time-frequency Magnitude Masking For Speech Separation (2018)
Yi Luo, Nima Mesgarani
24.08
Speech Enhancement And Dereverberation With Diffusion-based Generative Models (2022)
Julius Richter, Simon Welker, Jean-Marie Lemercier, et al.
23.51
FRCRN: Boosting Feature Representation Using Frequency Recurrence For Monaural Speech Enhancement (2022)
Shengkui Zhao, Bin Ma, Karn N. Watcharasupat, et al.
22.16
SEGAN: Speech Enhancement Generative Adversarial Network (2017)
Santiago Pascual, Antonio Bonafonte, Joan Serrà
21.85
Dual-path RNN: Efficient Long Sequence Modeling For Time-domain Single-channel Speech Separation (2019)
Yi Luo, Zhuo Chen, Takuya Yoshioka
21.06
Multi-talker Speech Separation With Utterance-level Permutation Invariant Training Of Deep Recurrent Neural Networks (2017)
Morten Kolbæk, Dong Yu, Zheng-Hua Tan, et al.
20.90
DCCRN: Deep Complex Convolution Recurrent Network For Phase-aware Speech Enhancement (2020)
Yanxin Hu, Yun Liu, Shubo Lv, et al.
20.78
Attention Is All You Need In Speech Separation (2020)
Cem Subakan, Mirco Ravanelli, Samuele Cornell, et al.
20.59
Tasnet: Time-domain Audio Separation Network For Real-time, Single-channel Speech Separation (2017)
Yi Luo, Nima Mesgarani
20.16
Supervised And Unsupervised Speech Enhancement Using Nonnegative Matrix Factorization (2017)
Nasser Mohammadiha, Paris Smaragdis, Arne Leijon
18.80
Espnet-se++: Speech Enhancement For Robust Speech Recognition, Translation, And Understanding (2022)
Yen-Ju Lu, Xuankai Chang, Chenda Li, et al.
18.72
A Wavenet For Speech Denoising (2017)
Dario Rethage, Jordi Pons, Xavier Serra
18.47
An Overview Of Deep-learning-based Audio-visual Speech Enhancement And Separation (2020)
Daniel Michelsanti, Zheng-Hua Tan, Shi-Xiong Zhang, et al.
18.31
Dual-path Transformer Network: Direct Context-aware Modeling For End-to-end Monaural Speech Separation (2020)
Jingjing Chen, Qirong Mao, Dong Liu
18.24
PHASEN: A Phase-and-harmonics-aware Speech Enhancement Network (2019)
Dacheng Yin, Chong Luo, Zhiwei Xiong, et al.
18.20
End-to-end Waveform Utterance Enhancement For Direct Evaluation Metrics Optimization By Fully Convolutional Neural Networks (2017)
Szu-Wei Fu, Tao-Wei Wang, Yu Tsao, et al.
18.00
Deep Attractor Network For Single-microphone Speaker Separation (2016)
Zhuo Chen, Yi Luo, Nima Mesgarani
17.88
Voicefilter: Targeted Voice Separation By Speaker-conditioned Spectrogram Masking (2018)
Quan Wang, Hannah Muckenhirn, Kevin Wilson, et al.
17.48
Audio-visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks (2017)
Jen-Cheng Hou, Syu-Siang Wang, Ying-Hui Lai, et al.
17.39
Fullsubnet: A Full-band And Sub-band Fusion Model For Real-time Single-channel Speech Enhancement (2020)
Xiang Hao, Xiangdong Su, Radu Horaud, et al.
17.09
Speaker-independent Speech Separation With Deep Attractor Network (2017)
Yi Luo, Zhuo Chen, Nima Mesgarani
16.84
TSTNN: Two-stage Transformer Based Neural Network For Speech Enhancement In The Time Domain (2021)
Kai Wang, Bengbeng He, Wei-Ping Zhu
16.73
Raw Waveform-based Speech Enhancement By Fully Convolutional Networks (2017)
Szu-Wei Fu, Yu Tsao, Xugang Lu, et al.
16.63
Dense CNN With Self-attention For Time-domain Speech Enhancement (2020)
Ashutosh Pandey, Deliang Wang
16.59
Exploring Speech Enhancement With Generative Adversarial Networks For Robust Speech Recognition (2017)
Chris Donahue, Bo Li, Rohit Prabhavalkar
16.14
WHAMR!: Noisy And Reverberant Single-channel Speech Separation (2019)
Matthew MacIejewski, Gordon Wichern, Emmett McQuinn, et al.
16.10
Multichannel Long-term Streaming Neural Speech Enhancement For Static And Moving Speakers (2024)
Changsheng Quan, Xiaofei Li
16.05
Conditional Generative Adversarial Networks For Speech Enhancement And Noise-robust Speaker Verification (2017)
Daniel Michelsanti, Zheng-Hua Tan
16.03
T-GSA: Transformer With Gaussian-weighted Self-attention For Speech Enhancement (2019)
Jaeyoung Kim, Mostafa El-Khamy, Jungwon Lee
15.95
Audio-visual Speech Codecs: Rethinking Audio-visual Speech Enhancement By Re-synthesis (2022)
Karren Yang, Dejan Markovic, Steven Krenn, et al.
15.58
Complex Spectrogram Enhancement By Convolutional Neural Network With Multi-metrics Learning (2017)
Szu-Wei Fu, Ting-Yao Hu, Yu Tsao, et al.
15.57
Mp-senet: A Speech Enhancement Model With Parallel Denoising Of Magnitude And Phase Spectra (2023)
Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
15.51
Storm: A Diffusion-based Stochastic Regeneration Model For Speech Enhancement And Dereverberation (2022)
Jean-Marie Lemercier, Julius Richter, Simon Welker, et al.
15.43
Fullsubnet+: Channel Attention Fullsubnet With Complex Spectrograms For Speech Enhancement (2022)
Jun Chen, Zilin Wang, Deyi Tuo, et al.
15.10
Statistical Speech Enhancement Based On Probabilistic Integration Of Variational Autoencoder And Non-negative Matrix Factorization (2017)
Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, et al.
15.00
End-to-end Speech Separation With Unfolded Iterative Phase Reconstruction (2018)
Zhong-Qiu Wang, Jonathan Le Roux, Deliang Wang, et al.
15.00
ADL-MVDR: All Deep Learning MVDR Beamformer For Target Speech Separation (2020)
Zhuohuang Zhang, Yong Xu, Meng Yu, et al.
15.00
Dual-branch Attention-in-attention Transformer For Single-channel Speech Enhancement (2021)
Guochen Yu, Andong Li, Chengshi Zheng, et al.
14.83
Improving Speaker Discrimination Of Target Speech Extraction With Time-domain Speakerbeam (2020)
Marc Delcroix, Tsubasa Ochiai, Katerina Zmolikova, et al.
14.76
Deep Clustering And Conventional Networks For Music Separation: Stronger Together (2016)
Yi Luo, Zhuo Chen, John R. Hershey, et al.
14.76
Time Domain Audio Visual Speech Separation (2019)
Jian Wu, Yong Xu, Shi-Xiong Zhang, et al.
14.62
Gated Recurrent Fusion With Joint Training Framework For Robust End-to-end Speech Recognition (2020)
Cunhang Fan, Jiangyan Yi, Jianhua Tao, et al.
14.55
Weighted Speech Distortion Losses For Neural-network-based Real-time Speech Enhancement (2020)
Yangyang Xia, Sebastian Braun, Chandan K. A. Reddy, et al.
14.51
Contextual Audio-visual Switching For Speech Enhancement In Real-world Environments (2018)
Ahsan Adeel, Mandar Gogate, Amir Hussain
14.35
DPCRN: Dual-path Convolution Recurrent Network For Single Channel Speech Enhancement (2021)
Xiaohuai Le, Hongsheng Chen, Kai Chen, et al.
14.35
Speech Denoising With Deep Feature Losses (2018)
Francois G. Germain, Qifeng Chen, Vladlen Koltun
14.23
Speech Enhancement Using Multi-stage Self-attentive Temporal Convolutional Networks (2021)
Ju Lin, Adriaan J. van Wijngaarden, Kuang-Ching Wang, et al.
14.15
A Unified Convolutional Beamformer For Simultaneous Denoising And Dereverberation (2018)
Tomohiro Nakatani, Keisuke Kinoshita
14.15
Wavecrn: An Efficient Convolutional Recurrent Neural Network For End-to-end Speech Enhancement (2020)
Tsun-An Hsieh, Hsin-Min Wang, Xugang Lu, et al.
14.02
A Recurrent Variational Autoencoder For Speech Enhancement (2019)
Simon Leglaive, Xavier Alameda-Pineda, Laurent Girin, et al.
13.97