LRS-3

Emerging

31papers using it

2022first seen

LRS-3 is a dataset used to evaluate audio-visual speech recognition (AVSR) systems, containing diverse spoken conversations with human-annotated transcriptions.

🔎 Find this dataset

Papers using LRS-3 (31)

DiVISe: Direct Visual-Input Speech Synthesis Preserving Speaker Characteristics And Intelligibility2025 · 4 cites

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens2025 · 3 cites

Large Language Models are Strong Audio-Visual Speech Recognition Learners2024 · 1 cites

VisG AV-HuBERT: Viseme-Guided AV-HuBERT2026

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition2026

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition2026

Noise-Robust AV-ASR Using Visual Features Both in the Whisper Encoder and Decoder2026

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition2025

Training Strategies for Modality Dropout Resilient Multi-Modal Target Speaker Extraction2025

Online Audio-Visual Autoregressive Speaker Extraction2025

LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models2025

Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation2025

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction2022 · 113 cites

Lip-to-Speech Synthesis in the Wild with Multi-task Learning2023 · 20 cites

u-HuBERT: Unified Mixed-Modal Speech Pretraining And Zero-Shot Transfer to Unlabeled Modality2022 · 16 cites

Jointly Learning Visual and Auditory Speech Representations from Raw Data2022 · 13 cites

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement2022 · 4 cites

Robust Self-Supervised Audio-Visual Speech Recognition2022 · 3 cites

Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech2023 · 2 cites

Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition2023 · 2 cites

SVTS: Scalable Video-to-Speech Synthesis2022 · 1 cites

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations2023 · 1 cites

LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading2023 · 1 cites

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model2023 · 1 cites

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition2022

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels2023

Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model2023

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition2023

LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data2023

Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer2024

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation2024