← all datasets

LRS-2

Emerging

16papers using it

2022first seen

LRS2 is a dataset used to evaluate audio-visual speech recognition systems, containing video recordings of people speaking, which helps assess the model's performance in recognizing speech from visual cues.

🔎 Find this dataset

Papers using LRS-2 (15)

Litevsr: Efficient Visual Speech Recognition By Learning From Speech Representations Of Unlabeled Data2023 · 5 cites

DiVISe: Direct Visual-Input Speech Synthesis Preserving Speaker Characteristics And Intelligibility2025 · 4 cites

Dubwise: Video-guided Speech Duration Control In Multimodal Llm-based Text-to-speech For Dubbing2024 · 2 cites

VisG AV-HuBERT: Viseme-Guided AV-HuBERT2026

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition2026

Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation2025

Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition2023 · 2 cites

LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading2023 · 1 cites

DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing2024 · 1 cites

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition2022

Lip-to-Speech Synthesis in the Wild with Multi-task Learning2023

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels2023

OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment2023

LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data2023

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation2024

LRS-2 — datasets — speech-audio