MTVQA

Emerging

3papers using it

2024first seen

MTVQA is a benchmark for multilingual Text-Centric Visual Question Answering that contains 6,778 question-answer pairs across 2,116 images, evaluated to assess AI models in text-centric scene understanding across nine diverse languages.

🔎 Find this dataset

Papers using MTVQA (3)

Rethinking Token Reduction for Large Vision-Language Models2026

LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA2025

MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering2024 · 5 cites