← all datasets

TextVQA

Canonical

12papers using it

2023first seen

🔎 Find this dataset

Papers using TextVQA (12)

Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles2026

VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering2026

LinMU: Multimodal Understanding Made Linear2026

Text-VQA Aug: Pipelined Harnessing of Large Multimodal Models for Automated Synthesis2025

Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model2025

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs2025

Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering2025

ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM2025

Constructive Distortion: Improving Mllms With Attention-guided Image Warping2025

Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models2025

Towards a Unified Multimodal Reasoning Framework2023

Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy2024

TextVQA — datasets — multimodal