NLVR2

Name: NLVR2
License: cc-by-4.0

Canonical

9papers using it

31HF downloads

2HF likes

2022first seen

The Natural Language for Visual Reasoning corpora are two language grounding datasets containing natural language sentences grounded in images. The task is to determine whether a sentence is true about a visual input. The data was collected through crowdsourcings, and solving the task requires reasoning about sets of o

🤗 Hugging Face⚖ cc-by-4.0

Papers using NLVR2 (9)

Quizzard@inova Challenge 2025 -- Track A: Plug-and-play Technique In Interleaved Multi-image Model2025

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks2022 · 151 cites

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering2022 · 16 cites

MixGen: A New Multi-Modal Data Augmentation2022 · 2 cites

Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment2022 · 1 cites

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions2023 · 1 cites

EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning2022

Training Vision-Language Models with Less Bimodal Supervision2022

Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering2024