Visual Commonsense Reasoning (VCR)

Emerging

5papers using it

2022first seen

Visual Commonsense Reasoning (VCR) is a question-answering task that evaluates a model's ability to understand and reason about visual content in images.

🔎 Find this dataset

Papers using Visual Commonsense Reasoning (VCR) (5)

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks2022 · 19 cites

Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks2022 · 8 cites

VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers2022 · 3 cites

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language2023 · 1 cites

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound2022