OCR

Emerging

5papers using it

2025first seen

The 'OCR' dataset/benchmark contains tasks related to Optical Character Recognition and is used to evaluate the performance of Multimodal Large Language Models (MLLMs) in recognizing and interpreting text within images.

🔎 Find this dataset

Papers using OCR (5)

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion2026

Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs2026

Inverse-LLaVA: Rethinking Multimodal Alignment via Text-to-Vision Mapping2025

Investigating Redundancy In Multimodal Large Language Models With Multiple Vision Encoders2025

Optmerge: Unifying Multimodal LLM Capabilities And Modalities Via Model Merging2025