LLaVA-1.5

Emerging

6papers using it

2024first seen

LLaVA-1.5 is a benchmark dataset used to evaluate the performance of vision-language models (VLMs) in understanding and generating responses based on visual and textual inputs.

🔎 Find this dataset

Papers using LLaVA-1.5 (6)

Curvature-Guided Mixing for MLLM Adaptation2026

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM2026

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity2026

ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models2026

Watch Wider and Think Deeper: Collaborative Cross-modal Chain-of-Thought for Complex Visual Reasoning2026

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models2024 · 2 cites