← authors · overview

Yuhang Zang

13 papers · 0 citations

Most-cited papers

Are We On The Right Way For Evaluating Large Vision-language Models?
2024 · 736 citations
Internlm2 Technical Report
2024 · 378 citations
Internlm-xcomposer2: Mastering Free-form Text-image Composition And Comprehension In Vision-language Large Model
2024 · 372 citations
Internlm-xcomposer-2.5: A Versatile Large Vision Language Model Supporting Long-contextual Input And Output
2024 · 192 citations
Scene Text Detection With Supervised Pyramid Context Network
2018 · 161 citations
Streaming Long Video Understanding With Large Language Models
2024 · 158 citations
FASA: Feature Augmentation And Sampling Adaptation For Long-tailed Instance Segmentation
2021 · 110 citations
RAR: Retrieving And Ranking Augmented Mllms For Visual Recognition
2024 · 2 citations
MMDU: A Multi-turn Multi-image Dialog Understanding Benchmark And Instruction-tuning Dataset For Lvlms
2024 · 1 citations
Caprl: Stimulating Dense Image Caption Capabilities Via Reinforcement Learning
2025
Caprl: Stimulating Dense Image Caption Capabilities Via Reinforcement Learning
2025
Scalecap: Inference-time Scalable Image Captioning Via Dual-modality Debiasing
2025
Arm-thinker: Reinforcing Multimodal Generative Reward Models With Agentic Tool Use And Visual Reasoning
2025
Emembench: Interactive Benchmarking Of Episodic Memory For VLM Agents
2026
LSVOS 2025 Challenge Report: Recent Advances In Complex Video Object Segmentation
2025

Topics

Vision-Language Model Architecture Vision-Language Models Visual Language In-Context Learning Fine-Tuning Training Techniques Efficiency Evaluation Segmentation