← authors · overview

Sihan Yang

11 papers · 0 citations

Most-cited papers

RICO: Improving Accuracy And Completeness In Image Recaptioning Via Visual Reconstruction
2025
Small-large Collaboration: Training-efficient Concept Personalization For Large VLM Using A Meta Personalized Small VLM
2025
Unictokens: Boosting Personalized Understanding And Generation Via Unified Concept Tokens
2025
Vidbridge-r1: Bridging QA And Captioning For Rl-based Video Understanding Models With Intermediate Proxy Tasks
2025
GRAN-TED: Generating Robust, Aligned, And Nuanced Text Embedding For Diffusion Models
2025

Topics

Vision-Language Models Visual QA & Reasoning Image-Text Retrieval Instruction Tuning Video-Language Benchmarks