← authors · overview

Yinfei Yang

10 papers · 0 citations

Most-cited papers

Ferret-v2: An Improved Baseline For Referring And Grounding With Large Language Models
2024 · 101 citations
So-bench: A Structural Output Evaluation Of Multimodal Llms
2025
MANZANO: A Simple And Scalable Unified Multimodal Model With A Hybrid Vision Tokenizer
2025
Deepmmsearch-r1: Empowering Multimodal Llms In Multimodal Web Search
2025

Topics

Vision-Language Models Code Vision-Language Model Architecture Fine-Tuning Training Techniques Benchmarks Visual QA & Reasoning Image-Text Retrieval