← authors · overview

Yu Qiao

44 papers · 1 citations

Most-cited papers

Internvl: Scaling Up Vision Foundation Models And Aligning For Generic Visual-linguistic Tasks
2023 · 2715 citations
How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 1136 citations
Activating More Pixels In Image Super-resolution Transformer
2022 · 916 citations
Are We On The Right Way For Evaluating Large Vision-language Models?
2024 · 736 citations
Detecting Text In Natural Image With Connectionist Text Proposal Network
2016 · 674 citations
Uniformer: Unifying Convolution And Self-attention For Visual Recognition
2022 · 438 citations
Point Transformer V3: Simpler, Faster, Stronger
2023 · 438 citations
Omniquant: Omnidirectionally Calibrated Quantization For Large Language Models
2023 · 385 citations
Internlm2 Technical Report
2024 · 378 citations
How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 339 citations
Os-genesis: Automating GUI Agent Trajectory Construction Via Reverse Task Synthesis
2024 · 4 citations
An Empirical Study Of Federated Prompt Learning For Vision Language Model
2025 · 1 citations
Scalecua: Scaling Open-source Computer Use Agents With Cross-platform Data
2025
Yume: An Interactive World Generation Model
2025
Zerogui: Automating Online GUI Learning At Zero Human Cost
2025

Topics

Model Architecture Training Techniques Uncategorized Vision-Language Models Vision-Language Fine-Tuning Evaluation Embodied & Agents Code Efficiency