Conghui He

18 papers · 0 citations

Most-cited papers

How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 1136 citations
Internlm2 Technical Report
2024 · 378 citations
Internlm-xcomposer2: Mastering Free-form Text-image Composition And Comprehension In Vision-language Large Model
2024 · 372 citations
How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 339 citations
Sharegpt4v: Improving Large Multi-modal Models With Better Captions
2023 · 237 citations
Internlm-xcomposer-2.5: A Versatile Large Vision Language Model Supporting Long-contextual Input And Output
2024 · 192 citations
SPHINX-X: Scaling Data And Parameters For A Family Of Multi-modal Large Language Models
2024 · 149 citations
VHM: Versatile And Honest Vision Language Model For Remote Sensing Image Analysis
2024 · 26 citations
Cross-view Image Geo-localization With Panorama-bev Co-retrieval Network
2024 · 20 citations
Urbench: A Comprehensive Benchmark For Evaluating Large Multimodal Models In Multi-view Urban Scenarios
2024 · 10 citations
Realgen: Photorealistic Text-to-image Generation Via Detector-guided Rewards
2025
Earth-agent: Unlocking The Full Landscape Of Earth Observation With Agents
2025
Native Visual Understanding: Resolving Resolution Dilemmas In Vision-language Models
2025
Prune2drive: A Plug-and-play Framework For Accelerating Vision-language Models In Autonomous Driving
2025
Chartverse: Scaling Chart Reasoning Via Reliable Programmatic Synthesis From Scratch
2026

Topics

Model Architecture Vision-Language Training Techniques Visual Language Vision-Language Models Fine-Tuning 3D Vision Code In-Context Learning Efficiency