Jifeng Dai

14 papers · 15 citations

Most-cited papers

Internvl: Scaling Up Vision Foundation Models And Aligning For Generic Visual-linguistic Tasks
2023 · 2715 citations
How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 1136 citations
How Far Are We To GPT-4V? Closing The Gap To Commercial Multimodal Models With Open-source Suites
2024 · 339 citations
Fast Convergence Of DETR With Spatially Modulated Co-attention
2021 · 309 citations
Tip-adapter: Training-free Adaption Of CLIP For Few-shot Classification
2022 · 306 citations
Internlm-xcomposer-2.5: A Versatile Large Vision Language Model Supporting Long-contextual Input And Output
2024 · 192 citations
Frozen CLIP Models Are Efficient Video Learners
2022 · 156 citations
Visionllm V2: An End-to-end Generalist Multimodal Large Language Model For Hundreds Of Vision-language Tasks
2024 · 149 citations
Fuseformer: Fusing Fine-grained Information In Transformers For Video Inpainting
2021 · 143 citations
Mono-internvl: Pushing The Boundaries Of Monolithic Multimodal Large Language Models With Endogenous Visual Pre-training
2024 · 79 citations
Spatial Frequency Modulation For Semantic Segmentation
2025 · 15 citations
Ghost In The Minecraft: Generally Capable Agents For Open-world Environments Via Large Language Models With Text-based Knowledge And Memory
2023
Zerogui: Automating Online GUI Learning At Zero Human Cost
2025
Mono-internvl-1.5: Towards Cheaper And Faster Monolithic Multimodal Large Language Models
2025
Mmbench-gui: Hierarchical Multi-platform Evaluation Framework For GUI Agents
2025

Topics

Vision-Language Model Architecture Training Techniques Uncategorized Code Agents Vision-Language Models Visual Language Video Understanding Evaluation Multi-Agent