← authors · overview

Ran Xu

13 papers · 0 citations

Most-cited papers

ULIP: Learning A Unified Representation Of Language, Images, And Point Clouds For 3D Understanding
2022 · 216 citations
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding
2023 · 88 citations
Ehragent: Code Empowers Large Language Models For Few-shot Complex Tabular Reasoning On Electronic Health Records
2024 · 87 citations
FOFO: A Benchmark To Evaluate Llms' Format-following Capability
2024 · 82 citations
X-instructblip: A Framework For Aligning X-modal Instruction-aware Representations To Llms And Emergent Cross-modal Reasoning
2023 · 79 citations
Mapgpt: Map-guided Prompting With Adaptive Path Planning For Vision-and-language Navigation
2024 · 37 citations
Mask-free OVIS: Open-vocabulary Instance Segmentation Without Manual Mask Annotations
2023 · 13 citations
Naturalvlm: Leveraging Fine-grained Natural Language For Affordance-guided Visual Manipulation
2024 · 11 citations
Blip3-o: A Family Of Fully Open Unified Multimodal Models-architecture, Training And Dataset
2025
Blip3o-next: Next Frontier Of Native Image Generation
2025
Robotic VLA Benefits From Joint Learning With Motion Image Diffusion
2025
Scaling Agentic Reinforcement Learning For Tool-integrated Reasoning In Vlms
2025
Coact-1: Computer-using Multi-agent System With Coding Actions
2025
Dymu: Dynamic Merging And Virtual Unmerging For Efficient Vlms
2025
Engineering.ai: A Platform For Teams Of AI Engineers In Computational Design
2025

Topics

Visual Language Vision-Language Models 3D Vision Video Understanding Evaluation RAG In-Context Learning Embodied & Agents Vision-Language Model Architecture