← authors · overview

Xiaojuan Qi

21 papers · 5 citations

Most-cited papers

Stratified Transformer For 3D Point Cloud Segmentation
2022 · 480 citations
Manigan: Text-guided Image Manipulation
2019 · 227 citations
Regionplc: Regional Point-language Contrastive Learning For Open-world 3D Scene Understanding
2023 · 60 citations
Groma: Localized Visual Tokenization For Grounding Multimodal Large Language Models
2024 · 40 citations
Eschernet: A Generative Model For Scalable View Synthesis
2024 · 30 citations
Noteit: A System Converting Instructional Videos To Interactable Notes Through Multimodal Video Understanding
2025 · 3 citations
Seqtex: Generate Mesh Textures In Video Sequence
2025 · 1 citations
Equipping Vision Foundation Model With Mixture Of Experts For Out-of-distribution Detection
2025 · 1 citations
Mindomni: Unleashing Reasoning Generation In Vision Language Models With RGPO
2025
Vision Foundation Models As Effective Visual Tokenizers For Autoregressive Image Generation
2025

Topics

Visual Language 3D Vision Vision-Language Models Image Generation Segmentation Instruction Tuning Video-Language Video Understanding Audio-Visual Visual QA & Reasoning