← authors · overview

Siyuan Huang

23 papers · 2 citations

Most-cited papers

SPHINX: The Joint Mixing Of Weights, Tasks, And Visual Embeddings For Multi-modal Large Language Models
2023 · 288 citations
SPHINX-X: Scaling Data And Parameters For A Family Of Multi-modal Large Language Models
2024 · 149 citations
Advancing 3D Scene Understanding With Mv-scanqa Multi-view Reasoning Evaluation And Tripalign Pre-training Dataset
2025 · 1 citations
Persistent Visual Memory: Sustaining Perception For Deep Generation In Lvlms
2026

Topics

Vision-Language Model Architecture Training Techniques Visual QA & Reasoning Vision-Language Models Fine-Tuning Code Efficiency Benchmarks