← authors · overview

Xiangyu Yue

19 papers · 0 citations

Most-cited papers

Onellm: One Framework To Align All Modalities With Language
2023 · 231 citations
Imagebind-llm: Multi-modality Instruction Tuning
2023 · 174 citations
Lumina-next: Making Lumina-t2x Stronger And Faster With Next-dit
2024 · 123 citations
Chemllm: A Chemical Large Language Model
2024 · 106 citations
Onellm: One Framework To Align All Modalities With Language
2023 · 79 citations
Fira: Can We Achieve Full-rank Training Of Llms Under Low-rank Constraint?
2024 · 38 citations
Ditctrl: Exploring Attention Control In Multi-modal Diffusion Transformer For Tuning-free Multi-prompt Longer Video Generation
2024 · 8 citations
Training Matting Models Without Alpha Labels
2024 · 2 citations
Screencoder: Advancing Visual-to-code Generation For Front-end Automation Via Modular Multimodal Agents
2025
Scalecua: Scaling Open-source Computer Use Agents With Cross-platform Data
2025
Mmbench-gui: Hierarchical Multi-platform Evaluation Framework For GUI Agents
2025
Exploring Reasoning Reward Model For Agents
2026
Onethinker: All-in-one Reasoning Model For Image And Video
2026
Onethinker: All-in-one Reasoning Model For Image And Video
2026
Onethinker: All-in-one Reasoning Model For Image And Video
2026

Topics

Training Techniques Vision-Language Models Uncategorized Model Architecture Video Understanding Multi-Agent Vision-Language Fine-Tuning Efficiency Embodied & Agents