← authors · overview

Wenqi Shao

13 papers · 5 citations

Most-cited papers

Omniquant: Omnidirectionally Calibrated Quantization For Large Language Models
2023 · 385 citations
SPHINX: The Joint Mixing Of Weights, Tasks, And Visual Embeddings For Multi-modal Large Language Models
2023 · 288 citations
Imagebind-llm: Multi-modality Instruction Tuning
2023 · 174 citations
SPHINX-X: Scaling Data And Parameters For A Family Of Multi-modal Large Language Models
2024 · 149 citations
Lumina-t2x: Transforming Text Into Any Modality, Resolution, And Duration Via Flow-based Large Diffusion Transformers
2024 · 137 citations
Diffagent: Fast And Accurate Text-to-image API Selection With Large Language Model
2024 · 5 citations
Flow-anything: Learning Real-world Optical Flow Estimation From Large-scale Single-view Images
2025 · 5 citations
Owmm-agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis
2025
Unipruning: Unifying Local Metric And Global Feedback For Scalable Sparse Llms
2025
Internspatial: A Comprehensive Dataset For Spatial Reasoning In Vision-language Models
2025
COSMO-RL: Towards Trustworthy Lmrms Via Joint Safety And Stability
2025
Vtperception-r1: Enhancing Multimodal Reasoning Via Explicit Visual And Textual Perceptual Grounding
2025
Unifork: Exploring Modality Alignment For Unified Multimodal Understanding And Generation
2025
Samrefiner: Taming Segment Anything Model For Universal Mask Refinement
2025

Topics

Training Techniques Model Architecture Vision-Language Models Efficiency Vision-Language Visual QA & Reasoning Fine-Tuning Image Generation Uncategorized Instruction Tuning