← authors · overview

Shuicheng Yan

13 papers · 0 citations

Most-cited papers

Tokens-to-token Vit: Training Vision Transformers From Scratch On Imagenet
2021 · 1881 citations
Highly Efficient Salient Object Detection With 100K Parameters
2020 · 164 citations
VOLO: Vision Outlooker For Visual Recognition
2021 · 157 citations
Omg-llava: Bridging Image-level, Object-level, Pixel-level Reasoning And Understanding
2024 · 150 citations
Skywork: A More Open Bilingual Foundation Model
2023 · 128 citations
Enhancing Video-language Representations With Structural Spatio-temporal Alignment
2024 · 75 citations
Towards Semantic Equivalence Of Tokenization In Multimodal LLM
2024 · 62 citations
Multi-prototype Networks For Unconstrained Set-based Face Recognition
2019 · 37 citations
Stprivacy: Spatio-temporal Privacy-preserving Action Recognition
2023 · 28 citations
Demystifying Reinforcement Learning In Agentic Reasoning
2025
Patch-as-decodable-token: Towards Unified Multi-modal Vision Tasks In Mllms
2025
Reinforcement Learning Tuning For Videollms: Reward Design And Data Efficiency
2025
Visual Multi-agent System: Mitigating Hallucination Snowballing Via Visual Flow
2025
Tokenar: Multiple Subject Generation Via Autoregressive Token-level Enhancement
2025
Ivebench: Modern Benchmark Suite For Instruction-guided Video Editing Assessment
2025

Topics

Model Architecture Vision-Language Training Techniques Vision-Language Models Instruction Tuning Multi-Agent 3D Vision Uncategorized Video-Language Benchmarks