← authors · overview

Mike Zheng Shou

30 papers · 3 citations

Most-cited papers

Hallucination Of Multimodal Large Language Models: A Survey
2024 · 364 citations
Show-1: Marrying Pixel And Latent Diffusion Models For Text-to-video Generation
2023 · 334 citations
Unified Transformer Tracker For Object Tracking
2022 · 117 citations
Egovlpv2: Egocentric Video-language Pre-training With Fusion In The Backbone
2023 · 87 citations
CVPR 2023 Text Guided Video Editing Competition
2023 · 58 citations
Generic Event Boundary Detection: A Benchmark For Event Segmentation
2021 · 54 citations
Object-aware Video-language Pre-training For Retrieval
2021 · 46 citations
Paragraph-to-image Generation With Information-enriched Diffusion Model
2023 · 43 citations
ASSISTGUI: Task-oriented Desktop Graphical User Interface Automation
2023 · 41 citations
Stprivacy: Spatio-temporal Privacy-preserving Action Recognition
2023 · 28 citations
Position-guided Text Prompt For Vision-language Pre-training
2022 · 28 citations
Towards Fast Adaptation Of Pretrained Contrastive Models For Multi-channel Video-language Retrieval
2022 · 9 citations
SAM-I2V: Upgrading SAM To Support Promptable Video Segmentation With Less Than 0.2% Training Cost
2025 · 3 citations
Darwinian Model Upgrades: Model Evolving With Selective Compatibility
2022 · 1 citations
Paper2video: Automatic Video Generation From Scientific Papers
2025

Topics

Vision-Language Image Retrieval Object Detection Video Understanding Video-Language Vision-Language Models Model Architecture Efficiency Training Techniques RAG