← authors · overview

Yu-Gang Jiang

37 papers · 9 citations

Most-cited papers

M2TR: Multi-modal Multi-scale Transformers For Deepfake Detection
2021 · 288 citations
Anygpt: Unified Multimodal LLM With Discrete Sequence Modeling
2024 · 238 citations
Cross-domain Contrastive Learning For Unsupervised Domain Adaptation
2021 · 149 citations
To See Is To Believe: Prompting GPT-4V For Better Visual Instruction Tuning
2023 · 145 citations
Depth Guided Adaptive Meta-fusion Network For Few-shot Video Recognition
2020 · 86 citations
Agentgym: Evolving Large Language Model-based Agents Across Diverse Environments
2024 · 83 citations
Reuse And Diffuse: Iterative Denoising For Text-to-video Generation
2023 · 59 citations
Deepstack: Deeply Stacking Visual Tokens Is Surprisingly Simple And Effective For Lmms
2024 · 47 citations
Implicit Temporal Modeling With Learnable Alignment For Video Recognition
2023 · 39 citations
Context Perception Parallel Decoder For Scene Text Recognition
2023 · 23 citations
Mevis: A Multi-modal Dataset For Referring Motion Expression Video Segmentation
2025 · 6 citations
You Only Estimate Once: Unified, One-stage, Real-time Category-level Articulated Object 6D Pose Estimation For Robotic Grasping
2025 · 2 citations
Towards Omnimodal Expressions And Reasoning In Referring Audio-visual Segmentation
2025 · 1 citations
Agentgym: Evolving Large Language Model-based Agents Across Diverse Environments
2024
Thinking With Deltas: Incentivizing Reinforcement Learning Via Differential Visual Reasoning Policy
2026

Topics

Model Architecture Training Techniques Vision-Language Video Understanding Uncategorized Benchmarks Efficiency Video-Language Audio-Visual Code Agents