← authors · overview

Yezhou Yang

16 papers · 0 citations

Most-cited papers

Injecting Semantic Concepts Into End-to-end Image Captioning
2021 · 113 citations
Modularized Textual Grounding For Counterfactual Resilience
2019 · 17 citations
Getting It Right: Improving Spatial Consistency In Text-to-image Models
2024 · 11 citations
On The Robustness Of Language Guidance For Low-level Vision Tasks: Findings From Depth Estimation
2024 · 6 citations
REVISION: Rendering Tools Enable Spatial Fidelity In Vision-language Models
2024 · 3 citations
Interact-video: Reasoning-rich Video QA For Urban Traffic
2025
Vibetoken: Scaling 1D Image Tokenizers And Autoregressive Models For Dynamic Resolution Generations
2026
Sepose: A Synthetic Event-based Human Pose Estimation Dataset For Pedestrian Monitoring
2025

Topics

Visual Language Image Generation 3D Vision Object Detection Visual QA & Reasoning Benchmarks Video-Language cs.AI cs.LG cs.MM