← authors · overview

Yansong Tang

16 papers · 5 citations

Most-cited papers

LAVT: Language-aware Vision Transformer For Referring Image Segmentation
2021 · 335 citations
SAM2-LOVE: Segment Anything Model 2 In Language-aided Audio-visual Scenes
2025 · 4 citations
Flash-vstream: Efficient Real-time Understanding For Long Video Streams
2025
Meta-cot: Enhancing Granularity And Generalization In Image Editing
2026

Topics

Vision-Language Models Video-Language Segmentation Visual Language 3D Vision Image Generation Image Restoration Audio-Visual Visual QA & Reasoning