← authors · overview

Tao Wang

17 papers · 5 citations

Most-cited papers

Tokens-to-token Vit: Training Vision Transformers From Scratch On Imagenet
2021 · 2247 citations
Groundinggpt:language Enhanced Multi-modal Grounding Model
2024 · 111 citations
Real-time Image Enhancer Via Learnable Spatial-aware 3D Lookup Tables
2021 · 79 citations
NTIRE 2025 Challenge On Cross-domain Few-shot Object Detection: Methods And Results
2025 · 28 citations
Zero-shot Aerial Object Detection With Visual Description Regularization
2024 · 14 citations
QCRD: Quality-guided Contrastive Rationale Distillation For Large Language Models
2024 · 4 citations
Collaborative Multi-lora Experts With Achievement-based Multi-tasks Loss For Unified Multimodal Information Extraction
2025 · 3 citations
Alto: Adaptive-length Tokenizer For Autoregressive Mask Generation
2025

Topics

Fine-Tuning Training Techniques Object Detection Vision-Language Models 3D Vision Vision-Language Model Architecture Image Restoration Visual Language Efficiency