Awesome Speech Audio

📄Papers 🧭Topics 🔥Trending 🗺️Map 🏆Leaderboards 🎓Learn 🤖Ask AI

⋯More

👥Authors 📚Reading Packs 📊Datasets 🛠️Tools 📰News 📝Blogs ✉️Newsletter 🎯Research Radar 🔖Saved

← authors · overview

Loading author…

Stay Updated

E-Mail Digest 🎯 Research Radar

Submit a paper · Privacy · Terms

© 2026 Awesome Papers.

Zuxuan Wu — most-cited papers & profile · Speech Audio

← authors · overview

Zuxuan Wu

15 papers · 197 citations · 43 h-index

Shanghai Innovative Research Center of Traditional Chinese Medicine · Innovation Team (China) · Shanghai Institute of Computing Technology

Google Scholar ↗Semantic Scholar ↗OpenAlex ↗

Most-cited papers

The Regretful Agent: Heuristic-aided Navigation Through Progress Estimation
2019 · 173 citations
VITON: An Image-based Virtual Try-on Network
2017 · 24 citations
ThinkingVLA: Interleaved Vision and Language Reasoning for Robotic Manipulation
2026
VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models
2026
HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies
2025
Preserving Cross-Modal Consistency for CLIP-based Class-Incremental Learning
2025
Unify Robot Actions in Camera Frame
2025
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
2025
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
2025
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

2025

Multimodal Referring Segmentation: A Survey

2025

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

2025

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

2024

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

2023

Secrets of RLHF in Large Language Models Part II: Reward Modeling

2024

Topics

Manipulation Control Perception Human-Robot Interaction Benchmarks Vision-Language Models Audio-Visual cs.RO Planning Sim-to-Real