Awesome Speech Audio

📄Papers 🧭Topics 🔥Trending 🗺️Map 🏆Leaderboards 🎓Learn 🤖Ask AI

⋯More

👥Authors 📚Reading Packs 📊Datasets 🛠️Tools 📰News 📝Blogs ✉️Newsletter 🎯Research Radar 🔖Saved

← authors · overview

Loading author…

Stay Updated

E-Mail Digest 🎯 Research Radar

Submit a paper · Privacy · Terms

© 2026 Awesome Papers.

Hang Xu — most-cited papers & profile · Speech Audio

← authors · overview

Hang Xu

26 papers · 21 citations · 8 h-index

Hong Kong Design Centre · University of Hong Kong

Google Scholar ↗Semantic Scholar ↗OpenAlex ↗

Most-cited papers

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
2025 · 17 citations
INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning
2024 · 1 citations
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation
2025 · 1 citations
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation
2024 · 1 citations
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
2024 · 1 citations
Goal2Pixel: Grounding Goals to Pixels for Vision-Language Navigation
2026
Shared Autonomy Assisted by Impedance-Driven Anisotropic Guidance Field
2026
JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy
2026
Swimming Under Constraints: A Safe Reinforcement Learning Framework for Quadrupedal Bio-Inspired Propulsion
2026

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

2026

Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving

2025

MCTS-EP: Empowering Embodied Planning with Online Preference Optimization

2025

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning

2025

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

2025

SViP: Sequencing Bimanual Visuomotor Policies with Object-Centric Motion Primitives

2025

Topics

Control Manipulation Vision-Language Models Benchmarks Navigation Human-Robot Interaction Video-Language Sim-to-Real Visual QA & Reasoning Instruction Tuning