← authors · overview

Yueting Zhuang

20 papers · 593 citations

Most-cited papers

Activitynet-qa: A Dataset For Understanding Complex Web Videos Via Question Answering
2019 · 232 citations
Taskbench: Benchmarking Large Language Models For Task Automation
2023 · 127 citations
Momentor: Advancing Video Large Language Model With Fine-grained Temporal Reasoning
2024 · 120 citations
Agent-pro: Learning To Evolve Via Policy-level Reflection And Optimization
2024 · 101 citations
Fine-tuning Multimodal Llms To Follow Zero-shot Demonstrative Instructions
2023 · 95 citations
Worldgpt: Empowering LLM As Multimodal World Model
2024 · 69 citations
Agent-pro: Learning To Evolve Via Policy-level Reflection And Optimization
2024 · 18 citations
Videorefer Suite: Advancing Spatial-temporal Object Understanding With Video LLM
2024 · 11 citations
Teamlora: Boosting Low-rank Adaptation With Expert Collaboration And Competition
2024 · 1 citations
Hierarchical Budget Policy Optimization For Adaptive Reasoning
2025
Ui-zoomer: Uncertainty-driven Adaptive Zoom-in For GUI Grounding
2026
Omniear: Benchmarking Agent Reasoning In Embodied Tasks
2025
Rendering Multi-human And Multi-object With 3D Gaussian Splatting
2026
Lmms Meet Object-centric Vision: Understanding, Segmentation, Editing And Generation
2026

Topics

Training Techniques Vision-Language Prompting Video Understanding Uncategorized Object Detection Fine-Tuning Agentic Model Architecture 3D Vision