← authors · overview

Zirui Wang

11 papers · 0 citations

Most-cited papers

Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
2022 · 2373 citations
Ferret: Refer And Ground Anything Anywhere At Any Granularity
2023 · 503 citations
MM1: Methods, Analysis & Insights From Multimodal LLM Pre-training
2024 · 261 citations
MM1.5: Methods, Analysis & Insights From Multimodal LLM Fine-tuning
2024 · 70 citations
Tokencompose: Text-to-image Diffusion With Token-level Supervision
2023 · 39 citations
MMAU: A Holistic Benchmark Of Agent Capabilities Across Diverse Domains
2024
Smac-hard: Enabling Mixed Opponent Strategy Script And Self-play On SMAC
2024
Veattack: Downstream-agnostic Vision Encoder Attack Against Large Vision Language Models
2025
Cue3d: Quantifying The Role Of Image Cues In Single-image 3D Generation
2025
MANZANO: A Simple And Scalable Unified Multimodal Model With A Hybrid Vision Tokenizer
2025
Openvision 2: A Family Of Generative Pretrained Visual Encoders For Multimodal Learning
2025
Mcpmark: A Benchmark For Stress-testing Realistic And Comprehensive MCP Use
2025

Topics

Vision-Language Model Architecture Training Techniques Benchmarks Vision-Language Models RAG Evaluation Safety & Alignment Survey Paper Code