← authors · overview

di Zhang

21 papers · 0 citations

Most-cited papers

Chemllm: A Chemical Large Language Model
2024 · 106 citations
Video-lavit: Unified Video-language Pre-training With Decoupled Visual-motional Tokenization
2024 · 94 citations
Unified Language-vision Pretraining In LLM With Dynamic Discrete Visual Tokenization
2023 · 87 citations
MM-RLHF: The Next Step Forward In Multimodal LLM Alignment
2025 · 78 citations
Shieldlm: Empowering Llms As Aligned, Customizable And Explainable Safety Detectors
2024 · 56 citations
Recammaster: Camera-controlled Generative Rendering From A Single Video
2025 · 3 citations
HAIC: Improving Human Action Understanding And Generation With Better Captions For Multi-modal Large Language Models
2025 · 1 citations
Imbalance In Balance: Online Concept Balancing In Generation Models
2025
MUSE: Multi-subject Unified Synthesis Via Explicit Layout Semantic Expansion
2025
MUSE: Multi-subject Unified Synthesis Via Explicit Layout Semantic Expansion
2025
Taskgalaxy: Scaling Multi-modal Instruction Fine-tuning With Tens Of Thousands Vision Task Types
2025
Patchvsr: Breaking Video Diffusion Resolution Limits With Patch-wise Video Super-resolution
2025
Learning Video Generation For Robotic Manipulation With Collaborative Trajectory Control
2025
Fulldit2: Efficient In-context Conditioning For Video Diffusion Transformers
2025
Molreflect: Towards In-context Fine-grained Alignments Between Molecules And Texts
2026

Topics

Model Architecture Training Techniques Vision-Language Visual Language Vision-Language Models Safety & Alignment Video Understanding Image Generation Uncategorized Fine-Tuning