← authors · overview

Jiayi Ji

12 papers · 2 citations

Most-cited papers

Dual-level Collaborative Transformer For Image Captioning
2021 · 277 citations
Beat: Bi-directional One-to-many Embedding Alignment For Text-based Person Retrieval
2024 · 27 citations
Mihbench: Benchmarking And Mitigating Multi-image Hallucinations In Multimodal Large Language Models
2025 · 1 citations
Aigi-holmes: Towards Explainable And Generalizable Ai-generated Image Detection Via Multimodal Large Language Models
2025 · 1 citations
Evolving, Not Training: Zero-shot Reasoning Segmentation Via Evolutionary Prompting
2025
Mdreid: Modality-decoupled Learning For Any-to-any Multi-modal Object Re-identification
2025
Mdreid: Modality-decoupled Learning For Any-to-any Multi-modal Object Re-identification
2025
Space-10: A Comprehensive Benchmark For Multimodal Large Language Models In Compositional Spatial Intelligence
2025
Hieravid: Hierarchical Token Pruning For Fast Video Large Language Models
2026
Pixdlm: A Dual-path Multimodal Language Model For UAV Reasoning Segmentation
2026
Cir-cot: Towards Interpretable Composed Image Retrieval Via End-to-end Chain-of-thought Reasoning
2025
CSMCIR: Cot-enhanced Symmetric Alignment With Memory Bank For Composed Image Retrieval
2026
CSMCIR: Cot-enhanced Symmetric Alignment With Memory Bank For Composed Image Retrieval
2026
MVGGT: Multimodal Visual Geometry Grounded Transformer For Multiview 3D Referring Expression Segmentation
2026

Topics

Visual Language Image Retrieval Vision-Language Models Visual QA & Reasoning Benchmarks Uncategorized Segmentation Object Detection Image Generation Instruction Tuning