← authors · overview

Linjie Li

14 papers · 3 citations

Most-cited papers

Less Is More: Clipbert For Video-and-language Learning Via Sparse Sampling
2021 · 468 citations
Lightningdot: Pre-training Visual-semantic Embeddings For Real-time Image-text Retrieval
2021 · 66 citations
Lightningdot: Pre-training Visual-semantic Embeddings For Real-time Image-text Retrieval
2021 · 66 citations
UC2: Universal Cross-lingual Cross-modal Vision-and-language Pre-training
2021 · 54 citations
LAVENDER: Unifying Video-language Understanding As Masked Language Modeling
2022 · 50 citations
Segment Everything Everywhere All At Once
2023 · 20 citations
Equivariant Similarity For Vision-language Foundation Models
2023 · 18 citations
Coarse-to-fine Vision-language Pre-training With Fusion In The Backbone
2022 · 10 citations
Coarse-to-fine Vision-language Pre-training With Fusion In The Backbone
2022 · 10 citations
Diagnostic Benchmark And Iterative Inpainting For Layout-guided Image Generation
2023 · 6 citations
GLIMPSE: Do Large Vision-language Models Truly Think With Videos Or Just Glimpse At Them?
2025 · 2 citations
Synthetic Visual Genome
2025 · 1 citations
Exploring A Unified Vision-centric Contrastive Alternatives On Multi-modal Web Documents
2025
Edival-agent: An Object-centric Framework For Automated, Fine-grained Evaluation Of Multi-turn Editing
2025
Glance: Accelerating Diffusion Models With 1 Sample
2025

Topics

Uncategorized Visual Language Vision-Language Models Visual QA & Reasoning Instruction Tuning Image Retrieval Cross-Modal Hashing Video Understanding Segmentation 3D Vision