← authors · overview

Salman Khan

31 papers · 2 citations

Most-cited papers

Multi-stage Progressive Image Restoration
2021 · 1754 citations
OW-DETR: Open-world Detection Transformer
2021 · 202 citations
Geochat: Grounded Large Vision-language Model For Remote Sensing
2023 · 183 citations
Glamm: Pixel Grounding Large Multimodal Model
2023 · 172 citations
Fine-tuned CLIP Models Are Efficient Video Learners
2022 · 162 citations
Videogpt+: Integrating Image And Video Encoders For Enhanced Video Understanding
2024 · 109 citations
Incremental Object Detection Via Meta-learning
2020 · 95 citations
LLM Blueprint: Enabling Text-to-image Generation With Complex And Detailed Prompts
2023 · 59 citations
VURF: A General-purpose Reasoning And Self-refinement Framework For Video Understanding
2024 · 14 citations
Composed Video Retrieval Via Enriched Context And Discriminative Embeddings
2024 · 13 citations
Multi-grained Temporal Prototype Learning For Few-shot Video Object Segmentation
2023 · 12 citations
Hierarchical Text-to-vision Self Supervised Alignment For Improved Histopathology Representation Learning
2024 · 8 citations
VQA4CIR: Boosting Composed Image Retrieval With Visual Question Answering
2023 · 4 citations
Text To Image For Multi-label Image Recognition With Joint Prompt-adapter Learning
2025 · 1 citations
A Culturally-diverse Multilingual Multimodal Video Benchmark & Model
2025 · 1 citations

Topics

Model Architecture Vision-Language Models Vision-Language Training Techniques Object Detection Image Retrieval Video-Language Visual Language Uncategorized RAG