← authors · overview

Cordelia Schmid

15 papers · 0 citations

Most-cited papers

Learning Joint Reconstruction Of Hands And Manipulated Objects
2019 · 426 citations
Multi-modal Transformer For Video Retrieval
2020 · 393 citations
Multiview Transformers For Video Recognition
2022 · 259 citations
Leveraging Photometric Consistency Over Time For Sparsely Supervised Hand-object Reconstruction
2020 · 159 citations
Airbert: In-domain Pretraining For Vision-and-language Navigation
2021 · 124 citations
Memory-efficient Incremental Learning Through Feature Adaptation
2020 · 111 citations
REVEAL: Retrieval-augmented Visual-language Pre-training With Multi-source Multimodal Knowledge Memory
2022 · 65 citations
Learning Audio-video Modalities From Image Captions
2022 · 46 citations
Convolutional Patch Representations For Image Retrieval: An Unsupervised Approach
2016 · 45 citations
Exposing And Mitigating Spurious Correlations For Cross-modal Retrieval
2023 · 29 citations
Vocap: Video Object Captioning And Segmentation From Any Prompt
2025
Loft: Lora-fused Training Dataset Generation With Few-shot Guidance
2025
Temporal Chain Of Thought: Long-video Understanding By Thinking In Frames
2025
What Drives Compositional Generalization? The Importance Of Continuous Training Objectives In Visual Generative Models
2026
What Drives Compositional Generalization? The Importance Of Continuous Training Objectives In Visual Generative Models
2026

Topics

Image Retrieval Vision-Language Models 3D Vision Object Detection Tracking Cross-Modal Hashing Video Understanding Uncategorized Video-Language Visual QA & Reasoning