CLIP

Emerging

15papers using it

2023first seen

CLIP (Contrastive Language-Image Pretraining) is a dataset and model that contains paired images and text, used to evaluate multimodal alignment and preferences in vision-language tasks.

🔎 Find this dataset

Papers using CLIP (15)

Clip-handid: Vision-language Model For Hand-based Person Identification2025 · 3 cites

Experimental Evaluation Of Static Image Sub-region-based Search Models Using CLIP2025 · 1 cites

Can Argus Judge Them All? Comparing VLMs Across Domains2025

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment2026

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model2026

RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models2026

Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment2025

Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization2025

Disentangling 3D From Large Vision-language Models For Controlled Portrait Generation2025

DRIP: Dynamic Patch Reduction Via Interpretable Pooling2025

Compositional Semantics for Open Vocabulary Spatio-semantic Representations2023

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models2023 · 117 cites

Extending Multi-modal Contrastive Representations2023 · 2 cites

Linear Spaces of Meanings: Compositional Structures in Vision-Language Models2023 · 1 cites

FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection2023