基础学习(16) CLIP 和 SigLIP

原创已于 2026-06-07 00:23:25 修改 · 213 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#CLIP #SigLIP #pretrain

于 2026-06-07 00:08:15 首次发布

LLM+VLM 同时被 2 个专栏收录

17 篇文章

订阅专栏

baisc_study

16 篇文章

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
1 CLIP
2 SigLIP
总结

前言

CLIP 和 SigLIP 都是由 Google、OpenAI 等顶级团队提出的多模态预训练模型，它们的核心任务都是将图像和文本映射到同一个向量空间，从而实现“看图识字”或“用文字搜图”。
CLIP是OpenAI 在 2021 年发表的论文《Learning Transferable Visual Models From Natural Language Supervision》（从自然语言监督中学习可迁移的视觉模型）是多模态深度学习领域的开山之作。它所提出的 CLIP（Contrastive Language-Image Pre-training）模型，彻底改变了计算机视觉（CV）的研究范式。

虽然它们的目的相同，但背后的损失函数（Loss Function）有本质区别，这也让 SigLIP 在效率和性能上更胜一筹。

1 CLIP

1.1 CLIP 想解决什么问题?

1.1.1 传统视觉模型的问题: 类别是固定的

CLIP 开篇就说, 当前SOTA 的书觉熊通常训练成预测一组固定的, 预先定义好的类别. 这种监督形式会限制模型的通用行, 因为如果要识别新的数据概念 ,那么就要额外标注数据.

举个例子:
传统 ImageNet 分类器大概是：image → ResNet / ViT → 1000 类 softmax
它只能在固定类别里选：dog / cat / car / airplane / cup / …

如果你想让它识别：a robot gripper holding a red block
传统分类器没有这个类别，就很难直接做。

1.1.2 CLIP 的核心想法：用自然语言监督视觉模型

所以CLIP就用了一个朴素的想法: 直接从图像相关的原始文本中学习, 是一种更广泛的监督来源. CLIP 提出的预训练任务是: 预测哪段 caption 和哪张image 匹配. 这个任务在 4亿个互联网 image-text pairs 上训练.
所以 CLIP 任务不是识别 : 图片属于某个固定的类别,
而是: 判断image 和 ext 是否匹配
比如图片:
在这里插入图片描述
对应的 text 就是: text: “一只边境牧羊犬”

1.2 CLIP的数据空间: WIT(4 亿对)

CLIP的工作中构建了一个新的数据集，包含 400 million image-text pairs，来自互联网公开来源；为了覆盖尽可能广的视觉概念，构建过程中使用了 50 万个 query，并且每个 query 最多包含约 20,000 个 image-text pairs；论文把这个数据集称为 WIT / WebImageText。

再强调下:CLIP 不是靠人工标注的固定类别训练，而是靠互联网上图片旁边自然存在的文本训练。
举个例子:
ImageNet: 人规定类别 → 图片对应类别 id
CLIP: 互联网上的图文对 → 图片和自然语言描述对齐
所以CLIP 庚容易学到下面这种更开放的词汇

red cup
wooden table
a dog running on grass
a person holding a phone
a robot arm

1.3 CLIP的模型结构: 两个 encoder

在这里插入图片描述
这张图很经典: 左边(1) 是训练 (2) + (3) 组成了推理
结构很清晰, 其中要注意的是(1)的这个矩阵

1.3.1 对照训练

假设一个 batch 有 N 对图文：
(image_1, text_1)
(image_2, text_2)
…
(image_N, text_N)
在这里插入图片描述
图片encoder 和 text encoder 后会将将一把 batch 内的图像做两两相似度, 就得到下面这张表

	text_1	text_2	text_3	…	text_N
image_1	`✓`	✗	✗	…	✗
image_1	✗	`✓`	✗	…	✗
image_1	✗	✗	`✓`	…	✗
…	…	…	…	…	…
image_N	✓	✗	✗	…	`✓`

对角线是正样本：image_i ↔ text_i
非对角线是负样本：image_i ↔ text_j, j ≠ i

论文明确说，给定一个 batch，里面有 N 对真实的 image-text pair。CLIP 会把这 N 张图和 N 段文本两两组合，得到 N × N 个候选配对。其中只有对角线上的 N 个配对是真实配对，其余 N² − N 个都是错误配对。
训练时，CLIP 希望真实配对的图文 embedding 余弦相似度更高，错误配对的相似度更低。
最后，在这个 N × N 相似度矩阵上优化一个双向的 cross-entropy loss，也就是论文说的 symmetric cross entropy loss。

这种双塔流程图作者也给出了为代码
在这里插入图片描述
内容很简单,不赘述

1.3.2 symmetric cross entropy loss

有个细节作者解释了 info NCE 和 cross entropy, 其实我认为是一回事, 不必在意细节称呼. 在文中, 它专门用于自监督学习（如 SimCLR 变体、CLIP），且其对称性是为了消除单向对比带来的表征偏置（Bias）
在这里插入图片描述
图找文本的 loss (axis = 0 )

${L}_{I \to T} = -\frac{1}{N} \sum_{i=0}^{N-1} \log \frac{\exp(\text{Logits}_{i,i})}{\sum_{j=0}^{N-1} \exp(\text{Logits}_{i,j})}$

文本找图的 loss (axis = 1 )
${L}_{T \to I} = -\frac{1}{N} \sum_{j=0}^{N-1} \log \frac{\exp(\text{Logits}_{j,j})}{\sum_{i=0}^{N-1} \exp(\text{Logits}_{i,j})}$

最终总 Loss 取两者算术平均： $\mathcal{L}_{\text{CLIP}} = \frac{\mathcal{L}_{I \to T} + \mathcal{L}_{T \to I}}{2}$ 。

1.3.3 推理

在这里插入图片描述
CLIP 预训练时就是判断 image 和 text snippet 是否配对；
做 zero-shot classification 时，直接复用这个能力：对每个数据集，使用所有类别名作为潜在 text pairings，然后预测最可能的 image-text pair。
具体做法是：
(1) 先计算 image embedding 和所有候选文本的 text embeddings，
(2) 再计算 cosine similarity，乘以 temperature，并通过 softmax 得到类别概率。

论文还指出，这个 prediction layer 可以看作一个 multinomial logistic regression classifier：输入和权重都 L2-normalized，无 bias，有 temperature scaling

用流程图举例:
在这里插入图片描述

1.3.4 prompt engineering 为什么重要

(1) 论文指出，如果只把类别名提供给 text encoder，模型无法区分词义。例如 ImageNet 里有 construction crane 和会飞的 crane；Oxford-IIIT Pet 里 boxer 是狗的品种，但没有上下文时也可能被理解为拳击运动员`。
所以直接用：“boxer”
不如用：“a photo of a boxer, a type of pet”

(2) 论文说补充: 预训练数据中图片配套文本很少只是一个单词，通常是描述图片的完整句子。为了缩小这种训练-测试分布差异，论文发现默认使用：“A photo of a {label}.”
通常比只用 label text 更好；在 ImageNet 上，仅这个 prompt 就提升了 1.3% accuracy。

(3) 论文还实验了用多个 prompt 组成 ensemble，例如：
“A photo of a big {label}.”
“A photo of a small {label}.”
它们不是在概率空间 ensemble，而是在 embedding 空间平均，因此对大规模预测来说计算成本可以被摊销。论文报告，在 ImageNet 上 ensemble 80 个 context prompts 比单个默认 prompt 又提升 3.5%；prompt engineering + ensembling 总体大约提升 5 个点。

2 SigLIP

2.1 SigLIP 首先不是推翻 CLIP

SigLIP 依然是双向交叉熵, 依然是 image encoder + text encoder + 图文 embedding 对齐
但是 CLIP 需要通过下面的矩阵在 x 方向(image-> text) 和 y 方向(text->image) 做 softmax

	text_1	text_2	text_3	…	text_N
image_1	`✓`	✗	✗	…	✗
image_1	✗	`✓`	✗	…	✗
image_1	✗	✗	`✓`	…	✗
…	…	…	…	…	…
image_N	✓	✗	✗	…	`✓`

2.2 CLIP softmax 的痛点

CLIP 的 loss 不是单样本独立的，而是 batch 内图文两两对比。
假设 global batch 里有 N 对 image-text pair：
(image_1, text_1)
(image_2, text_2)
…
(image_N, text_N)

CLIP 要构造一个：
N × N similarity matrix
所有 image embedding × 所有 text embedding如果 global batch = 32768，那么相似度矩阵就是：32768 × 32768这非常大。(一个 device上也许就几十个 batch , 可能几百个类别)

CLIP 的 forward 可以分开算：
GPU 0 算自己的 image/text embedding
GPU 1 算自己的 image/text embedding
…
GPU N 算自己的 image/text embedding
但是算 loss 的时候，每张图需要和 global batch 里的所有文本比较。
论文中的分图a(下面图的 (a)) 就说的很明确

在这里插入图片描述
也就是说
CLIP 的 forward 可以分开算：
GPU 0 算自己的 image/text embedding
GPU 1 算自己的 image/text embedding
…
但是算 loss 的时候，每张图需要和 global batch 里的所有文本比较。

2.3 SigLIP 的改进

作者的思路:
SigLIP 把 CLIP 的 softmax 多分类问题改成了 pairwise binary classification 问题。
也就是说，CLIP 问的是：
给 image_i，在 N 个 text 中哪个是正确的？

SigLIP 问的是：
这个 image-text pair 匹配吗？回答 ‘是’ 或者 ‘不是’

因此就有: 对于每一个 pair：(image_i, text_j)
SigLIP 都给一个二分类标签：
如果 i == j：正样本，label = +1
如果 i != j：负样本，label = -1

SigLIP 论文明确说，sigmoid-based loss(对于分类问题, 就可以用 sigmoid) 把问题转成所有 pair combinations 上的标准 binary classification：匹配 pair 是正样本，不匹配 pair 是负样本。

作者的算法
(其实作者的思路很简单, 就是踏马的数学公式很玄呼)
在这里插入图片描述
trick 点: labels = 2 * eye(n) - ones(n) — 构建对角阵, +1 让正样本logits 越大越好, -1 让副样本 logits 越小越好

作者的优化
SigLIP 比 CLIP 多了一个很重要的 learnable bias：b
logits 是：similarity * temperature + bias

论文解释原因是：一个 batch 里负样本数量远多于正样本。对于 batch size N有:
正样本数量：N
负样本数量：N² - N

比如 N = 16k 时，正样本是 16k，但负样本是大约 268M。论文说，在初始化时，这种大量负样本带来的不平衡会主导 loss，导致优化初期出现很大的 correction；因此它引入 learnable bias term b，并把 b 初始化为 -10，temperature 初始化为 log 10。

这个点很关键：
SigLIP 不是简单地把 softmax 换成 sigmoid 就完了；
它还加了 bias 来处理正负样本极度不平衡的问题。

在这里插入图片描述
作者的这个图就说明了所有分类的 loss 怎么算完的(作者以3个 device 举例): 一个 device只能计算 4 * 4 /(12 * 12) 的数据量
( b ) 第一次了可能对角分块的, 那么就是 $3 * (4 * 4/ (12 * 12))$
( c ) 进行了一次swap后, 没计算的有了一次计算(但还没计算完), 此时每个有算了剩下的
( d ) 再进行了一次 swap 后, 把剩余的也算了, 好,现在可以得到全局的分类结果, 而不是要取每个设备的上的 softmax 结果.