多模态

CLIP

[1] A. Radford et al., Learning Transferable Visual Models From Natural Language Supervision, Feb. 26, 2021, arXiv: arXiv:2103.00020. Accessed: May 22, 2024. https://github.com/openai/CLIP

CLIP的核心思想是通过海量的弱监督文本对通过对比学习，将图片和文本通过各自的预训练模型获得的编码向量在向量空间上对齐。

弱监督：文本与图像之间并不是特别匹配。
图文匹配
无法完成生成任务

BLIP

[1] J. Li, D. Li, C. Xiong, and S. Hoi, BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, Feb. 15, 2022, arXiv: arXiv:2201.12086.

BLIP的一大贡献在于将自然语言理解和自然语言生成任务进行了融合形成了多模态通用模型。

可以完成生成任务，输入图片可生成文本。
相同颜色的模块共享参数
[CLS] 代表它是一个分类任务
Bi Self-Att双向自注意力机制
ITC 做对比学习，图文匹配，使得文本向量与图像向量尽可能对齐，这个对比学习是粗粒度的，后面还有ITM
第三列中的cross Attention融合了文本与图像特征
ITM: 是个二分类任务，正样本与负样本
LM：是个生成任务, 看图生成文字

BLIP的另一个贡献在于弱监督图文数据清洗方面，通过训练模型剔除了图文匹配差以及对部分图片生成了更好的文本标注。

BLIP2

[1] J. Li, D. Li, S. Savarese, and S. Hoi, BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, Jun. 15, 2023, arXiv: arXiv:2301.12597.