原文链接
Multi-modal Semantic Understanding
with Contrastive Cross-modal Feature Alignment
主要内容
这篇文章的主要内容是关于多模态语义理解的研究,特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP(Contrastive Language-Image Pre-training)引导的对比学习方法,用于多模态特征对齐(CLFA,CLIP-guided Contrastive-Learning-based Feature Alignment)。这种方法旨在将不同模态(如图像和文本)提取的特征投影到统一的深度空间中,以实现跨模态的深度信息交互。
文章首先介绍了多模态语义理解的背景和重要性,特别是在社交媒体平台上进行情感分析和讽刺检测的任务。然后,文章指出了以往研究中使用的双编码器结构的局限性,即它们分别对图像和文本进行编码,但未能学习跨模态特征对齐,这使得跨模态深度信息交互变得困难。
为了解决这个问题,文章提出了CLFA方法,该方法利用BERT对文本进行编码,ViT(Vision Transformer)对图像进行编码,并借用CLIP作为教师模型,通过对比学习实现文本和图像特征的语义对齐。文章还设计了一个多任务学习架构,将特征对齐作为一个辅助任务来促进主要的分类任务。
文章通过在公开的多模态情感分析(MMSA)和多模态讽刺检测(MMSD)数据集上进行广泛的实验,证明了所提出模型的有效性。实验结果显示,CLFA模型在这些任务上显著优于多个基线模型,并且与包含外部知识的模型相比也取得了可比的结果。此外,文章还展示了CLFA方法在不同的跨模态聚合方法中的有效性,并且可以与其他基于知识的模型结合以获得更高的性能。
模型图
文章提出的CLFA模型的总体结构如上。文本和图像输入被分别馈送到BERT(Devlin等人,2019)和ViT(Dosovitskiy等人,2021)中,以获得它们各自的表示。然后通过对比学习,在CLIP表示的指导下,将文本和图像的不同表示投影到同一深度空间中,这是促进主要分类任务的子任务。然后,将文本和图像特征输入到交叉关注层中进行多模态融合,然后输入到分类层中预测结果。
技术细节
表示使用bert和vision transformer对文本和图片分别编码
使用CLIP得到文本和图像的编码,用于指导二者特征对齐,T为文本数据,I为图像数据
使用bert和vision transformer分别对句子和图像进行编码,并使用MLP使得维度与CLIP输出维度对齐
构建对比学习损失函数(以图像的为例),sim表示余弦相似度。
得到图像对比学习的损失函数。
同理也能得到文本的
因此最终图像-文本对比学习的损失函数为:
最后的cross attention:
Q文本信息,K、V是图像信息,得到的h经过FNN进行最后的分类了,不过这里叠了3层。
因此,算上分类的损失函数,最终的损失函数长这样:
α为参数,调节损失函数之间的平衡。
实验结果
MMSD(多模态讽刺检测)实验结果如下
多模态情感分析(MMSA)实验结果如下:
还有信息融合不同方法的实验,这里不展示了。
还有知识增强的实验(MMSD):
融入知识(OCR结果,和单词情感),最后的cross attention三层改动如下:文章来源:https://www.toymoban.com/news/detail-848042.html
第一层:
文本的自注意力
然后采用与CMGCN相同的方式(Liang et al,2022)融入单词情感:
第二层:
第三层(融入OCR结果):文章来源地址https://www.toymoban.com/news/detail-848042.html
到了这里,关于论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!