Attentive Moment Retrieval in Videos论文笔记

这篇具有很好参考价值的文章主要介绍了Attentive Moment Retrieval in Videos论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0.论文地址

2018 Attentive Moment Retrieval in Videos

1.摘要

设计了一种记忆注意机制来强调查询中提到的视觉特征,并同时合并它们的上下文,在DiDeMo and TACoS两个数据集表现的比较好。

2.引言

候选时刻的选择和相关性估计是任务的关键所在,目前常见的方法是在不同尺度上对滑动窗口进行密集采样。但是这种方法存在计算成本高和搜索空间大的问题。另外,相关性估计是一个典型的跨模态检索问题。一种可行的解决方案是,首先将时刻候选的视觉特征和查询的文本特征投影到一个共同的潜在空间中,然后根据它们的相似性计算相关性。然而,这种方法忽略了时刻和查询内部的时空信息。例如,对于查询“一个穿橙色衣服的女孩先经过摄像头”,“先”这个词是相对的,需要有时序上下文来进行正确理解。

作者提出了ACRN模型并指出文章的贡献有3个:

  • 我们提出了一种新颖的注意力交叉模态检索模型,它同时表征注意力上下文视觉特征和跨模态特征表示。据我们所知,现有的研究要么只考虑其中一种模型,要么没有将它们集成到一个统一的模型中。
  • 为了在自然语言视频检索任务中精确定位时刻,我们首次引入了一种临时记忆注意力网络,为每个时刻记住其上下文信息,将自然语言查询作为注意力网络的输入,自适应地为记忆表示分配权重。
  • 两个基准数据集上进行了广泛的实验,证明了性能的改进。作为副产品,我们发布了数据和代码。

3.模型结构

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

  1. 基于记忆的注意力网络,用于增强每个时刻的视觉嵌入表示,其中权重上下文信息用于进行注意力加权。

  2. 跨模态融合网络,用于探索时刻-查询的表示表示与视觉特征的内部和外部交互方式,生成每个时刻和查询之间的联合嵌入表示。

  3. 回归网络,用于预测每个时刻与查询的关联度得分以及黄金时刻的开始和结尾时间点之间的偏移量。

3.1Memory Attention Network

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

我们将视频片段的视觉特征和查询的文本特征都投影到一个共同的潜在空间中,并将它们输入到一个相似度函数中进行计算。计算得到的分数最高的视频片段会被作为最终的检索结果返回。具体来说,式子中的xc和q分别代表视频片段和查询的嵌入向量,fΘ(·)是一个映射函数,用于将xc和q映射到共同的潜在空间中,同时д表示相似度函数,用于计算视频片段和查询之间的相似度。
作者考虑通过赋予每个上下文中的不同片段一个注意力权重来明确捕捉其变化重要性。使用一种记忆注意力网络来实现这个想法,该网络由两个部分组成,可以为每个上下文片段的嵌入分配一个注意力权重。记忆注意力网络的细节如下图所示:
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
每个视频与查询问题之间的相关度得分(e(cj,q))。其中,cj表示视频帧的特征向量,q表示问题的嵌入向量,Wcq、Wqq、Wcx是模型的可训练参数,bcq、bq、bc是偏置项,σ代表sigmoid函数。然后,将所有相关度得分归一化为注意力权重αcj,用于后续计算。其中,nc表示视频帧的数量,e(ck,q)是所有视频帧与查询问题之间相关度得分的总和。
在得到注意力权重αcj之后,进行融合特征:
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
查询文本就是一个简单的
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

3.2Cross-Modal Fusion Network

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

  • 平均池化
    每个输入嵌入应用一个大小为n的线性Filter,输出中的每个条目都是相应大小的核窗口的值的平均值。
  • 张量融合
    Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

4.训练

4.1对齐损失

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
其中P为正矩查询对的集合,即对齐的矩查询对;N为负矩查询对的集合,即不对齐的矩查询对;α1和α2是控制正、负矩查询对之间权值的超参数。

4.2定位回归损失

由于采用多尺度时间滑动窗口来分割视频,不同的候选时刻有不同的持续时间。因此,对于每个时刻-查询对,我们不仅需要判断该时刻是否与查询相关,还需要决定与黄金时刻相比的定位偏移量。在形式上,我们表示起始点和结束点的偏移值如下:
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
其中(ts,te)为给定查询的起始点和结束点,(τs,τe)为p中候选时刻的起始点和结束点。同时,我们使用δ∗= [δs∗,δe∗]来表示偏移。
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

4.3合并

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

5.实验

5.1数据集

TACoS
DiDeMo

5.2效果

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能

5.3ACRN的研究

  • ACRN -a:采用了平均池化来取代我们提出的记忆注意网络来记忆上下文嵌入。
  • ACRN-m:我们在等式中消除了记忆注意模型中的记忆部分。也就是说,每个上下文注意值只与其自身和查询相关,而不考虑上下文信息。
    Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能
  • ACRN-c:我们采用了早期的融合策略,即连接多模态特征。

Attentive Moment Retrieval in Videos论文笔记,Ai论文笔记,论文阅读,人工智能文章来源地址https://www.toymoban.com/news/detail-681320.html

6未来工作

  • 计划设计一个端到端模型,它观察时刻,并决定下一步看哪里和何时做出预测。它不需要用多尺度滑动窗口预分割视频,并且可以快速缩小搜索空间。
  • 在帧层面上研究不同的注意网络,并将它们纳入我们的模型,因为框架的不同部分对场景和查询理解有不同的影响
  • 将在个性化时刻推荐中考虑我们的框架,其中检索结果与用户的个人兴趣相关。特别是,当给定一个视频时,个人查询历史记录被视为与用户-项目交互,以更好地捕捉用户对时刻的偏好。

到了这里,关于Attentive Moment Retrieval in Videos论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 论文阅读:Retrieval-augmented Generation across Heterogeneous Knowledge

    论文阅读:Retrieval-augmented Generation across Heterogeneous Knowledge

    跨异构知识的检索增强生成 NAACL 2022 论文链接 摘要 检索增强生成(RAG)方法越来越受到NLP社区的关注,并在许多NLP下游任务上取得了最先进的性能。与传统的预训练生成模型相比, RAG方法具有知识获取容易、可扩展性强、训练成本低等显著优点 。尽管现有的RAG模型已应用于

    2024年02月06日
    浏览(11)
  • 【论文阅读】EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusi

    【论文阅读】EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusi

    在弱条件下使用音视频扩散模型生成富有表现力的肖像视频(音频+图像=动态视频) paper:[2402.17485] EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions (arxiv.org) code:喜闻乐见没开源 通过关注音频Prompt和面部动作之间的动态和关系来解

    2024年04月13日
    浏览(11)
  • 【论文阅读笔记】Endoscopic navigation in the absence of CT imaging

      上一篇的导航导论,是需要先验,也就是需要事先拍摄堆叠的图片(比如CT图等),在体外构建相应的3D模型,再与内窥镜图像进行实时匹配。对于很多情况来说,是无法拥有如此充足的先验的。所以,本文探索的是没有额外CT图像的一个内窥镜导航算法,应用场景是鼻腔

    2024年02月11日
    浏览(12)
  • 论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

    论文笔记--Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

    标题:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov 日期:2019 期刊:arxiv preprint   传统的RNN常常面临梯度消失或爆炸的问题,LSTM的提出在一定程度上有所缓解,但实验表明LSTM只能有效利用

    2024年02月07日
    浏览(13)
  • 【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

    【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

    原文地址:REPLUG: Retrieval-Augmented Black-Box Language Models 本文提出 REPLUG ,一个将语言模型视为黑盒检索增强的语言模型架构。在 REPLUG 中,仅将检索得到的文档拼接到原有输入前面即可,不需要像以前一样更新语言模型参数。该架构中可以通过更新检索器进一步提升性能。 给一

    2024年02月11日
    浏览(30)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(12)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(10)
  • Abandoning the Bayer-Filter to See in the Dark 论文阅读笔记

    Abandoning the Bayer-Filter to See in the Dark 论文阅读笔记

    这是CVPR2022的一篇暗图增强的文章,TCL AI Lab与福州大学,韩国延世大学,安徽大学的合作论文 网络以黑暗环境下拍摄的color raw为输入,用一个de-bayer-filter module恢复无拜尔滤波器的raw data(文章认为拜尔滤波器使得光子数量被滤去许多,无拜尔滤波器的摄像机拍摄得到的raw d

    2024年02月16日
    浏览(11)
  • 【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

    【论文阅读笔记】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【开源】 本文提出的SAM3D模型是针对三维体积医学图像分割的一种新方法。其核心在于将“分割任何事物”(SAM)模型的预训练编码器与一个轻量级的3D解码器相结合。与

    2024年01月20日
    浏览(18)
  • 论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

    论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

    资源地址 Attention is all you need.pdf(0积分) - CSDN 图1——Transformer结构图 图2——Attention结构图 Background 中说,ByteNet和ConvS2S都使用了CNN结构作为基础模块去计算input和output之间的潜在联系,其中,关联来自两个任意输入或输出位置的信号所需的计算量,伴随着distance的增长而增长,

    2024年01月16日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包