相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记

这篇具有很好参考价值的文章主要介绍了相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

😄 额,本想学学XLNet的,然后XLNet又是以transformer-XL为主要结构,然后transformer-XL做了两个改进:一个是结构上做了segment-level的循环机制,一个是在attention机制里引入了相对位置编码信息来避免不同segment的同一位置采用相同的绝对位置编码的不合理。但无奈看到相对位置编码这里我懵住了,只好乖乖追溯回去原始论文来学习学习嘿嘿🐶。

🦄 本文将以公式原理+举例的方式让你秒懂,放心食用。

🚀 RPR这论文就5页,方法部分就2页,看完结合网上理解下就ok了。
🚀 论文链接:https://arxiv.org/pdf/1803.02155.pdf

👀 三位谷歌大佬的作品:
相对位置编码之rpr,NLP,算法岗面试,transformer,深度学习,论文阅读,相对位置编码,人工智能文章来源地址https://www.toymoban.com/news/detail-581928.html

🚀 导航

ID 内容
NO.1 1、简单背景介绍+提出动机
NO.2

到了这里,关于相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【深度学习】Transformer,Self-Attention,Multi-Head Attention

    【深度学习】Transformer,Self-Attention,Multi-Head Attention

    必读文章: https://blog.csdn.net/qq_37541097/article/details/117691873 论文名:Attention Is All You Need Query(Q)表示当前时间步的输入信息,它与Key(K)进行点积操作,用于计算注意力权重。 Key(K)表示序列中所有时间步的信息,与Query(Q)进行点积操作,用于计算注意力权重。 Value(

    2024年02月12日
    浏览(8)
  • 自注意力(Self-Attention)与Multi-Head Attention机制详解

    自注意力(Self-Attention)与Multi-Head Attention机制详解

      自注意力机制属于注意力机制之一。与传统的注意力机制作用相同,自注意力机制可以更多地关注到输入中的关键信息。self-attention可以看成是multi-head attention的输入数据相同时的一种特殊情况。所以理解self attention的本质实际上是了解multi-head attention结构。   对于一个mul

    2024年02月02日
    浏览(13)
  • self-attention为什么要除以根号d_k

    self-attention的公式为 a t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K d k ) V attention(Q,K,V)=Softmax( frac{QK}{sqrt{d_{k}}})V a tt e n t i o n ( Q , K , V ) = S o f t ma x ( d k ​ ​ Q K ​ ) V 个人理解,除以 d k sqrt{d_{k}} d k ​ ​ 的原因有两点: d k d_{k} d k ​ 是词向量/隐藏层的维度 1、首先要除以一个数

    2023年04月10日
    浏览(9)
  • 层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理

    层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理

    本文基于李宏毅老师对 Self-Attention 的讲解,进行理解和补充,并结合Pytorch代码,最终目的是使得自己和各位读者更好的理解 Self-Attention 李宏毅Self-Attention链接: https://www.youtube.com/watch?v=hYdO9CscNes PPT链接见视频下方 通过本文的阅读,你可以获得以下知识: 什么是Self-Attention,为

    2024年02月02日
    浏览(12)
  • NLP入门:word2vec & self-attention & transformer & diffusion的技术演变

    NLP入门:word2vec & self-attention & transformer & diffusion的技术演变

    这一段时间大模型的相关进展如火如荼,吸引了很多人的目光;本文从nlp领域入门的角度来总结相关的技术路线演变路线。 1、introduction 自然语言处理(Natural Language Processing),简称NLP,是通过统计学、数学模型、机器学习等相关技术研究人类语言的特征,对其进行数学的表

    2024年02月11日
    浏览(13)
  • Transformer的Q、K、V和Mutil-Head Self-Attention(超详细解读)

    Transformer的Q、K、V和Mutil-Head Self-Attention(超详细解读)

    目录 一.什么是Q、K、V 二.Mutil-Head Self-Attention Transformer大行其道,在众多领域取得了不可忽视的成就。如今大火的语言大模型LLM也都是基于Transformer,但是Transformer中的Q、K、V和多头注意力到底是什么呢?这里简单做个学习记录,进行再一次认识和掌握。 Transformer中的Q、K和

    2024年02月06日
    浏览(12)
  • 相对位置编码和绝对位置编码

    相对位置编码和绝对位置编码

    位置编码的区别: 相对位置编码和绝对位置编码是两种不同的位置编码方法。 绝对位置编码是一种基于位置嵌入的方法,其中每个位置都被分配了一个唯一的位置向量。这些向量是固定的,与输入序列的内容无关。这种编码方式对于处理较短的序列效果较好,但在处理长序

    2024年02月15日
    浏览(15)
  • 【读点论文】Separable Self-attention for Mobile Vision Transformers,通过引入隐变量将Q矩阵和K矩阵的算数复杂度降低成线性复杂度,分步计算注意力。

    【读点论文】Separable Self-attention for Mobile Vision Transformers,通过引入隐变量将Q矩阵和K矩阵的算数复杂度降低成线性复杂度,分步计算注意力。

    移动视觉transformer(MobileViT)可以在多个移动视觉任务中实现最先进的性能,包括分类和检测。虽然这些模型的参数较少, 但与基于卷积神经网络的模型相比,它们具有较高的延迟 。MobileViT的主要效率瓶颈是transformer中的多头自我注意(MHA),相对于令牌(或补丁)的数量k,它需要

    2023年04月16日
    浏览(9)
  • Swin Transformer之相对位置编码详解

    Swin Transformer之相对位置编码详解

    目录 一、概要 二、具体解析 1. 相对位置索引计算第一步  2. 相对位置索引计算第二步 3. 相对位置索引计算第三步      在 Swin Transformer 采用了 相对位置编码 的概念。       那么相对位置编码的作用是什么呢?           解释: 在解释相对位置编码之前,我们需要先了解

    2023年04月16日
    浏览(10)
  • 相对位置编码(二) Relative Positional Encodings - Transformer-XL

    相对位置编码(二) Relative Positional Encodings - Transformer-XL

    在Transformer-XL中,由于设计了segments,如果仍采用transformer模型中的绝对位置编码的话,将不能区分处不同segments内同样相对位置的词的先后顺序。 比如对于segmenti��������的第k个token,和segmentj��������的第k个token的绝对位置编码是完全相同的。 鉴于这样的

    2024年02月12日
    浏览(8)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包