相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记

1年前作者：#苦行僧分类：Toy博客阅读(12)违法举报

这篇具有很好参考价值的文章主要介绍了相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

😄 额，本想学学XLNet的，然后XLNet又是以transformer-XL为主要结构，然后transformer-XL做了两个改进：一个是结构上做了segment-level的循环机制，一个是在attention机制里引入了相对位置编码信息来避免不同segment的同一位置采用相同的绝对位置编码的不合理。但无奈看到相对位置编码这里我懵住了，只好乖乖追溯回去原始论文来学习学习嘿嘿🐶。

🦄 本文将以公式原理+举例的方式让你秒懂，放心食用。

🚀 RPR这论文就5页，方法部分就2页，看完结合网上理解下就ok了。
🚀 论文链接：https://arxiv.org/pdf/1803.02155.pdf

👀 三位谷歌大佬的作品：
相对位置编码之rpr,NLP,算法岗面试,transformer,深度学习,论文阅读,相对位置编码,人工智能文章来源地址https://www.toymoban.com/news/detail-581928.html

🚀 导航

ID	内容
NO.1	1、简单背景介绍+提出动机
NO.2

到了这里，关于相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【深度学习】Transformer，Self-Attention，Multi-Head Attention
必读文章： https://blog.csdn.net/qq_37541097/article/details/117691873 论文名：Attention Is All You Need Query（Q）表示当前时间步的输入信息，它与Key（K）进行点积操作，用于计算注意力权重。 Key（K）表示序列中所有时间步的信息，与Query（Q）进行点积操作，用于计算注意力权重。 Value（
2024年02月12日
浏览(8)
自注意力(Self-Attention)与Multi-Head Attention机制详解
自注意力机制属于注意力机制之一。与传统的注意力机制作用相同，自注意力机制可以更多地关注到输入中的关键信息。self-attention可以看成是multi-head attention的输入数据相同时的一种特殊情况。所以理解self attention的本质实际上是了解multi-head attention结构。对于一个mul
2024年02月02日
浏览(13)
self-attention为什么要除以根号d_k
self-attention的公式为 a t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K d k ) V attention(Q,K,V)=Softmax( frac{QK}{sqrt{d_{k}}})V a tt e n t i o n ( Q , K , V ) = S o f t ma x ( d k Q K ) V 个人理解，除以 d k sqrt{d_{k}} d k 的原因有两点： d k d_{k} d k 是词向量/隐藏层的维度 1、首先要除以一个数
2023年04月10日
浏览(9)
层层剖析，让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理
本文基于李宏毅老师对 Self-Attention 的讲解，进行理解和补充，并结合Pytorch代码，最终目的是使得自己和各位读者更好的理解 Self-Attention 李宏毅Self-Attention链接: https://www.youtube.com/watch?v=hYdO9CscNes PPT链接见视频下方通过本文的阅读，你可以获得以下知识：什么是Self-Attention，为
2024年02月02日
浏览(12)
NLP入门：word2vec & self-attention & transformer & diffusion的技术演变
这一段时间大模型的相关进展如火如荼，吸引了很多人的目光；本文从nlp领域入门的角度来总结相关的技术路线演变路线。 1、introduction 自然语言处理（Natural Language Processing），简称NLP，是通过统计学、数学模型、机器学习等相关技术研究人类语言的特征，对其进行数学的表
2024年02月11日
浏览(13)
Transformer的Q、K、V和Mutil-Head Self-Attention（超详细解读）
目录一.什么是Q、K、V 二.Mutil-Head Self-Attention Transformer大行其道，在众多领域取得了不可忽视的成就。如今大火的语言大模型LLM也都是基于Transformer，但是Transformer中的Q、K、V和多头注意力到底是什么呢？这里简单做个学习记录，进行再一次认识和掌握。 Transformer中的Q、K和
2024年02月06日
浏览(12)
相对位置编码和绝对位置编码
位置编码的区别：相对位置编码和绝对位置编码是两种不同的位置编码方法。绝对位置编码是一种基于位置嵌入的方法，其中每个位置都被分配了一个唯一的位置向量。这些向量是固定的，与输入序列的内容无关。这种编码方式对于处理较短的序列效果较好，但在处理长序
2024年02月15日
浏览(15)
【读点论文】Separable Self-attention for Mobile Vision Transformers，通过引入隐变量将Q矩阵和K矩阵的算数复杂度降低成线性复杂度，分步计算注意力。
移动视觉transformer(MobileViT)可以在多个移动视觉任务中实现最先进的性能，包括分类和检测。虽然这些模型的参数较少，但与基于卷积神经网络的模型相比，它们具有较高的延迟。MobileViT的主要效率瓶颈是transformer中的多头自我注意(MHA)，相对于令牌(或补丁)的数量k，它需要
2023年04月16日
浏览(9)
Swin Transformer之相对位置编码详解
目录一、概要二、具体解析 1. 相对位置索引计算第一步 2. 相对位置索引计算第二步 3. 相对位置索引计算第三步在 Swin Transformer 采用了相对位置编码的概念。那么相对位置编码的作用是什么呢？解释：在解释相对位置编码之前，我们需要先了解
2023年04月16日
浏览(10)
相对位置编码(二) Relative Positional Encodings - Transformer-XL
在Transformer-XL中，由于设计了segments，如果仍采用transformer模型中的绝对位置编码的话，将不能区分处不同segments内同样相对位置的词的先后顺序。比如对于segmenti��的第k个token，和segmentj��的第k个token的绝对位置编码是完全相同的。鉴于这样的
2024年02月12日
浏览(8)