[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation

这篇具有很好参考价值的文章主要介绍了[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

这是论文Glancing Transformer for Non-Autoregressive Neural Machine Translation的笔记。

传统的非自回归文本生成速度较慢,因为需要给定之前的token来预测下一个token。但自回归模型虽然效率高,但性能没那么好。
这篇论文提出了Glancing Transformer,可以只需要一次解码,并行地文本生成。并且效率不输于Transformer这种自回归方法。

简介

Transformer变成了最广泛使用的机器翻译架构。尽管它的表现很好,但Transformer的解码是低效的因为它采用序列自回归因子分解来建模概率,见下图1a。最近关于非自回归Transformer(non-autoregressive transformer,NAT)的研究的方向是并行解码目标token来加速生成。然而,纯粹(vanilla)的NAT在翻译质量上仍然落后于Transformer。NAT假设给定源句子后目标token是条件独立的(图1b)。作者认为NAT的条件独立假设阻碍了学习目标句子中单词的相关性(依赖关系)。这种相关性是至关重要的,通常Transformer通过从左到右解码来显示地捕获它。

[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation,论文翻译/笔记,论文阅读,transformer,机器翻译
也有一些补救方法提出了来捕获单词的相关性,同时保留并行解码。他们的共同思想是通过迭代解码目标token,每次解码都使用掩码语言模型进行训练(图1c)。因为这些模型需要多次解码,它的生成速度显著低于纯粹的Transformer。而仅单次生成的方法表现比自回归Tran文章来源地址https://www.toymoban.com/news/detail-650251.html

到了这里,关于[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet:用于医学图像分割的类Unet纯Transformer 2022年发表在 Computer Vision – ECCV 2022 Workshops Paper Code 在过去的几年里,卷积神经网络(CNN)在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经

    2024年01月23日
    浏览(13)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(9)
  • 论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

    论文阅读 - Non-Local Spatial Propagation Network for Depth Completion

    本文提出了一种非局部的空间传播网络用于深度图补全,简称为NLSPN。 (1)为什么需要深度图补全? 在AR、无人机控制、自动驾驶和运动规划等应用当中,需要知道物体的稠密深度信息。现有的大部分深度传感器,如雷达、RGB-D相机等,可以提供RGB图片和准确的稀疏深度图,

    2024年02月19日
    浏览(10)
  • 论文阅读 | Cross-Attention Transformer for Video Interpolation

    论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:【here】 传统的插帧方法多用光流,但是光流的局限性在于 第一:它中间会算至少两个 cost volumes,它是四维的,计算量非常大 第二:光流不太好处理遮挡(光流空洞)以及运动的边缘(光流不连续)

    2024年02月09日
    浏览(16)
  • 论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文阅读:Multimodal Graph Transformer for Multimodal Question Answering

    论文名 :Multimodal Graph Transformer for Multimodal Question Answering 论文链接 尽管 Transformer模型 在视觉和语言任务中取得了成功,但它们经常隐式地从大量数据中学习知识,而不能直接利用结构化的输入数据。另一方面, 结构化学习方法 ,如集成先验信息的图神经网络(gnn),几乎无法

    2024年02月04日
    浏览(8)
  • 论文阅读:FCB-SwinV2 Transformer for Polyp Segmentation

    论文阅读:FCB-SwinV2 Transformer for Polyp Segmentation

    这是对FCBFormer的改进,我的关于FCBFormer的论文阅读笔记:论文阅读FCN-Transformer Feature Fusion for PolypSegmentation-CSDN博客 依然是一个双分支结构,总体结构如下: 其中一个是全卷积分支,一个是Transformer分支。 和FCBFormer不同的是,对两个分支都做了一些修改。 本文没有画FCB分支的

    2024年04月24日
    浏览(10)
  • 【论文阅读】Augmented Transformer network for MRI brain tumor segmentation

    【论文阅读】Augmented Transformer network for MRI brain tumor segmentation

    Zhang M, Liu D, Sun Q, et al. Augmented transformer network for MRI brain tumor segmentation[J]. Journal of King Saud University-Computer and Information Sciences, 2024: 101917. [开源] IF 6.9 SCIE JCI 1.58 Q1 计算机科学2区 【核心思想】 本文提出了一种新型的MRI脑肿瘤分割方法,称为增强型transformer 网络(AugTransU-Net),

    2024年01月23日
    浏览(13)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(12)
  • Transformer 论文学习笔记

    Transformer 论文学习笔记

    重新学习了一下,整理了一下笔记 论文 :《Attention Is All You Need》 代码 :http://nlp.seas.harvard.edu/annotated-transformer/ 地址 :https://arxiv.org/abs/1706.03762v5 翻译 :Transformer论文翻译 特点 : 提出一种不使用 RNN、CNN,仅使用注意力机制的新模型 Transformer; 只关注句内各 token 之间的关

    2024年02月14日
    浏览(12)
  • 论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的,这样的局限性有二: 第一是卷积操作的感受野受限,很难建立起全局依赖, 第二就是卷积操作的卷积核初始化是固定的,而attention的设计可以通过像素之间的关系自适

    2024年02月05日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包