论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

这篇具有很好参考价值的文章主要介绍了论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

HMER论文系列
1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客
2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-CSDN博客
4、 论文阅读和分析:Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-CSDN博客
5、 论文阅读和分析:Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
6、 论文阅读和分析:Mathematical formula recognition using graph grammar_KPer_Yang的博客-CSDN博客
7、 论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-CSDN博客
8、论文阅读和分析:HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-CSDN博客

1.主要内容:

(1、提出创新的树结构解码器来表示树、输出树、优化基于注意力的编解码框架;

(2、设计一个问题说明特别是在复杂结构时字符解码失败的背后原因,图示解释为什么树结构在解码过程中使得更优的解码能力;

(3、证明在化学式识别和数学公式识别上,树解码器的有效性;

2.树解码器

论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

Figure 5. Illustration of tree decoder, including parent decoder part, child decoder part, memory attention part and an optional relation prediction part. “Pred” is short for “prediction”

树解码器使用GRU和注意力机制生成一系列的子树结构:
( o 1 c , o 1 p ) , ( o 2 c , o 2 p ) , … , ( o T c , o T p ) . (o_{1}^{\mathrm{c}},o_{1}^{\mathrm{p}}),(o_{2}^{\mathrm{c}},o_{2}^{\mathrm{p}}),\ldots,(o_{T}^{\mathrm{c}},o_{T}^{\mathrm{p}}). (o1c,o1p),(o2c,o2p),,(oTc,oTp).
需要添加一些规则,限制:

(1、每个孩子节点必须有一个父节点,因此不存在孤立节点;

(2、父节点必须是一个现存的节点;

2.1、parent解码器和child解码器
使用循环神经网络、注意力机制:


2.2、基于记忆的注意力

生成中间父亲节点序列和为训练父亲解码器的目标函数
d t j m e m = tanh ⁡ ( W m e m s t p + U m e m b e r s s j m e m ) \mathbf{d}_{tj}^{\mathrm{m}em}=\tanh(\mathbf{W}_{\mathrm{mem}}\mathbf{s}_t^{\mathrm{p}}+\mathbf{U}_{\mathrm{members}}\mathbf{s}_{j}^{\mathrm{mem}}) dtjmem=tanh(Wmemstp+Umemberssjmem)
G t j m e m = σ ( ν m e m T d t j m e m ) G^{\mathrm{m}em}_{tj}=\sigma(\mathbf{\nu}^{\mathrm{T}}_{\mathrm{mem}}\mathbf{d}^{\mathrm{mem}}_{tj}) Gtjmem=σ(νmemTdtjmem)

s t p \mathbf{s}_t^p stp:父亲解码器状态;

s j m e m \mathbf{s}_j^{mem} sjmem:孩子解码器状态 s t c \mathbf{s}_t^c stc存储,作为key;

父亲节点二分类训练损失:
L p = − ∑ t ∑ j [ G ˉ t j m e m log ⁡ ( G t j m e m ) + ( 1 − G ˉ t j m e m ) log ⁡ ( 1 − G t j mem ) ] \begin{aligned}\mathcal{L}_\mathrm{p}=-\sum_t\sum_j[\bar{G}_{tj}^\mathrm{mem}\log(G_{tj}^{\mathrm{mem}})\\ +(1-\bar{G}_{t j}^\mathrm{mem})\log(1-G_{tj}^\text{mem})]\end{aligned} Lp=tj[Gˉtjmemlog(Gtjmem)+(1Gˉtjmem)log(1Gtjmem)]
G ˉ t j m e m \bar{G}_{tj}^\mathrm{mem} Gˉtjmem:父亲节点的ground-truth;如果 j − t h j-th jth孩子节点被存储在内存中是step t t t的父亲节点则是1,否则是0;

在测试阶段,选择作为父亲节点;
o j ^ c , j ^ = argmax ⁡ ( G t j mem ) o^c_{\hat{j}},\hat{j}=\operatorname{argmax}(\mathbf{G}_{tj}^{\text{mem}}) oj^c,j^=argmax(Gtjmem)
2.4、关系预测

正如父亲上下文向量和孩子上下文向量包含空间信息,加上父亲节点和孩子节点的内容信息,可以计算关系:
p r e ( o t r e ) = s o f t m a x ( W o u t r e ( c t p , c c ) ) p^{\mathrm{re}}(o_t^{\mathrm{re}})=\mathrm{softmax}\left(\mathbf{W}^{\mathrm{re}}_{\mathrm{out}}(\mathbf{c}_t^{\mathrm{p}},\mathbf{c}^{\mathrm{c}})\right) pre(otre)=softmax(Woutre(ctp,cc))
损失函数:
L r e = − ∑ t log ⁡ p r e ( v t ) \mathcal{L}_{\mathrm{re}}=-\sum_t\log p^{\mathrm{re}}(v_t) Lre=tlogpre(vt)
2.5、实现在父亲注意力和孩子注意力的正则化

在不同时间步中的孩子节点,可能有相同的父亲节点,这时不同时间步的孩子节点的父亲节点的注意力概率是相似的。
L r e g = − ∑ t α ^ t p log ⁡ α ^ t p α t P \mathcal{L}_{\mathrm{reg}}=-\sum_t\hat{\alpha}_t^{\mathrm{p}}\log\dfrac{\hat{\alpha}_t^\mathrm{p}}{\alpha_t^\mathrm{P}}\quad Lreg=tα^tplogαtPα^tp

3、损失函数

O = λ 1 L c + λ 2 L p + λ 3 L r e + λ 4 L r e g O=\lambda_1\mathcal{L_c}+\lambda_2\mathcal{L_p}+\lambda_3\mathcal{L_\mathfrak{re}}+\lambda_4\mathcal{L_{\mathfrak{reg}}} O=λ1Lc+λ2Lp+λ3Lre+λ4Lreg

实验经验上: λ 1 = λ 2 = 1 ; λ 4 = 0.1 ; \lambda_1=\lambda_2=1;\lambda_4=0.1; λ1=λ2=1;λ4=0.1;如果是数学公式识别 λ 3 = 1 \lambda_3=1 λ3=1,如果是化学式识别 λ 3 = 0 \lambda_3=0 λ3=0;

4、结论:

论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

Table 1. Evaluation of math formula recognition systems on CROHME 2014, CROHME 2016 and CROHME 2019 test sets (in %). “ExpRate”, “≤ 1 s.error” and “≤ 1 s.error” means expression recognition rate when 0 to 2 symbol or structural level errors can be tolerated, “StruRate” means structure recognition rate.

论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

Figure 8. Split the SMILES test set into four sub-sets (“Easy”, “Normal”, “Hard”, “Massive”) based on the length of testing SMILES strings.

论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

Table 3. Recognition rate comparison (in %) between string decoder and tree decoder on SMILES dataset. “Easy”, “Normal”, “Hard”, “Massive” denote the four sub-sets of test set with different length of SMILES string, “All” means the overall recognition rate on the whole test set (in %). “SD” and “TD” refer to string decoder and tree decoder based approaches, respectively.

参考:

A Tree-Structured Decoder for Image-to-Markup Generation (ustc.edu.cn)文章来源地址https://www.toymoban.com/news/detail-403684.html

到了这里,关于论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节

    2024年01月20日
    浏览(11)
  • Is Mapping Necessary for Realistic PointGoal Navigation 论文阅读和代码分析

    Is Mapping Necessary for Realistic PointGoal Navigation 论文阅读和代码分析

    题目 :Is Mapping Necessary for Realistic PointGoal Navigation? 作者 :Ruslan Partsey、 Erik Wijmans 代码地址 :https://rpartsey.github.io/pointgoalnav/ 来源 :CVPR 时间 :2022 目标:证明显式地图不是成功导航的必要条件。 对比实验 数据集(模拟器):无地图导航模型的标准数据集Gibson。 模拟器和现

    2024年02月15日
    浏览(8)
  • 【论文阅读】GPT4Graph: Can Large Language Models Understand Graph Structured Data?

    【论文阅读】GPT4Graph: Can Large Language Models Understand Graph Structured Data?

    作者:Jiayan Guo, Lun Du, Hengyu Liu 文章链接:GPT4Graph: Can Large Language Models Understand Graph Structured Data? An Empirical Evaluation and Benchmarking 代码链接:GPT4Graph: Can Large Language Models Understand Graph Structured Data? An Empirical Evaluation and Benchmarking 通过使用自然语言描述图并向LLM提供文本描述,直接

    2024年01月20日
    浏览(14)
  • MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

    MapTR:Structured Modeling and Learning for Online Vectorized HD Map Construction——论文笔记

    参考代码:MapTR 介绍:这篇文章提出了一种向量化高清地图(vectorized HD map)构建的方法,该方法将高清地图中的元素(线条状或是多边形的)构建为由一组点和带方向边的组合。由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的,对此文章对

    2024年02月15日
    浏览(13)
  • 论文阅读和分析:Binary CorNET Accelerator for HR Estimation From Wrist-PPG

    论文阅读和分析:Binary CorNET Accelerator for HR Estimation From Wrist-PPG

    主要贡献: 一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后,减少计算量,又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.67±5.49 bpm。该设计采用ST65 nm技术框架,实现3 GOPS @ 1 MHz,每个窗口消耗56.1 μ J mu J

    2024年02月08日
    浏览(11)
  • LSM(Log-Structured Merge Tree)

    LSM(Log-Structured Merge Tree)

    LSM Tree 全称 日志结构合并树 ( Log-Structured Merge Tree )。对于存储介质为 磁盘 或 固态盘 的数据库,长期以来主流使用 B+树 这种索引结构来实现快速数据查找。当数据量不太大时,B+树读写性能表现非常好。但是在海量数据情况下,B+树越来越高,由于B+树更新和删除数据时需

    2024年02月13日
    浏览(9)
  • 论文阅读-PIM-tree:一种面向内存处理的抗偏移索引

    论文阅读-PIM-tree:一种面向内存处理的抗偏移索引

    论文名称: PIM-tree: A Skew-resistant Index for Processing-in-Memory 当今的 内存索引性能受到内存延迟/带宽瓶颈 的限制。Processing-in-memory (PIM) 是一种新兴的方法,可能通过实现低延迟内存访问,其聚合内存带宽随 PIM 节点数量扩展,来缓解这种瓶颈。然而,在工作负载偏斜的情况下,

    2024年02月21日
    浏览(6)
  • 【大数据存储引擎】LSM-Tree 日志结构合并树 (Log-Structured Merge Tree) 极简教程

    【大数据存储引擎】LSM-Tree 日志结构合并树 (Log-Structured Merge Tree) 极简教程

      目录 LSM-Tree :日志结构合并树 简介 RocksDB 架构 Motivation behind LSM TreesLSM 树背后的动机

    2023年04月08日
    浏览(11)
  • 【论文阅读——Profit Allocation for Federated Learning】

    【论文阅读——Profit Allocation for Federated Learning】

    由于更为严格的数据管理法规,如《通用数据保护条例》(GDPR),传统的机器学习服务生产模式正在转向联邦学习这一范式。联邦学习允许多个数据提供者在其本地保留数据的同时,协作训练一个共享模型。推动联邦学习实际应用的关键在于如何将联合模型产生的利润公平地

    2024年04月13日
    浏览(17)
  • [论文阅读]A ConvNet for the 2020s

    [论文阅读]A ConvNet for the 2020s

    视觉识别的咆哮的20年代开始于ViTs的引入,它很快取代了卷积神经网络,成为最先进的图像分类模型。另一方面,一个原始的ViT在用于一般的比如目标识别和语义分割的计算机视觉任务的时候面临困难。层次Transformer(例如,Swin-Transformer),它重新引入了几个卷积神经网络先验

    2024年02月07日
    浏览(14)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包