从模式识别到图像文档分析——浅析场景文本识别研究

这篇具有很好参考价值的文章主要介绍了从模式识别到图像文档分析——浅析场景文本识别研究。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文字作为人类语言的书面形式,是文本图像中最为重要的信息载体之一,不同于其他自然事物,文字由人类创造并用于记录对外界事物的认知以及对内在思想和情感的表达, 更具抽象性和概括性,也是一种更高层次的语义信息。文本信息广泛存在于现实世界的各种场景中,例如书籍、报纸、合同、发票、收据、名片、身份证件等等,如果能够有效地提取图像中的文字信息,就可以快速而准确地理解图像所包含的场景和所表达的含义,并提高信息传播效率和准确度。

在实现从图像中提取文本信息的目标过程中,不得不提到模式识别和图像文档分析,其中,

  • 模式识别是指通过计算机技术和算法,将输入的数据与预定义的模板或规则进行匹配和分类,从而实现对目标物体、场景或事件等的自动识别和理解。
  • 图像文档分析则过对文本、图形等内容进行结构化处理和分析,提取出其中蕴含的语义信息,并为后续搜索、推理或决策等应用提供支持。这两种技术相互协作,在图像处理领域发挥着重要作用。

一、场景文本识别工作简述

传统的OCR技术通常只能处理扫描文档图像中的文字,而无法很好处理场景文本检测和识别。复杂自然场景图像中任意形状的文字在商店招牌、商品包装、广告海报、书籍报刊等日常生活中随处可见,如下图,这种文档图像具有复杂性和多样性,包括灵活多变的字体、颜色、大小方向以及语言等因素,而获取图像时引入的干扰如不均匀光照、低对比度、低分辨率和遮挡等问题直接导致传统OCR技术效果的不理想。

从模式识别到图像文档分析——浅析场景文本识别研究

复杂场景文本例图

基于 CNN 的场景文本检测方法,在精度和能力方面都显著超越了传统的基于滑动窗口和基于连通域分析的文本检测方法,在场景文本识别上取得了突破性的进展,如Faster R-CNNSSPYOLODenseBoxFCN通过改进基于CNN的目标检测或者分割框架已经能够较好地处理水平和任意方向上的文字,但其仍无法解决弯曲文字检测问题。

从模式识别到图像文档分析——浅析场景文本识别研究

Faster R-CNN模型结构图(图源Faster R-CNN原论文)

基于两阶段的自顶向下方法通常先利用候选区域生成网络来生成粗糙的矩形候选区域框,然后从候选区域框中预测一个更紧致的多边形包围框来检测更加复杂的文档图像,不过对于密集的弯曲的文本行并不鲁棒。基于单阶段的自顶向下方法使用极坐标系、贝塞尔曲线以及傅里叶变换等方式来表示任意形状的文本,并通过直接回归相应的曲线表达参数进行检测。这些方法展现了对文本进行检测的能力,但是其检测能力受限于网络感受野,难以有效地检测较长或尺寸较大的文本行。

与自顶向下的方法不同,自底向上的方法可以更自然地摆脱候选区域生成模块的限制和对网络感受野的要求。这类方法一般先检测文本像素或文本片段(字符或者文本行的一部分),然后再将它们拼成文本行。虽然理论上通过这种方式可以有效应对文字长宽比变化和任意形状的文字,但是实际中自底向上的方法都面临一个共有难题,即复杂的文本行串行问题。
从模式识别到图像文档分析——浅析场景文本识别研究

综上所述:文本检测领域经历了从水平文字检测多方向文字检测再到任意形状文字检测这样越来越有挑战性的应用场景转变。

在复杂场景下,由于光照、遮挡等因素的影响,图像中的文本经常会出现模糊、失真、变形等问题;其次,文本与背景之间偶尔存在相似度较高的情况,文字颜色和背景颜色相近或者噪点过多等情况会严重干扰文本的准确识别;此外,在某些场景下(如手写体、印章、二维码等),不同于常规字体的字形特征也会增加识别难度。复杂场景下的文本识别依然是目前难以解决的问题。

二、基于视觉关系预测复杂场景文本识别

基于视觉关系预测的文本检测方法是一种新兴的文本检测方法,它通过利用图像中字符之间的视觉关系,如字符间距、角度等来检测和识别文本。该方法一般包括四个模块:

  1. 特征金字塔网络:用于对输入图像计算一个多尺度的卷积特征金字塔。
  2. 文本片段检测模块:从特征金字塔不同层级上检测所有可能的不同尺寸大小的文本片段。
  3. 候选关系对构建模块:从检测到的文本片段中构建一定数量的主客体候选关系对。
  4. 关系预测模块:用于预测每个主客体候选关系对中的两个文本片段是否属于同一个文本行。

通过以上四个模块的联合作用,该方法可以实现准确、高效地检测和识别图像中的文本行,接下来详细给大家分享一下这个基于视觉关系预测的文本检测方法。

2.1、FPN骨干网络

卷积网络中,随着网络深度的增加,特征图的尺寸越来越小,语义信息也越来越抽象。浅层特征图的语义信息较少,目标位置相对比较准确,深层特征图的语义信息比较丰富,但目标位置比较粗略,难以检测。

基于此问题,特征金字塔FPN提出了利用深度卷积神经网络中层级特征来构建特征金字塔,通过自顶向下通路和横向连接的方式将低分辨率语义信息丰富的特征图与高分辨率语义信息弱的特征图进行结合,在该金字塔中每个层次上产生强烈、丰富和具体化语义信息,融合了浅层到深层的特征图,充分利用各个层次的特征,结构如下图所示:

从模式识别到图像文档分析——浅析场景文本识别研究

特征金字塔网络结构图(图源FPN论文)

其中自顶向下通路是通过两倍上采样的插值实现,横向连接通过一个1x1的卷积,然后将来自高层级和低层级特征相加以进行融合。

2.2、文本片段检测模块

文本片段检测模块使用一个基于无锚框机制的候选区域生成网络,通过密集采样方式在特征图上生成大量密集且重叠的候选区域,并在此候选区域上预测文本片段的位置和形状信息。

从模式识别到图像文档分析——浅析场景文本识别研究

基于AF-RPN的文本片段检测模块(图源:马驰翔,侵删)

基于AF-RPN文本片段检测模块如上图所示,当检测到“文字”像素时,模块会使用一个3x3的卷积层同时预测从该像素位置到相应的四边形文本片段四个顶点的偏移量,然后使用两个并行的1x1卷积层,分别预测文字/边界/背景的分类以及文本片段框。

2.3、候选关系对构建模块

候选关系对构建模块主要作用是识别和推断图像中不同物体之间的相互作用、位置和大小等信息,对检测到的物体进行关联和分类来构建物体之间的关系,从而更加准确地理解图像内容。

从模式识别到图像文档分析——浅析场景文本识别研究

候选关系对构建模块示意图

简单来说,候选关系对构建模块合并从所有金字塔层级上检测到的文本片段,构建候选集合P,并用N表示其中元素的个数,在实际过程中,模块只需要考虑来自相同层级且邻近位置处的文本片段构造候选关系对即可。如上图所示,对于集合P中的每个文本片段,假设其中心为c,高度为h,从相同层级的其他文本片段中选择以c为中心、2h为半径的圆内的文本片段来构建候选关系对,并将其输入到后续的关系预测网络。

2.4、基于关系网络的连接关系预测

基于关系网络的连接关系预测网络同时考虑主体框、 客体框以及它们的并集框所包含的上下文信息来进行连接关系预测。

从模式识别到图像文档分析——浅析场景文本识别研究

基于关系网络的连接关系预测网络结构图

具体而言,检测模块的输入是一系列的视觉特征,每个候选关系对都会使用RoI Align算法从主体框、客体框和它们的并集框中提取三个256x5x5的特征描述子。这三个特征描述子将沿着通道维度拼接在一起,并通过一个3x3卷积层进行融合,生成一个固定维度为384x5x5的特征描述子。该特征描述子将被输入到二分类器中,该分类器由两个隐藏层(每层有1,024个神经元)和最后输出层(1个神经元)组成,并使用Sigmoid激活函数进行激活以预测连接关系。

基于关系网络的连接关系预测网络可以考虑距离相对较远的两个文本片段之间的连接关系,从而有效地利用来自并集框上下文信息来提高关系预测精度,最终实现准确、高效的检测效果。

2.5、损失函数

文本检测器整体的训练损失函数定义为: L = L TPD  + L rel  \mathcal{L}=\mathcal{L}_{\text {TPD }}+\mathcal{L}_{\text {rel }} L=LTPD +Lrel ,其中 L TPD  \mathcal{L}_{\text {TPD }} LTPD 为文本片段检测模块损失函数, L rel  \mathcal{L}_{\text {rel }} Lrel 表示为关系网络损失函数。

文本片段检测模块损失函数 L TPD  \mathcal{L}_{\text {TPD }} LTPD 表示为 L T P D = ∑ i = 2 4 L T P D P i \mathcal{L}_{\mathrm{TPD}}=\sum_{i=2}^{4} \mathcal{L}_{\mathrm{TPD}_{P_{i}}} LTPD=i=24LTPDPi
L T P D P i = 1 N ∑ j L c l s ( c j , c j ∗ ) + 1 N f g ∑ k L r e g ( t k , t k ∗ ) \mathcal{L}_{\mathrm{TPD}_{P_{i}}}=\frac{1}{N} \sum_{j} \mathcal{L}_{c l s}\left(c_{j}, c_{j}^{*}\right)+\frac{1}{N_{f g}} \sum_{k} \mathcal{L}_{r e g}\left(\mathbf{t}_{k}, \mathbf{t}_{k}^{*}\right) LTPDPi=N1jLcls(cj,cj)+Nfg1kLreg(tk,tk)
其中N表示采样像素的数量, N f g N_{fg} Nfg表示采样像素中包含的正样本数量, c j c _j cj c j ∗ c_{j*} cj分别表示第j个采样像素预测的和真实的标签。

关系网络损失函数 L rel  \mathcal{L}_{\text {rel }} Lrel 表示为: L r e l = 1 ∣ R ∣ ∑ r ∈ R L ( r i , r i ∗ ) \mathcal{L}_{r e l}=\frac{1}{|R|} \sum_{r \in R} \mathcal{L}\left(r_{i}, r_{i}^{*}\right) Lrel=R1rRL(ri,ri)
其中,R表示被选中用于训练关系网络的候选关系对的集合,|R|表示集合中候选关系对的数量, r i r_i ri r i ∗ r_{i}^{*} ri分别表示第i对候选关系对预测的和真实的标签, L( r i r_i ri, r i ∗ r_i^* ri)为分类任务使用二元交叉熵损失函数。

三、文档图像智能分析与处理前沿研究

以上基于视觉关系预测的文本检测方法仅仅是当前文档图像智能分析与处理前沿研究中的一种。目前来讲,文档图像智能分析与处理仍然存在以下问题:

  1. 文字检测和识别问题:由于文档中文字的排列方式、字体、大小等因素的多样性,以及光照条件和摄像机角度等外界因素对图片质量的影响,导致文字检测和识别仍然存在较大困难。
  2. 图像去噪问题:由于扫描仪或相机成像时受到环境噪声干扰而产生斑点、条纹等干扰噪声,使得图像质量下降严重,给后续处理带来很大困难。
  3. 多样化文档类型问题:不同类型的文档具有不同排版格式、语言特点以及内容结构等差异性。例如公式类文章需要专门针对公式进行分析处理;手写草稿纸上的笔迹需要特殊算法进行提取识别。
  4. 模式理解(结构理解、语义理解) :表格等结构性文档在文档中常用于呈现数据,如何准确地提取和解析表格信息仍然是文档智能分析与处理领域面临的难题之一。

为了解决复杂的模式识别和图像文档处理问题,统计与结构模型的混合、神经网络+结构模型、可解释性神经网络、视觉+语言等等研究越来越受到关注,同时从智能机理研究上,脑科学也逐渐跟人工智能深度融合。


刚好,在本周六(5月13号) ,中国图象图形大会(CCIG 2023)将于苏州举办,中国图象图形学学会文档图像分析与识别专业委员会上海合合信息科技有限公司将联合打造《文档图像智能分析与处理》高峰论坛。

专家姓名 单位和职称 简介
金连文 华南理工大学,教授 华南理工大学二级教授,兼任中国图像图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、CSIG-CV、CAA-PRMI和CAAI-PR专委会常务委员等职。
丁凯 上海合合信息科技股份有限公司,高级工程师 博士,高级工程师,合合信息智能技术平台事业部副总经理。CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师,获得上海市人才发展基金资助。

论坛邀请了5位学术界🎓产业界💼的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势,届时(5月13号,本周六)将有5个特邀报告,和1个Panel讨论

专家姓名 单位和职称 报告题目
刘成林 中国科学院自动化研究所,研究员 《人工智能大模型时代的文档识别与理解》
邹月娴 北京大学,教授 《视觉-语言预训练模型及迁移学习方法》
谢洪涛 中国科学技术大学,教授 《篡改文本图像的生成与检测》
廖明辉 华为云AI算法研究员 《华为云OCR技术进展与行业实践》
丁凯 上海合合信息科技股份有限公司,高级工程师 《智能文档处理技术在工业界的应用与挑战》

本次论坛主题丰富、内容精彩,包括但不限于人工智能大模型、视觉-语言预训练模型、智能文档处理技术等热点问题,是从事相关研究的科技工作者难得的交流学习机会。

本次《文档图像智能分析与处理》高峰论坛将在合合信息视频号进行全程直播,大家可以实时收看本次高峰论坛并参与互动交流,共同探讨文档图像智能分析与处理领域的最新进展和未来趋势!
从模式识别到图像文档分析——浅析场景文本识别研究


参考文献:

马驰翔. 文本图像分析中的关键技术研究[D].中国科学技术大学,
2022.DOI:10.27517/d.cnki.gzkju.2022.000267.

中科院自动化所副所长刘成林教授:模式识别,从初级感知到高级认知:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/121867230文章来源地址https://www.toymoban.com/news/detail-449439.html

到了这里,关于从模式识别到图像文档分析——浅析场景文本识别研究的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里文档类图像的智能识别,文档分类自定义分类器

            阿里云文档类图像智能识别服务为用户提供了强大的文档处理能力,可以将文档图像中的文本内容、表格数据和结构化信息自动识别并提取出来。而自定义分类器则允许用户根据自己的需求,训练出更适合自己场景的文档分类模型。本文将详细介绍阿里云文档类图

    2024年02月19日
    浏览(9)
  • 文本挖掘学习笔记(三):文档相似度、文档分类和情感分析

    注:学习笔记基于文彤老师文本挖掘的系列课程 全文基于《射雕英雄传》语料库,下面是读入数据的一个基于Pandas的通用操作框架。 计算两个词相似度的原理:简单的说,就是将每个词的向量在空间上进行余弦运算,当cos越接近0时候,两者越相似。 词袋模型不考虑词条之间

    2023年04月22日
    浏览(20)
  • 图像识别在自动驾驶汽车中的决策规划与控制策略研究。

    图像识别在自动驾驶汽车中的决策规划与控制策略研究 随着自动驾驶技术的不断发展,图像识别已经成为实现自动驾驶的关键技术之一。在自动驾驶汽车中,图像识别技术主要用于环境感知、决策规划和控制系统。本文将重点探讨图像识别在自动驾驶汽车中的决策规划与控制

    2024年02月08日
    浏览(13)
  • 安卓之文本转视频的应用场景以及技术优劣分析

            随着科技的进步,文本与视频这两种信息传递形式之间的界限正在逐渐模糊。特别是在安卓平台上,将文本转换为视频的功能已经成为一种重要的应用场景。本文将深入探讨这一功能的应用场景、涉及的关键技术,以及其优劣分析。 1.1、 内容创作与分享      

    2024年01月22日
    浏览(16)
  • 本论文以图像识别为研究对象,采用数学建模方法,探索图像识别中的问题并提出解决方案。

    第一部分:问题描述 随着数字图像的广泛应用,图像识别技术逐渐成为热门研究领域。但是,在实际应用中,由于图像的复杂性和噪声的存在,图像识别的准确性和效率仍然存在一定的挑战。因此,本论文旨在研究图像识别中存在的问题,提出准确率和效率提高的解决方案。

    2024年02月10日
    浏览(13)
  • 【裂缝识别】无人机图像处理公路裂缝检测研究与实现【含Matlab源码 1730期】

    ✅博主简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,Matlab项目合作可私信。 🍎个人主页:海神之光 🏆代码获取方式: 海神之光Matlab王者学习之路—代码获取方式 ⛳️座右铭:行百里者,半于九十。 更多Matlab仿真内容点击👇 Matlab图像处理(进阶版) 路径规划

    2024年01月23日
    浏览(16)
  • AI人工智能课题:图像识别通用物体和场景识别系统的设计与实现(基于百度智能云AI接口)

     博主介绍 :黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程,免费 项目配有对应开发文档、开题报告、任务书、

    2024年02月03日
    浏览(17)
  • Matlab图像处理-模式识别

    模式识别 模式识别就是用计算的方法根据样本的特征将样本划分到一定的类别中去。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,把环境与客体统称为“模式”。模式识别以图像处理与计算机视觉、语音语言信息处理、脑网络组、类脑智能等为主要

    2024年02月07日
    浏览(25)
  • 计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析

    本篇文章深入探讨了计算视觉的定义和主要任务。内容涵盖了图像分类与识别、物体检测与分割、人体分析、三维计算机视觉、视频理解与分析等技术,最后展示了无监督学习与自监督学习在计算机视觉中的应用。 作者 TechLead,拥有10+年互联网服务架构、AI产品研发经验、团

    2024年02月12日
    浏览(20)
  • Matlab图像处理-模式识别方法

    模式识别方法 模式分类或模式匹配的方法有很多,总体分为四大类: 以数据聚类的监督学习方法; 以统计分类的无监督学习方法; 通过对基本单元判断是否符合某种规则的结构模式识别方法; 可同时用于监督或者非监督学习的神经网络分类法。 1. 线性判别法  线性判别法

    2024年02月07日
    浏览(15)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包