文字识别的最近趋势外文翻译资料

 2023-02-26 19:12:21

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


文字识别的最近趋势

摘要——文字识别即在自然图像和影像中出现的文本的定位和识别,是机器视觉中极具挑战性的难题。文字识别的重要应用有:视频检索,检索和查询,为盲人在陌生的环境中寻找方向以及为自动驾驶车辆读取街道和商店的表示或者在交通控制系统中读取车牌。近日,文字识别领域中深度卷积神经网络的应用和识别整句话而非单个字母取得了重大的进展。而且,也出现了合并和统一文字识别中单极的趋势。尽管取得了这些进展,与覆盖文本相比识别场景中的文本仍然很困难。这篇文章对文字识别中最先进的技术进行了概述,并且突出强调了最近的突破和趋势。

关键词:文字识别;文字探查;场景中文本;深度学习;卷积神经网络

1.介绍

文本作为一个必要的内容承载体,在人类生活中是普遍存在的。文字识别——关于其在图像或包括自然景象的视频的检索和识别——是一些应用的重要组成部分。换句话说,图像中的文本需要被定位(即文本探查)以及识别(即正确的翻译出每个字母)[1]。文字识别的重要应用有:视频检索,检索和查询,视频检索,检索和查询,为盲人在陌生的环境中寻找方向以及为自动驾驶车辆读取街道和商店的表示或者在交通控制系统中读取车牌。尽管近日在电脑视觉和机器学习中取得一些进展,文字识别仍然是一大挑战。相关的问题是从白色背景中提取黑色文本,经常被称为光符识别(ORC),其特点是常规的字体、单一的颜色及一致的大小。然而,在自然景象图片中出现的文本通常是有不一致的明暗度、阻挡和方向。这些挑战可以被详细的阐述为两个阶段,即文字探查和文字识别。

在探查阶段,大量的噪声和类似文本的杂物如窗户、树叶和砖块,会出现在图像背景中,经常会带来很多正误识。另一方面,当字符所受光照不一致或被强光、遮挡或者模糊造成强烈扭曲时,一些文本实例会被认为成负误识。因此,建立一个拥有高精度且在同一时间有高查全率的系统是一个巨大挑战[2]。

关于识别阶段,与传统的OCR问题相比,自然景象图像会受很多可能存在的变化如背景、光强、内容和字体的影响。除此之外,图像中透视带来的扭曲、文本基线的旋转或弯曲、以及相机本来的局限带来的文本的模糊、噪点和低分辨率。不但如此,对于一个单独的字符的错误识别会导致错误的识别结果,于是,识别的问题就被使用的固定的词典所限制了。然而,一个固定的词典限制了一门给定语言的识别。

近日,文字识别领域中深度卷积神经网络的应用和识别整句话而非单个字母取得了重大的进展。而且,也出现了合并和统一文字识别中单极的趋势。尽管取得了这些进展,与覆盖文本相比识别场景中的文本仍然很困难。

这篇文章是对文字识别中的开创性工作的广泛性研究。我们首先会说明最相关的工作及词语探查。这个阶段已有的研究被划分为字符区域和基于滑动窗口的方法两种。然后我们会展示识别系统,既我们认为是以字符为基础方法或以单词为基础方法的作品。最后,我们强调了近日在这个领域所面临的研究困难。

2.探查方法

文本探查阶段是常规文字识别过程的第一步。现有的方法可以分为两种[1,2]:一种是把被探查文本分割的字符区域探查,另一种是边界框符合文本区域的滑动窗口探查。

A.字符区域方法

这种方法包括确定包括字符的相关像素点,然后产生对识别阶段有用的字符区域。很多基于字符的技术已经被应用到文学作品上了 [3][4][5][6][7][8]。在字符区域探查中最相关的工作就是笔画宽度变化(SWT)[9]和最大稳定极值区域[10]。

SWT[9]是一种逐个像素探查的方法(图1)。该方法包括为每一个像素分配其所属的估值的笔画的宽度值。因为文本的出现是以其附近的笔画宽度为特征,相同笔画宽度的像素点会被分为字母候选组。文本行也是以相似的笔画宽度为特征,除此之外还有高度和字母间隔,因此,探索方法应用于检查文本的出现与否。

相反的,Yi[11]关于标题文本的出现的逻辑与SWT相同,在这个范围内比划像素被定义,且附近的文本行和相似的字母候选被检测出来。然而,两种方法都依赖于几种人工涉及的过滤规则。

图1 图(a)是将灰度图转化为每像素笔画宽度图片(b)。图(c)是 每个部分宽度差额图像。图(d)展示了检测出的文本。[9]

其他方法[3],[5],[4]基于SWT[9]取得了极大的优秀表现,比如姚等人[3]可以解决任意方向的文本。黄等人[5]介绍了基于SWT的比划特征转换(SFT)方法来解决探索过程。这是考虑颜色一致的第一步,这可以使文本内容提取效果更好。然而,这只考虑了水平文本的情况。

最大稳定极值区域(MSERs)[10]是另一种基于极值区域的广泛使用的方法[25],他基于相似的强度值划分区域。极值区域是通过阈值递增的提取强度值来实现的。MSERs包括选区有稳定形状的区域并根据极值区域的强度值不同而不同。应用SVM分类器,选取特征区域方法则是根据他们的形状和颜色,然后应用基于字体的二元语法预测,产生一个有附近的特征来形成文本行的图表。很多首尾相连的文字识别系统用这种方法来进行文字探查。[6],[7],[8],[12]。

B.基于滑动窗口的方法

基于滑动窗口的文本探查方法(图像2)经常可以替换特征区域探查方法。它包括在图像中划过一个分类器窗口来检测文本是否存在。为了符合文本特征,滑动窗口通常考虑了不同的尺寸或者图像向下取样为不同的尺寸。一些相关的滑动窗口产品[13],[14],[15],[24]应用了不同尺寸的提高了的窗口分类器[14],或者手工设计的特征的滑动随机预测分类器[13]。然后,滑动窗口会形成一个文本显著图。另一方面,在其他方法[15]里用HOG特征来训练以探查字符。然后考虑字符之间的空间关系,从有限的词典中把字符分为单词。基于多重标准的数据组的实验都表现的十分良好。

图2 (a)和(c)分别是第一和第四规模的显著图。(b)和(c)使他们各自的结果。[13]

作为第一个采用卷积神经网络(CNNs,见下节),王等人[24]为特征探查训练了一个卷积神经网络滑动窗口来生成一个文本特征图。在训练CNN分类器之前,神经网络参数被初始化为无监督的方式,然后,用人工合成的数据集训练他。接下来,在两个随后的阶段应用非极大值抑制,即:通过特征图检测文本行;顺着文本行检测单词。

C. 基于卷积神经网络的探查

自从Krizhevsky等人[19]在2012年以极高的奖金赢得了ILSVRC比赛,CNN就被广泛应用在不同的文本探查方阶段。[24],[8],[16],[21]。他们在第一阶段提取文本或特征区域建议,然后优化这些提议来减少正误识以及确定文本内容。当王等人[24]训练CNN来检测文本区域时,黄等人[8]在优化阶段使用了CNN并把探查阶段留给了MSER[10]探查器。

黄等人[8]在CNN中取得了极大的突破。Jaderberg等人[18]也在文本探查时使用滑动窗口方法训练了CNN。另一方面,Jaderberg等人[29]也运用CNN复位了检测边界框。这些边界框通过区域方法结合提取出来,且正误识通过一个随机森林分类器来消除。

图3 完全卷积回归网络(FCRN)[26]

其他的发表的文章[20],[22]以及[23]也是文字识别中具有先进性的深度学习论文。张等人[12]是在充分运用文字探查时的完全卷积网络(FCN)中做了先导性的工作。他们通过训练FCN制作了一张特征图,并且结合了提取MSERs特征来提取文字行。不但如此,额外的FCN的应用可以抑制在特征阶段的正误识。另一方面,姚等人[27]训练了一个考虑了文本方向的FCN。他们在ICDAR2013[28],ICDAR2015[17]以及MSRA-TD500基准中取得了突出的结果。然而,FCN[20]因为其难以区分单词和文本行的弱势仍仍需要其他的过程辅助。

Yolo网络[23],[26]介绍了一种新的架构称作完全卷积回归网络(FCRN)。它可以直接从图像中预测出文本的位置和其方向。且应用了额外的回归和正误识筛选。尽管该方法已经取得了各种好的结果,但是却不能探查小的字母。

3.识别方法

文字识别即正确的识别出图像中所描述的字符的次序[1]。这一阶段的工作可以分为基于特征的识别和基于单词的识别两种、

A.基于字符的识别

对于给定的分段或有界限的字符,基于字符识别方法依赖于每个字符的分类器。有一些工作已经运用了这个方法如[15],[44],[30],[18],[33]。在他们的首尾相连的字符识别系统中,王等人在[15]中处理了基于每一个字符模型的识别阶段。然后,基于一个有限的字典限制,在列表中得分最高的单词被选中。Goodfellow等人在[44]中通过局部的池证据识别出了单个的字符。他们提出了一种通过深度CNN整合所有阶段的整合方法。该模型被延伸到了CAPTCHA次序知道八个字符的长度并取得了令人满意的结果。然而,这项工作并没有考虑全场景的文字识别。通过一种有效且简单的方法,姚等人在[30]中介绍了一种叫做Strokelets的方法。这是一种不同规格下图像字符的表现。然后,字符通过霍夫投票的方法被探测出来并用随机树分类器进行分类。Jaderberg等人[18]为字符和双字母组分类器运用了除了单个字母的滑动CNN检测器以外的CNNs探测器。这使特征可以在这些阶段中都被分享。Alsharif和Pineau[33]运用了无监督二值化技术或监督分类器来把输入的图像转化为可能的字符区域,然后运用CNN和通过固定的词典的区域校正来输入分类结果。

B.基于单词的识别

基于单词的识别包括在一列表的可能的词典中预测图像中的单词。这种方法不能预测未被收录的单词。图像的特征与预测的单词分类器直接相关。这种方法在[31],[7],[43],[32],[29]中广泛应用。

尽管这在第一阶段依赖于字符识别其,其他论文如[31],[7]中呈现了基于单词的识别。他们把字符预测和视觉线索相结合以实现准确预测的目的。这对错误的字符探测带来了容忍。Mishra等人在[43]呈现了一个可以获得更好准确性的运用错误校正的模型。另一方面,Rodriguez-Serrano等人在[34]中介绍了一种包括所有预/后处理的直接匹配方法。字母图像被编码为一种对于所有标签的嵌入空间(单词字典)。接下来需要解决的问题就是最近搜索。

Jaderberg等人[32,29]在基于单词方法中的工作是具有领先地位的。Jaderberg等人在[32]中只基于合成字母图片训练了一个卷积神经网络。他们关于单词分类器的网络结构包括四层卷积层和两层全连接网络。然而,有90,000单词的字典仍然使该系统成为了一个有限的词典系统。另一方面,Jaderberg等人在[29]中提出了一种通过整体特征识别单词的首尾相接字符识别系统。

4.标记

场景文本识别经常因为背景中类似文本的物体而受到干扰。因此,精度指标由检索实例之间相关的实例部分决定。另一方面,文本实例可以被检测系统拒绝为负误识。为了测量这一方面,回想标度是一种参考方法。正是在图片中所有的相关实例被检索的相关部分。一种结合精度和回忆的方法就是精度和回忆的调和平均数,即F值。其定义为精度和回忆和的乘积的平方。这些标度应用于下列表格中最相关方法的比较中

基于CNNs,最先进的方法在ICDAR 2011中取得了更高的分数的的。Gupta等人在[26]中用他们的FCRN取得了F值84.7%、精度94.3%的成绩。秦等人在[21]中,应用了一种MSERs的多级处理探测器和CNN分类器,F值达到了82%。黄等人[8]用他们介绍的包括MSERs的探查[10]和CNN的改善,取得了F值为78%的好成绩,这是2014年以来最高的分数。Jaderberg等人[29]用他们合成训练的网络和多级CNNs,达到了89.2%的精度和F值为77.3%。

表1:基于ICDAR2011的最先进工作

5.结语

在这篇论文中,文字识别中具有开创性的工作和最先进的方法都已经介绍了。随着总体的路线,我们首先展现了文字探查最相关的工作,随后,我们调查了识别阶段的相关工作。很多研究问题十分具有挑战性。首先,因为识别阶段受限于一系列的标签,文字识别系统通常只能用于一种语言方法。为了能适用于多种语言,现有的工作都选择了基于字符的方法。然而,深度学习系统在识别整个单词中表现的比识别单个字符好很多。在这个问题中进行权衡是一个很大的挑战。一个仍需要更多调查的可能方案是,把基于字符和基于单词两种方法结合起来。[1]另一方面,统一的CNN系统超过其他先进的方法。[20]一个仍然少有研究的问题是,把文字识别系统的各个阶段统一起来。[1]

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[234110],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。