英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
中文手写句段的在线实时识别方法
王大寒a,刘成林 a,周向东b
a国家模式识别实验室,自动化研究所,中国科学院北京中关村东路95号,北京100190,公关中国
b智能工程实验室、计算机实验室、软件研究所,中国科学院,邮政信箱8718,北京100190,公关中国
文章历史:
2012年1月10日收到,2012年3月24日收到修订稿,2012年4月19日接受,2012年4月30日网上可查阅
摘要
随着手写输入设备的和便携式计算机的计算能力的提高,基于笔的中文文本输入正在从基于字符的输入发展到基于句子的输入。本文提出了一种基于中文手写句子输入的实时识别方法。该方法的主要特点是动态维护的分割–识别候选词格,集多种语境包括字符分类、语言语境和几何背景。每当写下一个新的笔画,动态文本行分割和字符过分割对笔画在文本行的位置进行确定并且更新页面的原始分割序列。然后生成候选字符并以此识别分配候选类和语言语境,计算包括新生成的候选字符的几何背景。当写入过程继续时,候选词格将被更新。当提笔时间超过阈值时,系统搜索候选词格以得到句子识别结果。由于在写作过程中多次文本环境的运算消耗了大部分的计算能力并被执行,句子写完就可以立刻得到识别结果。在一个不受限的在线中文手写大数据库CASIA-OLHWDB的实验结果表明了该提出方法的鲁棒性和有效性。
关键词:在线中文手写句子识别,实时识别,动态文本行切分,动态过分割,动态候选词格,路径搜索
1.引言
随着基于笔和触摸的移动计算机的流行,在线手写识别有许多潜在的应用[1-4],包括文本输入,手写笔记和图表记录,签名验证,数学表达式识别[5]。基于字符识别的中文文本输入已在中国市场得到广泛应用。然而,由于手写捕获设备和移动计算机的计算能力的发展,基于句子的文本输入成为可能。与基于字符的输入相比,基于句子的输入通过手写句子结合上下文的识别后显得更自然,更快,更准确。
手写句子(字符串)识别是一个困难的上下文分类问题,涉及字符分割和识别[ 2,3 ]。人们对于手写体字符识别的改进[6 – 11]已经作出许多努力。大多数方法采用集成分词识别策略来克服字符切分的歧义。在分割识别框架中,手写文本首先被过分割成原始片段,可以是一个字符或字符的一部分。然后候选字符模式通过连接相邻节段生成,并由一个分配候选类的字符分类器识别。候选字符序列和分配的候选类包含在分割–识别候选词格中,其中有许多分割–识别路径,每个对应一个识别结果。最佳的分割-识别路径通过路径估计,字符分类分数和上下文从候选词格中进行搜索。图1展示了一个典型的手写文本识别系统(图1(a)),和一个过分割和分割-识别候选词格的说明性例子(图1(b))。
以上的方法,虽然展现了实现的前景,但是在句子写完后就要进行字符分割与识别并不容易,实现实时识别,字符分割与识别应该在写作过程中进行,这样一来结果可以在写完后立即获得。近年来,一些实时手写输入(在写作过程中的动态识别)产品已得到开发,但是我们没有看到从理论上和实验上解决这一问题的学术研究。
图1(a)典型手写文本识别系统 (b)过分割和分段-识别候选词格的一个说明性例子。每个框包含候选字符(上)和它的候选类(下)。最佳路径用红色字符粗体字(每个框中的左边一个)表示正确结果。(对于此图表标题中的颜色引用的说明),读者可参考本文的Web版本。)
除了字符串识别,手写句子的实时识别也涉及文本行分割,由于有限的写作区域,句子往往写在多行。在实时识别的文本行分割很困难是因为线很短,笔画是动态产生的,而且经常有延迟的笔画,它会插入到前面的字符甚至前几行。不像以前的文本行分割方法,大多是在所有笔画完成后将成组的笔画变成文本行,写作过程中的动态分割只能利用部分笔画的信息。
在本文中,我们提出了一种使用动态保持分割-识别候选词格的中文手写句子的实时识别的方法。每当产生新笔画,对笔画进行动态线分割和字符过分割来更新原始的片段序列,并确定在文本行中的片段的位置。然后在新的笔划上生成候选字符,并被识别为指定候选类。同时,通过使用语言模型和几何模型,计算语言上下文和几何背景的多种上下文,包括新生成的候选字符。当写入过程继续时,候选词格会不断更新。当提笔时间超过阈值时,系统通过路径搜索算法在候选字符识别中搜索候选词格,从而得到句子识别结果。由于更新的候选词格消耗大部分的计算能力并且在写作过程中进行,在较长的提笔时间后句子识别可以瞬间完成。基于自动识别,我们可以开发一些编辑函数用来手动纠正分割和识别错误,方便用户应用。
对于实时识别的动态文本行分割,我们建议采用统计分类来模拟正在进行的笔画和现有的文本行的几何关系。通过基于线–笔画对的提取特征的分类,分类器判断是否指定笔画属于以前的行或开始新的一行。该方法可以通过将它们归为之前的行来处理延迟笔画,而且因此,它使实时识别系统鲁棒性更高。
对于动态的字符过分割,我们还可以使用统计分类器模拟进行中的笔画和属于同一行笔画的现有原始片段的几何关系。我们将提取分割笔画对特征的分类器输出转化为通过置信变换的后验概率,该概率表明了笔画属于该片段的可能性。如果概率大于阈值,则认为笔划属于该片段。通过测试每一个笔画分割对,笔画被分配到一个现有的片段或开始一个新的片段。片段在片段序列的位置根据它们的左边界来确定。类似动态文本行分割,过分割也可以处理延迟笔画。
对于候选词格建成后的路径搜索,我们提出了一个对于实时识别的实时线性搜索算法。这种线性搜索算法是一种动态规划(DP)算法的加速版本,该算法对中间节点的路径进行剪枝。通过保持部分在每个片段的最优路径端点,我们从更新的片段而不是从开始的片段进行搜索。
我们评估了提出的该方法在一个不受限的线上中文手写字符文本大型数据库CASIA-OLHWDB[13]中关于识别精确度和识别速度的表现,结果表明该方法具有较强的鲁棒性和有效性。
本文的其余部分组织如下:第2节回顾了相关工作。第3节描述了我们对于实时识别的自定义的基线字符串识别方法。实时识别系统的概述在第4节提出。第5节介绍了动态文本行分割,动态字符过分割,以及候选词格更新的方法。实时路径搜索算法在第6节被描述。第7节介绍了实验的结果,第8节提供了结束语。本文通过阐述动态行分割,动态字符过分割和候选字符生成的过程,结合几何上下文的路径评价标准,优化结合的权重,定量评估一个线上手写的大型数据库,成为了我们以前的会议论文[14]的一个延伸。
2.相关工作
中文手写字符串识别成为了一个具有挑战性的问题,是由于大型字符集的存在,书写风格的多样性,字符分割的难度和不受限的语言范围。特别是,由于字符的大小和位置的变化,字符粘连和重叠的,字符不能在字符识别之前被可靠地分割。针对字符类的庞大数量和无限的中文句子类型,我们常用基于过分割的字符串识别方法 [ 1 ]。
在综合分割-识别框架下,本文对中文/日语手写字符串识别中的关键技术进行了大量的研究。在这个框架中,评估候选的分割–识别路径的标准通常集成多个上下文属性包括字符分类,语言语境和几何背景。在以前的工作中,一些综合了不完整的上下文[ 15–17 ],和一些没有优化结合权重[ 8,9,18,19 ]的启发式结合上下文方法。周某等其他人通过使用条件随机域(CRF)模型优化组合权重[ 10 ],这是很难将比二元语法更高阶的语言模型包含进来,而朱某等人采用遗传算法(GA)优化组合权重[ 11 ],该方法计算量巨大并且对人工参数很敏感。
最近,王某等人提出通过将字符分类器的输出转化为置信变换的后验概率来整合字符分类分数和语言语境[20],这有益于识别表现。此外,他们调查了对于路径评估和高效路径搜索的优化参数,并且在不受限的中文手写文本上取得重大进步[21]。他们报告了在一个离线中文手写数据库CASIA-HWDB[13]上有91.39%的字符等级正确率。在另一个离线中文手写数据库HIT-MW,他们实现了字符等级92.72%的正确率,大大高于之前在文献[15,22]中报告的结果。
对于线上字符串识别,很多在日本手写字符数据库实验的研究工作报告了更高的精确度[8-11],这是由于线上手写识别具有这样的优点,即笔画可以更好地分割和辨别字符。对于线上中文字符串识别,然而,除了2011年文档分析与识别国际会议的比赛[23],有价值的研究工作不多,而那次的视觉对象实现了比赛数据集上的94.33%的正确率。
手写句子的实时识别与在线手写字符串识别有密切联系,它需要相似的路径评估和离线字符串识别的搜索方法。我们的实时识别系统是从一个高性能在线手写字符串识别系统,通过提高动态文本行分割,字符过分割,更新候选词格和实时路径搜索的鲁棒性和有效性方法来定制的。
在之前的在线手写文件的文本行分割的方法中,一些分割文本行使用启发式或简单特征如水平映射[24,25]和笔画分离距离[8]。这些方法基于优化拟合目标[26-28]产生更可靠的行分割。他们通常采用假设检验策略来产生候选行切分并通过启发式寻找最优化分割。为了产生文本行假设,然而,这些方法需要所有笔画已经写完。另一方面,对于实时识别,行分割在每一笔画而不是整页写完后进行。在线手写字符串识别的字符过分割经常通过使用脱离笔画的距离(提笔)来运行,延迟笔画根据一些启发式规则[9]来被重新安排。对于在实时识别中的过分割,这些规则应该被设计得更仔细,因为仅有部分笔画在动态分割时可以得到。
识别速度是手写句子的实时识别的另一个重要因素,在这里字符识别是一个关键性部分并且消耗了大部分计算能力。伴随着超过5000个高频使用字符,中文字符识别是一个困难识别问题。最受欢迎的使用的分类器是修改的二次判别函数[29]和最近的原型分类器[30].修改的二次判别函数提供超过最近的原型分类器的更高的精确度,但是受累于存储和计算的高消耗,我们将评估修改的二次判别函数分类器和最近的原型分类器的表现,研究它们在识别精度和速度上的比较。
3.在线手写字符串识别
我们定制一个高性能在线手写字符串识别系统进行实时识别。在描述实时识别方法之前,我们描述以下在线手写字符串识别方法。
对于字符串识别系统,我们应用集成分割-识别策略,采用在图片1中说明的相同结构。在这个系统中,输入字符例子(笔画顺序)被过分割并且重构来成为候选字符的顺序,每一个被表示。每一个候选字符被候选分类器分配候选类(被Ci 表示),而且字符串识别结果是一个字符串。
在候选分割-识别词格中,每一条路径(X,C)被路径评估标准评估。在我们的系统中,我们采用在[21]提出的路径评估标准,这是用[21]贝叶斯决策的观点构建出的,结合多种上下文包括字符分类,语言语境和几何背景,并且展示了非常好的性能。在这篇论文中,我们没有介绍派生过程但是为了节省空间直接给出标准,更多细节可以在[21]中被发现。
表明分类字符x到类c的值由字符分类器P(c|x)给出。这种语言语境由一个二元语法语言模型给出,交代了二元概率,由P(ci |ci-1)表示,从字符类ci-1 到ci。这种一元取决于类的几何值,一元不取决于类的几何值,二元依赖于类的几何值和二元不依赖于类的几何值被各自独立表示为P(c|guc),P(zp=1|gui),P(ci-1,ci|gbc)和P(zg=1|gbi),在这里g表示一致的几何特征并且输出值被通过几何学模型在提取的特征进行分类中给出。对于一元不取决于类的几何模型,P(zp=1|gui)表明该字符成为一个有效字符的概率。对于二元不依赖于类的几何模型,P(zg=1|gbi)表明在两个连续候选字符成为一个字符的差别的概率。这种路径评估是多种上下文的结合:
(1)
在这里(lambda;1,lambda;2,lambda;3,lambda;4,lambda;5)是5个结合权重用来平衡不同模型的不同贡献,并且ki是组成候选字符的原始分段的数字。这个权重字符分类值和乘数ki跟随[31]的变动长度隐马尔可夫模型。这是对于路径长度不敏感的分类值(候选字符数字)求和并且通过线性规划实现最优化路径搜索。
在[21]中,王某等人提出将字符分类器的模型输出和几何上下文转换为置信转换的后验概率[12,20]。在这篇论文中,我们应用置信转换来倍乘上下文集成。特别地,对于字符分类,我们采用邓普斯特–谢弗理论证明[32]来结合反曲两类概率为多类概率,它考虑了异常类并因此适合于字符串识别[20]。对于拥有少量类的几何背景模型,我们采用反曲置信变换。这种置信参数被通过最小化交叉熵损失函数来评估,该函数通常用于在一个确认数据集(更不同于训练分类器的数据集)上的罗吉斯回归和神经网络训练[12]。
在以下部分中,我们简要介绍字符分类器,几何背景模拟和结合参数评估。
lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[139043],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。