英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于单视图三维重建曲面文档图像的校正
康莱,魏英梅,蒋杰,白亮,劳宋杨
1国防科技大学信息工程重点实验室,长沙市开福区砚瓦池街47号410073,中国
2国防科技大学信息系统与管理学院,长沙市开福区砚瓦池街47号410073,中国
通讯作者:lkang.vr@gmail.com
2016年2月19日收到;2016年8月23日修订;2016年8月23日通过;于2016年9月9日发布(文件ID 259660);2016年9月28日发表
由于摄像机捕获文档图像中的失真严重影响光学字符识别(OCR)的准确性,对于使用摄像机进行图像捕获的文档数字化系统来说,失真消除起着至关重要的作用。本文提出了一种新颖的框架,对摄像机捕获的文档图像执行三维(3D)重构和校正。虽然大多数现有的方法依赖额外的校准硬件或多个图像来恢复文档页面的3D形状,或者在相应的3D形状上做出简单但并非总是有效的假设,但我们的框架更加灵活和实用,因为它只需要一个输入图像,并能够处理一般的曲面图像。本文的主要贡献包括文本线连通分量的基线拟合迭代精化方案,基于凸壳投影轮廓分析的高效离散垂直文本方向估计算法和基于文本方向函数的二维畸变网格构造方法使用3D正则化进行估计。为了检验我们提出的方法的性能,在我们的实验中进行定性和定量评估并与几种最近的方法进行比较。实验结果表明,所提出的方法优于相机捕获的文档图像校正的相关方法,在视觉失真消除和OCR精度方面的改进。copy;2016美国光学学会
OCIS代码:(100.2960)图像分析;(100.6890)三维图像处理; (330.5000)视觉 - 模式和识别
http://dx.doi.org/10.1364/JOSAA.33.002089
1.引言
传统的文件数字化方法通常使用平板扫描仪获取文件的数字图像,然后使用光学字符识别(OCR) 技术提取文本信息。作为文件数字化过程中的一个重要步骤,OCR技术已经得到了广泛的研究,而且最近的OCR算法能够为平坦的文档图像实现非常高的精度。尽管上述数字化过程可以获得完美的结果,但由于其展现的几个优点,许多研究人员试图使用数码相机作为平板扫描仪的替代品[1,2]。例如,数码相机便携且快速响应,并且可以在任意视点捕捉图像。此外,使用照相机的图像捕捉是被动和非接触式的方法,其更适合脆弱的文档(例如,历史文档)。尽管如此,由于相机捕获的文档图像经常被高度扭曲,数码相机拍摄的原始图像的OCR精度显着下降。具体而言,当捕捉弯曲文档的图像时,引入包括弯曲文档的几何变形和透视缩小效果的两种变形。因此,图像校正对于使用数码相机进行文件数字化非常重要(参见图2)。1 为例证。
以前有关解决失真问题的文献大致可以分为两类。第一类方法依赖非线性图像变换来纠正扭曲的文档图像。例如,在[3,4]逐个整理分段的单词或文本行。由于使用局部图像转换,非文本区域通常无法成功纠正。为了获得一致的结果,以后的工作将全局图像转换应用于失真的图像。特别是卢和谭[5]构建图像网格并执行网格正则化来估计a图像失真的
全局图像变换。施奈德等人[6]建议根据局部笔画方向创建变形网格,并根据非线性变形使用多个线性投影校正文档图像。 Brown和Tsoi提出的方法[7]通过边界插值框架逼近图像变形。尽管上述方法的输出对于OCR应用来说是令人满意的,但由于缺乏深度信息,纠正后的文档图像中仍存在明显的失真。
另一类方法依赖于基于文档的三维(3D)形状信息的图像去扭曲。这类技术的想法很简单,因为一旦重构了文档的三维形状,文档图像就可以在理论上得到完美的纠正。在文献中,从计算机视觉社区借用的各种3D重建方法已被用于照相机捕获的文档图像校正。许多早期的系统使用特殊设备,如激光扫描仪[8],结构光[9,10]或立体相机[11,12]获取文档页面的3D形状,然后使用重建的3D模型纠正失真的图像。尽管使用额外的精确校准硬件能够产生高度准确的结果,但由于这种硬件的成本和尺寸,这些系统的实际使用受到限制。最近,更实用的系统基于来自多个图像或单个图像的3D重建校正扭曲的文档图像。例如,Pal等人[13]提供了一个用于浏览和展开变形历史文档的交互式应用程序。此应用程序从使用多视图三维重建方法获得的3D模型生成静态图像。田和Narasimhan
图1.相机捕获的文档图像失真来自(a)相机投影和视角中的透视失真
(b)文件表面的变形。校正方法的目的是去除这两种失真[例如,我们的校正方法可以应用于(b)中的图像以生成(c)中的相应的未失真图像]。这些技术有很多潜在的应用,例如(d)移动文档扫描。
[14]提出了一种用于三维形状重建和变形文本纠正的新方法文档。作者首先从文本行和笔划统计中估计二维失真图像网格,然后利用纹理形状算法执行三维形状恢复。这种方法灵活实用,因为它对文档页面的形状没有限制,只需要一个单一的图像。然而,由于在二维畸变网格估算中使用不准确的线追踪和垂直方向计算算法,这种方法可能会产生不令人满意的结果。
尽管上述方法重建了一般的3D形状,但还有许多其他工作试图通过对文档页面的形状进行假设来简化图像校正过程。例如,梁等人。[15,16]使用可展曲面的形状假设。作者提取纹理流信息并利用文本行上的约束来重建3D文档页面。然后,一组接近估计的可展曲面的平面条被一块一块地整平。最后进行后处理以平滑相邻未失真条带之间的伪影。在[1,17]利用广义圆柱表面(GCS)的假设,这比假设的可展开的表面假设对文档页面的形状施加了更多的约束。虽然这些方法可以消除几何失真和透视失真,但对文档形状的假设限制了它们适用于更一般的平滑文档页面。
在本文中,我们提出了一个单一的基于视图的文档校正框架设计用于任何本地的文本文档。在此框架内,提出了一种新的用于从文本行的连接组件(CC)进行基线拟合的迭代精化方案。该方案对于离散的水平文本方向估计是稳健和准确的。其次,提出了一种基于凸包投影轮廓分析(CHPPA)的高效离散垂直文本方向估计算法。另外,我们开发了基于3D正则化的基于平滑文本方向函数(TDF)估计的2D畸变网格构建方法。在我们的工作流程中,主要组件的详细解释在Section中介绍2。
部分3 显示了我们提出的方法的代表性定性和定量实验结果,并与其他相关方法进行比较 本节将介绍一个简短的结论以及对未来工作的讨论4.
2.建议的方法
我们提出的框架的工作流程如图1所示。2。具体来说,给定一个输入图像,我们首先提取文本行(参见章节2.A)以CC的线的形式出现,基于该线的离散文本方向估计(参见章节2.B)被执行。然后,我们使用三维正则化来估计密集的TDF,并构建2D畸变网格(参见章节2.C)用于三维重建和图像反弯曲(请参见章节2.D)。下面介绍我们框架中每个关键组件的细节。
-
- 文本行提取
文本行提取具有挑战性,因为曲面文档的图像包含几何失真和透视扭曲。线追踪算法在[14]可能会在相似性度量错误地将图像中的两个补丁相关联时失败。在本文中,我们采用了[18]提取文本行信息。该文本行提取方法包括图像二值化,CC构造,能量表达,输出每个CC的状态的优化,以及通过CC与CC的状态划分的文本行识别。
B.离散文本方向估计
请注意,从Section中提取的文本行2.A仅有几组CC(每个文本行)。这样的信息对于构建二维畸变网格既不充分也不准确。在本小节中,我们提出了新的算法来估计这些CC对于2D畸变网格生成的水平和垂直文本方向。
-
-
- 水平文本方向估计
-
为了精确估计每个CC的水平方向,我们开发了用于基线拟合的迭代精化方案。来自CC的基线拟合有两个主要挑战。首先,由于文本行通常不是直线,所以每个CC相对于文本行的最低点不易定位。其次,由于具有下行字符的最低点字符不符合实际基线,因此需要在基线拟合中识别并排除这些点。例如,英语中的字母“y”,“g”和“p”应在基线拟合中删除; 否则这些字符的最低点会影响拟合基线的准确性。在一个角色由多个CC组成的情况下,其他语言可能会遇到类似的问题。请注意,除了基线之外,文本行的顶部也可以以类似的方式精确定位。
我们的迭代文本行优化方案的基本思想对于离散的水平文本方向估计在图2中示出。3。我们首先计算每个CC的凸包(CH),并从CH的中心拟合多项式曲线(在我们的实验中,多项式的次数设为5),并将其用作每个文本行的初始基线。然后我们确定相对于每个CH的当前基线的潜在最低顶点(PLV)。这里,PLV被定义为与基线具有最小符号距离的顶点。基于观察文
图2.建议方法的工作流程。详情请参阅文字。
图3.文本线细化和离散水平文本方向估计的图示:(a)简单情况,(b)一般情况。 (c)中的三幅图像是我们实验的代表性结果,它们显示了CH计算结果,文本线条细化(仅显示了初始基线和最终基线)以及估计的水平文本方向样本。
本行具有局部线性结构,我们使用中值平滑来平滑PLV的位置,并移除平滑位置与其原始位置之间的距离大于指定阈值的PLV(在我们的实验中,该阈值被设置为相应CH的边界框的最长边的大小的1/4)。在异常值被移除之后,从内部PLV的子集中拟合更新的基线。
给定的程序重复Nit次(Nit3在我们的实验)。根据给定的文本行细化过程对基线进行细化后,我们提取出位置处的方向每个内联PLV。算法1总结了水平方向估计的整体算法。
算法1.使用PLV识别的离散水平文本方向估计。
输入:使用文档状态估计提取的文本行的CC [18]。输出:离散采样位置的水平文本方向。
计算每个CC的CH;
根据CH的质心拟合初始基线;
根据当前基线计算PLV; 使用中值平滑去除PLV中的异常值; 根据内部PLV的子集拟合更新的基线;
根据细化的基线估算每个内点PLV位置处的水平方向。
2. 垂直文本方向估计
垂直方向估计的常用方法是执行投影轮廓分析(PPA)[19]。尽管original PPA更适合偏斜估计,以曲线为基础PPA变体能够处理弯曲文档的图像。不过,PPA中涉及的基于像素的投影使得它在计算上要求很高。在本文中,我们提出了一个新的高效的基于CHPPA的垂直方向估计算法。
我们的离散垂直方向估计算法的例子如图4所示,垂直文本的方向可以大致由该确定投影轴线对应于最短的投影长度。
图4.基于CHPPA的离散垂直文本方向估计的图示。(a)将字符“F”的CH投影到五个不同的投影轴上。(b)五个轴上投影的长度。(c)对应于字符“t”的CH的31个最近邻居CH的集合。(d)连续最佳垂直方向搜索。(e)在我们的实验中估计的一些垂直方向。
在本文中,投影轴A(theta;)与水平轴之间的角度为theta;,给定的CH在A(theta;)上的投影长度由l(theta;)表示,并且最优投影轴之间的夹角(以A(pi;/8)) 图4(a)和纵轴。对于给定的CH质心c0,我们在实验中找到了它的Nnn(Nnn= 31)。最近邻近的CHS[
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23453],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。