基于极值稳定区域的自然场景文本检测

1引言
1.1极值区域简介
大部分图像中都存在着具备高辨识度和高识别度与稳定性的区域，在检测的过程中，上述区域会较大概率出现重复，因此可称为区分区域（DRs）。Matas等为了解决宽基线立体匹配的问题，提出一类新的区分区域，这就是后来著名的极值区域。在宽基线匹配问题中，同一对象的影像间也存在极大的区别，设备、拍摄角度、光照条件的不同与景深，以及遮挡、模糊、噪声等干扰因素的差异，都使得对象在不同图像上的空间、几何、光学特性大不相同。单纯的平移、旋转操作并不能准确的描述或者校正对象的形变，为此需要引入完整的仿射变换模型，宽基线匹配问题由此转变为稳定特征的匹配问题，极值区域此时显示出巨大的价值。极值区域有着两项极为理想的性能：一，极值区域集合对于连续的图像坐标变换是封闭的；二，极值区域集合对于图像亮度的单调变换也是封闭的。极值区域其中的一个仿射不变的稳定子集（MSER），MSER的仿射不变特性，使其对图像平移、空间尺度变换、角度变化、旋转、光照不均、遮挡、噪声、模糊等等，都会表现出极强的稳定性。将MSER作为图像底层特征，可有力的提高特征匹配的识别度、稳定性与可重复性，同时，区域特征还能大大减少信息的冗余。
同时也可以发现到，宽基线图像匹配与自然场景文本检测面临着很多共同的问题，同时也共享了不少使用的思路。将文本设置为极值区域，就可以借助MSER实现场景文本的发现与定位。事实上，基于MSER的场景文本检测算法早就已经受到了广泛的关注，其对于稳定极值区域的高效性、自适应检测，几乎成为了场景文本检测的标准预处理流程。
1.2自然场景文本检测的背景和意义
人们生活在大自然中，朝夕相处，所以对周围的环境自然而然的是再熟悉不过了，自然换进中包含着大量的方位，图像，构造，颜色信息，上述这些都是构成自然场景不可或缺的要素。自从多媒体的产生，到目前为止，全智能手机的功能在不断的增强，运行速度的不断提升，各式各样的平板电脑以及替他的新型移动客户端的产生，微信、微博等新媒体的出现并且人们日渐接受，这使得大家在日常生活中跟容易通过电子设备的拍摄来记录一些事物和日常生活中的乐趣。由此产生了大量的数据，这大大超出了人工所能处理的强度，迫切需要图像管理的效率化与检索的智能化。
自然场景中的文本信息包含着丰富的逻辑性的言语信息，同时有条理和色彩等可视性信息。言语信息是对自然场景文本信息的补充，由此，场景所表达的信息我们可以从中理解。当海量的数字媒体信息出现的时候，传统的数字图像搜索系统已经跟不上时代的步伐了，当图像和视频中的字幕和解释文本等信息出现时，传统的图像检索系统并不能进行识别做出相应的改变。将场景文本中的文本信息和关键词描述结合起来，视觉信息将结合上述内容，自动生成索引内容，这将对场景图像中的文本内容的读取、查询、检索做出巨大的贡献。
随着生活水准的提升，人们有越来越多的出过机缘，可是语言上的不一样导致在国外的交流、shopping等各方面造成难题，因此我们可以随时随地的利用随身携带的工具拍摄外文的商店名字，交通指示牌等。文档图像中的文字检测和只能识别已经日益强大，并且得到了普及。所以，经过自然场景的图像检测，对自然场景中的文字信息从冗杂的配景中提取之后，采用相关技术进行文字的检测与辨认。
此外，由于智能手机等移动拍摄设备拍摄的图像文本获取加倍的轻便，因此被大家广泛的应用，比如古典书籍的拍摄，但是在自然场景下所拍摄的图像或者视频往往会受到各种自然条件的限制，因而造成文本识别困难，在这种情况下，文本的检测与识别技术尤为重要。
基于极值稳定区域的自然场景文本检测
图1 标牌示例
另外，对交通路牌或者部分交通工具的拍照信息的提取，会使得交通系统的管理更加的便捷和效率；对交通常用标志的辨别，可以对汽车的自动驾驶技术也能提供一定程度上的帮助；对于自然场景中的文本信息可通过MSER技术进行检测与识别，并且和语音信息结合起来，通过语音来提醒残疾人士，为视力障碍的残疾人士的出行提供便捷与安全，体现社会主义社会的好处。
基于极值稳定区域的自然场景文本检测
图42路牌示例
1.3自然场景下的图像特点
自然场景中的文字信息存在这许多的干扰因素，具体体现在一下几点：1、文字的大小随意，2、字体任意，3、排列和对齐方式上的不确定性，4、图中文字信息的颜色会受到光线的影响，5、拍摄条件的限制，使文字区域变形，模糊，更有甚者会出现残缺的现象，此外因为图片质量差的原因，常常会使得图片发生质变，造成下降以至于产生噪声干扰的现象，会造成无法二值化的问题，然而旧版的文本检测与识别技术所检测的文档图像中的文字为黑色，背景是白色，结构相对于现在来说要简单许多，存在的干扰较小。
自然场景图像具有一下特征：
1、图像的颜色模型不同
文本文档中的图像就是为了人们更加便捷的阅读文字，是文字信息的载体。这些文本信息的载体是以文字的形式传达信息，这些操作都是为了方便人们对信息的直接获取。然而以这些拍摄对象中，像素单一，黑色作为文字，把白色作为文字背景。然而，进行自然场景文本检测与识别的图像多彩色模型，其中有对比度、亮度、色度等颜色量化信息。
2、图像布局框架不同
场景图像中文档是以文字的形式传播信息，设计者会为了人们的阅读的更加辩解，这种文字通常会进行分栏处理，例如：报纸，期刊，杂志。从而形成规则的矩形区域，可是自然场景中的图像并不是这么规律，是直接把客观性的事物直接反应出来，所以其中包含了自然场景的丰富多彩，因此不具有规范性。此外，拍摄角度不同，即使是同样的场景图像，识别出来的结果也会是不一样的，而且差别性特别大。
3、图像的背景复杂程度不同
文档的图像所拍摄的对象为文本文档。文本文档大部分是以字符的形式存在，为了方便读者的阅读和直接获取，文本常常背景是白色，字体是黑色。因此受到的干扰比较小，便于进行文本的检测和识别。自然场景图像是对于客观事物的直接反应，自然环境的多变性，色彩的丰富多彩，因此很容易对自然场景中的文本造成不同程度的干扰与遮挡。
4、图像的几何形变不同
拥有自动扫描并且拍摄功能的设备，经过这种设备拍摄出来的文本图像，因为人工的设置，拍摄出来的图片会有形态上的差异，会使得相同的图像来自于不同的视角，然而出现与之不同的效果，这些必然会使图像中的文字信息发生几何变化。

总结
随着自动化水平的提高，科技发展的愈来愈快，文本图像的检索与辨认已经初具雏形，并且发展前景不可限量。但是问题也是存在的，就像文本图像和自然场景图像之间存在的差异在上述中已经列举出来了，因此，若想将文档图像的文本检测识别技术在自然场景图像的检测与识别中灵活运用的话，中间所需要排除的问题是巨大的。

下载提示：

1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“文章版权申述”（推荐），也可以打举报电话：18735597641(电话支持时间：9:00-18:30)。

2、网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

3、本站所有内容均由合作方或网友投稿，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务。

原创文章，作者：写文章小能手，如若转载，请注明出处：https://www.447766.cn/chachong/605.html,

基于极值稳定区域的自然场景文本检测

相关推荐