汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。
一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:
一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据治理技术提供丰富的数据源。首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。
另一方面,提供了一种新的档案目录数据的录入方式。应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它究竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,把握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它究竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,假如利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。
二、汉字识别后生成的文本数据的属性问题。
原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。
知识性是档案的又一个属性。汉字识别后生成的文本数据假如不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。汉字识别后生成的文本数据是将档案的内容以非凡的物理方式重新记录在非凡的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。
汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。
三、汉字识别技术的应用方式
汉字识别技术在档案治理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:
(一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。
这种利用方式的优点主要有:
1.方便用户,可减少信息利用过程中的重复劳动;
2.不给档案人员增加建库的工作负担;
3.节省建库所需的经费开支。
其缺点主要有:
1.不能为全文检索提供数据,实现深层次开发档案信息资源的目的;
2.存在对同一档案内容重复进行扫描和汉字识别的可能性。
(二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。
(三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。
这种方式必须在已有文件目录的前提下使用。其优点主要有:
1.具有提供原件和提高信息利用效率的双重优势;
2.档案人员不承担汉字识别后生成的文本数据的维护工作。
其缺点主要有:
1.同第一种利用方式的缺点。
2.汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2—3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。
(四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:
1.节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。
2.为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。
其缺点主要有:
1建立文本数据库的工作量较大。
2不能满足用户阅读档案原件的需求。
3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。
(五)输入目录
保存图像。
(六)输入目录、建立文本数据库。
(七)保存图像、建立文本件数据。
(八)输入目录、保存图像并建立文本数据库。
这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应用方式,但无论使用哪一种方式,都必须符合本单位档案治理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果。
附一:
汉字识别OCR(”光学字符识别”的英文编写)是为了使汉字信息高速输入计算机,以解决低速的信息输入与高速信息处理之间的矛盾,从而提高整个计算机系统的效率。这种根据汉字人工编码录入汉字文本的方法,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。所以OCR产品的推广意义是深远的。
提高OCR识别率
购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版。很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高。其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平。
1.处理原稿扫描图像,使之清晰可“辨”。在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上。而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率。对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹。并注意将偏斜的版面“改斜归正”,通常OCR软件均有此功能,且一般都设有自动纠偏和手动纠偏。
2.分辨率应选择适宜。一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间。有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的。
3.调整好亮度值和对比度值。这条非常关键,对识别率的影响很大。亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,笔者常根据预扫时图像清晰度确定。
4.利用OCR的自学习功能。有时OCR对某些字总是难以识别,比如OCR开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了。具体操作极易,上机看一下菜单即可明白。另外,若原稿全是英文或其中中文很少,最好用附赠的英文OCR软件。还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担。
网络环境下的档案创新服务
不断创新档案服务机制,积极主动地为经济建设主战场服务,为全面建设小康社会服务。要通过计算机网络为用户提供服务,并加强各项事务治理,促使档案治理现代化。一、创新服务手段1.建立档案馆(室)网页,开展网上利用服务。随着档案馆(室)内部局域网的建立,档案部门将充分利用企事业单位的网站制作自己的网页,积极组织上网数据和信息,使档案治理服务系统联上企事业单位网站,实现档案信息的网上检索,为用户提供更好的服务。目前,国内许多单位档案馆(室)利用互联网开展的网上服务,已成为为社会和单位提供档案利用服务的一种重要形式。档案工作者要以网站为基础,进一步加快档案信息资源数据库建设,尤其是电子文件全文数据库建设,在网站上实现电子文件的实时治理与利用,实现档案信息资源数字化、数据库化,档案信息服务利用网络化,档案治理工作自动化,档案信息治理法制化。如:输入目录治理数据库,在网上公开部分档案目录,方便查询检索;档案棺(室)与宣传部门密切配合,可以将本单位重大活动中形成的新闻录像档案数字化并及时归档,建立数字化视频档案数据库,以便于宣传和利用。2.建立“电子文件(档案)数据治理中心”。档案馆(室)与企事业单位信息治理部门可加强密切配合,建立“电子文件(档案)数据治理中心”。该中心设在企事业单位档案馆(室),是企事业单位信息资源库的重要组成部分。电子文件(档案)数据治理中心集中治理网站内各单位的归档电子文件,并在网站上提供有限制性或非保密电子文件查询、利用服务,实现电子文件信息资源共享。其优点是覆盖面广,内容丰富,利用率高。3.电子文件的自动上传收集。目前在单机上形成的电子文件的收集工作,已成为档案治理部门不容忽视的问题。与传统纸质档案收集有很大差异的是,许多电子文件的形成通过下载和上传就完成了,因此,档案部门可以改变传统工作模式,在网页上建立电子文件自动上传的工作窗口,在第一时间将其收集到,并在档案馆(室)的服务器上归档。例如:为了方便下级或治理部门、互联网上用户通过网站传送自己单位非保密的档案全文,档案馆(室)自行开发了“电子文件全文自动上传归档系统”。该软件可以利用身边联入网站的计算机,足不出户就可将电子文件全文自动上传到档案服务器归档,而不需跑到档案馆(室),也不必交任何光盘或软盘。4.开展在线服务。传统的档案利用方式,如到档案部门利用档案、参加档案展览、阅读档案复制件或公布件,非凡是到档案部门利用档案原件的方式,在信息化时代里必然要发生变化,至少是部分变化。社会的全面信息化改变了人们工作、学习和生活的环境,使人们更注重信息的时效性,希望通过信息系统、信息网络及时准确地获得多种信息。因此,被动的、手工式的档案提供利用方式必然逐步被主动的、现代化的档案服务方式所代替。档案部门可以在网页上通过汇编相应的专题、提供数据库查询、电子信箱等服务方式,让利用者与档案馆(室)利用电子邮件在网上进行快速通讯,进行信息交流,回答服务对象对档案材料真实性与保存价值的咨询,提供查询和资信服务。5.开展现行文件阅览服务。随着改革开放的不断深入,到档案馆(室)查阅党政机关及有关部门制定的文件的人员逐年增多。尤其是我国加入WTO后,公民出于维护自身合法权益、投资兴业等需要,希望能够更加便捷地了解到有关政策信息。为适应新形势发展要求,进一步转变工作职能,提高工作效率,密切党和XX与人民群众的联系,维护广大人民群众的根本利益,湖北省档案局要求2003年全省各级综合档案馆(室)全部建立现行文件服务中心,要求全省各部门、各单位率先向各级档案馆(室)送交现行文件资料,并要求各级档案馆(室)做好现行文件资料的接收工作,搞好现行文件资料的阅览服务。
二、拓展服务领域
1.信息服务的社会化、多主体。由主要为企事业单位内的对象服务转化为社会全方位服务,已成为档案治理者的共识。这是因为档案部门既要面对党政机关、企事业单位等一切社会活动中利用或可能利用档案信息的组织和个人,又要针对性地为非凡利用者提供特定服务。信息化社会中,人们对各类信息的需求日益迫切。随着科学技术的发展,人们从事的科学研究和生产建设、行政治理活动变得越加复杂,越离不开信息服务。对档案信息的单一需求必然将被对档案、文件、图书、情报检索资料的综合需求所代替。
2.兴办服务实体,发展档案产业。处于信息化社会的今天,从信息资源开发的角度看,档案人员不再单纯是档案的保管员,还应是档案信息财富的拥有者和提供者;档案馆(室)也不再是单纯的收藏机构,还是档案信息的聚集中心、交流中心和信息技术的用户。知识经济时代档案馆(室)的改革创新方向就是走信息化道路,在为社会提供档案信息服务的基础上,创建档案信息服务产业,建立以档案信息搜集、加工、贮存、检索、服务为主要内容的工作实体。对于档案信息的开放和开发,档案工作者应当树立服务意识和产业意识,面向经济建设主战场主动出击。如在汇编专题信息方面:开发科技信息,帮助企业引进开发先进技术产品;开发经济信息,为企业结构调整服务;开发市场信息,为企业提供营销机会;开发法律信息,为企业维护合法权益服务;开发房地产信息,为城市改造和建设服务等。
3.加强横向联合,实现信息资源共享。随着信息时代的发展,人类的知识和信息总量在急剧增长,面对浩瀚繁杂的文献情报,任何一个文献部门都不可能将所有知识和信息全部加以收集、整理、加工、保存和利用。因此,必须打破档案、图书、情报等部门各自为政的局面,建立一个完整的社会信息系统,实行一体化治理,充分发挥整体优势。而建立联合目录,实行资源共享,正是建立社会信息系统的前提条件和核心内容之一。建立联合目录是用统一的著录格式和编排,联合报道两个或两个以上档案馆、图书馆(室)馆藏的档案目录。实现资源共享能使档案、图书、情报等文献部门相互分享各自的资源,使利用者很方便地获得更多、更广泛的知识、信息、情报。通过建立联合目录,成网络,实现资源共享,使各文献部门充分挖掘资源潜力,实现文献资源互补,提高馆(室)藏资源利用率,避免不必要的重复和浪费,因而也可有效地缓解存储空间拥挤、人员及资金紧张等矛盾,并有利于各级各类档案馆、图书馆(室)馆藏朝着有侧重、有特色、专业化、系统化的方向发展,更好地满足社会多方面的需要。
4.注重“反馈”,深层次开发档案信息。反馈方法在档案信息资源开发利用中起着重要的作用。通过反馈信息资源开发利用所产生的结果,进行分析研究,可以提高信息资源开发利用的科学性、合理性、系统性。例如,产品经过用户使用之后,能否适应需要、哪些需要改进等,这是检验企业为适应市场需求而采取的改革措施是否成功的关键,也是对产品质量作出的评价。通过对产品质量的反馈材料进行分析研究,在此基础上,企业进行自我调节,评判自身,检查企业产品改进的目标是否已达到、已经做了些什么、还应做些什么等。
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:打字小能手,如若转载,请注明出处:https://www.447766.cn/chachong/24513.html,