1引论[作者简介:XXX(1980.10-)男,工程硕士,研究方向:软件工程。]
目前,国内的应用主要集中在XX(公共服务单位)、电信等行业内,而应用上主要体现在网站内容管理上与文档管理上,处于内容管理的初级阶段。
企业内容管理在内容上应该包括收集、格式转换、审核、分类、版本控制、内容测试、发布等处理的过程。而企业文档信息管理系统建设从整合企业信息资源的需求出发,重在提高效率,信息公开,充分利用计算机和现代通讯手段面向企业服务,建立企业内部信息交流的快速通道,共享信息资源,强化部门业务管理,加强各业务部门之间的交流,实现企业信息的快速上传下达,促进协同办公,提高办公效率,为各级部门及业务人员提供辅助办公和决策服务。企业机关的文档主要体现在上下级部门之间的收发文管理,数据量大、安全权限、流转过程控制要求很高。
企业每天都会产生、接收、传递和处理大量的纸张文件。传统的文档管理方法需要大量的人员,足够的空间和设备费用,却不能提供可靠的安全保障和满意的工作效率。所以文档的电子化、现代化管理也成为一种大趋势。在提高工作效率和安全性的同时,还需要保证系统的可扩展性和可靠性。
2 XXXXXXX的技术分析
Lucene是一个全文搜索框架,而不是搜索应用产品。因此它并不像百度或者Google Desktop那样拿来就能用,它只是提供了一套工具让你能实现这些搜索产品。Lucene能够为文本类型的数据建立索引,所以只要能把要索引的数据格式转化为文本,Lucene就能对文档进行索引和搜索。比如要对一些HTML文档,PDF文档进行索引的话,首先需要把HTML文档和PDF文档转化成文本格式的,然后将转化后的内容交给Lucene进行索引,再把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询[5]。不指定要索引的文档的格式也使Lucene能够几乎适用于所有的搜索应用程序。搜索应用程序和Lucene之间的关系,也反映了利用Lucene构建搜索应用程序的流程(参见图1所示)。

索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有要查找的关键词,这样的话就会耗费非常多的时间,搜索引擎可是在毫秒级的时间内查找出要搜索的结果的。这就是由于建立了索引的原因,可以把索引想象成这样一种数据结构,他能够使你快速的随机访问存储在索引中的关键词,进而找到该关键词所关联的文档。
利用Lucene进行搜索就像建立索引一样也是非常方便的。Lucene提供了几个基础的类来完成这个过程,它们分别是IndexSearcher,Term,Query,TermQuery,Hits。
搜索需要用到索引文件,索引文件是以一种倒排表的方式进行组织的,而倒排表的生成要依赖于分词。英文是以词为单位的,词与词之间使用空格进行分隔,所以分词比较简单。中文是以字为单位的,一句话是由连在一起的字组成的。例如:英文的句子video search engine,中文为视频搜索引擎。计算机可以通过空格知道video是一个词,但是却不能直接知道“视”和“频”的组合是一个词。把中文汉字序列切分成有意义的词就是中文分词。所以视频搜索引擎的分词结果应该为“视频搜索引擎”。
正向最大匹配分词和逆向最大匹配分词都是基于词典的分词方法,所谓基于词典的分词是指要事先准备一个分词词典,分词词典中有大量的词,一般词典中词的数量在十几万到几十万不等。然后将待分词的句子按照一定扫描规则与词典中的词进行匹配。如果匹配上就将这个词分出来。之所以称为最大匹配,就是要求每一句分词的结果中词汇的总量要最少。
网络视频搜索系统面向的是广大的互联网用户,所以使用的用户数量非常大,用户上传的视频节目数量非常多,所以随着数据量的增大和用户访问量的增加,就需要设计的搜索引擎系统的性能要非常好,能够支撑非常高的并发访问请求,同时系统能够非常容易地进行扩展,还必须具有较高的稳定性和可用性。所以,分布式的搜索系统架构是一个搜索引擎能否面向未来发展的关键因素。
通过对已有的架构方案的优缺点进行了解和分析,提出一套新的更加简单高效,具有较高的扩展性和易维护性的分布式搜索引擎的架构。这样的架构能够更好得满足网络视频搜索引擎的需要(其架构如图2所示)。

3系统需求分析与总体设计
根据系统设计方法,结合RUP(Rational Unified Process)软件开发的最佳实践,该系统的架构设计方法如参见图3所示。

从图3中可以看出,系统的目标和任务是总体框架设计的出发点,它代表了系统的整体需求。主要依据系统目标和任务做架构设计,但在整个设计过程中需要全面分析IT系统现状,包括软件和硬件现状,因为IT系统现状对架构设计将产生一定约束。从某种意义上讲,IT系统现状也是需求的一部分。同时约束架构设计的还有业务、技术发展现状及趋势。
在会计档案、业务档案、电子档案的处理过程中,将档案信息(例如:年份、密级等信息)采用结构化数据的方式存储到数据库中。图像、电子文档、图纸等采用非结构化数据存储到介质中。同时,在档案数据的生成、管理、查询、分析和利用等过程中采用结构化数据和非结构化数据并存的方式,提高非结构化数据的利用不变问题。
企业文档信息管理系统由档案管理子系统、组织管理子系统、库房管理子系统、出库入库管理子系统。通过这些系统,支撑企业的文档接收、整编、管理等实际应用
企业文档信息管理系统将建立成为一个对各种电子文档和资料(Office文档、图形图像、音频视频、XML文档、历史文档、扫描的票据影像、数据库导出记录、其他文档)进行有效的组织管理和利用的应用软件系统,设计成灵活、高效、安全的文档资料管理方案,使得用户能够以最灵活的方式管理信息、最快的速度获取信息、最安全的手段使用信息,降低文档信息资料的管理、传递、使用的成本,规避因文档资料的遗漏和泄密所造成的风险。
为便于与业务系统集成,充分保护用户的现有投资,企业文档信息管理系统完全基于业界成熟的J2EE架构平台,采用JAVA、JSP、Servlet、Web Service、XML等编程技术,这种技术模式非常易于系统升级和向今后的先进技术实现迁移。
企业文档信息管理系统将存储层、数据逻辑层、业务层、表现层分离,所以在系统部署方面可以实现更加灵活的部署方式。对于小规模的应用,可以将应用服务器与数据库部署在一台服务器上,而对于较大规模的应用,可以将应用服务器与数据库分离,对于更大规模的应用则可以利用负载均衡技术,部署两台或多台应用服务器。
企业文档信息管理系统是一个扩展性非常强的系统,能够在不修改应用程序的前提下满足未来业务发展的需要,主要体现在文档架构的扩展性、功能操作的扩展性和业务流程的扩展性等。
用户可以根据自己的业务情况,建立各种目录、文档库等来组织和管理自己的业务数据。可以任意定义文档类型、组织方式和包含关系,建立符合用户需求的各种文档库(如:文书文档库、科技文档库、会计文档库、合同文档库、基建文档库、设备文档库、声像文档库、实物文档库等)来管理各类文档(如:图纸、公司收发文、会计报表、会计账簿、凭证、合同、协议、照片、光盘、声像、实物等)。同时,库的存储介质、管理员和访问者都可以任意指定。
电子文档在利用方便的同时,也面临着容易丢失的问题。所以对其进行加密设计。将存入进系统的电子文件进行加密,即使丢失脱离系统也无法打开。
为了节省存储空间,对电子文档实行压缩设计。在电子文件保存到文档系统时,系统会自动采用标准的数据无损压缩算法对文件进行压缩处理,某些格式的文件压缩比可达到10至20倍,不仅节省存储空间,而且还能够提高网络传输速度。
系统管理员可只对某些类型的文件启用压缩和加密,目前支持的压缩方式是ZIP或GZIP。
4系统的实现
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
4.1档案管理子系统
档案管理子系统主要实现会计档案的案卷级目录录入、统计查询、物理定位、查询申请、表式输出等功能,下设四个子模块:会计凭证、会计帐簿、会计报表、其他会计资料。
通过企业文档信息管理系统的库管理模块,建立会计凭证库、会计帐薄库、会计报表库、其他会计资料库等。该模块主要实现对装订成册的会计帐簿按每册信息进行录入、查询、统计,支持历史数据导入。
它主要包括功能模块:新增、修改、删除、查询、统计、导出。
查询功能该系统采用Lucene搜索引擎,Lucene用“锁”的机制来实现同一文件夹的互斥访问:当有进程访问需要互斥访问的文件夹时,首先查看与之关联的“锁”是否存在,若存在则拒绝访问;若不存在,则先上“锁”,访问之,最后解“锁”。不同的Lock子类,具体的“锁”实现方式并不一样
模块主要实现对会计会计报表报表档案进行录入、查询、统计,支持历史数据导入。其主要包括功能模块包括:新增、修改、删除、查询、统计、导出、销毁。
4.2组织管理子系统
组织管理子系统主要实现对于分项细化统一对档案组织管理的各项要求,为系统内各单位档案管理达标验收或检查提供支撑。
管理职责模块主要功能:从法律法规、年度计划、岗位职责等方面来规范档案管理职责。岗位责任规定的清晰明确,就能有效地增强每个职工为达到质量方针、目标的责任感。职责与权限也应该是统一的,不能有职无责或有职无权,职责也不能规定的笼统含混,范围不清。
在系统中建立组织职责管理库,将管理职责以手工录入和导入的形式著入管理职责库中。并可以进行相应的输出。
管理制度模块主要功能:为保证档案文件的完整,便于查找利用,做好收集、立卷、保管、等工作,维护文件档案的完整和安全,特制定相应的管理制度。
在系统中建立管理制度库,将管理职责以手工录入和导入的形式著入管理制度库中。并可以进行相应的输出。
对系统应用单位中执行的各项档案工作制度,如:档案整理归档制度、档案保管制度、档案鉴定销毁制度、档案移交制度、档案保密制度、档案利用制度、档案人员岗位责任制、库房保管制度、电子文件归档管理制度等,进行了新增、修改、删除、导入、导出、打印等操作。
通过具体措施或手段,保证了档案的完整性、准确性和系统性并可进行新增、修改、删除、导入、导出、打印等操作。如新增“三纳入”(档案工作纳入单位领导议事日程,纳入单位规章制度及工作流程,纳入有关部门和人员得岗位责任制),通过手工录入或导入文件、照片等实现信息录入。
4.3库房管理子系统
库房管理子系统档案资料归档后存放地的准确物理定位,作用于系统全部档案库房的所有门类档案。实现各独立档案库房的布局展示,容积率的实时反映提醒功能,库存档案的分类、汇总统计功能。
实现档案库房的温度、湿度、光照度等的信息采集录入,并生成明细、汇总报表的导出处理、打印功能。作用于系统除核心档案库房外的各档案库房的所有门类档案。
与密集架和温湿度采集系统集成,将库房的温湿度记录、密集架情况自动手收集到新档案系统中。并形成温湿度和密集架使用情况的台帐。
其主要功能:在以手工录入、数据导入等著录方式完成后,生成的档案资料同步反映在库房管理子系统下,显示为待确认存放地的列表。批量处理方式,对存放地相同的档案进行存放地定位操作。并将增加的档案数量信息输出给库房存量示意图、表中,增加存量信息。
4.4入库出库管理子系统
入库出库管理子系统的功能包括:对档案资料的入库和出库操作,实现物理定位。不再需要人工收发货,大大提高仓储流程的运营效率,有效地管理跟踪进出库的物料,并且使物品的流动可视化。便于供应链伙伴之间跟踪信息(其功能结构参见图8所示)。
其主要功能:待入库的档案形成列表,作为待办理工作项,对入库出库的档案进行单个或批量的操作。
对档案管理对档案室内的档案进行存放地的调整工作,需重新定位存放地信息,在其他著录项不变的情况下,只对存放地字段进行修改操作,此项工作只能由档案室管理人员进行。
5结束语
本文中所涉及到的研究内容和所取得的阶段性成果如下:
对目前电子档案管理系统进行需求分析,了解分析系统的设计与实现方法。通过对档案行业的分析了解到不同行业的档案的条目等信息都是不相同的,所以本次系统在设计中要考虑到可灵活定制,以适合不同条目的档案的信息录入。
针对档案系统需要和其他系统同步数据的需要,在系统中设计相应的接口。由于其他系统可能由不同的语言设计的(例如:.NET、Java等),所以在设计接口时,考虑采用webservice的方式。
目前,由于Java语言的成熟度较高,并且无论服务器端、中间件、数据库都有成熟的开源产品,所以本次的电子档案系统采用Java语言来进行设计。
基于以上对之前论文研究工作情况的说明以及对阶段性研究成果的说明。从论文研究情况来看,下一步的主要工作是了解档案从创建到销毁的过程,并且利用Java技术实现。同时考虑到与其他系统的数据连接,采用webservice来设计接口。并且考虑整个过程的易用性、实用性,使设计的系统更加方便使用。
由于不同企事业单位的档案条目都是不同的(例如:科技档案、人事档案等),所以对系统在数据录入的时候考虑信息条目的录入应该是可以自定义的。同时,考虑到易用性、方便性,在系统设计时考虑提供一些常用的模板,来方便档案的建立。
虽然企业文档信息管理系统的出现已经彻底改变了传统档案保存方式,发生了质的改变,但是目前仍然存在以下问题:
电子档案原件的真实性问题
电子文件很容易被删改,且改后不留任何痕迹。在使用计算机形成文件材料的过程中,拟稿者无法留下自己的笔迹,单位负责人也无法在形成的文件材料磁盘上签发,日后难以确定该份材料是否具有真实性和权威性。即使有人出于自己的目的将软盘中存的内容进行了删改,也难以发现和确定。
电子档案内容的保密性问题
用网络的任何终端设备都能索取到存储在网络某一个设备上的电子文件。另一方面,一个终端上的电子文件也可同时发给若干个网络终端。这对于在一段时间需保密的内容或限制提供利用的内容的安全保密问题,带来了极大的威胁。
电子档案保存的长久性问题
随着办公自动化的不断深人,好多单位将会实现无纸办公,所有的情况、决策、信息存储在网络中,人们只要操作一下键盘就可以得到所需的信息。这种方法确实为档案的归档存储简化了程序,也方便了利用,但是一旦网络突然瘫痪或被毁,如出现“黑客”问题,遇到病毒问题或其它方面的故障,电子文件可能会在一瞬间同时消失,造成难以弥补的损失。
档案管理软件的统一性问题
计算机软件研制大大落后于硬件的发展,远不适应各方面存储的需要。档案系统各地区之间、单位之间不使用统一的软件,势必会影响到互相之间的利用以及全国的联网。
虽然该项研究取得了一些成绩,但是国内外的专家研究文档信息管理的脚步并没有停止,目前已经出现了一些新的概念,例如企业内容管理等新兴的名词。将传统的文件、档案管理上升到企业内容管理的新的高度。同时,管理的内容也多种多样,理论上,企业产生的所有非结构化内容都将纳入管理范畴中。而所有的概念,都是从最基础的企业文档信息管理升华而来,在以后的研究和工作中也将会针对企业内容管理方面做深入的研究。
参考文献
[1]吴志华,陈应刚.张健.企业管理软件现状与发展研究.华北工学院学报[J],2002年,第6期:422-425。
[2]卢亮张博文,搜索引擎原理、实践与应用,电子工业出版社,2007年9月。
[3]信息处理—数据流程图,程序流程图,系统流程图,程序网络图和系统资源图的文件编制符号及约定,国家标准局(GB1525一89)。
[4]钟海,中国联通四川分公司企业信息管理系统设计与实现,2007年6月。
[5]RAEL DORNFEST、PAUL BAUSCH、TARA CALISHAIN,GOOGLE HACKS,O'Reilly Media,Inc.,2007.
下载提示:
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:写文章小能手,如若转载,请注明出处:https://www.447766.cn/chachong/10998.html,