摘要:伴随着计算机技术的不断进步和发展,数据挖掘技术成为数据处理工作中的重点技术,能借助相关算法搜索相关信息,在节省,人力资本的同时,提高数据检索的实际效率,基于此,被广泛应用在数据密集型行业中。笔者简要分析了计算机数据挖掘技术,并集中阐释了档案信息管理系统计算机数据仓库的建立和技术实现过程,以供参考。
一、主题部分
(一)数据挖掘的历史背景及前人工作
数据挖掘是指从数据集合中⾃动抽取隐藏在数据中的那些有⽤信息的⾮平凡过程,这些信息的表现形式为规则、概念、规律及模式等。数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应⽤,数据的积累不断膨胀,导致简单的查询和统计已经⽆法满⾜企业的商业需求,亟需⼀些⾰命性的技术去挖掘数据背后的信息。同时,这期间计算机领域的⼈⼯智能也取得了巨⼤进展,进⼊了机器学习的阶段。因此,⼈们将两者结合起来,⽤数据库管理系统存储数据,⽤计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促⽣了⼀门新的学科,即数据库中的知识发现。1989年8月召开的第11届国际⼈⼯智能联合会议的专题讨论会上⾸次出现了知识发现(KDD)这个术语,到⽬前为⽌,KDD的重点已经从发现⽅法转向了实践应⽤。
⽽数据挖掘则是知识发现(KDD)的核⼼部分,它指的是从数据集合中⾃动抽取隐藏在数据中的那些有⽤信息的⾮平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进⼊21世纪,数据挖掘已经成为⼀门⽐较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展⽇益成熟起来。总体来说,数据挖掘融合了数据库、⼈⼯智能、机器学习、统计学、⾼性能计算、模式识别、神经⽹络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对⼈类产⽣重⼤影响的⼗⼤新兴技术之⼀。若是从技术层面判定数据挖掘技术,则需要将其划分在商业数据处理技术中,整合商业数据提取和转化机制,并且建构更加系统化的分析模型和处理机制,从根本上优化商业决策。借助数据挖掘技术能建构完整的数据仓库,满足集成性、时变性以及非易失性等需求,整和数据处理和冗余参数,确保技术框架结构的完整性。
目前,数据挖掘技术常用的工具,如SAS企业的EnterpriseMiner、IBM企业的IntellientMiner以及SPSS企业的Clementine等应用都十分广泛。企业在实际工作过程中,往往会利用数据源和数据预处理工具进行数据定型和更新管理,并且应用聚类分析模块、决策树分析模块以及关联分析算法等,借助数据挖掘技术对相关数据进行处理。
(二)基于数据挖掘的分类方法的研究现状及研究成果
2.1基于K-Means聚类算法和Apriori关联规则算法的商业银行客户行为分析模型
K-Means 算法是一种迭代的聚类算法,又称作“K 均 值聚类算法”,它的具体处理过程是把n个对象根据他们 的属性分为k个分割,k<n,它将n个观察值分为k个类。使 每一分类的观察值与该类的均值最接近,而与其他类的均值
较远。K-Means 算法首先从n个数据对象任意选择k个对象 作为初始聚类中心,而对于所剩下的其它对象,则根据它们 与这些聚类中心的相似度(也就是于聚类中心的距离),分别将它们分配给与其最相似的聚类中心所代表的聚类,然后再计算每个所获得新聚类的聚类中心,及该聚类中所有对象的均值,通过不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K个聚类具有以下特点:各个聚类本身尽可能地紧凑,而各个聚类之间尽可能地分开。算法的计算过程可以如下:
输入:聚类个数k以及包括n个数据对象的数据库。
输出:满足方差最小标准的k个聚类。
Apriori 算法是一种挖掘布尔关联规则频繁项集的算法。算法使用频繁项集性质的先验知识,通过逐层搜索的迭代方法,用k-项集探索(k+1)-项集。具体步骤为首先 找出频繁1-itemsets的集合,然后使用这个1-itemsets进行组合,找出2-itemsets的频繁集,如此下去,直到不再满足最小支持度或置信度的条件为止。这其中两个重要的步骤分别是连接和剪枝,即从(k-1)-itemsets 中的项进行组合,产生备选集,再从备选集中,将不符合最小支持度和置信度的项删去。为提高频繁项集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间:
(l)若X是频繁项集,则X的所有子集都是频繁项集。
(2)若X是非频繁项集,则X的所有超集都是非频繁项集。
2.2利用 SVM 算法实现分类
为提高分类准确度,需要对训练集和测试集进行数据归一化预处理,采用如下公式所示的归一化映射 :
式中,x,y ∈Rn,xmin = min(x) ,xmax = max(x) 。这一步使得原始数据被规整到 [0,1] 范围内,即 y∈ [0,1 ],这种归一化方式称之为[0,1] 区间归一化。
2.3耦合效率
经典分类方法在构建数据分类器过程中并未考 虑数据点本身之外的点之间的关联信息,并不符合数据集中数据点相互作用的事实,在构建数据分类器的过程中应同时考虑数据点之间的关联特征与物理特征.耦合效率是挖掘数据点关联作用中的辅助信息的具体体现,反映数据点关联特征与物理特征共同作用的效果,对于测试样本点t,耦合效率定义如下:
其中,ψc为测试样本点t与子网络中节点vi之间的耦合效率,γ为耦合效率平衡系数,用于平衡数据点关联特征与物理特征之间的作用,γ越大,数据点关联特征作用越强,γ越小,数据点物理特征作用越强,γ值的大小可根据数据分类的性能确定,或通过网格搜索结合交叉验证的方法确定最优值.
2.4归属关联集
归属关联集中的节点为测试样本点与基于辅助 信息挖掘的数据分类模型建立关联的点,即与每个子网络建立连接的点,如图1( e) 所示.建立连接的依据描述如下.1) 对于测试样本点 t 与类 cl 中的第 j 个数据点,如果 ψcl ≥ 1,测试样本点 t 与类 cl 中的第 j个数据点之间建立连接.2) 对于测试样本点 t 与类 cl 中的第 j 个数据点,如果 ψcl < 0,在 ψcl 最接近于0时
在测试样本点t与类cl 中的第j个数据点之间建立连接.测试样本点 t 与类 cl 建立的归属关联集 Θcl 定义如下:
Θcl = { vj ψcl ≥ 1,vj ∈ cl}
归属关联集反映基于辅助信息挖掘数据分类方 法的测试样本点与每类数据的亲密程度,通过计算 归属关联集中所有子网络节点的影响力之和并将测试样本点归入与具有最大影响力之和的归属关联集对应的类中,最终实现数据分类,如图 1( f) 所示.归属关联集的节点影响力之和 SUMΘcl 定义如下:
SUMΘcl = ∑vj∈cl inj.
2.5ID3 算法
决策树算法中最著名的算法是Quinlan提出的ID3算法。ID3算法从树的根节点处的所有训练样本开始,选取一个属性来区分这些样本,属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分配到某个类中。ID3算法是一个贪心算法。它采用自上而下、分而治之的递归方式来构造一个决策树。
设一个属性A取v个不同的值{a1,a2,…,av}。利用属性A可以将集合S划分为v个子集{S1,S2,…,Sv},其中sj包含了S集合中属性A取aj值的数据样本。若属性A被选为测试属性(即用属性A对当前样本集进行划分),设Sij为子集Sj中属于Ci类别的样本数。那么利用属性A划分当前样本集合所需要的信息(熵)可以按如下公式计算:
E(A)=∑i=1v S1j +…+Smj S (I S1j,…,Smj)。
这样利用属性A对当前分支节点进行相应样本集合划分所获得的信息增益就是:
Gai(n A)=I S1,S2,…,Sm)- E(A)。
通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合S的测试属性,创建一个节点,并以该属性标记,对属性的每个值创建分支,进行样本划分
2.6决策树的修剪
在一个决策树刚刚建立起来的时候,由于许多分支是由训练样本集合中的异常数据(由于噪声等原因)构造出来的,决策树过于“枝繁叶茂”,这样既降低了树的可理解性和可用性,同时也使决策树本身对历史数据的依赖性增大,也就是说这棵决策树对此历史数据可能非常准确,一旦应用到新的数据时准确性却急剧下降,这种情况被称为为训练过度。为了使得到的决策树所蕴含的规则具有普遍意义,必须对决策树进行修剪。树枝修剪的任务主要是删去一个或更多的树
枝,并用叶替换这些树枝,使决策树简单化,以提高今后分类识别的速度和分类识别新数据的能力。通常采用两种方法进行树枝的修剪,现分述如下。
(1)事前修剪法
该方法通过提前停止分支生成过程,即通过在当前节点上就判断是否需要继续划分该节点所含训练样本集来实现。一旦停止分支,当前节点就成为一个叶节点。该叶节点中可能包含多个不同类别的训练样本。由于该修剪是在分
支之前做出的,所以称之为事前修剪。常用的方法是设定决策树的最大高度(层数)来限制树的生长。还有一种方法是设定每个节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分割。但确定这样一个合理的阈值常
常也比较困难。阈值过大会导致决策树过于简单化,而阈值过小时又会导致多余树枝无法修剪。
事后修剪法该方法是从另一个角度解决训练过度的问题。它在允许决策树得到最充分生长的基础上,再根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或分支。修剪后,被修剪的分支节点就成为一个叶节点,并将其标记为它所包含样本中类别个数最多的类别。事后修剪是一个边修剪边检验的过程,一般规
则是:在决策树不断剪枝的过程中,利用训练样本集或检验样本集数据,检验决策树对目标变量的预测精度,并计算出相应的错误率。用户可以事先指定一个最大的允许错误率。当剪枝达到某个深度时,如计算出的错误率高于允许的最大值,则应立即停止剪枝,否则可以继续剪枝。这是利用训练样本集进行后修剪时会出现错误率越低、决策树的复杂程度越高的现象。当然事前修剪可以与事后修剪相结合,从而构成一个混合的修剪方法。事后修剪比事前修剪需要更多的计算时间,但得到的决策树更为可靠。
二、总结部分
(一)观点总结
从以上数据挖掘的相关论述分析中,可以看到最好的方法是决策树法。理由如下:
操作简便:从树的根节点处的所有训练样本开始,选取一个属性来区分这些样本,属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分配到某个类中。2)精确度优:为了使得到的决策树所蕴含的规则具有普遍意义,必须对决策树进行修剪。树枝修剪的任务主要是删去一个或更多的树枝,并用叶替换这些树枝,使决策树简单化,以提高今后分类识别的速度和分类识别新数据的能力。
(二)发展前景
当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(⾏业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化⼯,医药等方面。当前它能解决的问题典型在于:数据库营销、客户群体划分、背景分析、交叉销售等市场分析⾏为,以及客户流失性分析、客户信用记分、欺诈发现等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店,会发现当你选中⼀本书后,会出现相关的推荐数目,这背后就是数据挖掘技术在发挥作用。
参考文献
[1] Yuri Ariyanto (*), Budi Harijanto, Atiqah Nurul Asri .Analyzing Student’s Learning Interests in the Implementation of Blended Learning Using Data Mining[J]
[2] Kazheen Ismael Taher1* , Adnan Mohsin Abdulazeez2 and Dilovan Asaad Zebari3.Data Mining Classification Algorithms for AnalyzingSoil Data [J]. Asian Journal of Research in Computer Science 8(2): 17-28, 2021
[3] Abdul Aziz Faculty of Computer Science & IT Superior University, Lahore, Pakistan . Detection of Cardiac Disease using Data Mining Classification Techniques[J]. (IJACSA) International Journal of Advanced Computer Science and Applications,Vol. 8, No.7, 2017
[4]张钰莎,蒋盛益.基于MFCC特征提取和改进SVM的语音情感数据挖掘分类识别方法研究[J].计算机应用与软件,2020,37(08):160-165+212.
[5]顾苏杭,王士同.基于数据点本身及其位置关系辅助信息挖掘的分类方法[J].模式识别与人工智能,2018,31(03):197-207.
[6]陆惠惠,王炼.基于数据挖掘的大用户用电特征分类方法研究[J].电子设计工程,2021,29(14):38-41+46.
[7]赵士伟,卓力,孙少卿,沈兰荪.基于数据挖掘的视频镜头分类方法[J].北京工业大学学报,2012,38(05):721-726.
[8]杨帆,许强,戴岚欣.基于数据挖掘的支持向量机围岩分类方法研究[J].人民黄河,2017,39(07):135-138.
[9]倪现君.基于数据挖掘分类技术的高校教学方法研究[J].科学技术与工程,2006(04):390-393.
[10]甘杨兰,赵梅,牛森,邹国兵.基于云仿真环境数据挖掘的服务分类方法[J].计算机仿真,2014,31(10):460-465.
[11]陈新.数据挖掘分类方法中的决策树算法探究[J].电脑知识与技术,2013,9(35):7904-7905+7910.
[12]戴炳荣,王晓丽,李超,陈洁,施天行.一种基于PCA-SVM的医疗卫生数据挖掘分类方法[J].计算机应用与软件,2016,33(08):67-70.
[13]杨彬.一种基于RFM模型数据挖掘处理双阶段客户关联分类方法[J].统计与决策,2015(07):77-79.
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:1158,如若转载,请注明出处:https://www.447766.cn/chachong/160737.html,