基于大数据挖掘的旅游分析

 摘要

随着国民经济的不断进步与发展,旅游逐渐成为了人们休闲娱乐的主要形式。大学生群体作为一个特殊的消费群体,其在旅游决策时的消费心理受到旅游行业从业者的广泛重视。与此同时,互联网的迅速发展,促使了网络信息的大爆发,产生了大量的大数据可以广泛使用,如何将这些大数据转换成有用的信息和知识,则需要依靠大数据挖掘技术的帮助。本研究将利用大数据挖掘技术,分析大学生在做旅游决策时受主要影响因素的影响程度,并由此为依据为XX、高校以及旅游从业者提出合理的建议。

针对这一课题,本研究通过对贵阳市大学生的问卷调查形式获取大数据源,本次研究采用决策树、随机森林两种算法建立目标变量与解释变量之间的关系,并建立相关模型对获取到的大学生出行旅游的影响因素进行大数据分析,最终得出影响大学生出行旅游决策的规则以及各个影响因素对大学生出行旅游决策的影响程度。实验结果表明,决策树、随机森林预测模型效果良好,可作为判断影响大学生旅游决策的主要因素的算法模型,由此可以为帮助XX、高校合理引导大学生出行旅游提出建议以及帮助旅游行业从业人员在行业中建立更好的立足点,提供有价值的参考。

 关键词:大数据挖掘;旅游;决策

 第一章绪论

本文运用决策树、随机森两种算法,对大学生出行旅游决策心理进行研究分析,将研究背景与问题提出、研究目的与意义、研究软件、研究创新点以及文章结构作为绪论部分所要表述的内容。

 1.1研究背景

近年来,我国的旅游产业呈现出较快的发展势头。第三产业中,旅游业扮演者非常重要的角色,它有力地促进着我国经济的全面发展,旅游行业逐渐成为我国经济支柱产业之一,很多省市都在把发展重心向旅游产业转移。

在旅游群体当中,大学生是整个旅游市场的一个重要而又独立的组成部分。大学生作为社会的一个特殊群体,具有一定的经济独立能力和自我生活能力,有相对宽松的时间,具有更多的冒险精神和追梦遐想,这些促成了大学生旅游热。因此,大学生作为一支旅游生力军的地位确实不容忽视。2020年疫情袭来,全球受到疫情的影响,各行各业或多或少的受到了疫情的影响,旅游业更甚,而旅游业在这种情况下,要如何更好地进行面对大学生群体的发展,势在必行。

近年来随着我国经济飞速发展,旅游业发展成为国内学术界探讨的热点话题之一。旅游业不断地细分目标市场,让大学生这一特殊群体在行业内成为了一块重要的消费人群。通过查阅相关文献后发现,对于出行旅游方面较多是围绕在旅游出行现状、旅游出行体验等方面进行研究,而对旅游决策的影响因素研究比较欠缺。本文以大学生为对象,对其旅游决策的影响因素进行实证分析,希望能补充这块研究欠缺,为以后更深入的研究提供一定参考借鉴。

 1.2研究目的

本研究针对大学生旅游决策的影响因素进行分析,通过问卷调查收集到的大数据作为分析大数据来源,并结合大数据挖掘技术的决策树、随机森林,深入了解大学生出行旅游决策的心理过程,进而找出影响大学生旅游决策的主要影响因素,并在其研究结果之上进行分析、讨论,希望能够为旅游行业从业者和经营者提供有价值的参考。

 1.3国内研究现状

刘小嵌(2017)通过问卷调查的方式深入了解了年轻旅游者这一不断壮大的特殊群体的决策心理过程,分析出旅游企业需要为其提供心之所向的体验服务产品,真正做到满足这一特定游客群体的个性化需求[2]。赵鹏(2012)构建了大学生旅游消费行为影响因素模型,通过验证假设,发现出行前旅游决策、对旅游目的地的感知、旅游动机三者与旅游目的地的选择都显著相关[3]。郑海青(2017)利用基于Scrapy框架的网络爬虫技术和基于Beautiful Soup的网页信息提取技术,从马蜂窝旅游网抓取了景点大数据结合问卷调查的方式,使用了结合了贝叶斯分类推荐和关联规则推荐的混合推荐算法具有较好的推荐准确率和覆盖度,能够满足对用户对景点推荐的需求[4]。

目前国内学者对于大学生旅游决策影响因素分析的研究相对较少,且主要是通过问卷调查的形式,研究方法大多是采用简单的描述性统计分析和回归分析方法为主。本文将引入大数据挖掘算法(决策树、随机森林)来分析大学生旅游决策影响因素,希望能增补大学生旅游决策影响因素分析的研究方法。

1.4研究工具与方法

本文将使用决策树及随机森林两种算法作为基础算法,并以此来确定大学生旅游决策影响因素的影响大小。决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

 第二章大数据挖掘概述

  2.1大数据挖掘定义

大数据挖掘出现在20世纪90年代,近年来,大数据挖掘引起了信息产业界的极大关注,并且得到了迅猛的发张,已然成为大大数据时代中各行各业中的一大热点。所谓大数据挖掘技术是指从大型大数据库中揭示出隐含的、有噪声的、随机的、先前未知的并具有潜在价值信息的非平凡过程[5]。通过大数据筛选和大数据预处理,帮助决策者分析历史大数据以及当前大数据,高度自动化地分析原有的大数据进行归纳性推理[6]。

 2.2大数据挖掘方法

大数据挖掘分为有指导的大数据挖掘和无指导的大数据挖掘。有指导的大数据挖掘是利用可用的大数据建立一个模型,这个模型是对一个特定属性的描述。无指导的大数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的大数据挖掘;关联规则和聚类属于无指导的大数据挖掘。(1)分类,它首先从大数据中选出已经分好类的训练集,在该训练集上运用大数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的大数据进行分类,。(2)估值,估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。(3)预测,它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。(4)相关性分组或关联规则,其目的是发现哪些事情总是一起发生。(5)聚类,它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中[7]。

 2.3大数据挖掘流程

大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的大数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。有以下基本流程:

(1)明确目标,在实施大数据挖掘之前,须明确通过大数据挖掘去解决什么样的问题。

(2)大数据搜集,当明确了目标后,需要去搜集大数据,搜集的大数据即可以影响到这些问题的解决办法,大数据搜集决定了后期工作进程的顺利程度。

(3)大数据清洗,搜集到的大数据来源是复杂混乱的,必须保证大数据的“干净”,因为大数据的质量高低将会影响最终结果的准确性。

(4)构建模型,在保证大数据“干净”的前提下,需要考虑以什么样的模型能进行建模,以确保更好的解决问题,。

(5)模型评估,从已建的模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映大数据的真实性。

(6)应用部署,把从大数据挖掘中得到的规律运用到实际问题中去。

  第三章大数据挖掘方法概述

  3.1决策树算法

决策树(Decision Tree,DT)算法是一种经典的大数据挖掘算法,是目前应用最为广泛的归纳推理算法之一,在大数据挖掘中受到研究者的广泛关注[8]。目前,决策树算法主要分为分类与回归树算法(Classification and Regression Tree,CART)、ID3算法、C4.5算法[9]。算法不一样,随之对应的衡量标准也不同[10]。

本文采用分类与回归树(Classification and Regression Tree,CART)来进行分类问题的研究并建立分类决策树。CART分类决策树算法主要通过递归地构建二叉树[11]。使用基尼系数(Gini)选择特征,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好[12]。

4efd250fe02ef927d1c0747528476439

决策树的结果直观、明确、易懂。决策树的每个分支决策树在建立过程中会建立一个树状的结构,其结构由根节点、子节点、叶节点组成,每个分支代表预测的方向,叶节点代表着最终的预测结果[13]。如图3-1为决策树的树状结构图。

图3-1决策树的树状结构图

aa8eac49693cd18651163b990dfcc54d  在决策树中复杂性参数CP和最小分支节点数M是十分重要的两个参数,决定着分类准确率的好坏。决策树生成过程中,建立不同的分枝,需要考虑到子节点上如何选择度量和评估要素的属性,随后使用不一样的度量值来确定。每个子节点都需要不断重复以上的过程,一直到最终达到规定的预设条件才可以停止。当出现属性的变量不能够再继续进行分割,或者每个训练集都归到了同一个分类上,再或者树的深度已经超过了预设值(复杂性参数CP和最小分支节点数M)的情况出现时,就可以停止。

 3.2随机森林算法

随机森林(Random Forest,RF)算法模型是在决策树算法的基础上形成的,由众多的决策树构成,但其每个决策树之间都不存在关联性[14]。每当遇到要判断样本时,主要根据遵循可放回的原则,将所抽到的大数据样本放置到决策树的根节点上,以确保树与树之间是相互独立的关系。随后,由决策树依据属性类别进行“投票”,并形成相应结果,得出最优分类结果[15]。

随机森林算法主要有以下四个步骤[16]:

步骤1:在最开始的训练集为A的情况下,基于Bootstrap方法,采用带有替换的再抽样模型,先在里面抽取一个样本集n,接着,重构n棵分类树。这里面,每个样本都包含了k个属性。

步骤2:对样本进行随机的选择,先挑出k个属性特征,再挑出里面的s个属性,要求s<k。随后检查每个分类点,确定阈值,最终选择的属性是在s个属性中分类能力最强的。

步骤3:不对决策树的生长过程进行修剪。

步骤4:终极预测值实行的方式是“投票”,当样本进入随机森林后,各决策树会进行确定和过滤,并利用分类器进行相应“投票”,最终“投票”票数多的获胜,该结果就是最终预测结果。

随机森林的算法步骤如图3-2所示:

图3-2随机森林步骤

f7c802779f2f24691f0f33e37d7092a0  第四章基于大数据挖掘的大学生旅游决策影响因素分析

  4.1大数据准备

本研究采用电子问卷调查方式,为确保问卷最终的合理性,在正式发放,先进行了问卷预测试,测试通过后再进行正式问卷的分发。正式问卷共收回大数据1224笔,大数据清洗、删除无效问卷后共获取到有效问卷1119笔(有效率91.42%)。随后,将包含目标变量和解释变量的大数据转换为.csv格式,便于之后运用R语言工具进行相关分析。

为了预测模型能够具有良好的泛化能力,则将样本大数据中80%作为训练大数据,其余20%作为测试大数据。并调整DT、RF的参数,建立预测模型。运算结果训练集均大于测试集,且误差不超过10%,则说明没有出现过拟合现象。

 4.1.1问卷设计

本问卷主要面向的是贵阳市大学生,除了基本的个人信息外,本研究对大学生出行旅游决策的心理因素采用五点量表进行设计。通过较为直观的表述,使得被调查者理解起来较为容易,填写问卷时也较为方便。量表中包含通过文献、社会经验得出的“闲暇时间”、“可自由支配收入”、“出行体验感”、“亲朋好友推荐”、“旅游景区评价”、“旅游景区的知名度”、“与旅游目的地的距离”、“旅游景区的娱乐设施、饮食安全状况”、“旅游景区门票、娱乐项目的价位”9个主要影响大学生旅游决策的因素。该设计对于问卷的回收和处理具有方便的效果,便于之后对于每个被调查者关于问题的反馈,可以进行较为详细准确的分析。

问卷主要包括“游客本身”、“旅游目的地”、“旅游决策”三个模块,其中“游客本身”、“旅游目的地”两个模块的选项为1至5项,1到5分别代表的是“影响非常大”、“影响比较大”、“影响一般”、“影响比较小”、“没有影响”,“旅游决策”模块的选项为1、2,分别代表的是“有影响”、“没有影响”,被调查者选择其中一项来回答。

 4.1.2大数据测试

本研究大数据来源于电子问卷调查的方式,通过广泛阅读相关文献、期刊及新闻热点等素材,利用问卷星平台对问卷进行设计,之后将制作好的问卷借助QQ、微信等平台进行分发。本问卷研究对象主要针对贵阳市大学生群体,内容涵盖大学生对于旅游出行决策的影响因素情况。最终收回了1224笔问卷,清洗大数据并清楚无效问卷后共获取到有效问卷1119笔(有效率91.42%)。因此,在这项研究中,首先采用SPSS软件测试调查大数据的可靠性和有效性,再通过主成分分析确定一个目标变量和八个解释变量。

4.2大数据预处理

  4.2.1信度检验

预测试采用信度分析,其目的是为了确保本研究样本大数据的可信度。Cronbach’sα值用来衡量量表是否具有内部一致性[17]。其取值介于0-1之间,具体如下表4-1所示:

9c5dec0b8e1d97f6a84954c6c6369053

表4-2所显示的是本研究调查中原始问卷的预测试信度检验结果。

1b281d1b3084067a9509b5261b5e7d81

 4.2.2效度检验

效度用以测量问卷能够有效测量到研究者所需测量事物的程度[18]。首先对其进行KMO和Bartlett检验,来判断指标之间是否存在相关关系。检验出的KMO>0.6,Bartlett检验的,为高度显著,适合进行主成分分析。通常,当KMO>0.6,说明我们用于测量的指标是有效的;KMO值越大且越接近于1,说明这种有效性越高。具体如表4-3表示:

6997938bae863dd14fc06b2198a47d8c

由表4-4可以看出,三个面向主题KMO值均高于0.6,表明该预调研问卷中的大数据具有良好的结构效度:

5f65eb1ca12ef33978e8dd13aa59797c

 4.2.3主成分分析

主成分分析法(Principal Component Analysis,PCA)是一种统计分析方法。它利用多变量的线性变换来选取不重要的变量,广泛应用于大数据的降维和特征提取。主要步骤如下:

9b54b1c5b6e91436d98a439b338e251c  77329ff9906ed1c4b90c3df5b3ef5c83

在本研究的原始问卷中,共有11个变量,并且每个变量都与本研究相关联。如下表4-5所示,通过对问卷信度、效度的检验结果,进行PCA提取因子,可知“闲暇时间、可支配收入、体验感、评价、朋友推荐、距离、安全保障、价格”这8个变量的因子负荷系数相对较高,排名前8,且均>0.4,各变量间的关联性较强。同时这8个变量的信度检验结果为Cronbach’sα值均>0.9,效度检验结果为KMO的值均>0.7,Bartlett球形检验均为ρ<0.01,则选取该8个变量作为问卷的解释变量,选取“影响度”作为该问卷的目标变量。

056eba2e1087e788bc225bc8f7a57f3e

 4.3基于大数据挖掘的大学生旅游决策影响因素分析

  4.3.1决策树算法在大学生旅游决策影响因素分析中的应用

首先在R-studio安装“rpart”程序包,并用程序包来读取大数据集,再通过sample()函数划分10%的测试集和90%的训练集以建模分析。确定目标变量之后使用训练集大数据并将复杂性参数(Complexity Parameter,CP)设为0.01来建立决策树模型,使用plot()函数画出决策树图,并由该图得出决策树规则。最后使用predict()函数来预测训练集和测试集大数据的正确率,保证拟合是否良好。

 4.3.2决策树算法实证结果与分析

将决策树中复杂性参数(Complexity Parameter,CP)设为0.01。运算结果为训练集预测率81.13%,测试集预测率78.57%。可见大数据预测准确率较高,模型的泛化能力较强。

图4-1决策树训练集决策规则图

2989df66ee9816f055b276a451dbfbfa  从图4-1可知,闲暇时间(Time)、距离(Distance)、价格(Price)、朋友推荐(Recommend)是影响大学生出行旅游决策心理的主要因素。决策树以Time为根节点进行划分,说明Time是大学生出行旅游决策的首要影响因素。决策树以Time是否小于4.5作为切分值,当Time<4.5时,选择左半树,当Time>=4.5时,即选择右半树。以此递推到叶节点,满足节点要求的则选择到左枝下,若不满足,则选择到右枝下。本决策树共有6条决策树规则,具体如下:

决策树规则1:当Time<3.5时,得到规则1,即大学生的出行旅游决策受到影响。

决策树规则2:当Time<4.5,Time>=3.5,Distance<3.5,时,得到规则2,即大学生的出行旅游决策受到影响。

决策树规则3:当Time<4.5,Time>=3.5,Distance>=3.5,Price<3.5时,得到规则3,即大学生的出行旅游决策受到影响。

决策树规则4:当Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend>=3.5时,得到规则4,即大学生的出行旅游决策受到影响。

决策树规则5:当Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend<3.5时,得到规则5,即大学生的出行旅游决策没有受到影响。

决策树规则6:当Time>=4.5时,得到规则6,即大学生的出行旅游决策没有受到影响。

 4.3.3随机森林算法在大学生旅游决策影响因素分析中的应用

首先在R-studio安装“random Forest”程序包,并用程序包来读取大数据集,再通过sample()函数划分20%的测试集和80%的训练集以建模分析。确定目标变量之后使用训练集大数据和500棵决策树将来建立随机森林模型,使用plot()函数画出影响因子图及ntree=500的收敛图,可以显著的展示出各个变量对大学生旅游决策的影响程度。最后使用predict()函数来预测训练集和测试集大数据的正确率,保证拟合是否良好。

  4.3.4随机森林算法实证结果与分析

随机森林训练集预测准确率为84.24%,测试集预测准确率为81.69%,大数据的预测准确率较高,由此说明模型的泛化能力较好。

Increased Node Purity是一种评估的方法,即通过利用残差的非负平方和来求得取值,解释变量影响目标变量的程度取决于该值的大小。通过建立RF模型,得到影响因子图及ntree=500的收敛图。

图4-2随机森林影响因子图

6556ac56cc9452fbeaced556532cc2fe  如图4-2所示,可以看出闲暇时间(Time)的Increased Node Purity值最大。此外,8个解释变量的重要程度排序为闲暇时间(Time)>评价(Appraise)>价格(Price)>可支配收入(Revenue)>距离(Distance)>安全保障(Security)>安全(Recommend)>体验感(Experience),事实证明,闲暇时间(Time)对大学生出行旅游决策心理有着很大的影响。

图4-3随机森林ntree=500收敛图

22338ec7dec2e0e29de19efea9a577ab  如图4-3所示,RF测试时随机选取500个基础样本,当取值大于100棵树以后,错误率趋于稳定,误差收敛。

  4.4大数据挖掘实验结果分析

  4.4.1算法结果比对

本研究主要采用了DT、RF模型研究方式,针对大学生出行旅游决策的影响因素进行大数据分析,将大数据中80%作为训练集,20%作为测试集,进行10折随机交叉运算。对比不同的模型,可以发现:

在DT模型中,闲暇时间(Time)、距离(Distance)、价格(Price)、朋友推荐(Recommend)是影响大学生出行旅游决策的主要因素。在RF模型中,闲暇时间(Time)的Increased Node Purity值最大,且在8个解释变量的重要排序程度中位列第一。相较于前几个因素,安全保障(Security)、安全(Recommend)、体验感(Experience)三个因素的影响程度相对较小。即大学生群体在制定出行旅游决策时,大学生本身的闲暇时间是影响大学生进行决策的主要依据。此外,DT、RF通过运用混淆矩阵运算得出的预测准确率均在80%以上,训练集均大于测试集,且误差不超过10%,没有过度拟合现象。

  4.4.2大学生旅游决策影响因素分析

根据以上模型得出的结果,可以发现均与现实生活中存在的问题存在一致性。在现实生活中,人们进行出行旅游决策时,闲暇时间的多少是大学生进行决策的关键,大学生由于还是一个以学业为主的群体,仍需完成在校课业,在做旅游决策的时候需要首先考虑到自己是否有时间,致使许多大学生面对此种情况会犹豫不决。因为他们会考虑到自己花费时间出行旅游是否符合在做旅游决策时的需求和预期,在决策前会考虑时间的多少。尤其是疫情之下,各地学校因疫情的管控或多或少会限制大学生进出校园时间,大学生的闲暇时间不得不受到影响。因此,旅游行业从业者和经营者若要想吸引顾客并拥有持续顾客群,必须在合适的时间段上进行斟酌,并树立品牌口碑意识。

  4.5对策建议

  4.5.1加强旅游市场监管,确保信息的真实性

研究表明,大学生外出旅游受网络对景点评价影响较大,网络上所发布的旅游信息的真实性相对重要。因此XX相关部门更要对旅游市场进行监管,为大学生提供真实、权威的信息。近些年来旅游乱象层出不穷,许多不良商家抓住大学生假期期间“穷游”的心理进行虚假宣传等手段来欺骗大学生,此种行为应该严厉打击,保证良好的网络信息环境。

 4.5.2高校需要正确引导大学生树立正确的安全旅游观念

高校是大学生最密集活动最频繁的地方,对于大学生的旅游观念、旅游选择等方面更具有影响力,因此引导大学生树立正确的旅游观念,掌握基本的旅游常识和技能是高校应做的事。

旅游常识和安全教育是非常重要的,研究表明安全保障这一因素对大学生旅游决策影响较小,大学生这一年轻群体是充满激情、热爱探索的一个特殊群体,在这一信息爆炸的时代,大学生往往会为了网络上所谓的热门景点而忽视了安全,高校应该引起重视并开展旅游安全教育,定期开展相关讲座以及安全外出旅游教育。

 4.5.3“有的放矢”的推出旅游产品

大学生出行旅游受闲暇时间影响最大,大部分大学生会选择在寒暑假和各种节日的小长假出行,呈现出目标多、时间长、全年分布均匀的特点,而且时间相对固定,旅游企业可以根据这种出行特点推出有针对性的旅游产品,例如推出夏令营游、小长假游、双休短途游等旅游服务。在高校附近的旅游景点可以针对大学生周末出行旅游高峰期推出短途、一日游等旅游产品及服务,吸引附近大学生出行旅游。

 4.5.4面向大学生群体,旅游企业需要精准的市场营销

大学生群体获得的信息更多来自于网络以及身边好友的推荐,运用多种手段进行营销,打造良好的知名度,在网络上形成良好的热度,做到有口皆碑。创建自己的景点特色并树立口碑,不断优化景点环境,提升景点服务。旅游产品以及服务在价格上应该在大学生能接受的范围内,应制定适应市场、符合大学生旅游能够接受的价格亦可推出类似团购等活动给到大学生群体一定的优惠。不断抓住旅游热点,吸引大学生眼球,用景点特色来提高回头率。

结论

本研究通过问卷调查的方式,为确保问卷的针对性,研究对象主要集中在贵阳市大学生群体,今后会逐步扩大研究范围,为旅游行业从业者和经营者提供更有效的依据。运用DT、RF算法建立预测模型,训练集的预测准确率分别为81.13%、84.24%,测试集的预测准确率为78.57%、81.69%,两种预测模型均没有过拟合(Over fitting)训练大数据,且泛化能力强。由此反映出大学生自身的闲暇时间是大学生群体进行旅游心理决策的重要影响因素。因此,旅游行业从业者和经营者应着重关注时间的方面,使得经营效果达到最佳。根据实验结果,可以证明在本研究中预测模型的判别结果是有意义,有价值和具有可信度的。

虽然本研究使用的模型都能对大学生旅游决策影响因素分析有比较好的效果,但是对于使用大数据挖掘技术对大学生旅游决策影响因素分析的研究还要继续,因为本文也仅仅使用了几种大数据挖掘的技术。模型的构建中还存在很多奇特的参数,在本研究中并没有一一的优化,而这些参数的选择都会影响模型的效果,因此在今后的研究中,研究者也可以采用其他优化算法,例如智能型算法、人工神经网络算法等,或许实验结果会得到更好的效果。

参考文献

[1]高歌.大大数据应用对河北省旅游业发展的影响及促进研究[D].河北大学,2021.

[2]刘小嵌.移动互联网背景下年轻旅游者旅游消费决策影响因素研究[D].湖南师范大学,2017.

[3]赵鹏.大学生旅游消费行为影响因素研究[D].中南大学,2012.

[4]郑海青.基于大数据挖掘的个性化旅游推荐研究[D].武汉大学,2017.

[5]姜腾.大数据挖掘技术应用于职业教育信息系统研究[J].办公自动化,2019,24(03):59-63.

[6]于雪萌基于学生行为分析的教育大数据挖掘算法研究[D]山东师范大学,2020.

[7]张曾莲著.基于非营利性、大数据挖掘和科学管理的高校财务分析、评价与管理研究:首都经济贸易大学出版社,2014.05

[8]杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007(01):43-45.

[9]鞠静.基于决策树算法的高校图书馆图书采访决策模型研究[D].河北大学,2021.

[10]杨小娟决策树算法在学生课程成绩分析中的应用研究[D]云南师范大学,2021.

[11]唐容.基于特征选择的CART算法研究[D].电子科技大学,22.

[12]刘亚芬.基于GA的CART决策树改进算法与应用[D].广州大学,22.

[13]李如平.大数据挖掘中决策树分类算法的研究[J].东华理工大学学报(自然科学版),2010,33(02):192-196.

[14]Improving random forest algorithm by Lasso method[J].Journal of Statistical Computation and Simulation,2021,91(2).

[15]Zhonghui Tan,Juan Huo,Shuo Ma,Ding Han,Xin Wang,Shensen Hu,Wei Yan.Estimating cloud base height from Himawari-8 based on a random forest algorithm[J].International Journal of Remote Sensing,2020,42(7).

[16]喻子言.随机森林算法在土壤重金属污染风险评价上的应用研究[D].武汉轻工大学,2021.

[17]Emily E.E.Meissel,Huiting Liu,Elizabeth S.Stevens,Travis C.Evans,Jennifer C.Britton,Allison M.Letkiewicz,Stewart A.Shankman.The Reliability and Validity of Response-Based Measures of Attention Bias[J].Cognitive Therapy and Research,2021.

[18]Nurdiawan Odi,Kurnia D.A,Solihudin Dodi,Hartati Tuti,Suprapti Tati.Comparison of the K-Nearest Neighbor algorithm and the decision tree on moisture classification[J].IOP Conference Series:Materials Science and Engineering,2021,1088(1).

[19]张东澍.基于主成分分析的移动公司客户信用管理研究[D].华北电力大学(北京),2021.

[20]李金阳,李书明,韩兵.基于大大数据挖掘的多维智能报警技术研究与应用[J].水电站设计,2022.

[21]金容鑫,娄岱松,黄华德,毛汉领.水电机组状态监测大数据清洗方法[J/OL].中国农村水利水电,2022.

 致谢

时光荏苒,时光如梭,三年的学习生涯如白驹过隙,毕业论文的撰写也渐入尾声。写到这里,我才意识到,学生生涯即将结束。首先,要感谢我的指导老师,从论文的选题审题、开题、中期检查一直到定稿,一直耐心帮助和不断鼓励我,这让我更加自信。论文初期,导师仔细地给我分析每一章节的写作要点,推荐有关文献给我借鉴;修改过程中,及时纠正我的思路偏差。总之,在整个论文完成过程中,导师的帮助提高了我的论文写作水平,收获颇丰。同时,也要感谢我身边的朋友和同学们,感谢你们一路相伴,你们的陪伴是我最珍贵的回忆,未来希望我们砥砺前行。另外,还要感谢我的父母、老师,感谢你们的谆谆教诲,言传身教。最后,感谢我的母校给我提供学习的平台,希望母校越来越好。

基于大数据挖掘的旅游分析

基于大数据挖掘的旅游分析

价格 ¥9.90 发布时间 2024年1月31日
已付费?登录刷新
下载提示:

1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。

2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

原创文章,作者:1158,如若转载,请注明出处:https://www.447766.cn/chachong/194066.html,

Like (0)
1158的头像1158编辑
Previous 2024年1月31日
Next 2024年1月31日

相关推荐

My title page contents