我国省级行政区消费支出的统计分析与数据预测

　摘要

随着全球经济的不断发展，商品种类及各中消费方式的不断普及与发展。本文为了解各省级行政区在最近几年的消费水平涨幅问题，人民的生活质量问题，从居民人均消费水平方面，并根据分析给出近些年发展结论。

本文首先结合主成分分析降维的思想将8个消费指标进行降维，并运用聚类分析对主成分降维之后的4个消费指标进行验证以使消费指标之间的比重分明；其次在利用硬聚类的K均值聚类法对样本进行聚类，并使用经过推广改进得到的软聚类FCM模糊聚类法重复对我国三十一个省级行政区进行省级划分的分析，然后通过不同的类别划分产生不同的类别中心从而系统化、全面的对近些年每个省进行合理化的分类；最后在得到目标类别后，通过对每一类在近些年的发展展开对比及预测分析，做到对不同的省市能够发现发现其特长和短板，对每一类消费水平的平均消费额能够建立较为准确的回归曲线，并对2020年的消费水平进行预测，并给出可信度。

　关键词：主成分分析；人均消费水平；聚类分析；预测分析

　　第1章绪论

　　1.1 课题背景和意义

21世纪，我国当今正处在经济发展方式发生转变的过程，2020年正处于百年未有之大变局，在全球疫情侵扰的大环境下，不同国家均收到一定程度经济的影响。为了加快我国经济的恢复速度，我国XX推出了发放消费券，降低贷款税率以及在疫情得到控制初期允许地摊经济。这些手段都是为了国内经济的恢复。在疫情到来之前的几年我国经济处于不断稳定上升的状态，从一带一路开始，我们的经济得到了更快更好的发展。

在研究国内省份消费支出的问题中，最重要的是了解各省份之间不同的经济模式比如旅游城市的经济和港口城市的经济以及内陆地区、山区等，不同地理位置，不同的国家政策决定了不同的经济条件。本论文从18年、19年各省份八项消费支出出发，系统全面的分析我国省级行政区的经济。

在得到18年、19年的省级行政区消费水平后，可对我国三十一个省级行政区进行合理的分类，并可根据自身省份的优势消费，进行合理的政策上鼓励，从而使更多的省级行政区从消费水平上有更高的等级。并可按照14年-19年数据进行对20年数据进行预测获得近些年各类消费水平的预测回归曲线。

1.2 国内外研究现状

国内：文献[1]中为了更加全面的分析省级行政区消费支出，采取了对全国各省份农村居民消费支出状况进行分析，包含对农村居民家庭平均每人食品消费支出、穿着消费支出、栖身消费支出、家庭设备及用品消费支出、医疗保健消费支出、交通通信消费支出、文娱消费支出以及其他消费支出8个评价指标进行分析，利用SPSS进行矩阵系数检测，得出适用于主成分分析，并利用主成分分析将八项指标分为自我发展性、日常平时消费、一次性消费用作更好对省份进行分类，并得出我国不同地区农村居民的消费水平存在较大差异其差异可能比全体省级行政区消费支出水平还要大，因此提出了应当提升农民消费需求从而提高整体消费水平的可行性建议。

在文献[2]中，王宝成学者就选取了省级行政区的财政自给率、财政收入占比、人均财政收入、人均财政支出、单位面积财政收入和单位面积财政支出这七个指标作为评价指标，采用全国31个省区作为样本数据，经过主成分分析方法得出的结果表明大多数省区的财政规模不理想，提出财政规模与消费支出总水平休戚相关，想提升消费水平就要提升消费规模，通过进行评价得分得出了需要改进的省份排名，并提出从前面提到的七个指标来分析多数省份仍水平偏低，应努力改进。

在文献[3]中，韩永军王宝成两位学者认为省级行政区的消费支出差异焦点应该在农民消费开销而并非城镇居民，因此选取了31个省级行政区农村居民消费的八项支出（食品、服装、居住、家庭设备及服务、交通和通信、医保及其他进行分析，将其进行分类，将省级行政区农村居民消费支出共分出三类，发现在第三类中没有变量点只有西藏一个省级行政区，利用SPSS分析得出享受型支出占比小，消费层次感偏低，并基于此现状提出了一系列方案：

第一，创建农村居民增收的长效机制,增加农村居民收入。

第二，完善社会保障体系,提升农民消费信心。健全农村社会保障体系,解除农民养老和医疗的后顾之忧,对于提升农民消费信心、增强农民的消费欲望具有重要意义。

第三，兴建村庄基础设施,改善农村居民消费环境。

第四，树立现代、健康、文明的消费理念,引导农村居民合理消费。

国外针对此类问题也有许多学者进行研究，在文献[4]中王晓七学者就X各大城市生活花费进行了研究，并明确不同消费与经济水平、地理位置、当地学生的多少来决定，极有可能产生城市小消费水平高的情况，将X城市大体分为了三类：第一类高消费城市如旧金山、纽约等由于物价高，且娱乐项目多的原因；第二类中消费城市如西雅图、亚特兰大等虽然也为大城市但生活压力较小，物价也不会很高的原因；第三类低消费城市指X南部、中西部、东南部一些城市原因为生活设施不如大城市完备且当地整体消费水平不高。

1.3 课题主要内容

采用《国家统计局》的数据，收集18年19年我国省级行政区各项消费支出，然后运用主成分分析、聚类分析等多元分析方法对SPSS和R语言配合使用，对数据进行分析处理以及可视化显示，研究创新点，从知网查阅国内外相关资料，选择合适的创新方法，针对论文所得出的结论提出一些有利于省级行政区经济发展的建议。

1.4 课题研究方案

1.利用恩格尔系数对18年19年的消费支出数据进行计算，并得出理论基础用于检验合理性。

2.利用系统聚类法将8种消费指标进行划分，降低不同种类消费之间的相关性。

3.利用K均值聚类以及模糊聚类对省级行政区进行综合分析，分出高中低消费水平。

4.结合当地地理环境及政策提出可行性方案并结合当前实际给出理由。

5.利用14-19年数据进行数据基础，尝试推测出20年及21年省级行政区消费支出走势。

　第2章相关知识介绍

　　2.1 恩格尔系数

恩格尔系数主要指的也就是家庭粮食消费开销及其支出收入占全部家庭个人消费收入开销的最大比率,其主要研究内容也就是说即指一个人的家庭或者一个人的人均收入消费开销愈来越少,用于个人购置主要来源粮食的消费开销及其支出在一个人的家庭或者一个人的消费收入中所需要占据的比重就可能会愈来越大。对一个穷的国家而言,一个穷的国家越穷,每个人家国民的平均基本经济生活支出里,它们所需要涉及和达到的主要用于能源消耗和消费购置各类食物的生产成本所对应占的收入比例也就相对越高。恩格尔系数由消费食品中总支出的消费金额之和占所得总支出的食品金额之和所得总占比的百分比比例进行最终计算确定。恩格尔系数高达59%以上者为贫困,50~59%以上属于经济温饱,40~50%以上属于经济小康,30~40%以上属于富裕,低于30%者被称为最大的富有[5]。人均粮食食品的消费支出÷人均总量的消费支出x100%=粮食支出在所有消费中的占比。

　2.2 主成分分析

主成分分析又变成了主分量性的分析,作用是在于充分运用降维思想,把多个指标精确简化成少数几个具有综合性的指标。在对于实际这一问题的研究中,为了全面、准确地解决这一问题,我们要兼顾许多有价值的影响因素。

主成分分析法采用的是一种基于数学矩阵变换的计算方法,它把一个与给定一组互相有直接关联的变量经过线性变换改变后转成了另一组与没有直接关联的变量,这些新增变量根据方差依次递减的先后顺序进行排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,成为第一主成分,第二变量的方差次大,并且和第一变量不相关,成为第二主成分以此类推[6]。

主要构成分降维分析法主要是把原先多个统计指标的不同变量通过降维或者转换处理成为几个指标整体的一种综合性统计指标的一种新型统计数学分析方法,是一种直接利用传统数学原理对其进行变量降维和转换处理的分析技术[7]。

2.3 聚类分析

　　2.3.1 指标聚类分析

一般是利用系统的聚类法方法来进行聚类指标,他的基本设计思想时先把 k 个指标划分为一类,然后用系统的主成分分析法将其中一类指标划分为若干类,分类的一个根据基本原理就是为了使得每一类的类内指标尽可能多被划分的若干类中的一类所进行解释从而将该指标划分为最近的一类中,当每一类的类内指标被若干类所展示的比例如果满足事前给出的要求,则聚类中停止。否则要重复上述操作,直到在此类内部的指标被若干个类所表示的比例满足题目初始给出的要求而停止进行聚类[8]

　2.3.2 K均值聚类分析

k均值排序聚类设计算法(k-meansclusteringalgorithm)聚类算法主要是一种逐级排序求解的聚类分析设计算法,其基本操作步骤描述如下:首先,若将一个数据类型分成k至k个小组,则随机地依次选取一组k个类型样本对象作为每组初始聚类的每个中心,然后通过算法计算每个不同类型的初始对象与各个不同类型初始聚类的每个中心之间的平均距离,把每个类型对象进行分配排列出来并且保留给它们相应的一个距离它最近的对象集聚一个类型作为中心。聚类的每个中心和能被分配给它们的每个物体就共同代表着一个聚类集合。每分配一个物体样品,聚类的样品集合管理中心就可能会根据该样品集合中心内现有的每个物体被重新分配进行分类计算。这个工作流程可能会非常持续地不断重复,直至最终达到我们满足一定的条件终止。终止聚集条件我们通常可以明确认为到这是由于没有(或最小的不同数目)的类对象被重新分配到不同的重新聚类,没有(或最小的不同数目)重新聚集的类聚集中心又次次都会发生重大变动,误差的最小平方和长度局部最小[9]

原理:首先随机地依次选取k到k个聚类对象群并做为初始聚类的数据核心。然后通过分析计算每个分配对象和各个新的种子聚合分类管理中心之间的分配距离,把每个分配对象进行分配释放出去并向其传递信息给那些距离其最近的一个种子植物聚合分类管理中心。聚类的两个中心和是被分配给它们的两个物体，也就是它们代表着一个新的集合。一旦所有基于聚类的每个对象都被分配进行了重新分配,每个基于聚类的所有集合数据中心管理都会根据每个集合中心对现有的聚类对象被分配进行重新分配设置。这个工作流程可能会非常持续地不断重复,直至我们达到能够满足一定时间终止点的条件。终止权的条件通常可以用来认为终止是以下任何一种:

1)未将(或者是最小的数目)物体重新分配到不同的集合中。

2)不存在(或最低的数量)聚类集中心重新改变。

3)误差平方和局部最小[10]。

　2.3.3 FCM模糊聚类

fcm 属于软聚类,它允许一个数据点至少可以分别属于多个类, fcm 的价值计算函数与 k – means 非常相似,但其引入了数据点隶属度概念,使得每个数据点都利用值在[0,1]的隶属度上来计算并确定其归集到各个群组的隶属度,其结果就是每个数据点对聚类核心的归集到各个组的隶属度(membership),取平均差在0-1之间,并且进行归一化,这使得平均差的总和等于1;因此 fcm 的设计思想就是使得被划分到相同组下的数据点之间的相似性最大,而不同组之间的相似性最小 fcm 的 c 与 k – means 的 k 是相同概念,也就是指一个聚类的相似性和数目, fuzzy 是指一个事件的相似性和发生率(模糊相似关系),因此fcm 算法设计需要两个主观参数:一个聚类的相似性和数目c与模糊参数m 。一般而言, c 要远远超过聚类样品的数量,并且必须保证至少有效地比聚类样品多1;而 m ( fuzzifier 值)则是控制算法中柔性的一个重要参数,用于定义整个数据集的模糊度,一般默认是2,接近于1的话会导致结果接近于K-means聚类,因此不同的c和m会导致聚类结果的不同[11]。

fcm聚类迭代算法主要功能包括参数涉及每个聚类约束中心线各点(聚类隶属度和矩阵u)、聚类约束中心点梯度v(聚类距离)以及模糊约束参数梯度m等各个模糊参数,即在完全满足每个聚类约束中心线各点的聚类隶属度和模糊约束度的条件下,通过迭代算法计算聚类价值度量函数的梯度最低值;破解求一个聚类约束符合条件的梯度求极值函数问题,使用一个拉格朗日价值乘子;该方法可用来通过定义和计算构建一个拉格朗日价值函数,算法大致步骤如下:

（1）计算初始化所有的集合隶属矩阵(必须能够满足一个估计所有价值集合函数这个约束下的条件),计算一个集合始化到所有聚类的一个中心;或者也就是计算初始化的集合聚类到其中心;

（2）逐级计算价值函数,当其小于某个极小值或者前后两次的差值小于某个极小值,则停止;

（3）更新隶属矩阵,确定聚类结果.

由于FCM算法依赖于初始化参数,所以需要使用一些其他方法获取一个比较好的聚类中心以及隶属矩阵;或者使用多个初始聚类中心,进行多次计算取最优的的那个(即nstart参数的作用)[12]。

　2.4 预测分析（回归曲线分析）

相关是解决客观事物或现象相互关系密切程度的问题，而回归则是用函数的形式表示出因果关系，有相关不一定有因果关系；反之，有因果关系的,则一定有相关。例如在本论文中，经济的发展与当地的经济政策，有优势的经济政策会帮助经济的发展但不能决定着经济的发展，即有相关但不一定有因果关系,而本论文中利用了经济发展后其消费水平的关系，由于经济水平上升了,其对应的消费水平一定会有提升，这就是有因果关系的一定会有相关性。我们称“因”的变量叫因变量，采用Y表示。以横轴代表自变量用字母X表示。利用每组数据的参数在对应的p(x,y)二维图上标点，通过多数的散点图可以初步的确定数据的线性关系。

相关分析和回归分析是研究对象之间相关关系的两种基本方法。所谓相关分析，就是用一个指标来表明现象间相互依存关系的密切程度。本论文利用回归分析查看年份与消费水平的关系通过观察了解到具有线性关系并通过建立回归直线将未查明的数据年份进行带入从而完成了对未知数据年份的预测工作[13]。

　2.5 数据说明

本数据通过国家统计局查询18年、19年各省市人均八项消费指标消费额及14-19年各省市人均总消费额（之所以未选择20年数据原因在国家统计局在论文结束之前即2021/5/12之前未更新各省市20年居民人均消费总值）。其中八项指标为居民人均食品烟酒消费支出（元）、居民人均服装消费支出（元）、居民人均居住消费支出（元）、居民人均生活用品及服务消费支出（元）、居民人均交通通信消费支出（元）、居民人均教育文化娱乐消费支出（元）、居民人均医疗保健消费支出（元）、居民人均其他用品及服务消费支出（元）

　2.6 代码说明

2.6.1 主成分分析所用代码[14]

x=read.table(“C:/Users/Apple/Desktop/18.1.csv”,header=T,sep=”,”)

describe(x)

pc=principal(x,nfactors=4,rotate=”varimax”,score=TRUE)

pc$weights

pc$scores

fa.parallel(x,fa=”pc”,n.iter=100,show.legend=FALSE,main=”Screen plot with parallel analysis”)

pc2=principal(x,nfactors = 3,rotate = “varimax”,score=TRUE)

pc2

pc2$weights

pc2$scores

2.6.2 聚类分析所用代码[15]

1.对八项消费指标进行聚类的Varclus聚类分析代码

x=read.table(“C:/Users/Apple/Desktop/18.1.csv”,header=T,sep=”,”)

str(x)

plot(x)

x=as.matrix(x)

v=varclus(x,similarity = “spear”)

print(round(v$sim,2))

plot(v)

2.对省级行政区进行聚类分析的K均值聚类分析代码

x=read.table(“C:/Users/Apple/Desktop/18.1.csv”,header=T,sep=”,”)

str(x)

plot(x)

kc1=kmeans(x,centers=1,nstart = 1,trace=TRUE)

kc2=kmeans(x,centers=2,nstart=1,trace=TRUE)

kc3=kmeans(x,centers=3,nstart=1,trace=TRUE)

2.6.3 预测分析所用代码

t=read.table(“C:/Users/Apple/Desktop/1.csv”,header=T,sep=”,”)

attach(t)

plot(x,y)

fit=lm(y~x)

anova(fit)

summary(fit)

confint(fit)

residuals(fit)

detach(t)

2.7 本论文中改进、创新点说明

1.全文分析方法中使用了大量R语言程序代码，并针对部分代码进行个性化的修改；

2.在主成分分析中，加入了经过推广后的碎石法分析方式，对原有的主成分分析法进行进一步的简化，并通过varclus聚类分析方法进行验证；

3.使用了由K均值改进后得到的C均值即模糊聚类，在聚类方法中引入了模糊的概念，从而使聚类的结果更加合理；

4.对K均值聚类分析和模糊聚类分析进行理论与实践的区别展示。

　第3章对省级行政区八项消费指标的主成分及指标聚类分析

　　3.1 主成分分析

　3.1.1 对18年数据进行的主成分分析

1. 对18年数据主成分的结果分析

下面即对数据做主成分分析后所展示出的图表及相关分析。

表3.1数据描述表

vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
1	31	5603.11	1735.12	5030.93	5375.97	1152.93	3688.25	10728.15	7039.91	1.17	0.57	311.64
2	31	1331.27	363.68	1285.24	1320.22	222.28	616.74	2175.51	1558.77	0.34	0.01	65.32
3	31	4652.26	2862.36	3679.96	4016.9	746.69	2102.59	14208.54	12105.94	2.35	4.98	514.1
4	31	1196.98	379.9	1138.69	1140.65	354.82	622.27	2371.94	1749.67	1.32	1.6	68.23
5	31	2688.8	867.08	2407.97	2563.12	632.06	1640.73	4881.22	3240.49	1.17	0.42	155.73
6	31	2231.51	799	2087.77	2123.07	472.46	609.26	5049.4	4440.15	1.52	3.49	143.5
7	31	1726.22	571.7	1635.06	1677.9	404.44	460.13	3274.54	2814.42	0.72	1.01	102.68
8	31	496.76	230.86	434.52	452.69	115.82	262.59	1281.49	1018.91	1.83	3.08	41.46

该代码所展示的为数据的描述，其中主要包含，最大值、最小值、均值、以及方差。

对相关系数矩阵进行结果输出：

表3.2相关系数矩阵

	RC4	RC2	RC3	RC1	h2	u2	com
X1	0.9	0.24	0.22	0.25	0.99	0.013	1.4
X2	0.27	0.87	0.33	0.2	0.98	0.017	1.6
X3	0.59	0.27	0.41	0.61	0.96	0.04	3.1
X4	0.5	0.47	0.37	0.59	0.96	0.039	3.6
X5	0.63	0.54	0.32	0.39	0.94	0.062	3.2
X6	0.58	0.25	0.64	0.39	0.96	0.036	3
X7	0.24	0.5	0.78	0.24	0.98	0.018	2.2
X8	0.63	0.46	0.53	0.3	0.97	0.028	3.3

表3.3协差阵分析表

	RC4	RC2	RC3	RC1
SS loadings	2.68	1.92	1.87	1.28
Proportion Var	0.34	0.24	0.23	0.16
Cumulative Var	0.34	0.57	0.81	0.97
Proportion Explained	0.35	0.25	0.24	0.17

由于主成分分析只对相关系数矩阵进行分析，在获取主成分前，原始数据将会被自动转换为相关系数矩阵。给出了由相关系数矩阵计算出来的主成分载荷、主成分公因子方差和主成分唯一性。主成分载荷指观测变量与主成分的相关系数，18年报告中包括RC1、RC2、RC3、RC4。

表3.4主成分得分系数表

	RC4	RC2	RC3	RC1
X1	1.162065	-0.09039	-0.26066	-0.95503
X2	-0.18129	1.172761	-0.4304	-0.30375
X3	-0.26498	-0.34726	-0.15868	1.322894
X4	-0.42471	0.125175	-0.44491	1.347759
X5	0.221082	0.364203	-0.41937	0.096977
X6	0.123453	-0.54331	0.765679	-0.11494
X7	-0.36323	-0.07213	1.151977	-0.4531
X8	0.388331	0.022742	0.328373	-0.63062

上表输出了全部特征值对应的特征对应的特征向量，它们是互相无关的单位向量。第一列表示了第四主成分Z4的得分系数同理第二列表示了第二主成分Z2的得分系数。据此可以写出由标准化变量所表达的各主成分的关系式：

Z1=-0.95503481X1-0.30374890X2+1.32289355X3+1.34775888X4+0.09697747X5-0.11494479X6-0.45310477X7-0.63062422X8

其中Xi是标准指标变量（均数位0，标准差为1），i=1，2，3，4

在个主成分的表达式中，各标准化指标Xi前面的系数与该主成分所对应的特征值的平方根乘积是该指标之间的相关系数。

系数的绝对值越大，说明该主成分受该指标的影响也就越大。

得分：计算每个主成分的得分时，只需要将scores=Ture输出即可。

表3.5主成分得分展示表

	RC4	RC2	RC3	RC1
[1,]	-0.16306	1.366759	1.367025	3.641071
[2,]	1.475076	1.896114	0.56745	-1.01496
[3,]	-0.98488	0.094396	-0.47498	0.826889
[4,]	-1.17225	-0.22515	0.594932	-0.35315
[5,]	-0.22195	1.630413	-0.28031	-0.78703
[6,]	0.026606	0.774349	1.235903	-1.27764
[7,]	-0.59257	0.243439	1.178775	-1.35709
[8,]	-0.73366	0.234818	1.574395	-1.69109
[9,]	2.652036	0.057231	2.277498	0.825083
[10,]	0.232319	0.55762	-0.19877	0.884018
[11,]	1.356978	1.308678	-0.72793	0.469219
[12,]	0.134823	-0.49575	-0.79037	0.059356
[13,]	1.594043	-0.4708	-1.39413	0.18755
[14,]	-0.16364	-0.71148	-0.98811	0.586991
[15,]	-0.64202	0.480335	-0.64087	1.002249
[16,]	-1.2234	-0.37089	0.01066	0.602037
[17,]	-0.26388	-0.02074	0.348313	-0.00697
[18,]	-0.34075	-0.8181	0.694224	0.241382
[19,]	2.237835	-0.94563	-0.63831	0.094124
[20,]	-0.20896	-2.08626	0.25699	0.327608
[21,]	1.431182	-2.47802	0.35687	-1.14394
[22,]	0.192834	0.592338	-0.61935	-0.2681
[23,]	0.262027	-0.05281	-0.64675	-0.34527
[24,]	-0.59912	-0.72965	-0.79558	0.47422
[25,]	-0.55233	-1.43547	-0.07037	0.381876
[26,]	-0.00545	0.924311	-2.97199	-0.69591
[27,]	-1.10121	-0.54092	0.475432	0.584136
[28,]	-0.82541	-0.63021	0.381522	-0.35753
[29,]	-0.43911	0.589561	0.134507	-1.07847
[30,]	-0.78259	0.480676	0.168954	-0.28657
[31,]	-0.57951	0.780851	-0.38562	-0.52408

例如第一个样本的第一主成分得分为3.641071007。

接下来通过Kaiser-Harris准则保留若干主成分特征值中大于1的，特征值小于1的则意味着有着更少的解释变量，从而认为该主成分的作用可被无限缩小，近乎省略。即进一步简化主成分的个数，令每一个主成分所包含更多信息，这样的好处在于直观地方便了进行后期主成分得分的大量计算，且同时有效降低了主成分之间的相关性，更具有代表性。

直观的体现在于利用Cattell检验法，该方法又俗称碎石检验，制作出特征值的大小，以及与每个主成分所相交的曲线图

表3.6经碎石法修正后的主成分相关系数

	RC1	RC3	RC2	h2	u2	com
X1	0.92	0.19	0.25	0.95	0.049	1.2
X2	0.32	0.33	0.88	0.98	0.017	1.6
X3	0.77	0.5	0.28	0.92	0.081	2
X4	0.69	0.45	0.48	0.91	0.091	2.6
X5	0.72	0.35	0.55	0.94	0.063	2.4
X6	0.68	0.66	0.26	0.96	0.039	2.3
X7	0.3	0.79	0.51	0.97	0.026	2
X8	0.68	0.52	0.47	0.96	0.043	2.7

表3.7修正后的协差阵分析

	RC1	RC3	RC2
SS loadings	3.54	2.05	2
Proportion Var	0.44	0.26	0.25
Cumulative Var	0.44	0.7	0.95
Proportion Explained	0.47	0.27	0.26
Cumulative Proportion	0.47	0.74	1

图3.1碎石法曲线图

da26ec405ef0e9f8d0108455b1a2bb9d 　　通过上述的碎石检验法所描绘的图形，发现红线曲线在纵坐标为1的时候横坐标大约在4的右面一点即在横坐标4、5之间，因此通过碎石检验法的图像可以看出最终可以只保留三个主成分，与之前的四个主成分相比可以更大程度的节约运算量。

表3.8修正后主成分得分系数表

	RC1	RC3	RC2
X1	0.697589	-0.59499	-0.09699
X2	-0.28302	-0.49658	1.162878
X3	0.283139	0.215123	-0.3421
X4	0.149959	-0.0483	0.125155
X5	0.248627	-0.40434	0.358595
X6	0.054199	0.706229	-0.53092
X7	-0.5372	1.025632	-0.05727
X8	0.100975	0.120409	0.02536

该表与上述类似输出了三个主成分时全部特征值对应的特征向量。

得分：

表3.9修正后主成分得分展示表

	RC1	RC3	RC2
[1,]	1.24769	2.239005	1.412254
[2,]	0.932876	0.125268	1.903525
[3,]	-0.56915	-0.16142	0.088611
[4,]	-1.22811	0.588016	-0.22153
[5,]	-0.51653	-0.48025	1.619651
[6,]	-0.51024	0.846725	0.786399
[7,]	-1.10639	0.834383	0.252033
[8,]	-1.37628	1.142066	0.247296
[9,]	2.711533	2.172022	0.109105
[10,]	0.563218	0.005261	0.560782
[11,]	1.440761	-0.72108	1.304064
[12,]	0.167244	-0.74874	-0.50787
[13,]	1.571632	-1.42437	-0.48716
[14,]	0.106415	-0.77428	-0.7244
[15,]	-0.18343	-0.31266	0.474042
[16,]	-0.88511	0.277225	-0.37085
[17,]	-0.25274	0.35679	-0.01592
[18,]	-0.22888	0.773816	-0.80608
[19,]	2.112259	-0.76854	-0.94788
[20,]	-0.05751	0.385472	-2.08025
[21,]	0.869496	-0.03112	-2.47436
[22,]	0.081998	-0.69183	0.58092
[23,]	0.119181	-0.73284	-0.06485
[24,]	-0.34228	-0.57965	-0.74159
[25,]	-0.34786	0.102875	-1.43577
[26,]	-0.21886	-3.05448	0.87055
[27,]	-0.7892	0.712329	-0.53288
[28,]	-0.90433	0.358312	-0.62891
[29,]	-0.83451	-0.11876	0.58319
[30,]	-0.83823	0.148971	0.47889
[31,]	-0.73464	-0.46852	0.768999

输出了三个主成分时的主成分得分。

　3.1.2 对19年数据进行的主成分分析

1．对19年数据主成分的结果分析

表3.10数据描述表

vars	n	mean	sd	median	trimmed	mad	min	max	range	skew	kurtosis	se
1	31	6021.26	1784.91	5416.82	5802.37	1203.27	3997.21	10952.61	6955.4	1.07	0.16	320.58
2	31	1379.07	359.5	1359.75	1371.27	197.53	648.01	2229.53	1581.53	0.26	0.14	64.57
3	31	5059.96	3127.02	3943.72	4366.02	878.02	2320.62	15751.43	13430.81	2.32	4.89	561.63
4	31	1254.33	378.75	1159.49	1194.05	319.37	844.82	2387.32	1542.5	1.31	1.19	68.03
5	31	2867.72	887.86	2576.41	2723.34	615.45	1972.7	5355.66	3382.96	1.35	0.88	159.46
6	31	2492.99	877.23	2352.43	2384.69	546.04	690.27	5495.1	4804.84	1.36	2.86	157.55
7	31	1932.84	609.25	1925.36	1876.92	368.65	519.22	3739.67	3220.45	0.77	1.55	109.42
8	31	551.87	258.13	453.73	500.63	128.21	294.17	1355.88	1061.71	1.68	2.12	46.36

该代码所展示的为数据的描述，其中主要包含，最大值、最小值、均值、以及方差。

表3.11主成分相关系数表

	RC1	RC3	RC2	RC4	h2	u2	com
X1	0.92	0.18	0.23	0.19	0.98	0.025	1.3
X2	0.27	0.33	0.88	0.19	0.99	0.011	1.6
X3	0.62	0.4	0.28	0.57	0.96	0.041	3.2
X4	0.57	0.36	0.47	0.53	0.95	0.05	3.6
X5	0.73	0.37	0.42	0.33	0.94	0.056	2.6
X6	0.66	0.62	0.22	0.29	0.96	0.042	2.6
X7	0.25	0.82	0.44	0.22	0.98	0.02	1.9
X8	0.65	0.48	0.54	0.18	0.97	0.034	3.0

表3.12主成分协差阵分析表

	RC1	RC3	RC2	RC4
SS loadings	3.09	1.86	1.82	0.95
Proportion Var	0.39	0.23	0.23	0.12
Cumulative Var	0.39	0.62	0.85	0.97
Proportion Explained	0.4	0.24	0.24	0.12
Cumulative Proportion	0.4	0.64	0.88	1

表3.13主成分得分系数表

	RC1	RC3	RC2	RC4
X1	0.934025	-0.32622	-0.08068	-0.80086
X2	-0.2506	-0.43604	1.186741	-0.17373
X3	-0.24369	-0.1428	-0.30186	1.467438
X4	-0.26702	-0.37801	0.136703	1.253631
X5	0.304045	-0.14718	0.076364	-0.04673
X6	0.229939	0.688382	-0.51764	-0.28494
X7	-0.38549	1.154586	-0.17795	-0.29189
X8	0.359126	0.141511	0.295463	-0.8474

得分：

表3.14主成分得分展示表

	RC1	RC3	RC2	RC4
[1,]	-0.04266	1.728196	1.340611	3.712421
[2,]	1.399185	0.886095	1.84032	-1.33272
[3,]	-0.83581	-0.3768	0.055502	0.688045
[4,]	-1.16282	0.469645	-0.17108	-0.27099
[5,]	-0.34781	-0.02531	1.462093	-0.93452
[6,]	-0.06835	1.176696	0.584093	-1.3543
[7,]	-0.64402	1.073527	0.154308	-1.34505
[8,]	-0.85	1.670473	0.055134	-1.73002
[9,]	2.659745	1.730402	0.404565	0.658794
[10,]	0.412153	0.001918	0.374985	0.61107
[11,]	1.688859	-0.6443	1.064081	0.185684
[12,]	0.008188	-0.88317	-0.09194	0.136424
[13,]	1.386472	-1.19274	-0.26411	0.016815
[14,]	-0.27145	-0.88557	-0.78658	0.876795
[15,]	-0.56818	-0.58708	0.374861	1.299376
[16,]	-1.22772	0.046157	-0.3134	0.701257
[17,]	-0.45073	0.326832	0.100306	0.468167
[18,]	-0.18161	0.684975	-0.83654	0.067586
[19,]	2.320032	-0.59372	-1.02523	-0.02315
[20,]	-0.11854	0.405828	-2.28647	0.216447
[21,]	1.433413	-0.31528	-2.28158	-0.8497
[22,]	0.062429	-0.48229	0.540477	-0.21329
[23,]	0.078243	-0.29891	-0.19113	-0.38619
[24,]	-0.5143	-0.48261	-0.88839	0.085264
[25,]	-0.30269	-0.1476	-1.56252	0.291296
[26,]	-0.27453	-3.36289	1.621541	-0.29803
[27,]	-0.94634	0.529921	-0.42377	0.215699
[28,]	-0.78364	-0.10662	-0.55105	0.031897
[29,]	-0.53586	0.096601	0.363875	-0.95024
[30,]	-0.60991	0.176756	0.588081	-0.50101
[31,]	-0.71173	-0.61914	0.748959	-0.07383

表3.15修正后主成分的相关系数表

	RC1	RC3	RC2	h2	u2	com
X1	0.93	0.16	0.23	0.95	0.05	1.2
X2	0.31	0.33	0.88	0.99	0.011	1.5
X3	0.77	0.47	0.3	0.9	0.1	2
X4	0.71	0.41	0.49	0.9	0.097	2.5
X5	0.79	0.38	0.43	0.94	0.056	2
X6	0.71	0.62	0.23	0.95	0.048	2.2
X7	0.3	0.83	0.45	0.98	0.024	1.8
X8	0.66	0.46	0.55	0.94	0.057	2.8

表3.16修正后主成分协差阵分析表

	RC1	RC3	RC2
SS loadings	3.71	1.95	1.9
Proportion Var	0.46	0.24	0.24
Cumulative Var	0.46	0.71	0.94
Proportion Explained	0.49	0.26	0.25
Cumulative Proportion	0.49	0.75	1

表3.17修正后主成分的得分系数表

	RC1	RC3	RC2
X1	0.627382	-0.53132	-0.1136
X2	-0.30038	-0.45844	1.179021
X3	0.247798	0.165273	-0.24885
X4	0.15442	-0.11008	0.18101
X5	0.272878	-0.17231	0.073092
X6	0.125115	0.609733	-0.52579
X7	-0.46535	1.098053	-0.18283
X8	0.062133	-0.05208	0.264251

表3.18修正后主成分的得分展示表

	RC1	RC3	RC2
[1,]	1.138312	2.406092	1.478946
[2,]	0.871206	0.502576	1.789922
[3,]	-0.56608	-0.18448	0.081535
[4,]	-1.18956	0.478435	-0.17508
[5,]	-0.64359	-0.2024	1.428774
[6,]	-0.51565	0.884551	0.539713
[7,]	-1.05302	0.824625	0.1121
[8,]	-1.37562	1.347022	0.002055
[9,]	2.714779	1.658216	0.425179
[10,]	0.584542	0.092629	0.395231
[11,]	1.653319	-0.7073	1.062045
[12,]	0.058528	-0.83722	-0.0902
[13,]	1.327354	-1.24469	-0.27228
[14,]	0.039386	-0.67042	-0.75697
[15,]	-0.11632	-0.2902	0.420907
[16,]	-0.93232	0.259614	-0.28382
[17,]	-0.27795	0.437536	0.119682
[18,]	-0.14749	0.703557	-0.8305
[19,]	2.200098	-0.7142	-1.03531
[20,]	-0.02562	0.471236	-2.27537
[21,]	1.102447	-0.53658	-2.31645
[22,]	-0.01129	-0.52334	0.530547
[23,]	-0.04736	-0.37079	-0.20616
[24,]	-0.44835	-0.4152	-0.88477
[25,]	-0.17803	-0.05249	-1.5506
[26,]	-0.34746	-3.35068	1.598636
[27,]	-0.82552	0.622352	-0.41069
[28,]	-0.72577	-0.04506	-0.5473
[29,]	-0.81819	-0.06306	0.33178
[30,]	-0.7453	0.105347	0.572452
[31,]	-0.69946	-0.58566	0.745988

19年数据的主成分分析总体与18年大同小异，切主成分不做对比分析参考数据，结果中主成分分析的主要价值是验证了依旧可以使用碎石法对原有的四个主成分进行进一步简便使其变成三个主成分方便计算。也表明了可以对19年数据采取与18年数据相同的聚类分析并可以将原有数据采用碎石法的思想。

　3.1.3 主成分分析总结

主成分分析利用了降维的思想，将原有的八种消费指标（居住、服装、食品等）通过进行初步的主成分分析降维处理，给出了四个主成分RC1-RC4，进而通过碎石法采取主成分特征值大于1的留下，小于1的暂时舍去的原理进一步将四个主成分降为三个最终的主成分进一步方便了计算，而主成分分析的结果除了自己本身的验证，还可以利用指标聚类法进行验证，同样良好的主成分分析也是指标聚类分析法有力的理论依据。因此下面进行对消费指标进行的聚类分析来实践对比与前文中碎石法所得结果是否相关。

　3.2 对消费指标进行聚类分析（即varclus聚类分析）

　　3.2.1 对18年数据指标进行的聚类分析

1.对18年聚类分结果析的解释说明

①’data.frame’: 31 obs. of 8 variables:

$ X1: num 8065 8647 4271 3688 5324 …

$ X2: num 2176 1990 1257 1261 1751 …

$ X3: num 14110 6406 4050 3229 3680 …

$ X4: num 2372 1818 1139 856 1205 …

$ X5: num 4767 4281 2355 1845 3074 …

$ X6: num 3999 3187 1734 1940 2245 …

$ X7: num 3275 2677 1541 1635 1848 …

$ X8: num 1079 896 374 356 538 …

②

5559914945e3583171d0267ccdc59fcb-1 　　图3.218年数据两两关系散点图

varclus(x = x, similarity = “spear”)

Similarity matrix (Spearman rho^2)

③

表3.19 18年聚类数据情况表

	X1	X2	X3	X4	X5	X6	X7	X8
X1	1	0.21	0.61	0.54	0.48	0.5	0.14	0.63
X2	0.21	1	0.15	0.41	0.48	0.32	0.68	0.57
X3	0.61	0.15	1	0.65	0.39	0.63	0.17	0.44
X4	0.54	0.41	0.65	1	0.67	0.52	0.36	0.56
X5	0.48	0.48	0.39	0.67	1	0.51	0.38	0.69
X6	0.5	0.32	0.63	0.52	0.51	1	0.41	0.57
X7	0.14	0.68	0.17	0.36	0.38	0.41	1	0.54
X8	0.63	0.57	0.44	0.56	0.69	0.57	0.54	1

No. of observations used for each pair:

表3.20 18年数据样本量

	X1	X2	X3	X4	X5	X6	X7	X8
X1	31	31	31	31	31	31	31	31
X2	31	31	31	31	31	31	31	31
X3	31	31	31	31	31	31	31	31
X4	31	31	31	31	31	31	31	31
X5	31	31	31	31	31	31	31	31
X6	31	31	31	31	31	31	31	31
X7	31	31	31	31	31	31	31	31
X8	31	31	31	31	31	31	31	31

hclust results (method=complete)；Call:

hclust(d = as.dist(1 – x), method = method)

Cluster method : complete

Number of objects: 8

④

7531f914e5f95c028d9321e226a1d9ee 　　图3.3 18年指标聚类树状图

①中将每个自变量X的相关数据进行收集整理，并自动对小数点后点数进行四舍五入，方便进行后续相关矩阵的计算。

②为8个指标变量两两相关关系的散点图，从该散点图中可以大致的分析出X2和X7的关系应该较为相似，X3与X4的多数散点也都落在了1000-2000范围内，在聚类分析中可以归为一类，而其他自变量相对不好判断，因此利用varclus函数进行指标聚类分析。

③表中所示内容为聚类分析的总体数据情况，用到的样本量和相似矩阵。

通过总体数据情况表可以看出在本次聚类分析中，31个样本，每个样本的8个指标均为合理数，无异常值和缺失值因此分析结果有一定的准确性和可靠性。

通过上面的相似矩阵，发现X2与X7的相关度达到了0.68在X2范畴中与X7相关度最高应归为一类。X3与X4的相关度达到了0.65也应归为一类，而X5虽与X4的相似度也很高达到了0.67，但与X8为最高值（0.69）所以X5与X8应先归为一类。同时虽然X5与X4相关度高，如若将X5分为与X3、X4一组，X3与X5的相关度仅为0.39不大于0.5属于不相关类。同理虽然X1与X8相关度为0.63但与X5相关度仅为0.48不大于0.5，所以X1不能与X5、X8一类。如此暂时将6个自变量分为了3组，而X1与X6的相关度也仅为0.5，所以不能将X1与X6单独化为一类，只能将X1、X6进行2级分组，经过观察发现X1与X3、X4的相关度都大于0.5，X6与X5、X8的相关度也均大于0.5，因此通过相关矩阵得出的结论如下：

X2与X7一组、X1、X3、X4一组、X6、X5、X8一组

④图为指标聚类可视化的树状图，可以看出在最初的八项指标通过像树枝一样的逐步进行汇聚，分成了大概三个类别，也证实了前一步进行的Kaiser-Harris主成分分析是正确的，Kaiser-Harris主成分分析确实能更准确的对自变量的指标进行相关性处理。

通过上述的四步分析我们不难得出如下结论：

全国城镇居民的消费结构大致可分为3个方面：

表3.21指标聚类分析总结表

类别	所包含的消费支出
第一类	居民购买人均粮食消费支出	居民人均栖身消费支出	居民人均生活用品及服务消费支出
第二类	居民人均服装消费支出	人均医疗保健消费支出
第三类	居民人均交通通信消费支出	居民人均教育文化娱乐消费支出	居民人均其他用品及服务消费支出

可见表中第一行所展示的为居民的基本生活需求，这一类别为人民的主要消费方式，也是必要的主导消费；

第二行所示的为在满足基本生活需求后所提升个人形象和形体的消费；

第三行所展示为居民的精神及高档型消费。正所谓经济基础决定了上层建筑，只有满足前两行的需求，才会发展第三行的经济。

3.2.2 对19年数据指标进行的聚类分析

1.对19年聚类分析结果的解释说明

‘data.frame’: 31 obs. of 8 variables:

$ X1: num 8489 8984 4676 3997 5517 …

$ X2: num 2230 2000 1305 1290 1765 …

$ X3: num 15751 6946 4302 3332 3944 …

$ X4: num 2387 1957 1170 911 1186 …

$ X5: num 4979 4236 2416 1980 3218 …

$ X6: num 4311 3584 1984 2136 2408 …

$ X7: num 3740 2992 1699 1821 2108 …

$ X8: num 1152 1155 436 397 597 …

图3.4 19年数据两两关系散点图

bedb1638f8e806ad02dc6f2400109ea2 　　varclus(x = x, similarity = “spear”)

Similarity matrix (Spearman rho^2)

表3.2219年聚类数据情况表

	X1	X2	X3	X4	X5	X6	X7	X8
X1	1	0.21	0.64	0.62	0.6	0.46	0.14	0.5
X2	0.21	1	0.13	0.37	0.4	0.29	0.5	0.65
X3	0.64	0.13	1	0.71	0.44	0.6	0.16	0.33
X4	0.62	0.37	0.71	1	0.64	0.49	0.31	0.53
X5	0.6	0.4	0.44	0.64	1	0.54	0.34	0.7
X6	0.46	0.29	0.6	0.49	0.54	1	0.43	0.54
X7	0.14	0.5	0.16	0.31	0.34	0.43	1	0.56
X8	0.5	0.65	0.33	0.53	0.7	0.54	0.56	1

表3.2319年聚类数据样本量

	X1	X2	X3	X4	X5	X6	X7	X8
X1	31	31	31	31	31	31	31	31
X2	31	31	31	31	31	31	31	31
X3	31	31	31	31	31	31	31	31
X4	31	31	31	31	31	31	31	31
X5	31	31	31	31	31	31	31	31
X6	31	31	31	31	31	31	31	31
X7	31	31	31	31	31	31	31	31
X8	31	31	31	31	31	31	31	31

hclust results (method=complete)

Call:

hclust(d = as.dist(1 – x), method = method)

Cluster method : complete

Number of objects: 8

图3.5 19年指标聚类树状图

7674ae3366ba91c0cf55f355ad0f21be 　　通过对19年数据进行指标的聚类可以看出像类似的相关问题，在保证没有特别大问题的异常值和比较多的缺失值情况下。均可以对指标进行先主成分分析后指标聚类分析的思想，这样进行含有碎石法的主成分分析既可以告诉我们指标聚类分析的可能结果，指标聚类分析的结果又可以验证我们的含有碎石法的主成分分析，使我们进行进一步省级行政区的聚类分析更加简便同时也使我们的结果分析更加严谨。

对指标进行聚类分析的最终目的是为了在对省级行政区进行聚类时可以更好的利用加权且有更高的准确性，因此在利用主成分及指标聚类方法对指标进行了双重降维方法后，下一步对数据中的省级行政区进行不同消费水平种类的聚类划分

第4章对省级行政区消费水平的分析（包含恩格尔系数及聚类分析）

　　4.1 恩格尔系数

根据恩格尔系数的计算公式（粮食支出/总支出）

表4.118、19年恩格尔系数

18年恩格尔系数		19年恩格尔系数
省市	恩格尔系数	省市	恩格尔系数
北京	0.20242	北京	0.197232
天津	0.289184	天津	0.282032
河北	0.255428	河北	0.259948
山西	0.249036	山西	0.25199
内蒙古	0.270746	内蒙古	0.265977
辽宁	0.267677	辽宁	0.26828
吉林	0.256818	吉林	0.258662
黑龙江	0.269106	黑龙江	0.263979
上海	0.24747	上海	0.240162
江苏	0.261114	江苏	0.256468
浙江	0.278184	浙江	0.278803
安徽	0.317676	安徽	0.317745
福建	0.329314	福建	0.319804
江西	0.304522	江西	0.295469
山东	0.267891	山东	0.265173
河南	0.261052	河南	0.25636
湖北	0.28106	湖北	0.275736
湖南	0.279668	湖南	0.281801
广东	0.325507	广东	0.323135
广西	0.304372	广西	0.306436
海南	0.373802	海南	0.36422
重庆	0.323182	重庆	0.320915
四川	0.336166	四川	0.334404
贵州	0.274888	贵州	0.278091
云南	0.279538	云南	0.288876
西藏	0.3759	西藏	0.367831
陕西	0.265631	陕西	0.267504
甘肃	0.290844	甘肃	0.288053
青海	0.282147	青海	0.292448
宁夏	0.253309	宁夏	0.251696
新疆	0.289798	新疆	0.28987

通过对18年19年恩格尔系数的研究，不难发现按照世界标准的方法来看，我们国内的大多数省份已经达到了对食品方面支出仅占三成的水平，但单单从上表中也会发现诸多矛盾的地方：

1.从总数据上看南方经济远远高于北方地区，但山西、辽宁、包括陕西省在内的几个省份恩格尔系数均低于广东、浙江、福建等这些经济相对发达的省份，由此可见单单从恩格尔系数来判断一个省市的发达与否是不严谨的。

2.在多数省市的恩格尔系数在19年均实现了比18年低情况下，贵州、陕西等西部省市均有上升的趋势（大于0.5）经后期了解得到，经过脱贫政策及旅游业的不断发展，在上述省市的年GDP实际上有着8.3%的提升，之所以造成了恩格尔系数上升的原因是由于生活质量的提升，对食品的更高要求导致的。

所以仅仅从恩格尔系数所获取的信息是有待商榷的，所以使用K均值聚类分析及FCM模糊聚类分析，来具体探讨省级行政区的消费支出问题。

　4.2K均值聚类

　　4.2.1 对18年数据进行的K均值聚类分析

1.结果分析

选择分一类的K均值聚类结果：

[1]1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

kc1[[“centers”]]

表4.218年一类别时的变量中心点

X1	X2	X3	X4	X5	X6	X7	X8
5603.11	1331.27	4652.26	1196.98	2688.79	2231.50	1726.21	496.75

kc1[[“totss”]]

[1] 397521094

kc1[[“withinss”]]

[1] 397521094

kc1[[“tot.withinss”]]

[1] 397521094

kc1[[“betweenss”]]

[1] -2.980232e-07

kc1[[“size”]]

[1] 31

选择分两类的K均值聚类结果：

[2] 2 2 1 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1

kc2[[“centers”]]

表4.3 18年二类别时的变量中心点

X1	X2	X3	X4	X5	X6	X7	X8
4811.42	1223.55	3427.89	1042.12	2302.12	1932.6	1569.14	404.004
8317.47	1700.59	8850.11	1727.92	4014.51	3256.31	2264.73	814.76

kc2[[“totss”]]

[2] 397521094

kc2[[“withinss”]]

[2] 33780043 105087129

kc2[[“tot.withinss”]]

[2] 138867172

kc2[[“betweenss”]]

[2] 258653921

kc2[[“size”]]

[2] 24 7

选择分三类的K均值聚类结果：

[3] 3 1 2 2 2 2 2 2 3 1 1 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2

kc3[[“centers”]]

表4.4 18年三类别时的变量中心点

X1	X2	X3	X4	X5	X6	X7	X8
7885.83	1538.37	6726.39	1525.6	3690.59	2749.07	1901.67	668.657
4811.42	1223.55	3427.89	1042.1	2302.12	1932.60	1569.14	404.004
9396.55	2106.15	14159.4	2233.7	4824.33	4524.403	3172.383	1180.04

kc3[[“totss”]]

[3] 397521094

kc3[[“withinss”]]

[3] 8504404 33780043 4198172

kc3[[“tot.withinss”]]

[3] 46482619

kc3[[“betweenss”]]

[3] 351038475

kc3[[“size”]]

[3] 5 24 2

结果中返回对象组成部分解释：

当打出kc1则意味着让系统将所有研究对象归为一类时的结果。运行kmeans函数返回的对象所包含的各个组成部分主要包括

表4.5结果代码解释

代码名称	代码表示及其作用
cluster	整体向量，用于表示记录所属的聚类
totss	表示所生成聚类的总体距离平方和
withinss	表示各个聚类组内的距离平方和
tot.winhnss betweenss size	表示聚类组内的距离平方和总量表示聚类组间的聚类平方和总量表示每个聚类组中成员的数量。

2.K均值结果总结

通过对原有的31个省级行政区进行高中低消费水平的分类得到下表

表4.6K均值三类别表

各类别消费水平	包含省市
高消费水平地区	北京、上海
中等消费水平地区	天津、江苏、浙江、福建、广东
较低消费水平地区	其余24个省级行政区

由于对2018年数据进行的划分下单单将省级行政区划为三个等级所造成的实用意义不大，且对于其他24个省级行政区的经济环境也不会有一个共性的体现，因此在K均值聚类中我们在R语言中加入代码：kc5=kmeans(x,centers=5,nstart=1,trace=TRUE)令均值聚类将原有数据分成5类，目的让分组情况更加明朗也方便提供更有力的建议。（将KC=5后其余信息参考意见不大因此在本论文中表述出size数据以及cluster结果）

Size：3 5 8 13 2

Clust：5 2 1 4 3 3 4 4 5 2 2 1 2 1 3 4 3 3 2 4 3 3 3 4 4 4 4 4 4 4 4

Size代表着1-5序号分别出现的次数。5为高消费水平地区、2为较高消费水平地区、3为中等消费水平地区、1为较低消费水平地区、4为低消费水平地区。

通过对经济的对比我们发现K均值聚类对5类标准的聚类结果如下

表4.7K均值5类别表

消费水平等级	省级行政区
高等消费水平	北京、上海
较高消费水平	天津、江苏、福建、浙江、广东
中等消费水平	内蒙古、辽宁、山东、湖北湖南、海南、重庆、四川
较低消费水平	河北、安徽、江西
最低消费水平	其余13个省级行政区

　4.2.2 对19年数据进行的K均值聚类分析

1.结果分析

与18年的数据大体思路相同，在此只展示三类和五类的分类结果及分析

kc3[[“cluster”]]

[1] 1 3 2 2 2 2 2 2 1 3 3 2 3 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2

分为三类的结果是：

表4.8K均值三类别表

消费水平	省级行政区
高等消费	北京、上海
中等消费	天津、江苏、福建、浙江、广东
较低消费	其余省级行政区

这一水平与18年大体相同

kc5[[“cluster”]]

[1] 2 5 4 4 1 1 4 4 2 5 5 1 5 4 1 4 1 1 5 4 1 1 1 4 4 3 4 4 4 4 4

分为五类的结果是：

表4.9K均值5类别表

消费水平	省级行政区
高等消费水平	北京、上海
较高消费水平	天津、江苏、福建、浙江、广东
中等消费水平	内蒙古、辽宁、山东、湖北湖南、海南、重庆、四川
较低消费水平	除西藏及上述省份外均为较低水平
最低消费水平	西藏

4.2.3 针对本论文中K均值聚类总结

K均值聚类方法有着聚类方法中相对最久的历史，这一算法起源于1957年HugoSteinhaus先生提出，由J.MacQueen在1967年第一次使用有着将近百年的历史，在漫长的使用过程中也在不断的改进，但并未对K均值的本质进行改良，正如前面所介绍的K均值为硬聚类，会根据每一次的分类重新计算类别中心，这样会令有异常值的一组数据进行聚类时，产生较大的误差，而近些年随着数学专业的发展，在计算机软件领域产生了模糊这一概念，每个数，只要不是类别中心本身，就不能说100%属于该类别，因此接下来对18、19年数据进行模糊聚类分析，来实践与K均值聚类分析的优劣。

　　4.3FCM模糊聚类

　　4.3.1 对18年进行模糊聚类分析

1.模糊聚类程序代码

在使用FCM函数之前，先下载R语言中的ppclust程序包FCM函数可在该包下得以使用。

FCM <- function(x, k, m, iter.max = 1000, con.val = 1e-09){

x <- as.matrix(x)

set.seed(12345)

v0 <- x[sample(nrow(x), 3),]

n <- nrow(x)

d <- matrix(0, n, k)

for (j in 1:k) {

d[, j] = sqrt(rowSums(sweep(x, 2, v0[j, ], “-“)^2))

}

u <- matrix(NA, nrow = n, ncol = k)

for (j in 1:k){

for (i in 1:n){

if (any(d[i,] == 0)){

u[i, ] <- rep(1/k, k)

}else{

u[i, j] <- 1/(sum((d[i, j]/d[i, ])^(2/(m – 1))))

}

v <- t(u^m) %*% x/colSums(u^m)

j <- sum(d^2 * (u^m))

iter <- 0

j_best <- Inf

while((iter < iter.max) && (abs(j – j_best) > con.val)){

j_best <- j

for (j in 1:k) {

d[, j] = sqrt(rowSums(sweep(x, 2, v[j, ], “-“)^2))

}

for (j in 1:k){

for (i in 1:n){

if (any(d[i,] == 0)){

u[i, ] <- rep(1/k, k)

}else{

u[i, j] <- 1/(sum((d[i, j]/d[i, ])^(2/(m – 1))))

}

v <- t(u^m) %*% x/colSums(u^m)

j <- sum(d^2 * (u^m))

iter = iter + 1

}

result <- list()

result$u <- u

result$v <- v

return(result)

}

res.fcm <- fcm(x, centers=3, alginitv=”hartiganwong”, alginitu=”imembrand”)

res.fcm <- fcm(x, centers=3, alginitv=”hartiganwong”, alginitu=”imembrand”, nstart = 5, fixmemb=TRUE)

res.fcm2 <- ppclust2(res.fcm, “kmeans”)

factoextra::fviz_cluster(res.fcm2, data = x,

ellipse.type = “convex”,

palette = “jco”,

show.legend.text = FALSE)

2.对18年数据进行模糊聚类的结果展示及分析

表4.10三类别时的欧氏距离表

序号	Cluster 1	Cluster 2	Cluster 3
1	0.032122	0.953753	0.014125
2	0.901728	0.03351	0.064762
3	0.029636	0.00448	0.965884
4	0.039763	0.007606	0.952631
5	0.089422	0.010115	0.900463
6	0.231477	0.020931	0.747592
7	0.019332	0.00303	0.977637
8	0.023437	0.00373	0.972832
9	0.026689	0.961719	0.011593
10	0.885809	0.021804	0.092387
11	0.909927	0.03966	0.050413
12	0.050863	0.006143	0.942994
13	0.886551	0.018516	0.094933
14	0.029759	0.004363	0.965878
15	0.051266	0.006035	0.9427
16	0.028272	0.005029	0.966699
17	0.121214	0.01182	0.866966
18	0.081327	0.00943	0.909244
19	0.961301	0.011074	0.027625
20	0.019404	0.003143	0.977452
21	0.211485	0.022606	0.765909
22	0.146905	0.014857	0.838237
23	0.082795	0.0097	0.907505
24	0.04695	0.009039	0.944011
25	0.031298	0.005695	0.963007
26	0.105068	0.022068	0.872864
27	0.013294	0.002186	0.98452
28	0.026237	0.004701	0.969061
29	0.019101	0.002976	0.977923
30	0.025018	0.004141	0.970841
31	0.012937	0.002067	0.984996

上方表格为按照分成三类的前提下进行模糊聚类分析，最前面的代表省级行政区的序号，表头的Cluster为三个类别，数字代表着该省级行政区到任一个类别的欧氏距离，例如省级行政区“1”在类别2中的欧氏距离达到了0.953753053远远高于到达其余类别的欧氏距离，因此将1号省级行政区划分为Cluster2

图4.118年聚类分析结果图（三类别）

f491db7f4fb887761665055e878745a6 　　通过对类别进行可视化展示，生成二维图表我们可以发现通过分成三类的模糊聚类分析结果如下：

表4.11模糊聚类3类别结果表

各类消费等级	包含省级行政区
高消费水平	北京、上海
中等消费水平	天津、江苏、浙江、福建、广东
低消费水平	其余省级行政区为低消费水平地区

这一结果与K均值聚类大致相同原因是模糊聚类分析是选择欧氏距离最大的而K均值相反选取欧氏距离最小的，在本报告中由于没有异常值和缺失值，所以导致两种聚类分析结果相同。因此同样出现了第三类（低消费水平）分布过大，聚类分析的结果实际意义不大，因此采用和上面相同的原理，将其设置为3类别的代码改为5类别

变化代码：

res.fcm <- fcm(x, centers=5, alginitv=”hartiganwong”, alginitu=”imembrand”)

res.fcm <- fcm(x, centers=5, alginitv=”hartiganwong”, alginitu=”imembrand”, nstart = 5, fixmemb=TRUE)

只需将原有centers等于3改为5其余代码不变即可得到5类别模糊聚类分析，其结果如下：

表4.12五类别时的欧氏距离表

序号	Cluster 1	Cluster 2	Cluster 3	Cluster 4	Cluster 5
1	0.013018	0.016214	0.923227	0.013653	0.033889
2	0.035697	0.068167	0.022889	0.042339	0.830909
3	0.403823	0.165053	0.002438	0.414604	0.014082
4	0.666045	0.060053	0.001717	0.264156	0.00803
5	0.107206	0.633496	0.002759	0.235586	0.020953
6	0.100538	0.677118	0.005143	0.169445	0.047757
7	0.18162	0.084713	0.001093	0.726422	0.006151
8	0.213903	0.105024	0.001433	0.67168	0.00796
9	0.010172	0.012805	0.939161	0.010703	0.027159
10	0.074878	0.159859	0.022628	0.088506	0.654128
11	0.025468	0.044529	0.024029	0.029023	0.876951
12	0.194455	0.531111	0.00279	0.251876	0.019768
13	0.07734	0.17758	0.019544	0.08972	0.635816
14	0.443632	0.208239	0.002629	0.329873	0.015627
15	0.123963	0.604225	0.002122	0.254257	0.015433
16	0.741924	0.046438	0.001057	0.205309	0.005273
17	0.051434	0.846964	0.00153	0.08696	0.013112
18	0.1229	0.65495	0.002735	0.199249	0.020166
19	0.019085	0.03767	0.009486	0.021901	0.911859
20	0.624765	0.076704	0.001246	0.290491	0.006794
21	0.18138	0.526545	0.008076	0.219256	0.064743
22	0.085543	0.744062	0.00301	0.142001	0.025384
23	0.147474	0.585274	0.003266	0.239938	0.024048
24	0.637822	0.072495	0.002247	0.276952	0.010484
25	0.79378	0.036022	0.000897	0.164903	0.004398
26	0.456495	0.168202	0.00809	0.332228	0.034985
27	0.495906	0.06019	0.000916	0.438069	0.004919
28	0.746311	0.042304	0.000935	0.205802	0.004648
29	0.178066	0.079362	0.001042	0.735619	0.005912
30	0.259544	0.08288	0.001397	0.648678	0.0075
31	0.221803	0.061782	0.000817	0.711071	0.004528

通过将分类数量设为5所以导致每个省级行政区拥有5个到不同类别的欧氏距离。

be3240e7209768a4e1dcc7bb095af520 　　图4.2 18年聚类分析结果图（五类别）

通过对欧氏距离的比较，以及利用模糊聚类分析结果的可视化图表同样可以将31个省级行政区分为5类消费水平，通过按照原数据的比对，可以得到5类别下省级行政区的聚类分析结果：

表4.1319年五类别表

消费水平类别	包含省市
最高消费水平	北京、上海
消费较高水平	天津、江苏、福建、浙江、广东
消费中等水平	内蒙古、辽宁、山东、湖北、湖南、海南、重庆、四川
消费较低水平	河北、安徽、江西
消费最低水平	其余13个省市

同理由于没有异常值，缺失值。分为5类别的模糊聚类结果与K均值聚类分析结果无太大差别。

　4.3.2 对19年数据进行模糊聚类分析

1.对19年数据进行模糊聚类的结果展示及分析

表4.14三类别时的欧氏距离表

	Cluster 1	Cluster 2	Cluster 3
1	0.011742	0.026093	0.962165
2	0.054592	0.92054	0.024868
3	0.973958	0.022494	0.003548
4	0.951923	0.040056	0.008021
5	0.936136	0.056631	0.007232
6	0.840873	0.143906	0.015221
7	0.977187	0.019474	0.003339
8	0.966855	0.028261	0.004884
9	0.011008	0.026787	0.962204
10	0.119752	0.853843	0.026405
11	0.049277	0.910063	0.04066
12	0.925094	0.067039	0.007867
13	0.08174	0.899857	0.018403
14	0.957521	0.037117	0.005363
15	0.93752	0.055678	0.006803
16	0.96307	0.031074	0.005857
17	0.842424	0.143343	0.014232
18	0.908697	0.081759	0.009544
19	0.032175	0.952783	0.015043
20	0.980375	0.016846	0.002779
21	0.749241	0.227698	0.023061
22	0.855995	0.130067	0.013938
23	0.904419	0.085208	0.010374
24	0.944461	0.046202	0.009337
25	0.972006	0.023717	0.004277
26	0.873932	0.103782	0.022285
27	0.986384	0.011633	0.001983
28	0.974896	0.021225	0.003879
29	0.984496	0.013332	0.002172
30	0.967657	0.02761	0.004732
31	0.988748	0.009653	0.001599

上方表格为按照分成三类的前提下进行模糊聚类分析，最前面的代表省级行政区的序号，表头的Cluster为三个类别，数字代表着该省级行政区到任一个类别的欧氏距离，例如省级行政区“1”在类别2中的欧氏距离达到了0.962164587远远高于到达其余类别的欧氏距离，因此将1号省级行政区划分为Cluster3（此处分类方法与18年数据不同，可见模糊聚类并没有一个定式而是将不同的数据在进行模糊聚类时临时选取中心点，将数据分为不同的随机的类别）

3e5c79f401e1f43812e1d3d18e355f41 　　图4.319年聚类分析结果图（三类别）

对19年数据进行模糊聚类发现结果与18年几乎没有区别

将原有的31个省级行政区分为拥有2个省级行政区的高消费水平地区、5个省级行政区的中等消费水平地区、以及24个省级行政区的较低水平消费地区。其中2个高消费水平地区为北京、上海；5个中等消费消费水平地区为天津、江苏、浙江、福建、广东；其余省级行政区为较低消费水平地区。

表4.15五类别时的欧氏距离表

	Cluster 1	Cluster 2	Cluster 3	Cluster 4	Cluster 5
1	0.011115	0.01317718	0.938265	0.01063	0.026813
2	0.036552	0.06143496	0.017914	0.031194	0.852905
3	0.446782	0.14923944	0.002044	0.390668	0.011267
4	0.28718	0.05629212	0.001663	0.647444	0.00742
5	0.321587	0.50654882	0.002898	0.149385	0.019581
6	0.154622	0.72255701	0.003421	0.092057	0.027343
7	0.670464	0.06848773	0.001101	0.254262	0.005685
8	0.594547	0.10861037	0.001852	0.285487	0.009502
9	0.010323	0.01249516	0.939442	0.00981	0.02793
10	0.105718	0.19572489	0.025927	0.090227	0.582402
11	0.027977	0.04336907	0.024771	0.024872	0.87901
12	0.154051	0.72271999	0.002089	0.105998	0.015142
13	0.080887	0.15774896	0.02059	0.07056	0.670213
14	0.345331	0.29259077	0.003115	0.340359	0.018604
15	0.24063	0.60419753	0.002507	0.135177	0.017488
16	0.261288	0.05055137	0.001235	0.681118	0.005808
17	0.106181	0.80449353	0.00238	0.067021	0.019924
18	0.154389	0.73230918	0.002271	0.094464	0.016567
19	0.01943	0.03299745	0.009934	0.017124	0.920515
20	0.399443	0.08988083	0.001302	0.502423	0.006952
21	0.195421	0.57697747	0.007608	0.155799	0.064194
22	0.127787	0.76723749	0.002699	0.080714	0.021562
23	0.221335	0.61119065	0.003335	0.140446	0.023693
24	0.260352	0.06028652	0.001929	0.668869	0.008563
25	0.194674	0.03323848	0.000701	0.76794	0.003447
26	0.339533	0.16867444	0.007982	0.450083	0.033726
27	0.554289	0.04847256	0.000724	0.392771	0.003743
28	0.116213	0.01663692	0.000347	0.865116	0.001686
29	0.691221	0.07118675	0.000922	0.231674	0.004996
30	0.597601	0.09774610	0.001741	0.293903	0.009009
31	0.690345	0.04801607	0.000636	0.257608	0.003393

同理通过将代码中的类别数将3改为5获得每个省级行政区拥有5个到不同类别的欧氏距离。

图4.4 19年聚类分析结果图（五类别）

197f2af2bbea2d46600c92118b040895 　　19年模糊聚类的分类结果如下：

表4.16模糊分析结果表（五类别）

消费水平类别	包含省市
高等消费水平	北京、上海
较高消费水平	天津、江苏、浙江、福建、广东
中等消费水平	内蒙古、辽宁、安徽、山东、湖北、湖南、海南、重庆、四川
较低消费水平	河北、吉林、黑龙江、江西、新疆、宁夏、青海、陕西
低等消费水平	山西、河南、广西、贵州、云南、甘肃、西藏

可见对于19年数据分成五类后数据结果与K均值聚类结果有很大区别，在于地等消费水平省市这一板块原因在于：

1.默认情况下K均值聚类的初始凝聚点是随机产生的，模糊C均值聚类的初始隶属度矩阵也是随机产生的，这都会影响到聚类结果。

2.K均值聚类是一种硬聚类，其原理为创建K个点作为初始质心（随机选择）当任意一个点的簇分配结果发生改变时：对数据中的每个点和质心计算质心与数据点之间的距离将数据点分配到距其最近的类别对每个类别计算类别中所有点的均值并且将均值作为新的质心不断迭代，直到簇不再发生变化或者达到最大迭代次数

模糊聚类是一种软聚类，其原理为建立模糊相似矩阵，初始化隶属矩阵；算法开始迭代，更新隶属度矩阵，直到目标函数收敛到极小值；根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。

3.k均值聚类隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；

模糊聚类算法是k均值聚类算法的推广形式，隶属度取值为[0 1]区间内的任何一个数，提出的基本根据是“类内加权误差平方和最小化”准则

由于以上的三个原因导致最终结果有所不同，但由于综合考虑模糊聚类相比于K均值聚类拥有改进且误差相对较小等优点，在19年数据中省级行政区的分类标准以模糊聚类为主。

4.4 通过实践进一步阐述K均值聚类与模糊聚类分析

通过对上述中18年、19年数据进行模糊聚类的分析，让我们更加明白了上述两种聚类分析的不同。

K均值聚类分析像是五个可相同可不同的篮子，而每一个数据就好似一个苹果，所谓的硬聚类分析就是要求每一个苹果必须要放在其中的一个篮子中，在开始之前随机选取五次苹果投放的位置，放置最初的五个篮子。假如第i个苹果投放到第j个篮子时投到了篮子的边沿（为投放到篮子正中心），那么就认为这个篮子所摆放的位置不合适，应当进行一定的位置调整，如果投到了外面，但仍要归属到这个篮子里，那么这个篮子就会移动很长距离，这也就是所谓的异常值决定类别中心大幅度移动。

而模糊聚类分析，可以比喻为五个理想意义下的五块布或者毛毯（可大可小）放置在同一平面，但并不先确定位置，这时对苹果进行投放处理，31个苹果随机投放后，利用毛毯进行对苹果的覆盖，但并不需要将毛毯中心正对某个苹果，但需要做到将附近的苹果到该毛毯中心的距离最小，这一时间可以进行挪动，也就是不断的进行欧氏距离的测量，但其特点是，可能出现同一个苹果被两个甚至更多的毛毯覆盖，这时引入了模糊的概念，看该苹果大多数归属于哪个苹果，这也就是模糊聚类分析的基本过程原理。

可见，模糊聚类分析在某种程度上保留了K均值聚类分析的作用又可以避免某个异常值而导致的聚类中心偏移，因此后续进行的对比及预测分析利用18、19年模糊聚类分析结果进行处理。在获取了14-19年的类别数据后，查询20年数据发现为空值，因此利用回归直线的方法对20年数据进行预测，下面即先对18、19年数据进行对比分析后，对20年数据进行合理化的预测分析。

　第5章对18年、19年八项消费指标的对比分析及对20年数据的预测

　　5.1 对比分析

下表为对18、19年两年数据进行每一对应数据进行比例处理所得出的表

表5.118、19年数据比例对比图

总消费食品服装居住生活用品交通教育医疗其他

北京	1.080	1.053	1.025	1.116	1.006	1.044	1.078	1.142	1.068
天津	1.065	1.039	1.005	1.084	1.076	0.990	1.125	1.118	1.288
河北	1.076	1.095	1.038	1.062	1.028	1.026	1.144	1.103	1.166
山西	1.071	1.084	1.023	1.032	1.064	1.073	1.101	1.114	1.113
内蒙古	1.055	1.036	1.008	1.072	0.984	1.047	1.072	1.141	1.110
辽宁	1.038	1.040	0.974	1.059	1.013	0.960	1.082	1.078	1.111
吉林	1.051	1.058	1.007	1.017	1.054	1.015	1.111	1.081	1.114
黑龙江	1.066	1.045	1.023	1.043	0.953	1.055	1.204	1.099	1.049
上海	1.052	1.021	1.017	1.059	1.013	1.097	1.088	1.044	1.058
江苏	1.068	1.049	1.021	1.077	1.002	1.059	1.141	1.074	1.166
浙江	1.087	1.089	1.035	1.088	1.038	1.058	1.196	1.031	1.157
安徽	1.123	1.123	1.143	1.086	1.109	1.098	1.178	1.217	1.047
福建	1.101	1.069	1.089	1.138	1.038	1.033	1.144	1.220	1.225
江西	1.118	1.084	1.003	1.159	1.077	1.124	1.155	1.265	0.964
山东	1.088	1.077	1.037	1.112	1.104	1.055	1.108	1.116	1.107
河南	1.077	1.057	1.046	1.060	1.045	1.075	1.140	1.133	1.106
湖北	1.104	1.083	1.081	1.106	1.132	1.092	1.124	1.169	1.022
湖南	1.089	1.097	1.038	1.083	1.030	1.093	1.083	1.150	1.126
广东	1.113	1.105	1.050	1.103	1.083	1.120	1.179	1.164	1.057
广西	1.099	1.107	1.051	1.069	1.051	1.109	1.116	1.184	1.008
海南	1.116	1.087	1.064	1.098	1.128	1.343	1.104	1.047	0.993
重庆	1.079	1.072	1.026	1.101	1.040	1.034	1.107	1.160	1.132
四川	1.095	1.089	1.033	1.092	1.016	1.074	1.134	1.234	1.044
贵州	1.071	1.084	1.053	1.066	0.995	0.999	1.124	1.177	1.158
云南	1.107	1.144	1.043	1.094	1.078	1.102	1.100	1.106	1.099
西藏	1.131	1.107	1.125	1.104	1.362	1.091	1.133	1.128	1.514
陕西	1.081	1.088	1.076	1.070	0.959	1.074	1.117	1.130	1.108
甘肃	1.086	1.075	1.012	1.112	1.054	1.202	1.078	1.029	1.047
青海	1.060	1.098	1.007	1.105	1.023	0.969	1.046	1.083	1.085
宁夏	1.095	1.088	1.064	1.077	1.072	1.108	1.100	1.117	1.250
新疆	1.075	1.075	1.011	1.130	1.071	1.059	1.064	1.083	1.016

颜色说明：将大于1.1上升率的用绿色底表示

介于1.05和1.1之间的用黄色底表示

小于1的用红色表示

白色底为介于1至1.05上升率的数据

结论：

1.通过将19年数据对应板块与18年数据相比较，可以得出每一个省市的每一个指标在一年之内的上升（下降）趋势。从上表中可以发现出了额部分省市如江西、天津等有极个别的类别有了下降幅度且下降幅度均小于5%，可见在飞速发展的今天，我国总体的消费水平正在稳步上升，也从侧面反映了我国省级行政区的整体经济正在稳步发展。

2.除辽宁省外其余各省的总体消费水平均有大于5%的涨幅，而辽宁省的服装消费水平和交通消费水平反而下降。相关XX应该提倡公共出行做好公共交通相关政策并发展旅游经济进而发展交通经济，且应当对衣服减少税收，让商场增加折扣从而刺激消费者们对服装的消费。

3.上表中总消费水平拥有10%的涨幅省市，其主要上升的多数在居住、教育和医疗方面，可见如今房价上涨，居住的费用在逐渐上升，居住成本也占据了总消费中的40%左右，消费者负担高昂的居住费用后还要承担孩子的教育费用以及全家人的医疗费用，因此18年至19年期间的服装、交通、生活用品方面虽有提升但总占比仍然有限。有关部门应当控制居住成本，这样消费者在保持原有教育费用和医疗费用不变的情况下会有更多自由的消费方式，从而提高人民的生活水平。

　5.2 利用若干年数据进行对2020年的消费进行预测分析

利用上述中对31个省级行政区的模糊聚类，预测2020年五种消费水平的平均消费。

下表为14年-19年五类消费水平的居民人均消费总额，在6.1中由于对19年进行预测从而验证回归曲线，因此只使用14-18年数据，19年数据用作6.2使用。

表5.214-19年数据展示

年份	高等消费	较高消费	中等消费	较低消费	低消费
2014	32084	20182	13815	11583	11038
2015	34294	21732	14986	12758	12010
2016	36437	23480	16374	14073	13072
2017	38609	24892	17534	15216	13995
2018	41597	26686	19079	16520	15301
2019	44322	28977	20469	17816	15440

5.2.1 对19年五种消费水平地区消费水平的预测曲线分析

1.对19年消费的预测曲线分析

（1）高等消费水平地区19年消费水平曲线

图5.1高等水平14-18年散点图

a4ceced515dfc2b6e19963e6dc67c32b 　　从14-18年数据绘制的图5.1中可以看出Y（居民平均消费金额）与X（年份）有明显的线性关系，说明两者之间存在一定的直线相关。

方差分析表：表5.3高等消费水平方差分析表

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
x	1	54480228	54480228	617.83	0.0001428
Residuals	3	264540	88180

从上述方差分析表中可以看到P小于0.0005，表明模型拟合数据较好。

②参数估计结果

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5

148.2 23.6 -167.0 -329.6 324.8

Multiple R-squared: 0.9952, Adjusted R-squared: 0.9936

F-statistic: 617.8 on 1 and 3 DF, p-value: 0.0001428

参数估计结果中，可以看出自变量x有显著性意义（P<0.0005）常数项也有显著性意义（P<0.0005）因变量中Y的总体有99.52%可被x自变量所表示（R²=0.9952）

通过上述条件可以得出高等消费水平地区根据14年-18年所生成的回归曲线方程为

Y1=2334.1-4668941.6

（2）较高消费水平地区19年预测曲线

图5.2较高水平14-18年散点图

a177e943cb168b1ae13b0d4ffbdf2007 　　通过14-18年数据绘制的图5.2中可以清晰显示出，Y与X存在着线性关系，通过R语言相关的回归曲线代码可以生成回归曲线。

表5.4 较高水平方差分析表

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
x	1	26140422	26140422	2859.1	1.441e-05
Residuals	3	27429	9143

结果表明，该模型拟合优度较好，（P<0.00005）具有一定的准确性。

②参数估计结果：

Call:

Residuals:

1 2 3 4 5

21.2 -45.6 85.6 -119.2 58.0

Multiple R-squared: 0.999, Adjusted R-squared: 0.9986

F-statistic: 2859 on 1 and 3 DF, p-value: 1.441e-05

参数估计结果中，可以看出自变量x有显著性意义（P<0.0005）常数项也有显著性意义（P<0.0005）因变量中Y的总体有99.9%可被x自变量所表示（R²=0.999）

通过上述条件可以得出较高消费水平地区根据14年-18年所生成的回归曲线方程为

Y2=1617X-3236000

（3）中等消费水平地区19年预测曲线

图5.3中等水平14-18年散点图

2e20aed2fafa51acf48a873bb25e9234 　　通过14-18年数据绘制的图中5.3可以清晰显示出，Y与X存在着线性关系，通过R语言相关的回归曲线代码可以生成回归曲线。

表5.5中等水平方差分析表

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
x	1	17098178	17098178	1345.3	4.457e-05
Residuals	3	38128	12709

通过方差分析表可以看出该模型拟合优度较好，（P<0.00005）具有一定的准确性。

②参数估计结果

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5

72.6 -64.0 16.4 -131.2 106.2

Multiple R-squared: 0.9978, Adjusted R-squared: 0.997

F-statistic: 1345 on 1 and 3 DF, p-value: 4.457e-05

参数估计结果中，可以看出自变量x有显著性意义（P<0.0005）常数项也有显著性意义（P<0.0005）因变量中Y的总体有99.78%可被x自变量所表示（R²=0.9978）

通过上述条件可以得出中等等消费水平地区根据14年-18年所生成的回归曲线方程为

Y3=1308X-2620000

（4）较低消费水平19年预测曲线

图5.4较低水平14-18年散点图

746f52c3b66897b337a6ac9bfec9439b 　　通过14-18年数据绘制的图5.4中可以清晰显示出，Y与X存在着线性关系，通过R语言相关的回归曲线代码可以生成回归曲线。

表5.6较低水平方差分析表

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
x	1	15207822	15207822	7002.2	3.762e-06
Residuals	3	6516	2172

通过方差分析表可以看出该模型拟合优度较好，（P<0.00005）具有一定的准确性。

②参数估计结果

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5

19.4 -38.8 43.0 -47.2 23.6

Multiple R-squared: 0.9996, Adjusted R-squared: 0.9994

F-statistic: 7002 on 1 and 3 DF, p-value: 3.762e-06

参数估计结果中，可以看出自变量x有显著性意义（P<0.0005）常数项也有显著性意义（P<0.0005）因变量中Y的总体有99.96%可被x自变量所表示（R²=0.9996）

通过上述条件可以得出较低消费水平地区根据14年-18年所生成的回归曲线方程为

Y4=1233X-2472000

（5）低级消费水平地区19年预测曲线

图5.5低等水平14-18年散点图

692825ae6e89a7342e42ac8729618cb0 　　通过14-18年数据绘制的图5.5可以清晰显示出，Y与X存在着线性关系，通过R语言相关的回归曲线代码可以生成回归曲线。

表5.7方差分析表

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
x	1	11048112	11048112	904.82	8.07e-05
Residuals	3	36631	12210

通过方差分析表可以看出该模型拟合优度较好，（P<0.00005）具有一定的准确性。

②参数估计结果

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5

57.0 -22.1 -11.2 -139.3 115.6

—

Multiple R-squared: 0.9967, Adjusted R-squared: 0.9956

F-statistic: 904.8 on 1 and 3 DF, p-value: 8.07e-05

参数估计结果中，可以看出自变量x有显著性意义（P<0.0005）常数项也有显著性意义（P<0.0005）因变量中Y的总体有99.67%可被x自变量所表示（R²=0.9967）

通过上述条件可以得出低级消费水平地区根据14年-18年所生成的回归曲线方程为

Y5=1051X-2106000

2.对19年数据预测的回归曲线总结及数值展示

通过上述5小节的对回归曲线进行的方差分析及参数估计结果表明，利用该方法所得到的回归曲线均具有拟合较好且常数项与自变量显著性明显的优点，从而得出了五条回归曲线：

Y1=2334X-4668941

Y2=1617X-3236000

Y3=1308X-2620000

Y4=1233X-2472000

Y5=1051X-2106000

通过上述对19年数据的预测，将X=2019带入可以带出如下表格

表5.8 19年数据预测实际对比表

	高等	较高	中等	较低	低级
19年预测值	43405	28723	20852	17427	15969
19年真实值	44322	28977	20469	17816	15440

通过上表可以看出，除高等消费水平地区（北京、上海）的预测值与真实值有较大偏差外，其余四类消费地区消费数额的预测值均保持在误差500以内。对于高等消费水平地区由于2019年的飞速稳定发展取得了较前四年更快的发展进度为其他因素干扰，且该预测值与真实值的差距也仅为1000以内，所以仍可以认定该回归曲线的可信度较好，可以用此类方法预测2020年的五类消费水平消费指数。

　5.2.2 对20年五种消费水平地区消费水平的预测曲线分析

在6.1中完成了对19年数据的预测及回归曲线的建立与验证，从理论和实际两方面出发，均对该方法进行了检验，也验证了该方法的可行度，因此在本节中利用15-19年数据进行回归曲线的建立并最终将X=2020带入即可求出2020年的预测值。

由于本节方法与上述方法相同，且15-19年的散点图也一定存在线性关系（因为15-18年实际数据已经展示过为散点图，而19年数据与根据回归曲线所得到的数据类似，因此15-19年数据也存在一定的线性关系）因此在本节不逐一展示散点图。

为了提升效率，在6.2中，在满足P值小于0.0005及拟合优度效果良好的情况下仅对曲线方程及R²及自变量所表示的百分比进行展示=

表5.9 20年五种消费水平地区预测信息表

20年预测	高等消费	较高消费	中等消费	较低消费	低消费
R²	0.9947	0.9928	0.9984	0.9995	0.9627
回归方程	Y1=2521.6X-5047015.4	Y2=1770X-3544000	Y3=1367.1X-2739752.3	Y4=1256X-2519000	Y5=908.9X-1819287.7

根据预测的回归方程可以算出2020年预测的消费指数：

表5.10 20年各消费水平预测值

20年预测	高等消费	较高消费	中等消费	较低消费	低消费
单位（元）	46616.6	34100	21789.7	18120	16690.3

通过与19年数据进行对比，发现2020年的各类别的增长率为5.1%、17.5%、6.5%、4.5%、8.1%。

由于近几年经济不断发展，且在2020年对次一线城市也有较大的帮助，因此较高消费水平地区有着极大的增长率，而其他消费地区大多增长率在6%左右，这一结果在国家财务报表得到了证实。由于新型冠状病毒的影响，国家争取稳定6%的经济增长，而上述平均增长也在6%左右，可见该数据具有一定的理论依据。

　第6章全文总结

根据对省级行政区的八项相关指标进行包含碎石法的主成分分析以及指标聚类分析法，将原有的八项指标最终合并为三个类别，从而减少了工作量也一定程度上提升了后续对三十一个省级行政区进行聚类分析的效率。

先对三十一个省级行政区进行了传统的恩格尔系数，但通过与19年的恩格尔系数对比发现单单从该方法不足以证明经济的发展，因此又进行了聚类分析，通过对三十一个省级行政区其18年、19年数据进行K均值聚类分析以及FCM模糊分析并合理将其分成五类，得到了每一年每一个省市所对应的消费水平。从18年、19年的对比分析中可以了解到，总体来看19年每个省市均照18年有着一定程度的稳步增长，通过进行具体的分类指标进行对比发现在较高等消费水平方面有着最大的提升。通过对两年模糊聚类分析的对比，不难发现高等消费水平仍有着领头羊的优势，且低等消费水平方面，由13个省级行政区降为7个省级行政区这与国家的脱贫攻坚成就是离不开的，可见上三等（高等、较高、中等消费水平）省市均稳步前进，后二等也有着后来居上的趋势，经济实力也逐渐强大。

文章最后对20年数据建立了回归曲线模型，进一步证实了我们目前处于的稳定高质量发展的理念，全国稳步有着6%的增长率而较高消费水平地区有着大幅的增长，正在逐步跟随北京、上海的脚步，实现各方面消费水平的全面提升。

　致谢

故事不能停止于此，写下去才知道梦有多长。

论文至此，意味着我的大学生活即将画上句号，本科生涯也即将落幕，始于17年金秋终于21年盛夏，逐梦沈理，终要别离。回望四年光阴，如烟火，满眼繁华，又如星星，星光璀璨，目之所及，皆是回忆。在这座充满活力的校园中，留下的是青春和沉甸甸的收获，纵使有万般不舍但仍心存感激。

桃李不言，下自成蹊。首先要感谢我的论文指导老师以及理学院应用统计学的所有授课老师，从本论文选题到中期报告，格式设计以及多次的修改后的定稿，每一个部分都离不开老师的指导和帮助，正因为老师的指导和帮助，论文才得以顺利成型。再次由衷感谢我的指导老师及应用统计组的所有授课老师们。

愿吾师，万事顺意，桃李天下；愿吾友，前程似锦，一帆风顺；愿我校，更展宏图，再创辉煌。

终会有别，感恩相遇。沈阳市浑南区南屏中路6号沈阳理工大学。

参考文献

[1]王若齐.2015年全国农村居民消费支出状况分析[J].传播与版权,2016(09):164-166.

[2]王宝成.基于主成分分析的我国省级财政规模综合评价[J].湖北社会科学,2011(06):70-73.

[3]韩永军,王宝成.我国省级行政区农村居民消费结构对应分析[J].财经问题研究,2015(S1):18-21.

[4]王晓七.X各大城市生活花费排行榜[J].教育视界,2016,0(23).