1. 大数据概述
1.1大数据的定义以及大数据产生的原因
大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[1]。大数据的形式多样,数据的来源经常是一些比较大的数据库,而且数据具备实时性。在企业对企业销售的情况下,这些数据可能得自社交媒体、商务网站、消费者浏览日志,还有许多其他来源。
大数据可能包含数十个到数千个兆字节(terabyte),内容庞大而复杂,需要专门的软件工具与分析专业,来搜集、管理与发掘那些资料。它们的应用范围无所不包,不论从非结构性数据(如网络上有关某个品牌的评论)取得的销售见解,或是评估区域天气模式以预估啤酒消费,或是由一个细微层次来了解竞争情势。
随着互联网的高速发展,产生的数据量越来越大。比如以搜索著称的百度与谷歌的数据规模都已经达到了上千PB的规模级别,而应用广泛影响巨大的脸谱、亚马逊、雅虎、阿里巴巴的数据都突破上百PB。显然更大规模的数据即将到来,但是数据集太大,没有找到合适的单位来衡量。在此之前,我们了解一下常用的衡量数据集的单位:
1000 GB=1 TB
1000 TB=1 PB
1000 PB=1 EB
1000 EB=1 ZB
1000 ZB=1 YB
换句话说1 YB=1 000 000 000 000 000 GB。
1YB到底有多大?太字节(TB)相当于在1TB容量硬盘上存储20万份照片或20万首MP3歌曲;拍字节(PB)相当于在两个数据中心机柜中放置16个在线备份服务商Backblaze的存储单元;艾字节(EB)相当于存储2000个机柜和4个故事数据中心,占一个街区大小;泽字节(ZB)相当于1000个数据中心或约占纽约曼哈顿20%的面积;尧字节(YB)相当于100万个数据中心占据罗得岛州和特拉华州。今天购买1TB硬盘的成本大约是700人民币。而花费100万亿美元仅能购买存储1YB的硬盘。
1.1.1大数据的定义
在IDC (Internet Data Center,互联网数据中心) 的报告中,他们对大数据进行了一个简单的描述:大数据是一个看起来似乎来路不明的大的动态过程。但实际上,大数据不是一个新生事物,虽然它确确实实正在走向主流和引起广泛注意。大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。
1.1.2对大数据的认识
大数据不但是指数据量大,还有就是数据的种类繁多,例如有结构化的数据、半结构化的数据、非结构化的数据。如果仅仅从“大”方面去了解大数据的话,未免有失偏颇。全世界的数据存储量剧增,,数据量大只是描述大数据的一个特征而已。
1.1.3大数据产生的原因
随着智能设备、传感器的普及,存储成本的下降,软件技术的进步,运行计算的速度越来越高,产生的数据量也越来越大。在云计算出现之后,数据存储成立一种服务型的商业模式。例如,当一个公司需要存储大量的数据时,不需要自己公司建立管理数据的部门,只需要把自己的需求告诉云服务客服,一切都解决了。这样不仅降低了公司的运营成本,减少人力财力物力的浪费,还很方便。
第一次工业革命解放了部分劳动力,第二次工业革命,让人类进入电气化时代,增强了人类的生产能力,现在我们渴望了解放脑力劳动,所以就有了智能机器人,自动驾驶汽车等。那么智能机器人是由什么支撑的,毫无疑问是海量的数据,大数据为机器灌输了人类的智慧。
1.2大数据的特点以及优劣势
1.2.1大数据的特点
大数据有四个特点:价值、容量、多样、速度。价值,将原始数据经过采集、清洗、深度挖掘、数据分析之后,具有较高的商业价值。容量,数量大,存储单位从过去的GB到TB,直到PB、EB。多样,数据类型复杂多样,包括结构化数据、非结构化数据、半结构化数据等。速度,大数据采集、处理、计算速度快,能满足实时分析数据的要求。
1.2.2大数据的优势
大数据的优势在于:从不同的数据源收集数据,然后分析,以预测其他方法不能揭示的问题。
在医疗方面。医院之间共享电子病历,可以收集和分析数据,寻找到能够降低医疗成本的方法,对患者而言还可以减少重复检查,改善患者体验,减低再入院率。大数据分析可以对患者的原始数据进行整合分析,用以丰富公共健康记录,而大量的公共健康记录能催生更合理的法律法规,并提供更好的医疗。
在金融方面。利用数据库中的数据,挖掘高端财富客户,寻找目标客户。不仅提高了银行利润,还降低了运营成本。
大数据的优势还体现在移动互联网广告,精准营销等方面。
1.2.3大数据的劣势
大数据能告诉我们是什么,但不能告诉我们为什么。首先,尽管大数据能够非常好地检测相关性,特别是那些用小数据集可能无法测出的微妙相关性,但是它并不会告诉我们哪一种相关性是有意义的。比如,大数据分析可能会揭示从2006年到2011你那X谋杀案比例与IE浏览器的市场份额是极度相关的,都呈急速下降趋势。但是很难相信这两者之间有什么因果关系。又比如,从1998到2007被诊断出的自闭症患者与有机食物的销售具有相关性(都呈急速上升趋势),但是这种相关性本身不会告诉我们饮食和自闭症的关系。
大数据只能是辅助工具。大数据可以辅助科学调查,但不可能成功地完全代替。比如,分子生物学家很想从潜在的DNA序列中推断出蛋白质的三维结构,有一些科学家已经在用大数据来解决这个难题。但是没有任何科学家认为你可以完全依靠处理数据来解决这个难题,不论这个数据分析是多么的强有力,你依旧需要基于对物理和生物化学的理解上来处理这些数据。
基于大数据的工具易xxxx。批改学生作文的大数据程序通常依赖于句子长度和用词的复杂性,数据表明这和老师批改的分数很相关。但是一旦学生知道这个程序如何运作,他们就开始写一些长句子并用晦涩的词语而不是去学会如何规范清晰的表达,组成连贯的篇章。甚至谷歌的著名的搜索引擎,这个通常被认为成功的大数据案例也不能免于信息繁杂,无用的搜索结果,一些人为的原因使得一些搜索结果排在前面(搜索广告)。
大数据的智能应用会导致错误被加强。需要注意“恶性循环”,这也是因为大量的数据都来自于网络。不论何时,大数据分析的信息源本身就是一种大数据产品,这很可能会导致恶性循环。谷歌翻译等翻译程序是从不同语言中抽取相似的文本去辨别这些语言的翻译模式,比如同样的维基百科条目有两种语言。这是一个很合理的策略,要不是有很多语言并不具有太多相似性,维基百科自己都可以用谷歌翻译写条目。在这种情况下,任何谷歌翻译的错误都会影响维基百科,而这又会反映到谷歌翻译上,使这种错误不断加强。
1.2.4大数据的发展现状
在国内,贵阳是知名的大数据应用中心,在国内率先创建国家级大数据产业发展聚集区,举办全球首个以大数据为主题的博览会和峰会,并且成立了全国首家大数据交易所,举办了大数据商业模式大赛和草根创业大赛,成立了大数据战略重点实验室。很多大数据培训机构如雨后春笋。
大数据技术与应用专业是新兴"互联网+"专业,目前开设该专业的学校基本上都采用的是校企合作专业共建的形式,比如慧科教育集团和对外经济贸易大学、北京航空航天大学、贵州大学、华南理工大学、广东开放大学、宜春学院等合作开设了大数据技术与应用专业或者相关专业。
国内大数据方面专业,最早开设的是中央财经大学、中国人民大学、中科院大学等五所高校联合硕士招生。
目前,本专科阶段招生的高校有中科院大学、西安电子科技大学、北航软件学院、中国传媒大学等为数不多的高校。
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:写文章小能手,如若转载,请注明出处:https://www.447766.cn/chachong/586.html,