摘要:从总体来说,本文实现hadoop音乐推荐系统分为四个步骤。第一,采用网络爬虫技术爬取所需要的音乐数据,进行分析与储存。第二,采用大数据分析技术,搭建hadoop伪分布式平台,利用hive工具对所得的音乐数据进行分析和处理。第三,使用EXCEL自带的工具和功能进行分析,统计,筛选和绘图。第四,使用Java编程,在hadoop平台中,安装Eclipse工具,并进行环境配置,代码编写来实现用户登录与注册,音乐推荐系统的完成以及测试是否正常,过程中是否有错误,验证音乐系统的可用性。从人性化角度来说音乐推荐分为三步,首先获取用户喜爱的音乐数据,第二,从整体的角度,获取大量的用户都喜欢的热门音乐进行推荐,满足大量用户的喜好。第三,完成推荐,生成结果,验证可行。
关键词:Hadoop;大数据分析与可视化;Java编程目录
1前言
1.1课题背景及目的
在这个互联网飞速式发展的时代,我们的生活方式已经改变。互联网上资源的爆发式增长又产生了新的难题:用户如何去获取有效信息?由于用户接触到的信息非常有限。于是很多提出了许多解决方案,例如搜索引擎,推荐系统等,可以帮助用户快速精准找到所需要信息。
音乐系统的目的就是为了更加方便快捷有效的从音乐网络平台去获取用户所需要的音乐,好听的,人们感兴趣的适合个人的音乐。有的时候,就像一个歌手会拥有几千万粉丝一样,他的一首音乐会被很多人喜欢,大家对于好听的音乐都容易产生共鸣,所以我们可以选择热门歌曲中最受人们欢迎的音乐进行推荐,这样从整体上满足大家的要求。
1.2国内外研究状况
国外研究现状:音乐推荐:是利用音乐网站向客户提供商品信息和建议,帮助用户推荐平时喜欢听的音乐,然后对其进行个性化推荐,便利了用户的收听。国外也有许多热门的音乐网站,例如韩国的MUZ音乐排行榜,韩国Mnet音乐电视台都是韩国人气高的音乐网站,在MNet音乐电视台经常进行大型的音乐颁奖礼,设置多种音乐奖项。Soribada也是韩国音乐网站,是歌曲信息最快的网站,在这个平台上几乎可以找到所有歌曲。韩国还有mufree,oimusic,Bugs等音乐门户网站。xx有Mtv.com,allmusic,lala.com等音乐网站,音乐爱好者在这些网站可以免费试听到最新的歌曲,音乐排行榜,私人的FM,以及音乐的下载。
国内研究现状:在我国,也有许多深受人们喜爱的音乐推荐网站,比如QQ音乐,酷狗音乐,虾米音乐,咕咪音乐等网站,我常听的音乐网站是QQ音乐和酷狗音乐。QQ音乐的主页以及整个网站的页面设计很精美,歌词页面设计的很好看,给人一种精致感,同时可以借助QQ聊天进行音乐的分享,当代的学生大多数都喜欢用QQ进行聊天,所以传播比较方便,在音乐受欢迎榜单第一位。酷狗音乐的最大优势是歌曲收录很齐全,在其他网站听不到的歌曲,在酷狗可以听到,酷狗听歌中自带k歌功能,用户喜欢一首歌曲可以在里面录歌,然后发布去分享自己唱的歌曲并吸引粉丝,有些主播通过直播来吸引粉丝,获得更高的关注度。
1.3发展趋势
流行音乐作为当今社会的一种艺术形式,深受当代年轻人的喜爱,本人作为一名普通的音乐爱好者,平时也有常听音乐的习惯,也经常使用QQ音乐和酷狗音乐等听歌软件听歌,但我在听歌时会面临一些问题。例如,打开了音乐软件,面对大量的音乐,各种专辑,却不知道如何找到自己喜欢听的音乐,有时也不知道想要去听什么音乐。于是常常会去点击音乐排行榜,以QQ音乐排行榜为例,我常听的音乐是QQ音乐热歌榜,QQ音乐飙升榜这两个榜单,或者会打开专辑页面去看看一些流行歌手的专辑,例如周杰伦,邓紫棋,李荣浩,薛之谦,林俊杰等等这些在音乐圈比较有名的歌手。有时也会去浏览一些人收集的歌曲清单,去获取感兴趣的音乐,例如古风,伤感,动感的音乐歌曲清单等等。随着互联网大数据的发展,,大数据技术的发展,人们生活水平的提高,人们对于精神生活有了新的追求,我以上遇到的信息过载的问题,以及我选择浏览热门榜单等方法处理这个问题,都是可以通过大数据平台的搭建,Hadoop环境的搭建以及相关组件使用,实现音乐推荐系统与数据可视化。
2 hadoop系统平台的搭建以及环境搭建
2.1Hadoop伪分布式平台搭建
安装CentOS7操作系统,命名为hadoop0,设置管理员登录以及登录密码,安装window10用于Hadoop资源上传与储存,对虚拟机进行基本环境配置:
1)修改主机名为hadoop0,并设置固定IP
2)关闭防火墙和新建安装目录(opt/programs)
3)安装和配置JDK
4)配置主机IP映射
5)配置SSH免密码登录本地节点
6)在Hadoop上打开命令提示行,修改配置文件,搭建Hadoop伪分布式环境,格式化HDFS,启动HDFS和YARN,执行Jps命令查看启动的Hadoop相关进程
2.2环境配置以及相关软件安装
1)在终端中配置Hadoop开发环境
2)在windows中安装和配置JDK
3)在Windows中安装和配置Eclipse
4)安装Eclipse并配置环境
5)为Eclipse安装和配置Maven插件
6)安装MySQL
7)安装和验证Hive8)安装和配置Sqoop
3音乐数据的处理流程
3.1分析页面
(1)浏览天气网站
打开QQ音乐官网首页(https://y.qq.com/),在导航栏中选择排行榜,如图3-1所示。点击热歌榜,可以看到热歌榜榜单规则为10.01-10.07,踏山河-七叔,自娱自乐-金志文,阿衣莫-陶吉泰组合,晴天-周杰伦等20首热门歌曲。
(2)分析页面数据
我们点击飙升榜,同时可以看到我怕来者不是你(dj版)-小蓝背心,朱雀,画离弦等20首歌曲,再点击流行指数榜,同时可以看到画离弦,危险派对,阿衣莫等20首歌曲,点击听歌识曲榜,同样可以看到20首歌曲,这四个榜单都是用户点击率最多,收听最多的歌曲,代表大众审美,深受QQ音乐听众喜欢,所以我们可以采集这些歌曲用于用户音乐推荐。我们需要分别从四个榜单中爬取音乐数据,分别是QQ音乐飙升榜,QQ音乐热歌榜,QQ音乐听歌识曲榜和QQ音乐流行指数榜,以QQ音乐热歌榜的爬取为例,要从其页面爬取踏山河,自娱自乐,阿衣莫等20首歌曲。
3.2采集数据
(1)首先通过官网下载八爪鱼采集器安装包(如“八爪鱼采集器8.0.6.zip”),解压后,双击其中“八爪鱼采集器Setup8.0.6.exe”文件进行安装。启动八爪鱼采集器,注册账号,完成登录。
(2)新建数据采集任务,单机左侧“新建”,在弹出的列表中选择自定义任务,选择新建任务组,名为QQ音乐热歌榜,采集网址一栏选择手动输入,在网址一栏中粘贴QQ音乐热歌榜的网址,点击测试生成网址,保存设置后即可开始采集。
3.3开始数据采集
分别采集热歌榜页面的序号1-20,歌曲1-20,歌手1-20,选中全部,选择采集链接,采集完成后,单击页面右上方流程开关,分别修改字段名称为序号,曲名,歌手,修改完成后,关闭流程,打开数据预览,如图3-3音乐采集数据预览页面所示,点击保存,用于采集任务的保存。点击开始采集后点击本地采集,即可开始采集任务。
3.4将采集数据导入MySQL
首先在hadoop0节点的MySQL中新建一个“mydb”数据库,并在该数据库中新建一个“music”表,然后将八爪鱼采集器采集到的数据导入到MySQL中的“music”表。
(1)根据采集到的数据,设计一个“music”表,表的列为id,music,singer,在hadoop0节点上启动MySQL,然后执行create命令创建“mydb”数据库并应用该数据库,执行create创建表格命令,在“mydb”数据库下创建一个名称为“music”的表。
(2)在把八爪鱼采集电器的采集完成对话框,单击导出数据,选择导出到MySQL,在显示设置MySQL数据库信息页面,依次指定MySQL服务器名称(hadoop0),用户名称(root),密码以及数据库名称(mydb),完成后,下一步,在数据字段映射关系页面,选择“music”表,使字段名称与“music”表的列一一对应,最后单击导出,导出完成后,即可在安装的NavicatforMySQL中查看“music”表的数据。
3.5用SQOOP将MySQL数据导入hive
首先在hadoop0节点的Hive中新建一个“music”表,然后使用Sqoop工具将MySQL表中的音乐数据导入到Hive中的“music”表。同样的,我们在hive中创建一个名为“music”表。在hadoop里面打开终端,在hadoop0节点上启动Hive,然后再创建一个“music”的外部表,使用命令,将音乐数据导入hive表中,用hive表进行分析。
3.6数据预处理
由于有时候采集的数据并不那么完整,会有缺失和重复,也会有乱码和显示异常,所以我们会使用hive工具进行数据预处理,包括处理缺失值,数据格式化,数据去重,数据分区等,然后将处理好的音乐数据导入Excel表。
4 Excel数据可视化实现
4.1数据处理
打开获取到的EXCEL表格,可以看到里面有说说话,曾经我也想过一了百了,画离弦(柯柯版)等80首歌曲,对序号进行排序后,点击公式页面,选择统计函数COUNTIF对Excel表中的重复歌曲进行计数,QQ热门音乐汇总,可以看到画离弦,危险派对等歌曲的重复次数为3,须尽欢,阿衣莫,晴天等歌曲的重复次数为2,由此可以看出观众对这些歌曲的喜爱程度要高于榜单中的其他歌曲,从整体一方面代表了大众对歌曲的审美,所以我们选择这些歌曲,作为我们的推送歌曲,给用户推荐。
4.2Excel统计筛选
我们对统计后的歌曲进行筛选,选择歌曲重复数高于1的歌曲进行保留,在再对其进行排序,选择升序,排序后可以得到的12首歌曲,从自娱自乐-画离弦(柯柯版),歌曲重复数从2递增到3,进行升序排列。
4.3Excel绘图可视化
使用EXCEL工具,选择插入,插入图表,簇状统计图对12首歌曲进行绘图,可以发现,画离弦(柯柯版),危险派对,我怕来者不是你(dj版)这3首歌曲在图像中重复数明显高于其他歌曲,所以我们在推荐时优先选择推荐这三首歌曲,再接着推荐其他重复数为2的歌曲。
5 Java编程实现用户登录与注册
在hadoop0上打开终端,对eclipse进行下载和配置,使用WCP工具进行eclipse的上传,解压,安装,安装完成之后,打开eclipse,进行用户登录注册的代码编写,构造初始值,构造用户菜单,构造推荐菜单,设置安全退出功能,即为用户登录注册系统,可实现用户登录注册功能以及菜单推荐的功能。可以进行热门音乐的推荐,登录进用户主菜单之后,我们将看到三个选项,选择1为热门音乐推荐,选择2退出系统,选择3返回上一级菜单,我们输入数字1,可以看到推荐了11首音乐,我怕来者不是你,危险派对,画离弦(柯柯版)等三首热门歌曲优先推荐,由此我们可以完成基于hadoop音乐系统的推荐。
结束语
随着互联网的不断发展,大数据技术的不断进步,音乐平台存在着激烈的竞争性,推荐技术在音乐推荐方面发挥着重要作用,像QQ音乐,酷狗音乐,网易云音乐,咕咪音乐等平台都是近来年排行榜上推荐指数较高的网络音乐平台,网络音乐平台都储存着巨大数量的音乐数据,但是却不方便用户查找和收听,以及在音乐平台不知道如何去收听音乐,在这个以数据为导向的,互联网高速发展的年代,没有推荐系统,会让音乐平台用户显得举足无措。本文基于音乐平台所面对的问题,结合大数据技术发展,提出相应的推荐方法之一即热门音乐推荐,本文主要采用音乐推荐系统技术和基于Hadoop的大数据分析技术,EXCEL绘图可视化技术,采用推荐技术可以找出用户喜爱的歌曲TOP榜,从整体大众审美方面对客户进行音乐推荐,从而提高用户找到喜爱音乐的速度。本文采用Hadoop技术,可以最大限度的推荐用户喜爱的音乐,利用推荐的优势,为平台保留和吸引更多的用户,发挥出推荐的价值。本文的主要工作有以下几点:
(1)叙述了Hadoop的课题背景,音乐推荐系统的目的,国内外发展状况和发展前景,在Hadoop中搭建伪分布式平台和各种组件,使用MySQL进行储存,使用hive进行数据分析和数据处理,使用EXCEL进行绘图分析,使用Eclipse实现用户登录注册,热门音乐的推荐。
(2)从用户角度,对用户喜欢听的热门音乐进行了分析,获取,储存,统计以及筛选,将筛选出来的热门音乐进行整理,进而获得最值得推荐的十二首歌曲,用于推荐给用户。
(3)从实现的角度,进行了Java代码编写,使用构造方法,以及循环语句,选择语句等,进行了代码编写,实现了用户的登录与注册功能,以及将热门音乐推荐给用户,并进行实际操作,验证音乐系统的可行性。
参考文献
[1]冯亚丽,田枫.基于项目与用户的组合推荐算法研究[J].信息报,2017
[2]谭学清,何珊.音乐个性化推荐系统研究综述[J].现代图书情报术,2016
[3]孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2018
[4]WangH,WangN,YeungD,etal.Collaborative Deep Learning for RecommenderSystems[J].knowledge discovery and data mining,2018
[5]Beel J,Gipp B,Langer S,et al.Research-paper recommender systems:a literaturesurvey[J].International Journal on Digital Libraries,2016
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:打字小能手,如若转载,请注明出处:https://www.447766.cn/chachong/210482.html,