淘宝数据挖掘工具在运用中存在的问题研究与分析

摘要: 互联网正不断地改变和影响着人们的生活。然而,网络在带来便利的同时也带来新时代的难题,类似数据过于庞大,重要信息被遗漏,过多无用信息等等。数据库中存储的数据量大幅上涨,数据理解越来越跟不上数据产生的速度。如何快速、准确地理解数据,获得

  摘要:互联网正不断地改变和影响着人们的生活。然而,网络在带来便利的同时也带来XXX的难题,类似数据过于庞大,重要信息被遗漏,过多无用信息等等。数据库中存储的数据量大幅上涨,数据理解越来越跟不上数据产生的速度。如何快速、准确地理解数据,获得有价值的信息,如何从爆炸的大数据中发现知识导致了数据挖掘领域的出现。
  本文介绍了部分阿里巴巴集团的数据挖掘工具,重点介绍了达摩盘、品牌数据银行以及生意参谋的使用,通过介绍数据挖掘技术在淘宝店铺中的运用情况,分析数据挖掘工具在运用中存在的问题,并就问题进行了研究分析,然后提出相应的解决方案,为以后的店铺运营提供参考。
  关键词:数据挖掘工具;存在的问题;研究分析
  目前在国内还是国外金融以及经济行业中数据挖掘技术己被广泛应用。企业获得这些大数据中的潜在信息,既可更好地了解客户,更好地进行客户管理,又能发现其中的需求也即是隐藏的商机,还能通过网站运营统计数据分析自身的经营状况。如通过算法透视化用户行为,将客户进行分类标签,从而有针对性地为客户推荐客户所需的商品;或利用数据挖掘技术进行对已产生的大量数据进行有效的挖掘,预测商品销售的可能状况。
淘宝数据挖掘工具在运用中存在的问题研究与分析

  1.淘宝数据挖掘工具

  1.1淘宝数据挖掘分析工具发展

  淘宝作为国内领先的电子商务平台,其数据挖掘分析工具已经相当成熟完善,针对不同的类目及内容,有很多不同的挖掘工具,

  1.2聚类分析的典型工具

  1.2.1达摩盘
  达摩盘是一个数据管理合作平台,主要采用的是基于聚类分析的tag系统(标签系统),拥有用户特征、地理位置、兴趣爱好等众多数据标签。品牌企业可以通过达摩盘可以实现各类人群的洞察和分析,挖掘潜在客户;还可以基于标签系统快速锁定目标人群,将人群进行分类并进行个性化的营销推广;结合品销宝,还可以进行广告的定向投放,例如化妆品的厂商,可以通过达摩盘,选择和化妆品相关的目标人群,发送定向广告以达到更高ROI。
  达摩盘,简单来说是从阿里站内抓取大量信息,获取用户兴趣,了解用户行为,计算用户和各类标签的匹配程度(例如0-100)。比如经常浏览化妆用品的或者购买过大量化妆品的用户,在女性和化妆品用户的标签下匹配值就可能比较高。标签还可能具有时间属性,例如被打上孕妇标签的用户,一般会根据购买的母婴商品的变化推算其标签有效期,比如某个用户之前一直购买孕妇装,现在开始慢慢购买婴儿尿布和奶粉,就要将孕妇标签替换成哺乳期的标签了。
  1.2.2品牌数据银行
  品牌数据银行(BrandDatabank)是2017年6月阿里巴巴集团发布的消费者数据资产管理中心,帮助品牌建立全面的消费者数据资产管理,是国内首个实现品牌全域数据资产管理的平台。品牌数据银行能够快速地将数据回流,追踪消费者的全链路状态,催化品牌与消费者关系。
   与达摩盘类似,同样用到了基于聚类分析的标签系统,可以定位人群,挖掘潜在客户,但又比达摩盘多了很多维度的数据。不光从上述三个层次分类人群,还可以分析出整个淘宝对品牌感兴趣的用户,并筛选出其中最有价值的潜在顾客;最重要的一点是可以进行用户流量监测,品牌数据银行可以提供点击转化前的流量来源以及去向,帮助淘宝店铺更好地优化运营方案。

  2.淘宝数据挖掘工具的运用及存在的问题

  2.1利用品牌数据银行全链路追踪用户行为

  品牌数据银行提供了非常多的数据参考。在消费者资产层面来看,它记录了四种程度的消费者,分为认知、兴趣、购买以及忠诚四类。这就方便店铺进行客户智能管理,对于不同程度的用户,进行不同的营销。比如给兴趣用户提供优惠券促成他们的购买行为,给购买用户提供代金券促成回购行为,慢慢加深用户的忠诚度。
  二级类目的消费者总量则可以看到品牌内部二级类目之间的用户重合度,也即是关联规则下的用户透视,可见Adidas运动鞋与跑步鞋的
  消费者重合度最高,高达43.79%,可以近似理解为运动鞋和跑步鞋的关联规则支持度为43.79%,因此在推广宝贝的时候,也可以为购买运动鞋的用户推送跑步鞋的广告,或者在促销活动(比如买一送一或者满减)时进行搭配销售。
  在全链路分布的功能下,品牌数据银行还可以提供用户流向来源和去向。比
  如对于Adidas来说,可以看到有多少用户是从Nike、安德玛等品牌过来,又有多少用户流向了什么品牌。这对于品牌来说具有很大的价值,首先可以推送广告或者优惠信息将竞争对手的消费者发展成为自己的客户;其次看到了自己的潜在客户是从哪里流失掉的,追踪品牌消费者的全链路状态,分析消费者的购买行为,并以此优化店铺运营。
  Databank有点类似于达摩盘DMP,它能够对广告定向投放人群的表现进行追踪,也能够一定程度上细分人群。但是,它并没有实质意义上的第一方数据管理功能,而且细分的维度和灵活性也是有限的。它其实是一个广告投放效果的追踪和细分数据系统。

  2.2根据达摩盘的标签系统进行广告定向投放

  上面已经介绍过达摩盘的人群分类标签功能,基于此,淘宝内部的广告完全可以针对不同的人群进行定向投放,而很多品牌并未进行尝试。以Adidas的数据为例,可以看到广告定向投放与普通投放的点击转化率差了十多个百分点,基数越大,点击量差别越大。尤其在店铺有促销活动,比如参加聚划算的时候,差别更为明显。
  例如在AdidasSummerSports活动期间,我们通过达摩盘将人群分为了四类,分别是30天购买用户,90天内购买用户,180天内购买用户以及180未购买用户,并在品销宝上针对不同的用户群投放了10元、50元、150元不同程度满减以及不同明星代言的优惠券。
  可以看到,180天未购买用户表现突出,这部分可以算作品牌流失客户。很多企业忙于挖掘潜在客户,却忽略了老客户的稳定性。一般最重要的客户只占了用户群总量的1%,而他们的消费金额却是全部的18倍。所以对于客户的管理,尤其是老客户的管理显得尤为重要。对于正在流失的客户,其挖掘性价比相对而言更高于新客,维护一个老用户远远比挖掘一个新的潜在用户性价比要高得多。因为以前的购买行为让他们对品牌商品有了更多的了解与信任,因此对他们推广营销的效果反而更为突出。
  当然这也可以理解为180天是Adidas消费者的回购周期。180天内购买的用户对于推广反应冷淡,导致点击率都很低。因而怎么缩短回购周期也是品牌值得考虑的一个问题,比如可以加快上新速度,增加商品类目等等。
  针对180天内购买用户的各个优惠券的表现效果,可以看到热巴代言的150元满减优惠券的点击率最高,这也为品牌提供了代言人的选择以及广告设计参考。同样的,也可以分析出150元满减优惠券对于180天未购买用户和90天购买用户的吸引力最大,而30天内购买用户则对50元满减优惠券更感兴趣。
  通过测试可以了解用户喜好,从而更好地定向投放广告,争取更高的ROI(投入产出比),为店铺引流。

  3.运用中存在的问题

  3.1平台的局限性

  1. 只能记录阿里旗下的站外网站和手机app带来的流量,而像电子邮件或其他平台上带来的流量并不会被记录,因此并不能给店铺带来一个用户流量来源参考。
  2. 只能提供店铺总的人均访问浏览量和人均停留时长,而不能告知用户在每个商品界面的访问深度,数据不完善。无法给店铺提供界面优化和完善的数据支持。
  3. 平台的广告定向投放,只能通过品销宝使用,而且不能完全精准投放;
  4. 挖掘潜在客户方面,所有的同类产品的不同品牌企业都在使用平台进行营销推广,那么推广成本会因为竞争而增加,那么投资产出比将会下降,对于阿里平台来说,将会丢掉部分因竞争处于劣势的品牌企业,而对于品牌企业来说,就算能够竞争成功,但成本将会大幅增加,是否继续沿用平台也将会成为需要考虑的问题,比如Adidas、Nike等运动品牌的竞争;
  5. 主要客户是电商占大头的企业,对于电商较弱的客户,平台用处不大。平台客户少,资源浪费。
  6. 从下图可以看到店铺触点分析也只能分析同品牌的不同卖家在阿里内部不同销售平台的分布情况,分析较为单薄。

  3.2数据分析带来的数据冗余

  数据挖掘工具能够提供很多的数据支持,但是要进行数据分析为店铺的实际运营提供参考的话,就需要下载很多平台例如淘宝直通车、品销宝等的数据报表。
  而淘宝的销售数据一般分为当日数据、三天数据、七天数据以及十五天数据。当日数据顾名思义是从访问点击加购到支付都在当天完成的订单数;三天数据则是从点击到加购在包括今天的前两天内完成的订单数,可以理解为当日数据加上前两天加购但是没有付款的订单等。因为用户点击宝贝后收藏或者加购,但是在支付金额前都不属于一个完整的购买行为,所以根据用户从点击到支付的整个时间跨度就被分为了当日数据、三天数据、七天数据和十五天数据。
  根据不同的情况,需要对不同时间跨度的数据进行分析,比如对上周的销售效果反馈就一般只用三天数据,而对一个促销活动进行复盘的时候,则需要考虑预热时间和活动时长考虑使用不同的数据。一个数据分析团队成员之间往往需要传输大量的数据文件和保存相同的数据文件才能完成数据分析工作。上述情况就造成了大量的数据冗余。

  3.3精准投放难以实现

  我们都知道淘宝的千人千面,也感叹于其算法的强大。然而算法下向用户进行的推广真的是他们想要的吗?广告要实现精准投放,识别目标消费群体,就需要看两大方面。一是消费能力,这一点对于阿里来说是轻而易举的,只需要对淘宝天猫消费额或者支付宝纯支出在一定额度内的用户进行标签分类就好。而对于阿里的平台来说,第二点识别购买意愿就难实现了很多。因为阿里并没有一个社交平台,无法获取社交数据,了解用户购买意愿。缺乏海量的社交数据作为支撑,店铺就只能靠走弯路来识别自己的目标客户来实现精准投放,已达到最高的ROI也即是投入产出比,例如上述Adidas在活动期间的各项测试投放。
  但是测试投放的成本又非常高,通常对于品牌店铺来说一个促销的活动可能每天的广告花费就是几十万。因为一般的品牌商家在阿里内部进行付费推广都是实时收费,还需要和同品牌的其他商家或者同类产品的其他品牌商进行竞价。如果缩短测试时间,则测试的数据量就会很小,不足以得出一定的规律,把握客户的行为特征;如果为了获取大量的测试数据作支撑,又需要花费过高的成本。因此这一点就提高了广告精准投放的门槛。

  4.相应的解决方法

  4.1利用51.la进行触点分析

  上面所提到的品牌数据银行和生意参谋都可以进行一个流量的大体监测,但是这些数据挖掘工具存在功能盲点,无法监测到用户的具体来源,比如是通过广告邮件,或者百度搜索还是其他的平台,也无法获知用户在每个界面的访问时长和访问深度,这就导致店铺不知道怎么有效管理自己的推广营销平台和优化自己的店铺界面。因此想要更近一步地进行触点分析,就需要用到一些外部工具,比如51.la。
  51.la是一个专门做数据统计的平台,只需注册添加统计ID以后,将<scripttype="text/javascript"src="//js.users.51.la/19430513.js"></script>这段代码放置在店铺页面的HTML代码中,如下图,即可在平台下载店铺的各项流量数据。
  在电子商务中,有五大归因模型被广泛使用。首次触点模型、末次触点模型、线性模型、位置模型、时间衰减模型。
  但其实最好最适合电商的还是自定义模型,也就是基于平台、受众、市场和特定业务目标的模型。
  因为真正对销售有影响的是辅助转化。数据显示,高达98%的访客在第一次访问网站的时候不会购物。而高达55%的访客的访问时长只有15秒。购物车的平均放弃率高达69.23%。88%的消费者在决定购买前,会选择先查看评价。
  上面的数据都清晰描绘了访客的网上购物行为。即是基本没有访客第一次访问网站就选择购物。他们查看商品详情,浏览商品评价,搜索促销或者优惠信息,最后等他们下定决心的时候才会下单购买。
  但是上面的所有行为并非都是与最终购买结果无关的,反而都让顾客离最后的购买更近了一步,每一次的访问都帮助了最终的转化。所以我们需要追踪,并给每个辅助赋予转化价值,这样才能真正地了解消费者行为,了解如何才能更好地展开营销。
  例如,我们在51.la收集到的数据中可以选取一段时间的数据,并从这些数据中计算出页面点击率(R)、页面收藏加购率(F)和下一页面收藏加购率(M)三个指标;根据每个店铺不同的属性,可以确定R的权数w(R)=**,F权数w(F)=**,M的权数w(M)=**。因此触点的价值就可以表示为:
  V(ci)=W(R)*R(ci)+W(F)*F(ci)+W(M)*M(ci)

  4.2 自建SQL数据库存储数据

  针对广告投放及效果分析所产成的大量数据冗余,以及淘宝数据挖掘工具上的很多数据会被新数据覆盖,比如三天数据直接覆盖变成七天数据等等。本文提出了用MySQLWorkbench自建SQL数据库的方法,对每个数据挖掘工具的数据报表进行分类存储,还能和不同的数据分析人员共享数据库,省掉了来来往往的数据传输工作。
  这样建立好数据库以后,便可将每日数据存储于数据库中,在使用时提取需要的数据,既不用担心数据分析的时候改动原数据,也不需要每个电脑都保存很多个excel文件。

  4.3 社交数据的收集

  说到社交数据,那腾讯肯定是首当其冲,而微信朋友圈里广告投放也是基于大量社交数据的以用户购买意愿为先的定向投放。通过分析用户朋友圈语言特性,以及朋友圈图片内容,涉及到了自然语义理解,以及图像识别这些人工智能技术。例如如果是化妆品的广告推广,定位首先更多的是针对女性,而通过朋友圈的内容定位到厂商目标的年龄段,经常提到化妆品和晒图,对化妆品类推送点赞评论转发率高,朋友圈出现过化妆品“种草”“买”等信息的用户。
  而对于没有社交平台的阿里怎么解决社交数据缺失的问题呢?
  站外资源的整合。阿里旗下并不只有淘宝,目前还入股了更多行业的公司,比如优酷,微博等。这其实是对阿里大数据的一个补充。还是以化妆品为例,微博上面有很多美妆博主,化妆视频等,如果用户有关注一到两个美妆博主,观看化妆视频的频率在每周一次以上,则这类用户就可以标签为兴趣用户。只需要将微博账号和淘宝账号对应起来,将站外的资源整合好,虽然微博的覆盖率没有微信那么强,但也足以弥补社交数据的短板,实现广告的精准化投放。

  5.结论

  5.1全文总结

  本文重点介绍了达摩盘、品牌数据银行以及生意参谋的使用,并就运用中存在的问题进行了分析研究,首先是这些数据挖掘工具存在功能盲点,无法监测到用户的具体来源,比如是通过广告邮件,或者百度搜索还是其他的平台,也无法获知用户在每个界面的访问时长和访问深度,因此无法进行详细地触点分析,了解消费者的整个购买行为,针对此,本文提出用51.la辅助进行数据采集,进而进行触点分析,建立自己的归因模型;其次是广告投放所产生的数据冗余问题,淘宝的数据挖掘工具虽然强大,但是目前仅提供了6个月左右的数据报表,而且会定期进行数据覆盖,不便于店铺保存各时间段的各类数据以进行后续对比分析,还有就是数据文件无法共享,一个数据分析团队成员之间往往需要传输大量的数据文件和保存重复的文件,因此本文提出了自建SQL数据库的方法,将每天产生的各类数据存储于共享数据库中。

  5.2创新点

  查阅资料的时候发现这个课题也有许多人感兴趣,但是都没法接触到阿里大数据而只能进行外围的分析或者自己建立数据系统进行web数据采集,然后就采集到的数据进行分析,说明数据对商家的作用。可是他们采集的数据相对于淘宝每天产生的数据来说只能算作九牛一毛,对于卖家来说其实大可不必自己扒数据自建数据系统如此大费周折。
  我刚好有机会接触到淘宝走在国内数据挖掘技术前沿的各类挖掘工具。因此基于我使用的情况,分析了淘宝数据挖掘工具的运用及运用中存在的问题,并就问题提出了解决方案,为其在淘宝店铺运营中的运用提供参考。

  6.研究不足与未来研究展望

   本文主要是从实际运用的角度对淘宝数据挖掘工具存在的问题进行了分析,并提出相应的解决方法。但是电子商务发展迅猛,数据挖掘技术的发展会随着数据的产生速度变得越来越快,相应地数据挖掘工具也会随之更新完善。因此对数据挖掘技术和工具的研究是一个不间断的过程。更多角度的研究也有待补充。 
  参考文献:
  【1】陈正坤,浅析淘宝指数,电子世界,10(2012):3-6
  【2】冯观强.Web数据挖掘在淘宝网玩具市场的应用.计算机光盘软件与应用,2012(22):174-174
  【3】郝小丹.基于数据挖掘的淘宝商品竞争力分析系统的设计与实现.山东大学,2015
  【4】JiaweiHan,MichelinKamber(著),范明,孟小峰(译),数据挖掘(原书第2版)[M],北京:机械工业出版社,2007/3/1
  【5】姜宁,牛永洁.Web数据挖掘在电子商务中的应用——以淘宝网为例.计算机时代,2016(7):49-52
  【6】卢辉.数据挖掘与数据化运营实战:思路、方法、技巧与应用.机械工业出版社,2013
  【7】潘华,项同德.数据仓库与数据挖掘原理、工具、及应用.中国电力出版社,2007
  【8】徐禾芳.基于数据挖掘的数据库营销的实现——以淘宝网化妆品销售为例.中国管理信息化,2010,13(10):100-102
  【9】袁凡,唐国华.数据挖掘在电子商务中的应用研究.江西科学,2015(6):920-924
  【10】姚涛.数据挖掘在淘宝店铺客户价值提升中的应用研究.电子科技大学,2012
  【11】周润博.基于淘宝直通车的竞价决策系统的研究与设计.上海交通大学,2015(6):16-20
  
下载提示:

1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。

2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

原创文章,作者:写文章小能手,如若转载,请注明出处:https://www.447766.cn/chachong/2162.html,

Like (0)
写文章小能手的头像写文章小能手游客
Previous 2019年10月13日
Next 2019年10月13日

相关推荐

My title page contents