上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:
- ➢ 数据文件中每行数据采用下划线分隔数据
- ➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种
- ➢ 如果搜索关键字为 null,表示数据不是搜索数据
- ➢ 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据
- ➢ 针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示
- ➢ 支付行为和下单行为类似
字段说明
跳转顶部
品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。
本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。
跳转顶部
我们先创建出和读取数据文件,只适用于方法一到三
我们可以先分别求出点击量、订单量和支付量的总数,然后将三个数据合并,最后排序
结果展示,由于后面只是方法不同,结果都是一样的,所以结果只展示一次
跳转顶部
在方法一中,我们虽然实现了需求,但是因为使用了,就会导致数据处理量的暴增,那我们也没有办法不使用而完成?
解题思路
以上就是本篇文章【【Spark】Spark电商数据分析】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/quote/62107.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多