相关动态
【Spark】Spark电商数据分析
2024-11-10 17:34

【Spark】Spark电商数据分析

在这里插入图片描述 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:

  • ➢ 数据文件中每行数据采用下划线分隔数据
  • ➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种
  • ➢ 如果搜索关键字为 null,表示数据不是搜索数据
  • ➢ 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据
  • ➢ 针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 null 表示
  • ➢ 支付行为和下单行为类似

字段说明 在这里插入图片描述

跳转顶部


品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。

本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。

跳转顶部


我们先创建出和读取数据文件,只适用于方法一到三

 

我们可以先分别求出点击量、订单量和支付量的总数,然后将三个数据合并,最后排序

在这里插入图片描述

 

结果展示,由于后面只是方法不同,结果都是一样的,所以结果只展示一次 在这里插入图片描述

跳转顶部


在方法一中,我们虽然实现了需求,但是因为使用了,就会导致数据处理量的暴增,那我们也没有办法不使用而完成?

解题思路 在这里插入图片描述

    以上就是本篇文章【【Spark】Spark电商数据分析】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/quote/62107.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多   
发表评论
0评