一.分析背景及目的
本文是一次探索性分析,通过对所有常规指标进行分析,来寻找业务上优化点
二、理解数据
1.数据来源:
数据集-阿里云天池tianchi.aliyun.com
其中包含2个csv数据,表1购买商品和表2婴儿信息
2.列名含义:
三.数据清洗
1.选择子集
auction_id(购买行为编号) 和 property(商品属性)在后续分析中不会使用,故将这两列隐藏。(好习惯是永远不删除数据,不需要的数据隐藏起来)
2.列名重命名
将列名翻译为中文
3.删除重复值
未发现重复值
4.缺失值处理
经过筛选未发现缺失值,操作参考Excel数据处理(缺失值/重复值/异常值/拆分) - 知乎 (zhihu.com)
5.一致化处理
将日期修改成yyyy/m/d的格式,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)
将性别列中值为0、1、2的分别修改为女、男、不详,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)
6.数据排序
对购买数量降序排序,发现购买数量最大值为10000
对购买日期排序,发现交易记录的时间范围是2012年7月2日-2015年2月5日
7.异常值处理
删除出生日期为1984年的那一列
四、分析思路
1.从行为、商品、用户三个角度展开描述分析
2.对描述分析的结果从以下角度提出假设
3.验证假设得出结论
五、分析过程
商品
1.不同种类商品销量对比(分析方法:帕累托模型)
因为资源总是有限的,不同的渠道和用户会产生不同的效益,所以我们不能将所有的资源投入到全部渠道里。帕累托分析依据的原理是20/80定律,80%的效益常常来自于20%的投入,而其他80%的投入却只产生了20%的效益,这说明,同样的投入在不同的地方会产生不同的效益。28、50014815、50008168三类商品贡献了总销量的88%。所以建议把主要的投入放在上述三类商品上。
2.爆款商品
top13的商品销量都达到1000件以上
50018831商品为爆款,其销量占据top13的34%,为12657件
其他商品销量比较接近,在1000到3700件之间浮动
销量主要集中在14年的双11,而平时销量不高,说明是节假日爆款商品。需要对14年双11进行复盘,总结运营经验,复制爆款商品
行为
1.销量随时间变化情况(分析方法:折线图)
2012年、2015年销量只是其他年份的零头
假设:数据不完整(数据来源)
交易记录的时间范围是2012年7月2日-2015年2月5日
假设成立
2014年销量约为2013年的2倍
假设:网购人数增加(行业规律),产品好评率提高(产品问题)
两年的销量趋势走向基本相同,且在大多数月份2014年的销量为2013年的2倍
假设成立
由图,2014年11月份销量为13年度514%,这是2014年销量约为2013年的2倍的主要原因
假设:是双11导致14年11月销量猛增(行业规律)
因为有些店家会把双11活动延长几天,所以在13号出现峰值属于正常现象
假设成立
1、2月份出现销量低谷
假设:春节快递停运(行业规律)
)
2013年2月10日过春节,2014年1月30日过春节,2015年2月19日过春节,正好与销量最低时间相吻合。全国大多数地区在节前1周快递停运
假设成立
2.复购情况
定义:统计周期为2012年7月2日-2015年2月5日,复购率=客户重复购买行为次数/客户样本数量
由此可见绝大多数用户没有复购行为
假设:数据集中绝大多数婴儿用品长时间内只适用于购买一次(产品问题)
需要调取产品信息进一步确认
有复购行为用户中,大多数只复购1次,仅有1人复购3次
这说明用户的忠诚度很低,很有可能需要用爆款来驱动用户购买
用户
性别
1.不同性别的销量对比
女婴销量约占六成,男婴占四成
男、女用户人数约为1:1
2.不同性别的购买偏好
5008168、28类商品在男、女婴儿中销量都比较高
50014815类在女婴中销量最高,在男婴中销量一般
38、50022520类销量一般,38类女婴销量高些
12265008类在男女婴儿中销量都比较低,建议根据实际情况,适当淘汰该类别下的末端商品
50014815类在女婴中销量最高,在男婴中销量一般
假设:50014815类商品具有性别差异(产品问题)
在女婴中销量高的主要原因是50018831、50012564这两款商品,它们在男婴中也是销量最高的
假设不成立
假设:是女婴的购买力比男婴强导致的(用户问题)
查询商品50018831的数据时发现,有位用户单次购买160件,并不是女婴的购买力更强
假设不成立
(因为这组数据单次购买量太大,会影响对趋势的判断,暂时删除)
38类女婴销量较高
查询38类商品数据时发现,有位用户单次购买40件
年龄
1.不同年龄段商品的销量对比
0岁、1岁和出生前购买占据购买量的70%
2岁、3岁占据20%
其他年龄段占据10%
下面重点考虑0岁、1岁和出生前购买用户的购买需求
2.不同年龄段购买偏好
50022520类在未出生baby中销量高,在0岁、1岁婴儿中销量低
38类在1岁中销量高,在未出生baby、0岁婴儿中销量低
50022520类在未出生baby中销量高
假设:存在单次购买量较大的数据(异常数据)
并没有用户单次购买量较大的情况
假设不成立
50022520类对用户年龄敏感,给未出生baby备货的用户喜欢购买
38类在1岁中销量高
假设:存在单次购买量较大的数据(异常数据)
一名用户单次购买了40件
假设成立
六、总结建议
1.商品
88%销量集中在28、50014815、50008168这三类商品上,这三类商品对婴儿的性别、年龄不敏感
9%的销量集中在38、50022520两类商品上,在用户给未出生baby准备时非常喜欢购买50022520类的商品
3%是122650008类,建议对该类别下的商品进行末位淘汰
2.用户行为规律
绝大多数用户对大型活动敏感,因为双11的缘故,14年11月份销量约为其它月份的6倍
14年双11活动非常成功,同比13年销量增长514%,应该进行复盘,总结运营经验
11月13日,母婴用品的销量达到峰值,是商家把双11活动集中在这天的缘故
双11的销量占全月的77%
3.用户
主流用户年龄是0岁、1岁和为未出生的baby准备,除去未出生的baby偏好50022520类的商品外,这3个年龄的
用户对商品的偏好基本相同,都集中在28、50014815、50008168这三类商品上
男、女婴儿用户人数基本持平,女婴的购买能力比男婴略高,男、女婴儿对商品的偏好基本相同,同样集中在
28、50014815、50008168这三类商品上
复购率仅为0.17%,这说明用户的忠诚度很低,很有可能绝大多数是贪图便宜被吸引进来,这样的用户质量并不
高,需要进一步调取数据摸清用户的购买需求,可以从下图入手
下面这批用户单次购买量超过20
前2位用户的购买时间没有促销活动,后3位用户虽然赶上了5月份的活动,但活动力度不如双11大,这些人中没有
1个人在优惠力度最大的双11期间下单,这就说明ta们的购买需求是急切的
还有一个共同点是,这些人购买的都是女婴用品
由此做出假设,这些人是否因工作需要所以要批量购买,例如儿童福利院等机构
建议调取以上用户在淘宝平台的其他信息,进一步探索ta们的购买需求