获得了一大堆源数据过后,总要对数据概况做个总览,在统计学上就叫做“描述性统计分析”。
以招聘网站上的数据爬虫为例,以下简单展示如何在清洗过后的数据集上进行初步的柱状图、饼图、词云图等可视化操作。
首先导入数据集,并查看数据格式。
数据集中包含了整理得到的岗位名(job_name)、公司名(company_name)、公司类型(company_type)、公司规模(company_size)、公司行业(company_ind)、岗位福利(jobwelf)、岗位薪资(providesalary_text)、岗位地点(workarea_text)、发布时间(issuedate)、经验要求(experience)、学历要求(education)、招聘人数(demand)等信息。
对数据进行预处理,通过计数等操作得到画图所用数据形式。
接下来进行柱状图绘制。
得到了纵向柱形图如下,同样也可绘制横向的柱形图(后续会整理系列柱形图绘制方法)。
接下来绘制柱状图。
在基础柱形图的基础上添加了数值文本到图像中。
对初步统计情况进行整理,例如“在校生/应届生”合并到“无需经验”人群。
将合并后的分类定为7类,得到绘图所用数据。
最后进行柱状图绘制。
得到经验要求柱状图如图所示。
首先将岗位薪资重新进行整理,得到分段的区间便于统计。
这里将薪资规范化处理为“千/月”的形式,并将每月薪资划为如下6个区间。
具体处理代码为:
接下来便可以进行饼图绘制。
得到最终饼图如下。
更进一步地,可以绘制不同学历要求、不同经验要求下的薪资分布情况。
以本科学历要求为例,绘制该水平下的薪资分布情况。
只需将数据变为上述形式,其他操作不变,便可得到最终结果。
本科学历薪资分布的完整代码如下:
对于文本形式的行业分布,使用词云图进行可视化。
词云图相关程序包如下:
首先进行数据准备:
接下来进行词云图绘制。
以云朵图片作为词云图的背景,调节图像的字体、颜色等显示参数,得到最终的效果。
同样对招聘岗位的职位福利进行词云图可视化。
与前面操作一样,数据准备完成后便开始绘图。完整代码如下:
最终效果如下。