1.统计数据的类型
2.数据分布特征
3.柱形图(直方图)、折线图、饼图、条形图、雷达图等,近年来比较酷炫的图表有词云、漏斗图、数据地图、瀑布图等;红色要深刻记住
- 树状体系图中拆解上层指标依据:父子、逻辑、业务联系。
- 柱形图适于 比较数据之间的多少;用于 不同对象之间的比较。
- 折线图适于 反映一组数据的变化趋势;
- 饼图比较适于 反映相关数据间的比例关系。
- 条形图显示各个项目之间的比较情况,和柱状图类似的作用;
- 数据地图适用于有空间位置的数据集;
- 雷达图适用于多维数据(四维以上),且每个维度必须可以排序;突出对象间差异程度。
- 漏斗图适用于业务流程多的流程分析;
- 词云显示词频,可以用来做一些用户画像、用户标签的工作;
- 散点图显示若干数据系列中各数值之间的关系,类似XY轴,判断两变量之间是否存在某种关联;
- 面积图强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意;
- 计量图一般用来显示项目的完成进度。
- 瀑布图采用绝对值与相对值结合的方式,适用于表达数个特定数值之间的数量变化关系,最终 展示一个累计值。
- 桑基图是一种特定类型的流程图,始末端的分支宽度总各相等,一个数据从始至终的流程很清 晰;
- 双轴图是柱状图+折线图的结合,适用情况很多,数据走势、数据同环比对比等情况都能适用;
4.业务图形决策树将业务描述性分析中使用放入图表分为四类: 构成类 对比类 序列类 描述类
5.业务图表与统计图表的区别
CDA-LEVELI-PART 7业务分析报告与数据可视化报表(15%)_lovebird_27的博客-业务类图表和统计类图表的主要区别
- 会议上使用PPT作为业务分析载体
6.业务分析报告中的文字描述不应对已有的数据信息的重复描述
7.不同对象之间的比较使用 簇状柱形图
8.业务分析报告主题应该在设计阶段确定,而不是完善阶段
9.漏斗图描述状态阶段的 顺序递进关系,属于 序列类图表
10.雷达图突出对象间差异程度
11.用散点图生成波士顿矩阵效果
12.波士顿矩阵适用于对商品结构的描述而不是客户行为分析
13.电商黄金公式:销售额=流量转换率客单价,流量需要大量成本,当融资出现问题是,应优先考虑转换率和客单价
14.NOW用来返回当前的日期和时间
15.子查询可以出现在select,where,where,having,from,jion
16.all 满足所有条件
17.子查询必须放在圆括号里,最多可以嵌套32个子查询,数据库管理系统在执行时由内到外,先执行括号内的子查询,再执行括号外的主查询,其中表子查询必须添加表名
18.在sql中可以设置表别名和列别名,SQL的执行顺序是:FORM-ON-JOIN-WHERe-GROUP BY-HAVINg-SELECT-ORDER BY-LIMIT, WHERe 不能用列别名
19.向关系型数据库添加数据时,字段和添加数据字段个数,数据类型,字段顺序都要一致
20.delete 删除记录但是不删除数据库对象
21.ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)
22.2个吧表的对应关系合并时决定表的行数
23.left是从左侧取连续字符串的函数,是文本函数
24.Number 是表格结构分析工具,SQL,POWER IB,tableau是表结构分析工具
25.数据分析方法论:CRISP-DM,SEMMA,AB测试, UML是统一建模语音的缩写
26.协方差是度量相关性的
27.异众比率指非众数组的频数占总频数的比例
28.若想分析变量之间的相关性,采取卡方检验和计算列联相关系数
29.DECIMAL 是定点型
30.完整性约束包括主键约束(PRIMARY KEY),外键约束(FOREIGN KEY ),唯一约束(UNIQUE),非空约束(NOT NULL ),检查约束(CHECK),默认约束(DEFAULT),自动增长约束(AUTO_INCREMENT)
31.UNIOn 属于表的纵向连接
32.连接汇总分析过程中应尽量遵守,一表出维度,没有一表出度量,一对多的连接关系
33.相关系数公式:x与y的协方差除以(x和y标准差的乘积)
34.E-R图相关知识
(1)若是两实体是多对多的关系,则两实体关系的主关键字均放入联系关系中作为主关键字(当然联系关系中还包括其他一些有用的附加信息)
(2)若是一对多,则把”一“关系中的主关键字放入表示”多“关系中作为其外来关键字,而无需再建立关系。
注意:代表多,1: 为一对多关系
35.电商的相关知识:
(1)什么是SPU:SPU,是standard product unit,标准化产品单元,是商品信息聚合的最小单位,在淘宝看不到spu这个概念,淘宝商品都拥有商品ID(item design),相当于spu)。SPU 属性(不会影响到库存和价格的属性, 又叫关键属性)。
(2)什么是SKU,SKU:库存量单位,SKU是物理上不可分割的最小存货单元。也就是说一款商品,可以根据SKU来确定具体的货物存量。SKU 属性(会影响到库存和价格的属性, 又叫销售属性)。
(3)商品SPU和商品SKU是包含关系,一个商品SPU包含若干个商品SKU子实体,商品SKU从属于商品SPU。
(4) 什么是PV:PV是page view的简写。PV是指页面刷新的次数,每一次页面刷新,就算做一次pv流量。 注意:是大部分,有可能同一个用户反复刷新
(5)什么是UV:UV是unique visitor的简写,是指独立用户
注意:UV比IP更准确
36.黄金公式:流量,转换率,客单价
37.AARRR模型
(1)AARRR模型,即Acquisition(用户获取)、Activation(用户激活)、Retention(用户留存)、Revenue(获得收益)、Referral(推荐传播),对应产品用户生命周期的5个重要环节,获取用户、提高活跃度、提高留存率、获取收入、自传播。
(2)ARPU :平均每个用户收入,ARPU=Revenue/User,活跃付费用户数(APA) :在统计时间区间内,成功付费的用户数。
(3)一个重要的指标K因子 k=(每个用户传播给他的朋友数量)*(接受邀请的人转化为新用户的概率) 假设平均每个用户会向20个朋友发出邀请,而平均的转化率为10%,则K=20×10%=2。 若大于1,说明用户在增长,这个方式的成本低,效果好,唯一的前提是产品自身要足够好,有很好的口碑,从自传播到再次获取新用户,应用运营形成一个螺旋式的上升的轨道。
38.同比,环比
(1)同比:一般情况下是今年第n月与去年第n月比。同比发展速度主要是为了消除季节变动的影响,用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。如,本期2月比去年2月,本期6月比去年6月等。
(2)环比:表示连续2个单位周期(比如连续两月)内的量的变化比。
(3)同比发展速度的公式: 同比发展速度=本期发展水平/去年同期水平×100%; 同比增长速度=(本期发展水平-去年同期水平)/去年同期水平×100%。 在实际工作中,经常使用这个指标,如某年、某季、某月与上年同期对比计算的发展速度,就是同比发展速度。
(4)环比增长率=(本期数-上期数)/上期数×100%。 反映本期比上期增长了多少;环比发展速度,一般是指报告期水平与前一时期水平之比,表明现象逐期的发展速度。 同比增长率=(本期数-同期数)/ 同期数×100%。
39.皮尔逊相关系数,是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
皮尔逊相关系数就是两个变量协方差除以两个变量标准差乘积:协方差是一个反映两个随机变量相关程度的指标(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,值的大小受到两个变量量纲的影响,不适合用于比较。为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差,消除了量纲的影响。
40.CPM与CPC是常见的平台间引流计费指标,CDA,CPN是引流时流量的计费方式
41.DB是BI项目之外的数据源,BI项目报表的数据源来自DW
42.BI分析的主要特点是多维度的透视分析 ————————————————