描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析是医学统计非常基础且重要的一类分析。
我们进行描述性统计分析主要运用的软件是SPSS,但是SPSS对数据的要求比较高,必须为数字类型的数据,那么我们在使用SPSS之前,必须对原始数据进行格式化的整理,如果这个工作没做好,将会直接导致后续的工作都白费。对原始数据进行格式化整理需要使用到Excel,如下图:
医学原始数据的搜集过程中,研究者为了直观、方便而录入一些汉字、符号类型的数据,这些数据都是不能直接用SPSS进行统计分析的,如下图:
以上数据是观察者使用Eexcel记录的,虽然看上去比较直观,但是对于统计分析来说,这份数据是没有任何意义的,因为SPSS软件只能识别数字,对于以上这份数据,我们要使用SPSS进行统计分析的话,必须做到以下几点:
①变量数据只能是阿拉伯数字,一定不能是汉字、英文或者符号等其他字符。以上数据中“吸烟”变量的数据是“是”和“否”这样的汉字,统计软件没法识别,必须将其转换为数字;
②“吸烟”变量中,对于“是”这一类患者,还录入了患者的烟龄,那么“是”+“烟龄”就是两个属性了,而数据分析的时候不允许把两个属性录入进同一个单元格,这样也会导致统计软件无法识别。两个属性,应该生成2个变量录入数据;
③“吸烟”变量下的“烟龄”数据,单位不统一,有些患者的“烟龄”是以“年”为单位,而有些患者则是以“月”为单位,必须将单位进行统一。
以上数据使用Excel进行整理的方法:
Step1:“烟龄”数据在“,”后面,所以利用Excel中的find函数先查找“,”的位置,函数为:=FIND(",",B2,1),如下图所示:
Step2:计算单元格总长度,利用Excel中的len函数先计算,函数为:=len(B2),如下图所示:
Step3:计算“烟龄”的长度,“烟龄”长度=单元格长度-“,”位置,如下图所示:
Step4:提取“烟龄”字符串,利用Excel中的right函数,函数为:=RIGHt(B2,E2),如下图所示:
Step5: 提取“吸烟”状况,函数为:=LEFt(B2,1),
按照以上5个步骤,成功拆分了“吸烟状况”和“烟龄”这两个属性,转换成了了两个变量,如下图所示:
2、将“汉字”“英文”转换成阿拉伯数字
Step1:“烟龄”和“吸烟”两个变量复制,并以数值形式粘贴,具体操作视频演示。
Step2:同时按住键盘上的“shift”和“F”,将“#VALUE!”替换成“0”
Step3:按照step2中的步骤把“是”替换成1,“否”替换成0(医学统计中默认“阳性”、“有”、“是”等用阿拉伯数字1编码,反之用0)
替换后的数据如下:
Step4:制作数据标签。
3、统一单位
医学研究,时间数据的计算单位一般是“月”,需要把单位统一成“月”
Step1:“升序排列”
选中全部数据:
点击“排序”→“自定义排序”:
排序后:
提取数值,选择的函数:=LEFt(B17,(LEN(B17)-(LENB(B17)-LEN(B17))))
提取后如下:
“年”为单位的,乘以12,“月”为单位则保持原样,“半年”则手动转换成6月。如下图所示:
将转换后的数据粘贴成数值格式到“烟龄”变量中,得到最终的正确数据形式:
以上的数据就完全满足数据分析的格式了,任何统计软件都可以识别,后续的数据分析也可以顺利进行。以上的操作,对于大样本、大数量的Excel数据整理非常方便,省很多时间!
对于上述整理好的数据,可以直接粘贴进SPSS,也可以导入。制作好的SPSS数据如下(具体操作见视频):
对于以上数据,可以对“吸烟”进行频率分析,操作如下:
点击“继续”再点击“确定”,得出如下结果:
注:SPSS自动输出的图不太美观,分辨率不高,且编辑功能不强大,建议大家使用GraphPad Prism软件绘图。
对于“烟龄”可以进行描述性统计分析:
点击“确定”,得到如下结果:
以上结果中,平均值为58.68,意味着对于“吸烟”的人而言,平均吸烟年龄为58.68个月。值得注意的是,烟龄一般不服从正态分布,“中位数”可能更合适。
本期课程就到这里,我们将每周推出更多、更实用的医学统计教程,提供医学统计相关服务。涵盖医学科研设计、数据统计分析、SPSS、meta、GraphPad、SAS、R、Eexel等,欢迎大家关注!感谢大家的观看,下期再见!