分享好友 最新动态首页 最新动态分类 切换频道
机器学习实战一:逻辑回归实现乳腺癌肿瘤预测
2024-11-07 22:08

基于乳腺癌肿瘤数据使用逻辑回归分析肿瘤是良性还是恶性

机器学习实战一:逻辑回归实现乳腺癌肿瘤预测

  • 熟悉逻辑回归原理
  • 掌握sklearn逻辑回归相关API
  • 操作系统:Windows10
  • 工具软件:jupyter notebook、Python 3.6.13
  • 硬件环境:无特殊要求
  • 核心库:
    • pandas 1.1.5
    • matplotlib 3.3.4
    • numpy 1.19.5
    • scikit-learn 0.24.2

回归,用于处理和预测连续型标签的算法。线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。Logistic回归分析是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。Logistic回归在二十世纪初用于生物科学, 随后被用于许多社会科学应用中。

逻辑回归(Logistic Regression)是一种预测分析,解释因变量与一个或多个自变量之间的关系,与线性回归不同之处就是它的目标变量有几种类别,所以逻辑回归主要用于解决分类问题。

按照逻辑回归的基本原理,求解过程可以分为以下三步。

(1)找一个合适的预测分类函数,用来预测输入数据的分类结 果,一般表示为h函数,需要对数据有一定的了解或分析,然后确定函 数的可能形式。

(2)构造一个损失函数,该函数表示预测输出(h)与训练数据类 别(y)之间的偏差,一般是预测输出与实际类别的差,可对所有样本 的偏差求R2值等作为评价标准,记为J(θ)函数。

(3)找到J(θ)函数的最小值,因为值越小表示预测函数越准确。求解损失函数的最小值是采用梯度下降法(Gradient Descent)。 二分类问题中一般使用Sigmoid函数作为预测分类函数,其函数公式为mlch2-1 ,对应的函数图像是一条取值在0和1之间的S形曲线,如图所示: mlch2-2 与线性回归相比,它是用概率的方式实现预测,预测出属于某一分类的概率值。如果概率值超过50%,则属于某一分类。此外,它的可解释强,可控性高,并且训练速 度快,特别是经过特征工程之后效果更好。

本案例使用“良/恶性乳腺癌肿数据集”。该数据集来自南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所。下载地址下载的数据为data格式,直接改名为csv查看数据内容即可。该数据集收集了699条病人样本,共11列数据。第一列为检索的患者id,后9列包括了与癌症相关的9个特征指标,分别为肿块厚度(Clump Thickness),细胞大小的均匀性(Uniformity of Cell Size),细胞形状的均匀性(Uniformity of Cell Shape),边际附着力(Marginal Adhesion),单个上皮细胞大小(Single Epithelial Cell Size),裸核(Bare Nuclei),淡色染色质(Bland Chromatin),正常核(Normal Nucleoli),核分裂(mitoses)。类别(class)代表良性/恶性肿瘤,分别以2,4代替。数据中包含16个缺失值,以"?"标出。

mlch2-3

打开notebook 开发环境,新建ipynb文件,命名为保存在当前项目根目录下的文件夹中。

我们将预测乳腺癌肿瘤的良恶性。


mlch2-4

将数据集中带"?"的数据替换,再利用Pandas库的dropna函数便能快速地将缺失值删除。


分析上述数据集,第一列(Sample code number)是我们不需要的,应将其舍去;最后一列(Class)是我们的预测分类结果。利用sklearn.model_selection库中的train_test_split方法,实现训练集与测试集的划分。利用训练集训练模型,用测试集测试模型的预测结果与预测精度。


其中,各变量及参数的含义如下:

变量 含义 x_train 训练集中的文本数据 x_test 测试集中的文本数据 y_train 训练集中的数据特征对应的分类结果 y_test 测试集中的数据特征对应的分类结果 test_size 用于设定测试集占数据集的样本比例,test_size=0.25表示测试集占总数据集比例的25% random_state 使用由给定整数作为种子的新随机数生成器。使用 int 将在不同的调用中产生相同的结果。但是,检查您的结果在许多不同的不同随机种子中是否稳定可能是值得的。流行的整数随机种子是 0 和42。

为避免异常值对模型拟合产生影响,对每个特征进行标准化。导入,可以方便地对数据集按列进行标准化操作。标准化的公式与代码如下:


导入sklearn.linear_model中的Logistic Regression方法,实例化一个Logistic分类器,传入训练集供分类器学习。值得注意的是,在该案例中,我们需要关注的是查全率而非查准率(放过一个恶性癌症患者所带来的成本与风险要比误诊一个良性癌症患者所带来的成本高得多),因此我们利用sklearn.metrics中的classification_report方法,通过查看其查全率来观察该分类器的预测效果。在预测之前,我们按住ctrl+B定位到LogisticRegression的源码中,可以看到sklearn库中LogisticRegression默认设置的正则化项系数为l2(岭回归),且正则化力度为1.0。如下图所示:

以下是代码实现:


输出结果:


从结果可以看出,模型拟合的十分完美,其中恶性肿瘤的查全率(recall)已经到了100%。



输出结果:


模型平均准确率达到96%。

Logistic回归分析往往在预测癌症,预测广告点击率,电商购物等领域表现良好。Logistic回归与朴素贝叶斯分类器都作为有监督学习,其算法都涉及到预测概率,具有一定的相同之处,但是有如下区别:

  • Logistic回归属于判别模型,朴素贝叶斯分类器属于生成模型。
  • Logistic回归只能解决二分类问题(多分类问题需依赖softmax与神经网络),朴素贝叶斯分类器可以解决多分类问题。
  • Logistic回归具有超参数(如带有岭回归的线性模型中的正则化项系数),其模型可以通过交叉验证法不断优化,朴素贝叶斯分类器则不行。
  • Logistic回归在预测患病,广告点击等方面应用广泛,朴素贝叶斯分类器常用于于文本分类中。
  • 链接:https://pan.baidu.com/s/10fuIrjwWUIW-eqN9ssQHyg 提取码:wczd
最新文章
2023-2029年中国脂肪醇行业市场竞争态势及发展趋向分析报告
脂肪醇是合成醇系表面活性剂的主要原料,按原料来源不同又分为合成醇和天然醇。由石油为原料制备合成醇的路线很多,但目前已在工业上形成大吨位生产的路线主要有三条:1.几基合成醇,该法在羰基化催化剂接触下,将烯烃和一氧化碳、氢气反应,
seo综合查询是啥意思(seo综合查询工具可以查看哪些数据)
SEO中有一个很重要的知识点就是要在页面中布局关键词,那么在布局关键词时,往往给出的要求是“查找用户爱搜索的词”,并进行布局。那么如何查找用户爱搜索的关键词呢?1.搜索引擎下拉框我们在搜索框中输入相应关键词时,系统往往会在下拉
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求在信息时代飞速发展的今天人工智能已经渗透到咱们生活的方方面面甚至连幽默与创意也不例外。你是不是曾经为创作脱口秀子而头痛不已绞尽脑汁却依然无法捕捉到那些让人捧
1000个箭头(ai源文件,可编辑)在此,绘图必备!
免费资源:一、国自然类:1 2023历年国自然标书全文3国自然项目答辩PPT5标书写作模板7 国自然项目造假清单22018-24年国自然清单4 基金插图素材(可编辑)6 ‍近10年国自然标书全文‍二、SCI生信+实验类:1 160套SCI实验操作视频3Meta分析范
交通银行:启动新一代集团信息系统智慧化转型工程
  中国网财经8月16日讯 交通银行16日在银行业例行新闻发布会上介绍了该行加速推进信息技术智慧化转型的相关情况。交通银行副行长沈如军表示,日前,交通银行正式启动新一代集团信息系统智慧化转型工程(“新531”工程),目的是以打造数字
抖音短视频什么时间段发布最多人看?抖音流量时间段分析
三、注意事项其实,选择视频发布的时间对流量的影响虽然很重要,但是我们也不可忽视视频的内容质量,一个优质的视频可以轻松帮助我们登上热门。那如何产生优质的内容呢,我们可以从以下两点出发:1)素材来源 内容是重中之重。但是创造优质
11个帮助站长提升网站搜索引擎自然流量的SEO技巧
怎样提高你的百度搜索引擎提升专业技能?能够小范畴的试着一下这一明细里边的SEO专业技能,她们全是行得通并便于了解的百度搜索引擎提升专业技能。绝大多数的SEO专业技能明细都很模糊不清:对的…点“回到”按键。在本文中,大家将清除模棱
9月20日,百万美国人打算解救51区的外星Homie
美国最热话题是,一群哥们儿要抱团冲进美国神秘的军事基地51区,活捉外星人。什么叫51区,杰个话题都快被他吗说烂了,简单带你复习一下:美国政府储藏1947年罗斯威尔不明飞行物坠毁残骸和地外生物尸体的仓库,以及和外星人签订研究外星科技
2024流行的1一4多人游戏有哪些 好玩的多人游戏排行榜
多人游戏随着发展目前已经成为了众多游戏玩家们的圣地,这种游戏类型不仅仅只是注重玩家的个人技术,更是对玩家们的心理素质以及团队协作的终极挑战,2024流行的1一4多人游戏有哪些,介绍的游戏将会给玩家带来阵阵令人心跳加速的快感,同时
2005年以来国内成品油历次调价一览表
三次成品油定价机制改革自1998年迄今,中国已经历了三次成品油定价机制改革。1998年6月3日,原国家计委出台《原油成品油价格改革方案》,规定中石油和中石化两个集团公司之间原油交易结算价格由双方协商确定,价格由原油基准价和贴水两部分
相关文章
推荐文章
发表评论
0评