机器学习实战一：逻辑回归实现乳腺癌肿瘤预测

分享好友最新动态首页最新动态分类切换频道

机器学习实战一：逻辑回归实现乳腺癌肿瘤预测

2024-11-07 22:08

基于乳腺癌肿瘤数据使用逻辑回归分析肿瘤是良性还是恶性

熟悉逻辑回归原理
掌握sklearn逻辑回归相关API

操作系统：Windows10
工具软件：jupyter notebook、Python 3.6.13
硬件环境：无特殊要求
核心库：
- pandas 1.1.5
- matplotlib 3.3.4
- numpy 1.19.5
- scikit-learn 0.24.2

回归，用于处理和预测连续型标签的算法。线性回归完成的是回归拟合任务，而对于分类任务，我们同样需要一条线，但不是去拟合每个数据点，而是把不同类别的样本区分开来。Logistic回归分析是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。Logistic回归在二十世纪初用于生物科学，随后被用于许多社会科学应用中。

逻辑回归（Logistic Regression）是一种预测分析，解释因变量与一个或多个自变量之间的关系，与线性回归不同之处就是它的目标变量有几种类别，所以逻辑回归主要用于解决分类问题。

按照逻辑回归的基本原理，求解过程可以分为以下三步。

（1）找一个合适的预测分类函数，用来预测输入数据的分类结果，一般表示为h函数，需要对数据有一定的了解或分析，然后确定函数的可能形式。

（2）构造一个损失函数，该函数表示预测输出（h）与训练数据类别（y）之间的偏差，一般是预测输出与实际类别的差，可对所有样本的偏差求R2值等作为评价标准，记为J(θ)函数。

（3）找到J(θ)函数的最小值，因为值越小表示预测函数越准确。求解损失函数的最小值是采用梯度下降法（Gradient Descent）。二分类问题中一般使用Sigmoid函数作为预测分类函数，其函数公式为 mlch2-1 ，对应的函数图像是一条取值在0和1之间的S形曲线，如图所示： mlch2-2 与线性回归相比，它是用概率的方式实现预测，预测出属于某一分类的概率值。如果概率值超过50%，则属于某一分类。此外，它的可解释强，可控性高，并且训练速度快，特别是经过特征工程之后效果更好。

本案例使用“良/恶性乳腺癌肿数据集”。该数据集来自南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所。下载地址下载的数据为data格式，直接改名为csv查看数据内容即可。该数据集收集了699条病人样本，共11列数据。第一列为检索的患者id，后9列包括了与癌症相关的9个特征指标，分别为肿块厚度(Clump Thickness)，细胞大小的均匀性(Uniformity of Cell Size)，细胞形状的均匀性(Uniformity of Cell Shape)，边际附着力(Marginal Adhesion)，单个上皮细胞大小(Single Epithelial Cell Size)，裸核(Bare Nuclei)，淡色染色质(Bland Chromatin)，正常核(Normal Nucleoli)，核分裂(mitoses)。类别(class)代表良性/恶性肿瘤，分别以2,4代替。数据中包含16个缺失值，以"?"标出。

mlch2-3

打开notebook 开发环境，新建ipynb文件，命名为保存在当前项目根目录下的文件夹中。

我们将预测乳腺癌肿瘤的良恶性。

mlch2-4

将数据集中带"?"的数据替换，再利用Pandas库的dropna函数便能快速地将缺失值删除。

分析上述数据集，第一列(Sample code number)是我们不需要的，应将其舍去；最后一列(Class)是我们的预测分类结果。利用sklearn.model_selection库中的train_test_split方法，实现训练集与测试集的划分。利用训练集训练模型，用测试集测试模型的预测结果与预测精度。

其中，各变量及参数的含义如下：

变量含义 x_train 训练集中的文本数据 x_test 测试集中的文本数据 y_train 训练集中的数据特征对应的分类结果 y_test 测试集中的数据特征对应的分类结果 test_size 用于设定测试集占数据集的样本比例，test_size=0.25表示测试集占总数据集比例的25% random_state 使用由给定整数作为种子的新随机数生成器。使用 int 将在不同的调用中产生相同的结果。但是，检查您的结果在许多不同的不同随机种子中是否稳定可能是值得的。流行的整数随机种子是 0 和42。

为避免异常值对模型拟合产生影响，对每个特征进行标准化。导入，可以方便地对数据集按列进行标准化操作。标准化的公式与代码如下：

导入sklearn.linear_model中的Logistic Regression方法，实例化一个Logistic分类器，传入训练集供分类器学习。值得注意的是，在该案例中，我们需要关注的是查全率而非查准率(放过一个恶性癌症患者所带来的成本与风险要比误诊一个良性癌症患者所带来的成本高得多)，因此我们利用sklearn.metrics中的classification_report方法，通过查看其查全率来观察该分类器的预测效果。在预测之前，我们按住ctrl+B定位到LogisticRegression的源码中，可以看到sklearn库中LogisticRegression默认设置的正则化项系数为l2(岭回归)，且正则化力度为1.0。如下图所示：

以下是代码实现：

输出结果：

从结果可以看出，模型拟合的十分完美，其中恶性肿瘤的查全率(recall)已经到了100%。

输出结果:

模型平均准确率达到96%。

Logistic回归分析往往在预测癌症，预测广告点击率，电商购物等领域表现良好。Logistic回归与朴素贝叶斯分类器都作为有监督学习，其算法都涉及到预测概率，具有一定的相同之处，但是有如下区别：

Logistic回归属于判别模型，朴素贝叶斯分类器属于生成模型。
Logistic回归只能解决二分类问题(多分类问题需依赖softmax与神经网络)，朴素贝叶斯分类器可以解决多分类问题。
Logistic回归具有超参数(如带有岭回归的线性模型中的正则化项系数)，其模型可以通过交叉验证法不断优化，朴素贝叶斯分类器则不行。
Logistic回归在预测患病，广告点击等方面应用广泛，朴素贝叶斯分类器常用于于文本分类中。

链接：https://pan.baidu.com/s/10fuIrjwWUIW-eqN9ssQHyg 提取码：wczd