1.逻辑回归
逻辑回归也称作logistic回归分析,是一种广义的线性回归分析模型,需要一个应变量 y和一个或一个以上的自变量,属于机器学习中的监督学习。逻辑回归是用来进行分类的。例如,我们给出一个人的 [身高,体重] 这两个指标,然后判断这个人是属于”胖“还是”瘦“这一类。
2.线性回归vs逻辑回归
区别:
相似性:
3.乳腺癌中肿瘤预测(实训)------逻辑回归分析
3.1 导入需要的各种包,例如:pandas,numpy,sklearn
3.2 定义列,给列起名字
3.3 导入数据,增加数据的参数值(导入时数据的路径一定是安装的路径)
3.4 输出列表返回的元组,获取数据中的信息值
3.5 查看数据的基本情况
3.6 对数据目标值进行说明
3.7 替换数据中的缺失值,并且删除缺失值的样本,再确定特征值和目标值
3.8 确定目标值后,对数据进行分割,建立特征工程,逻辑回归建立模型,最后训练模型
3.9 对模型进行评估,得到模型预测值
4.代码如下:
import pandas as pd #导入各种包
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
import ssl
ssl._create_default_https_contex=ssl._create_unverified_context
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
'Normal Nucleoli', 'Mitoses', 'Class'] #给列起名字
data=pd.read_csv(r"C:\Users\HP\Desktop\breast-cancer-wisconsin.data",names=names) #导入数据,给data增加一个names参数
data
data.shape #输出列表返回的元组
data.info #获取数据中的信息
data.describe() #查看数据基本情况
data.Class #目标值说明
data=data.replace(to_replace="?",value=np.NaN) #替换缺失值
data=data.dropna() #删除缺失值的样本
x=data.iloc[:,1:10] #确定特征值
x.head()
y=data['Class'] #确定目标值
y.head()
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2) #分割数据
transform=StandardScaler() #特征工程(标准化)
x_train=transfrom.fit_transfrom(x_train)
x_test=transfrom.fit_transfrom(x_test)
estimate= LogisticRegression() #机器学习(逻辑回归) 建立模型
estimate.fit(x_train,y_train) #训练模型
y_predict=estimate.predict(x_test) #模型评估
y_predict
estimate.score(x_test,y_test)
学号:202113430110
姓名:罗媛