机器学习之Logistic回归简单实例

logistic是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集,因此,logistic训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化方法.

例如:在两个类的情况下,函数输出0或1,这个函数就是二值型分类器的sigmoid函数;

                                                                                                                 g(x)=\frac{1}{1+e^{-z}}

机器学习之Logistic回归简单实例_第1张图片

如图当x为0时,sigmoid的值为0.5,随着x的增大,对应的sigmoid函数值逼近1,随着x的减小,sigmoid函数的值逼近0

因此为了实现一个logistic回归分类器,可以在每个特征上都乘以一个回归系数,然后把所有的值相加,将这个总和代入sigmoid函数中得到一个0-1范围的数,任何大于0.5的数据归为1类,然后小于0.5的数据归为0类,logistic可以看做是一种概率估计。

 

例如:在函数f(x)=a*x+b中,为了将整个目标值压缩在(0,1)中,引入logistic函数,于是有g(f(x))=\frac{1}{1+e^{-(a*x+b)}}

 

logistic回归的一般步骤:收集数据,准备数据,分析数据,训练算法,测试算法,使用算法。

 

下面用Python代码进行良/恶性肿瘤预测实战。

原始数据下载地址为:https://archive.ics.uci.edu/ml/machine-learing-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data

 



import pandas as pd
import numpy as np
#创建特征列表
column_names=['Sample code number','Clump Thickness','Unigormity og Cell Size',
              'Uniformity of Cell Shape','Marginal Adhesion','Single Epithlital CellSize',
              'Bare Nuclei','Bland Chromation','Normal Nucleoli','Mitoses','Class']

data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learing-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)
data.describle()

#数据预处理
#用no替换为标准缺失值
data=data.replace(to_replace='no',value=np.nan)
#删除缺失值的数据
data=data.dropna()
#对数据进行描述性分析
data.describle()

#用25%的数据作为参数集,75%的数据作为训练集
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],
                                               test_size=0.25,random_state=33)
#查询训练样本的数量类别
y_train.value_counts()

#查询测试样本的数量和类别
y_test.value_counts()

#用Loistic回归对上面的数据训练
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

#对数据进行标准化处理
#StandardScaler功能:使数据集中每列数据(也就是每个特征数据)都统一标准化
s=StandardScaler()
x_train=s.fit_transform(x_train)
x_test=s.fit_transform(x_test)

#初始化回归器的SGDClassifier
lr=LogisticRegression()

#训练模型
lr.fit(x_train,y_train)

#预测
lr_pred=lr.predict(x_test)

#模型性能评价
from sklearn.metrics import classification_report
#classification_report的功能是显示主要分类指标的文本报告
#使用自带的评分函数
print('Accuracy of LR Classifier:',lr.score(x_test,y_test))

 

你可能感兴趣的:(机器学习,机器学习)