笔记1:机器学习算法(一): 基于逻辑回归的分类预测

笔记1:机器学习算法(一): 基于逻辑回归的分类预测

    • 1.概念辨析
      • 1.1 分类预测
      • 1.2 逻辑回归
    • 2.代码解析
      • 2.1 教程中的代码流程
      • 2.2 教程代码知识准备
        • 2.2.1 使用到的第三方库
        • 2.2.2 使用到的函数
        • 2.2.3 使用到的数据集
      • 2.3 实际代码
      • 2.4 知识点补充
    • 3.总结

文章内容为针对天池机器学习训练营提供的实战教程笔记

1.概念辨析

第一篇内容为“基于逻辑回归的分类预测”

1.1 分类预测

在机器学习的术语中,当预测值为连续值时,称为“回归问题”,离散值时为“分类问题”,例如实战教程里以对鸢尾花的分类来进行预测,计算的y的值为离散的几个数字,分别代表不同的鸢尾花种类。

逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归 基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。

1.2 逻辑回归

逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。
而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。
逻辑回归模型的优劣势:
优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;
缺点:容易欠拟合,分类精度可能不高

逻辑回归,也称为对数几率回归,是广义线性模型 y = g − 1 ( w T x + b ) y=g^{-1}\left(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b\right) y=g1(wTx+b) 的推广。

线性回归(linear regression)试图试图学得一个线性模型以尽可能准确的预测实际输出标记,基本形式为: y = w T x + b y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b y=wTx+b;但当输出标签不是线性变化的时候,将输出标签转换过后再作为线性模型逼近的目标。

此时得到广义线性模型(generalized linear model),可以求取输入空间到输出空间的非线性函数映射。基本形式为: y = g − 1 ( w T x + b ) y=g^{-1}\left(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b\right) y=g1(wTx+b)
其中单调可微函数 g ( ⋅ ) − 1 g(·)^{-1} g()1 称为联系函数,连续且充分光滑。——《机器学习》

为了解决连续的线性函数不适合进行分类的问题,我们引入非线性函数 g : R D → ( 0 , 1 ) g: \mathbb{R}^{D} \to (0,1) g:RD(0,1

你可能感兴趣的:(机器学习训练营)