机器学习基础——入门级笔记

一、机器学习概念

1.1 定义

机器学习(ML)主要研究计算机系统对于特定任务的性能,逐步进行改善的算法和统计模型。

通过输入海量训练数据对模型进行训练,从而对输入的数据进行预测或分类。

1.2 机器学习的过程

机器学习基础——入门级笔记_第1张图片

二、机器学习主要分类&无监督学习

2.1 主要分类

分为

  • 有监督学习:给予数据与正确的结果,类似提供习题册和正确答案。
  • 无监督学习:提供数据不提供正确答案。
  • 强化学习:仅仅是通过与环境交互获取延迟返回

机器学习基础——入门级笔记_第2张图片

2.2 无监督学习

采用一组仅包含输入的数据,通过寻找数据中的内在结构来进行样本点的分组或聚类

无监督学习算法不是响应反馈,而是识别数据中的共性特征;对于一个新数据,可以通过判断其中是否存在这种特征,来做出相应的反馈。

无监督学习的核心应用是密度估计和聚类分析。

三、监督学习深入理解

监督学习:构建了包含输入和所需输出的一组数据的数学模型。这些数据称为训练数据,由一组训练样本组成。

监督学习主要包括分类和回归

  • 分类:当输出为离散型使用分类算法
  • 回归:当输出为连续型使用回归算法。典型代表:逻辑回归。

巧辨认(非科学):

连续:一串数字。

离散:英文、中文等非连续的数值。

机器学习基础——入门级笔记_第3张图片

3.1 监督学习三要素

  • 模型:总结数据的内在规律,用数学函数描述的系统
  • 策略:选取最优模型的评价准则
  • 算法:选取最优模型的具体方法

监督学习实现步骤

  1. 得到一个有限的训练数据集
  2. 确定包含所有学习模型的集合
  3. 确定模型选择的准则——学习策略
  4. 实现求解最优模型的算法——学习算法
  5. 通过学习算法选择最优模型
  6. 利用得到的最优模型,对新数据进行预测或分析

机器学习基础——入门级笔记_第4张图片

3.2 监督学习模型评估策略

  • 模型评估

    • 训练集和测试集
    • 损失函数和经验风险
    • 训练误差和测试误差
  • 模型选择

    • 过拟合和欠拟合
    • 正则化和交叉验证
  • 【模型评估】

    1.训练集和测试机

    训练集:输入到模型中对模型进行训练的数据集合。

    通俗理解,为了提高成绩,买的练习册进行刷题提升。那么“5+3”就是训练集。

    测试集:模型训练完成后测试训练效果的数据集合。

    在练习题上训练的再好,也需要模拟题检验一下是否真的掌握。故“高考|期末考”就是测试集。

    2.损失函数

    作用:用来衡量模型预测误差的大小。

    定义:选取模型f为决策函数,对于给定的输入参数X**,f(X)为预测结果Y为真实结果**;f(X)和Y之间可能会有偏差,我们就用一个损失函数来度量预测偏差的程度,记作L(Y,f(X))。

    损失函数是系数的函数

    损失函数数值越小,模型就越好;

    【分类】

    • 0-1损失函数
    • 平方损失函数

    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X)) = (Y - f(X))^2 L(Y,f(X))=(Yf(X))2

    • 绝对损失函数

    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X)) =|Y-f(X)| L(Y,f(X))=Yf(X)

    • 对数损失函数

    L ( Y − P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y-P(Y|X)) = -logP(Y|X) L(YP(YX))=logP(YX)

【模型选择】

3.过拟合和欠拟合

【欠拟合】模型没有很好捕捉到数据特征,特征集过小,导致模型不能很好拟合数据。

本质对数据的特征“学习”不够。

【过拟合】把训练数据学习的太彻底,以至于把噪声数据特征也学习到了。泛化能力太差。

4.交叉验证
  • 数据集划分

    训练集用于训练模型,测试集用户学习方法评估。

  • 数据不充足时,可以重复利用数据——交叉验证(cross validation)

    • 简单交叉验证
      • 数据随机分为两部分
    • S折交叉验证
      • 将数据随机切分为S个互不相交、相同大小的子集;S-1个做训练集,剩下一个做测试集
      • 重复进行训练集、测试集的选取,有S种可能的选择
    • 留一交叉验证

3.3 监督学习模型求解算法

1.分类问题

输出变量取有限个离散值,问题就成了分类问题。

分类问题包括学习和分类两个过程。学习过程中,根据已知的训练数据集利用学习方法学习一个分类器;分类过程中,利用已习得的分类器对新的输入实力进行分类

分类问题解决的学习方法:

k近邻、决策树、感知机、逻辑斯蒂回归、支撑向量机、朴素贝叶斯法、神经网络等。

2 回归问题 ——监督学习

用于连续问题

回归模型表示从输入变量到输出变量之间映射的函数

回归问题的学习等价于函数拟合。

回归学习的损失函数——平方损失函数。使用著名的最小二乘法解决

2.1 最小二乘法

主要思想:选择位置参数,使得理论值与观测值之差的平方和达到最小。

  • 假设输入属性(特征)的数目只有一个:

f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i f(x_i) = wx_i + b , 使得f(x_i)\approx y_i f(xi)=wxi+b,使f(xi)yi

  • 在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧式距离之和最小。

( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ ( f ( x i ) ) − y i ) 2 = a r g m i n ( w , b ) ∑ ( y i − w x i − b ) 2 (w^*,b^*) = arg min _{(w,b)} \sum{(f(x_i))}-y_i )^2 \\ =arg min _{(w,b)}\sum{(y_i-wx_i}-b )^2 (w,b)=argmin(w,b)(f(xi))yi)2=argmin(w,b)(yiwxib)2

2.2
  • 梯度下降算法
  • 牛顿法和拟牛顿法

你可能感兴趣的:(推荐系统,机器学习,聚类,人工智能)