机器学习期末复习知识点01

第一章 机器学习—概述

1.1.1机器学习的定义
不显式编程的赋予计算机能力的科学讨论
(1)1997年,机器学习是能通过经验自动改进的计算机算法的研究
(2)2004年,机器学习是用数据或以往的经验优化计算机程序的性能标准
(3)机器学习是通过学习算法让计算机具有数据分析能力的学科
1.1.2机器学习的工作流程
数据获取
数据预处理(数据审核、数据清理)
特征处理(特征选择、特征变换)
训练/构建模型
测试模型
部署模型
1.2机器学习的方法
1.2.1监督学习
从给定的有标注的训练数据集中学习出一个函数
(1)分类:离散值(输出是类别标签)
(2)回归:连续值(输出是实数)
1.2.2无监督学习
没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析
(1)聚类:无标记信息
1.2.3半监督学习
前面两者结合
1.2.4增强学习
外部环境输出只给出评价信息而非正确答案,学习通过强化受奖励的动作来改善自身的性能
1.2.5多任务学习
把多个相关的任务放在一起同时学习
1.2.6泛化能力
机器学习的目标是使得学到的模型能很好的适用于新样本,而不仅仅是训练集合,我们称模型适用于新样本的能力为泛化能力。
(1)归纳偏好:学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”
(2)误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差:训练集上的误差
测试误差:测试集上的误差
泛化误差:除训练集外所有新样本上的误差(包括训练误差和未采集样本误差)
(3)过拟合:训练误差小,测试误差大(学习器把训练样本学得太好了,将训练样本本身的特点当做所有样本的一般性质,泛化下降)例子:非线性问题
(4)欠拟合:训练误差大,测试误差大(训练样本的一般性质未被机器学好,)
例子:将有锯齿状的绿叶用来作为训练模型
过拟合:当测试的树叶没有锯齿会被判断不是树叶,误以为树叶必须要有锯齿
欠拟合:误以为绿色的都是树叶

第二章 线性回归

回归问题定义:通过已知数据拟合一个函数,该函数能够反映输入变量与实数值输出变量之间的关系,从而实现对未知数据的预测
2.1基本形式
1,线性模型的一般形式
f(x)=w1x1+w2x2+…+wnxn+b
x=(x1,x2,…xn是由属性描述的事例,其中xj是x在第j个属性上的取值)
2,向量形式
向量形式的线性模型
(其中w=w1,w2…wn)
2.2线性模型优点
形式简单,易于建模
可解释性
非线性模型的基础
例:
综合考虑色泽、根蒂和敲声来判断西瓜好不好。其中根蒂的系数最大,表明根蒂最要紧,而敲声的系数比色泽大,说明敲声比色泽更重要。
f好瓜(x)=0.2•x色泽+0.3•x根蒂+0.3•x敲声+1
2.3线性回归
1,线性回归目的:学得一个线性模型以尽可能准确的预测实值输出标记
2,单一属性的线性回归目标
f(xi)=wi+b
3,参数/模型估计:最小二乘法
最小化均方误差:
机器学习期末复习知识点01_第1张图片
分别对w,b求导得到参数最优解的闭式解:
机器学习期末复习知识点01_第2张图片

给定数据集:
机器学习期末复习知识点01_第3张图片
多元线性回归目标:
机器学习期末复习知识点01_第4张图片
把w和b吸收入向量形式,数据集表示为:
机器学习期末复习知识点01_第5张图片
最小二乘法:
机器学习期末复习知识点01_第6张图片

第三章 决策树

3.1基本流程
1(1)决策过程中提出的每个判断问题都是对某个属性的“测试”
(2)决策过程的最终结论对应了我们所希望的判定结果
(3)每个测试的结果或是导出的最终结论,或者到出的进一步判定,都是在上次决策的判定范围内。
2,目的:
是为了产生一颗泛化能力强,即处理未见示例能力强的决策树
3.2划分选择
决策树学习关键在于如何选择最优划分属性。
1,划分方法
(1)信息增益
(2)信息熵
(3)基尼指数

你可能感兴趣的:(笔记)