目录
一、机器学习:
二、统计学习:
1. 统计学习概念:
1.1 统计学习步骤:
1.2 统计学习特点:
1.3统计学习目的:
1.4统计学习的分类
2.统计学习三要素:
2.1 模型:
2.2 策略:
2.3 算法:
3. 模型的评估
4. 过拟合
4.1 正则化(结构风险最小化)
4.2 交叉验证
5. 泛化
5.1 泛化能力
5.2 泛化误差上界
6. 生成模型和判别模型
6.1 生成模型
6.2 判别模型
各自优缺点:
三、线性回归
1.策略
2.算法
3.线性回归算法的步骤
4.特征比例调整
5.步长的选择
6.解决过拟合 —— 正则化
7.梯度下降与正规方程
四、分类
为什么要将数据分为训练集与测试集
分类问题的评估指标 (计算题):
1.逻辑回归
2.朴素贝叶斯
3. K近邻法(KNN)(计算题)
3.1算法步骤:
3.2 K值的选择
3.3 计算题
4.决策树
4.1 ID3算法
4.2 C4.5
4.3 CART
5. 支持向量机(SVM)
5.1线性可分支持向量机
5.2线性支持向量机
5.3线性不可分支持向量机
五、感知机与神经网络
5.1 感知机算法流程
5.2神经网络
5.2.1激活函数
5.2.2 反向传播算法流程(BP)
题型:
六、聚类
6.1 k-means聚类(K均值聚类)
6.1.1 K均值聚类算法流程
6.1.2 计算题
6.2层次聚类
6.3密度聚类
七、降维
7.1主成分分析PCA(principal component analysis)
7.1.1 算法流程
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。
1.人工智能三大阶段:
推理期 知识期 学习期
2.机器学习流程:
1. 预处理 2. 学习 3. 评估 4. 预测
3.人工智能、机器学习、深度学习的关系:
机器学习是人工智能的一个重要学科分支; 深度学习是机器学习的一种方法,一个分支; !!!机器学习是深度学习的一个分支;机器学习就是人工智能; 这两种说法是错误的。
4.常见的机器学习问题(机器学习常见的三大问题):
1. 回归问题(Regression)通常是用来预测一个值,通常结果为连续值。 2. 分类问题(classification )是用于将事物打上一个标签,通常结果为离散值。 3. 聚类(Clustering)是一种发现数据中的相似群(聚类,clusters)的技术。
5.机器学习分类方法:
1. 监督学习:监督学习目的是学习一个由输入到输出的映射,称为模型。分类问题、回归问题、标注问题。监督学习的训练数据由【样本特征】和【标签】组成。 2. 无监督学习:无监督学习的本质是学习数据中的统计规律或潜在结构。模型可以实现对数据的聚类、降维或概率估计。 3. 强化学习:
1. 监督学习: 联合概率分布 *假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y) *P(X,Y)为分布函数或分布密度函数 *对于学习系统来说,联合概率分布是未知的 *训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。 【假设空间】 *监督学习目的是学习一个由输入到输出的映射,称为模型 *模式的集合就是假设空间(hypothesis space) *概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X) 2. 无监督学习(unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。-- 无监督学习的本质是学习数据中的统计规律或潜在结构。 模型的输入与输出的所有可能取值的集合分别称为【输入空间】与【输出空间】。输入空间与输出空间可以是有限元素集合,也可以是欧氏空间。每个输入是一个实例,由特征向量表示。每一个输出是对输入的分析结果,由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。 无监督降维是特征预处理中数据去噪的一种常用方法,它也降低了某些算法对预测性能的要求,并在保留大部分相关信息的同时将数据压缩到较小维数的子空间上。 3. 强化学习(reinforcement learning) 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。 假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process) ,智能系统能观测到的是与环境互动得到的数据序列。 -- 强化学习的本质是学习最优的序贯决策。
统计学习方法 = 模型 + 策略 + 算法
1 得到一个有限的训练、数据集合; 2 确定包含所有可能的模型的假设空间,即学习模型的集合; 3 确定模型选择的准则,即学习的策略; 4 实现求解最优模型的算法,即学习的算法; 5 通过学习方法选择最优模型; 6 利用学习的最优模型对新数据进行预测或分析。
1 统计学习以计算机及网络为平台,是建立在计算机及网络上的; 2 统计学习以数据为研究对象,是数据驱动的学科; 3 统计学习的目的是对数据进行预测与分析; 4 统计学习以方法为中心,以统计学习方法构建模型井应用模型进行预测与分析; 5 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
-- 统计学习的目的是对数据进行预测和分析。
按模型分类: *概率模型与非概率模型:P(Y|X)和f(X)。 *线性模型和非线性模型:f(X)是否为线性函数。 *参数模型和非参数模型:参数是否固定。
从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对己知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测:最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。
监督学习目的是学习一个由输入到输出的映射,称为模型。模式的集合就是假设空间。
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
2.2.1 损失函数:
损失函数:一次预测的好坏 在监督学习中,对于一个输入X,会得出特定的输出f(X), 该输出值可能与真实的输出Y不一致,用一个损失函数或代价函数来度量错误的程度。
损失函数值越小,模型就越好。
2.2.2 风险函数:
风险函数(期望风险、期望损失):平均意义下模型预测的好坏 ① 经验风险最小化 ② -- 结构风险最小化:为防止过拟合提出的策略,等价于正则化,加入正则化项,或罚项。
学习的目标就是选择期望风险最小的模型。
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
当损失函数给定时,基于损失函数的训练误差和测试误差就称为学习模型评估的标准。
*过拟合:训练误差小、测试误差大、模型复杂度高 过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。 训练误差较小 测试误差较大 模型复杂度较高 *欠拟合:模型的训练误差较大的现象
学习时就要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小化的学习目的。
常用的模型选择方法:正则化与交叉验证。
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项( regularizer )或惩罚项(penalty term) 。
简单交叉验证 S折交叉验证 留一交叉验证
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
它是样本容量的函数,当样本容量增加,泛化误差上界趋近于0;
同时它是假设空间的函数,假设空间越大,模型越难选择,误差上界就越大。
监督学习方法:生成方法——生成模型
判别方法——判别模型
生成方法是由数据学习联合概率分布,然后求出条件概率分布作为预测模型,即生成模型。
该模型给定了输入、输出的生成关系,因此称为生成方法。
典型的生成模型有【朴素贝叶斯法】和【隐马尔可夫模型】。
特点:还原出联合概率分布,收敛速度更快。
判别方法是直接学习决策函数或者条件概率分布作为预测模型,即判别模型。
判别方法关心的是对给定的输入X ,应该预测什么样的输出Y 。
K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场都是判别模型。
特点:直接学习输入输出关系,准确率更高。
生成方法:可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型。 判别方法:直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程。
最小化平方损失函数
随机梯度下降法
1.确定学习率; 2.确定参数起始点; 3.计算参数的下一组值; 4.确认成本函数是否收敛。
决策树和随机森林是两种少有的不必担心特征比例调整的机器学习算法。这两种算法不随特征比例的影响。
4.1归一化
归一化通常指的是把特征的比例调整到[0,1]区间,这是最小最大比例调整的一种特殊情况。
4.2标准化
标准化是另一种特征尺度调整方法来加快收敛,它可以使数据具有标准正态分布的特性,有助于梯度下降学习。标准化可以改变每个特征的平均值以使其居中为零,而且每个特征的标准偏差为1。例如,标准化第j个特征,可以简单地从每个训练样本减去平均值,然后除以标准偏差σj:
在梯度下降法的迭代中,除梯度值本身的影响外,每一次取的步长λ也很关键:步长值取得越大,收敛速度就越快,但是带来的可能后果就是容易越过函数的最优点,导致发散;步长值取得太小时,算法的收敛速度又会明显降低。因此,我们希望找到一种比较好的平衡方法。 为解决上述两个问题,引入了随机梯度下降法 * 将固定步长λ改为动态步长λ_K * 引入随机样本抽取方式,即每次选代只是随机取了训练集中的一部分样本数据进行梯度计算
正则化是通过添加惩罚项解决过拟合问题的一种方法,正则线性回归最常用的方法包括所谓的岭回归(L2正则化)与选择算子(LASSO)(L1正则化)。
6.1 L1正则化(选择算子)
L1正则化的惩罚项是模型参数的一范数。
6.2 L2正则化(岭回归)
L2正则化的惩罚项是模型参数向量的二范数的平方。 L2正则化是通过惩罚权重大的个体来降低模型复杂度的一种方法
因为我们的模型会一直记住整个训练集,所以,对于训练集中的任何数据点总会预测成正确的标签。这种记忆无法告诉我们模型的泛化能力如何,即预测新样本的能力如何。我们要用新数据来评估模型的性能。 训练集用来构建机器学习模型,测试集用来评估模型性能。
1.1逻辑回归与线性回归的联系与区别
联系: 逻辑回归本质上还是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数sigmoid函数g(z)将连续结果值映射到(0,1)之间 区别: 线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。 线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。 线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系。 logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系。
1.2预测函数——sigmoid函数
1.3代价函数——对数似然函数
线性回归里面我们采用的是平方损失函数作为代价函数,在逻辑回归里不能采用平方损失函数,这样函数太复杂,难以通过经典的凸优化方法来求解模型参数。
暂未总结
1.计算测试对象到训练集中每个对象的距离 2.按照距离的远近排序 3.选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居 4.统计这k个邻居的类别频次 5.k个邻居里频次最高的类别,即为测试对象的类别
k值是KNN算法的一个超参数,K的含义即参考”邻居“标签值的个数。 有个反直觉的现象,K取值较小时,模型复杂度(容量)高,训练误差会减小,泛化能力减弱;K取值较大时,模型复杂度低,训练误差会增大,泛化能力有一定的提高。 原因是K取值小的时候(如k==1),仅用较小的领域中的训练样本进行预测,模型拟合能力比较强,决策就是只要紧跟着最近的训练样本(邻居)的结果。但是,当训练集包含”噪声样本“时,模型也很容易受这些噪声样本的影响(如图 过拟合情况,噪声样本在哪个位置,决策边界就会画到哪),这样会增大"学习"的方差,也就是容易过拟合。这时,多”听听其他邻居“训练样本的观点就能尽量减少这些噪声的影响。K值取值太大时,情况相反,容易欠拟合。 对于K值的选择,通常可以网格搜索,采用交叉验证的方法选取合适的K值。
硬间隔最大化
软间隔最大化
核技巧,转高维 常见的核函数: 1.线性核函数 2.多项式核函数 3.高斯核函数
1. 初始化权值向量和偏置变量; 2. 在训练集中随机选取样本,若被误分类,则采用梯度下降法进行模型参数的更新; 3. 转至2,直到没有误分类点。
1. 初始化权值向量和阈值; 2. 在训练集中选取样本,并将输入数据逐层前传,直到产生输出结果; 3. 计算输出层、隐层神经元的梯度项,并利用梯度下降法更新权值和阈值; 4. 转至2,直到训练误差足够小。
硬聚类方法:如果一个聚类方法假定一个样本只能属于一个类,或类的交集为空集,那么该方法称为硬聚类(hard clustering)方法。 软聚类方法:如果一个样本可以属于多个类,或类的交集不为空集,那么该方法称为软聚类(soft clustering)方法。
1)随机选取k个点作为各个簇的中心点; 2)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇中; 3)根据簇中已有的样本点,重新计算簇中心; 4)重复2、3。
暂未总结
暂未总结