训练集(Training set)
作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。
验证集(Cross Validation set)
作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的参数,即用来调整模型参数。如svm中的参数c和核函数等。
测试集(Test set)
通过训练集和验证集得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价。
回归任务,是对连续值进行预测(比如多少);
分类任务,是对离散值进行预测(比如是不是,属不属于,或者属于哪一类)。
监督学习(supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
无监督学习 (unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
半监督学习其不需要额外的“专家知识”,没有额外信息,仅利用未标记样本来提高泛化性能。
强化学习C reinforcement learning) 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process) ,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
弱监督通常分为三种类型:不完全监督、不确切监督、不准确监督
不完全监督,指的是训练数据只有部分是带有标签的,同时大量数据是没有被标注过的。这是最常见的由于标注成本过高而导致无法获得完全的强监督信号的情况。
不确切监督,即训练样本只有粗粒度的标签。例如,针对一幅图片,只拥有对整张图片的类别标注,而对于图片中的各个实体(instance)则没有标注的监督信息。
不准确监督,即给定的标签并不总是真值。出现这种情况的原因有很多,例如:标注人员自身水平有限、标注过程粗心、标注难度较大。
损失函数的作用:衡量模型模型预测的好坏。即用来表现预测与实际数据的差距程度。
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。
机器学习中可能的函数构成的空间称为“假设空间”。
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。
过拟合(overfitting):模型把训练集学得“太好”的时候,即把一些训练样本的自身特点当做了普遍特征;学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了。
欠拟合(underfitting):模型学习能力不足,即训练集的基本特征都没有学习出来。学习能太差,训练样本的一般性质尚未学好。
学习率太小的话,梯度下降过程会很缓慢。
学习率太大的话,梯度下降步子太大,可能永远无法到达最低点,无法收敛甚至偏离收敛。
TP:True Positive。判定为真的(positive),且判定对了(true)
TN:True Negative。判定为假的(negative),且判定对了
FP:False Positive。判定为真的(positive),但判定错了
FN:False Negative。判定为假的(negative),且判定错了
最小二乘法,也叫做最小平方法(LEAST SQUARE METHOD),它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最小二乘法来表达。
算法模型为了更好的拟合样本集,使其模型的拟合能力超过远远超过了问题复杂度,也就是学习模型过于复杂。
多项式系数越高,模型越复杂是因为多项式次数的增加会使得函数的拟合能力增强。随着多项式次数的增加,模型将能够更准确地拟合数据,但同时也会带来更高的过拟合风险。
矩阵的1-范数可定义为矩阵中所有元素的绝对值之和,而矩阵的L2范数是指矩阵中各元素的平方和再开均方根的结果。
L1:在优化过程中,正则化项的存在能够使那些不重要的特征系数逐渐为零,从而保留关键特征,使得模型简化。
L2:最小化参数矩阵的每个元素,使其无限接近0但又不像L1那样等于0,也能降:低模型的复杂度。
用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
当数据集D中的样本Xi由多个属性进行描述,此时称为“多元线性回归”。
复述分类任务的具体输出是根据输入的文本,判断文本属于哪个类别,并输出该类别的标签。通常会使用机器学习算法对已有的数据进行训练,然后对新的文本进行分类。输出结果可以是文本所属的类别,也可以是每个类别对应的概率。
得到的连续的输出映射到[0,1]变为概率值
核心:想办法让观察样本出现的概率最大
y是真实的标签值(正类值为1,负类值为0),y`是预测的概率值(y·∈(0,1)).它表征真实样本标签和预测概率之间的差值
其中||w||1即为矩阵的1-范数,入为1-范数项的系数。
正则化角度:
LASSO回归是在线性回归的损失函数后面加一个L1正则化项。
L1:距阵中所用元素的绝对值之和。使那些不重要的特征系数逐渐为0,从而保留关键特征,使模型简化。
正规方程角度:
LASSO回归的不同之处在于它使用L1正则化项对参数进行约束。通过修改线性回归模型的优化函数,LASSO回归可以在高维数据集中更好地处理特征选择问题。
LASSO 回归不能使用梯度下降法进行优化的原因是 L1 正则化项不是可微的,它是由绝对值函数构成的,这使得通过梯度下降法进行优化变得困难。相反,LASSO 回归通常使用坐标下降或者最小角回归等算法进行优化。
正规方程角度:
岭回归是对线性回归模型的正规方程进行修改,目的是使模型在解决过度拟合问题时更加稳定。与标准线性回归模型不同的是,岭回归在解决矩阵无法求逆的情况下,并通过添加一个偏置项使模型更具可解释性,有效地解决了多重共线性问题。
正则化角度:
Ridge回归是使用L2作为惩罚项改造线性回归损失函数模型。
L2:距阵中所用元素的平方和再求均方根。最小化参数矩阵的每个元素,使其无限接近于0但又不像L1那样等于0
k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。 k近邻法的输入为实例的特征向量对应于特征空间的点;输出为实例的类别,可以取多类。 k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。
对未知类别属性的数据集中的每个点依次执行以下操作:
①计算已知类别数据集中的点与当前点之间的距离;
②按照距离递增次序排序;
③选取与当前点距离最小的k个点;
④确定前k个点所在类别的出现频率;
⑤返回前k个点出现频率最高的类别作为当前点的预测分类
三要素:距离度量方式、k值选择、分类决策规则
即:距离待预测点的邻居的个数K;样本点之间距离的计算方式;决策函数的选择
如果选择较小的K值:
“学习”的近似误差会减小,但“学习”的估计误差会增大,噪声敏感 K值的减小就意味着整体模型变得复杂,容易发生过拟合.
如果选择较大的K值:
减少学习的估计误差,但缺点是学习的近似误差会增大. K值的增大就意味着整体的模型变得简单.
在交叉验证中,我们将数据集分为 k 个部分,每次取其中一个部分作为验证集,其余部分作为训练集。对于每个 k 值,重复上述流程并计算模型的平均误差。选择误差最小的 k 值作为模型参数。因此,可以根据最小错误来筛选出合适的 k 值。
k 近邻法中的分类决策规则往往是多数表决,即由待分类样本的 k 个邻近分类样本中的多数类决定它的类。
对于线性不可分的情况,在感知机的基础上一般有两个处理方向,其中一个就是神经网络模型。这里的神经网络模型也称多层感知机(muti-layer perception,MLP),它与单层感知机在结构上的区别主要在于MLP多了若干隐藏层,这使得神经网络能够处理非线性问题。一个两层网络(多层感知机)。
隐藏层数量指的是神经网络中隐藏层的数量,即在输入层和输出层之间的中间层的数量。隐藏层大小则是指每个隐藏层中神经元的数量。在神经网络中,较多的隐藏层数量和更大的隐藏层大小通常可以增强网络的表达能力,提高其学习和预测的准确率。但是,过多的隐藏层或者过大的隐藏层大小可能会导致网络过度拟合和过度复杂化,而影响其泛化能力和性能表现。
三大概念:反向传播、梯度下降、损失函数
神经网络训练的最基本的思想就是:先“猜”一个结果,称为预测结果 y_hat,看看这个预测结果和事先标记好的训练集中的真实结果 y_true 之间的差距,然后调整策略,再试一次,这一次就不是“猜”了,而是有依据地向正确的方向靠近。如此反复多次,一直到预测结果和真实结果之间相差无几,亦即 |y_hat-y_true|→0,就结束训练。 在神经网络训练中,我们把“猜”叫做初始化,可以随机,也可以根据以前的经验给定初始值。即使是“猜”,也是有技术含量的。
神经网络的训练思想是通过反向传播算法来调整神经元之间的连接权重,使得神经网络能够拟合出数据的模式和规律。具体来说,神经网络会根据输入数据以及其对应的标签,计算出每个神经元的输出值,然后根据损失函数来评估网络的预测结果和真实结果的差距,最后利用反向传播算法来更新权重以降低损失函数值,进而优化整个神经网络模型。
计算机视觉处理的三大任务:分割、定位、检测
早期神经网络,经典分类网络,ImageNet与经典分类网络,后ImageNet时代经典网络