ML之小概念

1、半监督

半监督学习有两个样本集,一个有标记,一个没有标记.分别记作
Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L

1).单独使用有标记样本,我们能够生成有监督分类算法
2).单独使用无标记样本,我们能够生成无监督聚类算法
3).两者都使用,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果.

一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果.

下面几个图来生动形象地诠释半监督的好处:

上图中,只有两个标记样本,X,O,剩下绿点是无标记的样本.通过无标记样本的加入,原来的分类界限从0移到了0.5处,更好地拟合了样本的现实分布.

2、休斯（Hughes）”现象或者“休斯”效应：虽然新增加的特征导致负面影响增加了特征提取与分类器的计算复杂度，但通常分类器的性能在一定程度上能够得到改善。在实际应用中，特征维数增加到某一个临界点后，继续增加反而会导致分类器的性能变差。这种现象称为“休斯（Hughes）”现象或者“休斯”效应。

3、回归分析（mine：找某种相关性）：很大的概念，研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。应用回归预测法时应首先确定变量之间是否存在相关关系.如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

4、拟合（mine：给定某种相关性，去拟合关系中的参数）：所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1,λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。

如果待定函数是线性,就叫线性拟合或者线性回归(主要在统计中),否则叫作非线性拟合或者非线性回归。表达式也可以是分段函数,这种情况下叫作样条拟合。

总结：除了回归分析是研究相关性，是最大的概念，平时的回归就当做是拟合，对已知函数的参数估计，使得误差最小，但是说大了，都说是去回归，说到直线啥的，都说是去拟合，eg.直线拟合。比如有人说回归：回归就是对已知公式的未知参数进行估计。比如已知公式是y=a∗x+by=a∗x+b，未知参数是a和b，利用多真实的(x,y)训练数据对a和b的取值去自动估计。

5、独热编码（one-hotencoding）

独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

例如：

自然状态码为：000,001,010,011,100,101

独热编码为：000001,000010,000100,001000,010000,100000

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

6、先验概率，后验概率：

7、流形学习的基本思想（流行结构就是高维的数据具备某些结构特征）

流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。

以下图为例[1]，左边是一个三维数据的分布，右边是降低到二维后的结果。我们可以发现二维的数据更能直观地表示其流形结构。

��通过流形学习来实现降维的方法有很多，其基本思想也类似：假设数据在高维具有某种结构特征，希望降到低维后，仍能保持该结构。

8、欧几里得空间：约在公元前300年，古希腊数学家欧几里得建立了角和空间中距离之间联系的法则，现称为欧几里得几何。欧几里得首先开发了处理平面上二维物体的“平面几何”，他接着分析三维物体的“立体几何”，所有欧几里得的公理被编排到几何原本。

这些数学空间可以被扩展来应用于任何有限维度，而这种空间叫做n维欧几里得空间（甚至简称维空间）或有限维实内积空间。

这些数学空间还可被扩展到任意维的情形，称为实内积空间（不一定完备），希尔伯特空间在高等代数教科书中也被称为欧几里得空间。为了开发更高维的欧几里得空间，空间的性质必须非常仔细的表达并被扩展到任意维度。尽管结果的数学非常抽象，它却捕获了我们熟悉的欧几里得空间的根本本质，根本性质是它的平面性。另存在其他种类的空间，例如球面非欧几里得空间，相对论所描述的四维时空在重力出现的时候也不是欧几里得空间。

9、流形（Manifold），是局部具有欧几里得性质的空间。欧几里得空间就是最简单的流形的实例。地球表面这样的球面则是一个稍微复杂的例子。一般的流形可以通过把许多平直的片折弯并粘连而成。

流形在数学中用于描述几何形体，它们提供了研究可微性的自然的舞台。物理上，经典力学的相空间和构造广义相对论的时空模型的四维伪黎曼流形都是流形的实例。他们也用于位形空间（configuration space）。环面（torus）就是双摆的位形空间。

我们可以把几何形体的拓扑结构看作是完全“柔软”的，因为所有变形（同胚）会保持拓扑结构不变；而把解析簇看作是“硬”的，因为整体的结构都是固定的。例如一个1维多项式，如果你知道（0,1）区间的值，则整个实属范围的值都是固定的，局部的扰动会导致全局的变化。我们还可以把光滑流形看作是介于两者之间的形体：其无穷小的结构是“硬”的，而整体结构则是“柔软”的。这也许是中文译名流形的原因（整体的形态可以流动）。该译名由著名数学家和数学教育学家江泽涵引入。这样，流形的硬度使它能够容纳微分结构，而它的软度使得它可以作为很多需要独立的局部扰动的数学和物理的模型。

流形可以视为近看起来象欧几里得空间或其他相对简单的空间的物体。例如，人们曾经以为地球是平坦的，因为我们相对于地球很小，这是一个可以理解的假象。所以，一个理想的数学上的球在足够小的区域也像一个平面，这使它成为一个流形。但是球和平面有很不相同的整体结构:如果你在球面上沿一个固定方向走，你最终回到起点，而在一个平面上，你可以一直走下去。

9、分类(Classification)就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。
聚类(Clustering)是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因

ML之小概念

你可能感兴趣的:(ML之小概念)