总结第一章

目录:

1.1整体大纲

1.2基本术语

1.3假设空间

1.4归纳偏好


1.1机器学习的整体大纲:

经验与模型的关系:经验(在计算机系统中,叫数据)产生模型(学习算法),学习算法利用经验(数据)提供相应的判断。

按照我的理解,就是整合数据和分析数据的一个过程。我们通过算法、模型来对数据(足够多)进行分析和作出判断。应该把重点放在模型上面,即如何选择适合的算法、模型。

1.2基本术语的解释

"色泽" "根蒂" "敲声",称为")副主" (attribute) 或"特征" (feature);

 属性上的取值,例如"青绿" "乌黑",称为")副主值" (attribute va1ue). 

属性行成的空间称为"属性空间" (attribute space)、 "样本空间" (samp1e space)或"输入 空间"

D = {Xl,X2.., Xm} }表示包含 m 个示例的数据集,每个示例集由d个属性,每个示例Xi=(Xi1,Xi2,……Xid),Xij是Xi在第i个属性上的取值。

拥有了标记信息的示例,则称为"样例" (examp1e). 一般地,用(Xi, Yi) 表示第 4 个样例,其中执 y属于Y 是示例 Xi 的标记, Y 是所有标记的集合, 亦称"标记空间"或"输出空间

监督学习和无监督学习:学习任务可以分为两类,监督学习(分类、回归,有标记)和无监督学习(聚类,无标记)

分类:预测的是离散值,如“好瓜”“坏瓜”(回归是对真实值的一种逼近预测)

回归:预测的是连续值,如西瓜成熟度0.65,0.78(分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的)

聚类:学习算法在做聚类分析的时候是自动产生的类别,“浅色瓜”“深色瓜”这样的概念我们事先是不知道的,样本无标记信息

特征向量:即示例,反映事件或对象在某方面的性质。例如:西瓜的色泽,敲声

二分类:正类,反类。样本空间——>输出空间;输出空间={+1,-1}或{0,1}

多分类:|输出空间|>2


1.3假设空间

假设空间:每种特征的组合都认为是一个假设(hypothesis),所有假设的集合我们称之为假设空间。如果“色泽”,“根蒂”,“敲声”分别有3,2,2种可能,(每种特征值都要加一种任意值可能)那么假设空间的规模就是4x3x3 + 1 = 37。最后结果加1是由于存在一种可能就是根本没有“好瓜”这个概念,或者说“好瓜”跟这些特征都没有关系。

假设的表示一旦确定,假设空间及其规模大小就确定了. 这里我们的假设空间由形如"(色泽=?)八(根蒂=?) ^ (敲声=?)"的可能取值 所形成的假设组成


图1.1


1.4归纳偏好

归纳偏好:如果没有偏好,所有的假设都是等效的,那么输出的判断将会没有意义。

如何选择好的算法?

第一,

奥卡姆剃刀原则:(若有多个假设与观察一致,则选最简单的那个);


选择A

奥卡姆剃刀不适用:在问题出现的机会相同,所有问题同等重要,对于任意两个学习算法,其总误差相等,期望值相同。

第二,

NFL定理:算法不是万能的,具体问题具体分析。


你可能感兴趣的:(总结第一章)