笔记整理:西瓜书——第1章:绪论

不知不觉就研一下啦,想了想,作为一个专硕狗也要开始考虑工作和实习了,不过在这之前打算先花那么一两个月再刷刷书。看书必然要做笔记,但是做笔记最痛苦的经常是:嗯,笔记做了,短时间还记得,过了一段.......笔记不见了,东西也基本忘光了(经常发生)。想了想,就在博客稍微记一下吧。


因为本渣的专攻方向为机器学习和深度学习,西瓜书和Benjor那本蓝皮书算得上必备之本。就把两本书的大致笔记做一下吧。先刷西瓜书,再刷蓝皮书,此贴为证!

第一次写博客,思绪稍微有点乱,权当自己看看吧


总结:

第一章其实没什么难度,就是讲了一下术语相关的东西(完全只靠记),但是因为机器学习相关的术语还是很多都还没固定好,往往同一个东西有多个同义词和近义词,所以看论文的时候如果忘了或者区分不了真的会特别特别的痛苦(特别是区分同义词和近义词方面),所以认真刷一下还是很有必要的。


重要概念:

机器学习定义:假设用P来评估计算机程序在某项任务T上的性能,若一个程序通过利用经验E在T中任务上获得了性能的改善,则我们就说关于T和P,该程序对E进行了学习。(这个概念在西瓜书上作者也说了是引用Mitchell上,事实上Mitchell也写过一本机器学习的书(上学期的教材),但是严重不推荐初学者进行学习,在那本书上将很多概念讲得过于抽象,而且20多前的老书,很多概念都已经发生了变化,但是对机器学习的定义个人感觉到目前为止还是无法超越的)


假设:学的模型对应数据的某种潜在的规则。其实一般我们学到的表示是:y=f(x);在机器学习上我们则经常表示为y=h(x)。其实这里的h和f等价(历史遗留问题),简单理解为假设就是我们所学到的函数即可。


样例(example):拥有标记(label)信息的实例。标记对应的是标记空间(label space)/输出空间。与下文的样本空间对应。


机器学习的分类:大体上可以分类为有监督学习(根据标记可分为分类和回归),无监督学习(如聚类,此时的每个组称为一个簇)。但有的教材还有半监督学习,强化学习等等。


概念学习:要求从训练数据中学得概念。其实就是学习过程看做在所有假设组成的空间中进行搜索的过程(具体有很多种算法)。但是目前流行的基本都是各种黑箱模型,如深度学习(本渣主要研究方向)。


归纳偏好:算法在学习过程中对某种类型假设的偏好。特别特别的重要,特别是后面的决策树选择中,如奥卡姆剃刀原理。在没有偏好的过程中我们甚至无法对模型进行建模。


NFL(没有免费的午餐定理):无论算法A多聪明,算法B多笨拙,期望性能相同。因此如果抛开特定的问题是不存在绝对好和绝对差的算法,因此,也不用说学了深度学习,决策树就没有用啦之类的,事实上,现在树形结果的算法在一般在结构化数据方面往往胜过如今最流行的深度学习算法。


同义词(近义词):

模型/模式:模型代表学到的整体,模式则是指局部性结果(一条规则)


示例(instance)/样本(sample)/特征向量(feature vector):基本指的是同一个东西,一个XXX可以理解为一条数据即可


属性(attribute)/特征(feature):同一个东西,数据表中的一列,事实上在大多数论文中经常引入“特征”一词,刚开始的时候经常也搞混


属性空间(attribute space)/样本空间(sample space)/输入空间:其实输入空间这概念在我没刷西瓜书之前都不清楚,这里简单理解为每个属性的所有取值对应的空间即可。


此外本章还有一些历史故事之类的,感觉就当故事看看就行。

你可能感兴趣的:(机器学习)