《机器学习》阅读心得--一、绪论

                      写在开始之前

一直感觉机器学习/图像处理/人工智能这些词很高端,但是始终没有真正下决心去跨入这些领域。直到前两个月,在进入科研所后感觉自己不能再做一个纯搬砖的码农,必须向学术方面发展,于是买了周志华的《机器学习》来入门。之前是零基础,以后学习的心得都会记录在博客上,算是监督自己吧!


                             《机器学习》阅读心得记录

一、绪论
机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。所研究的主要内容,是在计算机上通过数据中产生“模型”的算法,即“学习算法”。

1.1基本概念
进行学习之前,我们需要一批样本的集合(即数据集),每一个样本都包含着同样的属性。在属性张成的空间中,每个样本都可以用空间的一个点表示,因此可以称为一个特征向量。从数据集中学习到的模型都在一定程度上反映了数据的规律,因此可以称为“假设”。
我们需要获得样本的结果信息才能根据模型对未来进行预测。结果信息在这里称为“标记”,所有标记形成的空间称为“标记空间”或“输出空间”。
根据训练数据是否有标记信息,学习任务可以分成两类:“监督学习”和“无监督学习”。通俗的来讲就是有标准答案和没有标准答案的区别。分类和回归是监督学习的代表,而聚类是无监督学习的代表。
如果预测的结果是离散的,如“好”/“坏”,那么学习任务称为“分类”。如果预测的结果是连续的,那么学习任务称为“回归”。而聚类就是将样本根据一定规则分成若干组。

1.2假设空间
当样本的属性类别确定后,事实上所有假设组成的空间大小也确定了。从另外一个角度来看,学习过程可以看做是从所有假设组成的空间中进行穷举的过程,搜索的目标是与训练集匹配。
那么问题来了,如果存在多个假设与训练集匹配,但是应用到新样本的时候结果不一致,应该采用哪一个呢?这时算法本身必须要有一个“偏好”,对假设进行过滤,否则无法产生确定的学习结果。
在制定偏好方面,“奥卡姆剃刀”是一种一般性的基本原则,即“若有多个假设与观察一致,则选最简单的那个”。算法的偏好能否与问题相匹配,很大程度上直接决定了算法能否取得好的性能。
值得注意的是,数学上已经证明,如果假定所有潜在的问题出现的机会相同,那么所有学习算法的期望性能都是一样的。这就是NFL定理(No Free Launch)。所以离开具体的问题谈论什么算法更好是没有意义的,算法一定是针对具体问题的

1.3发展历程
机器学习是人工智能发展到一定阶段的产物。人工智能经历了逻辑推理时期、专家知识时期、机器学习时期。机器学习在早期被划分为:机械学习、示教学习、类比学习、归纳学习。机械学习相当于死记硬背,并没有进行真正的学习;示教学习即从指令中学习;类比学习即通过观察和发现学习;归纳学习即从样例中归纳出学习结果。目前大多数学习方式是归纳学习。
二十世纪八十年代,主要是符号主义学习,代表方法包括决策树和基于逻辑的学习。二十世纪九十年代,主要是基于神经网络的连接主义学习。连接主义学习是黑箱模型,在理论上不严谨,但是应用很成功。九十年代中期,主要是统计学习,代表技术是支持向量机(SVM)。但到了二十一世纪初,由于计算机算力、数据储量大幅提高,发源于连接主义的多层神经网络学习(深度学习)被广泛应用,取得了很好的效果。

你可能感兴趣的:(机器学习,机器学习)