机器学习西瓜书第一章总结

 机器学习:研究如何通过计算的手段,利用     经验改善系统自身的性能。
1.训练模型
  数据集:一组数据记录的集合。
  实例或样本:每条记录是关于一个事件或对      象的描述。
  属性:反映事件或对象在某方面的表现或性      质的事项。
  属性值:属性上的取值。
  属性空间、样本空间或输入空间:属性张成      的空间。
  特征向量:在上述张开空间中每个样本都能      找到自己对应的点,而每一个点都对应一个      向量坐标。
  属性值:属性上的取值。
  学习或训练:从数据中学得模型的过程。
  训练数据:这个过程通过执行某个学习算法      来完成,训练过程中使用的数据。
  训练样本:训练数据中的每个样本。
  训练集:训练样本组成的集合。
  假设:学得模型对应了关于数据的某种潜在      的规律。
  真相或真实:潜在规律自身。(学习过程就      是为了找出或逼近真相)
  学习器:模型。(可看作学习算法在给定数      据和参数空间上的实例化)

2.预测模型(如果希望学得一个能帮助我们判    断所得目标的模型,还需要要建立预测模          型,我们需获得训练样本的结果信息)
  标记:实例结果的信息。
  样例:拥有标记信息的实例。
  标记空间或输出空间:一般地用(xi,yi)表示第    i 个样例,其中yi∈Y ,是示例Xi的标记,Y
  是所有标记的集合。
3.分类与回归
  分类:若预测的是离散值,例如“好瓜” “坏      瓜”,此类学习任务。
  对只涉及两个类别的二分类" 任务,通常称其    中一个类为正类,另一个类为反类;涉及多    类    别时,则称为多分类任务。
  回归:若预测的是连续值,例如西瓜成熟度      0.95、0.37,此类学习任务。
  测试:学习得模型后,使用其进行预测的过      程。
  测试样本:被预测的样本。
4.聚类
  聚类:将训练集中的样本分成若干组,每组      称为一个簇;这些自动形成的簇可能对应一些    潜在的概念划分,
  有助于了解内在规律,便于建立分析基(1).需    说明的是,在聚类学习中,“本地人” “外地      人"这样的概念我们事先是不知道的(2). 学习      过程中使用的训练样本通常不拥有标记信息
5.学习任务分类
  监督学习: 训练数据拥有标记信息(分类和回    归)
  无监督学习: 训练数据未拥有标记信息(聚        类)
6.假设空间
  泛化能力:学得模型适用于新样本的能力(具有    强泛化能力的模型能很好地适用于整个样本      空间)
  独立同分布:通常假设样本空间中全体样本服   从一个未知分布D.(训练样本越多,得到的关   于 D 的信息越多,这样就越有可能通过学习获   得具有强泛化能力的模型)

 归纳: 是从特殊到一般的泛化过程,即从具       体的事实归结出一般性规律。
(广义的归纳学习大体相当于从样例中学习)
(狭义的归纳学习则要求从训练数据中学得概   念,因此亦称为“概念学习”或 “概念形成”)
 演绎: 则是从一般到特殊的特化过程,从基础   原理推演出具体状况。
7.归纳偏好
  奥卡姆剃刀原则: 若有多个假设与观察一致,      则选最简单的那个
  没有免费的午餐定理(简称NFL定理):无      论学习算法a多聪明、学习算法b多笨拙,它    们的期望性能是相同的。

 

你可能感兴趣的:(机器学习)