机器学习——周志华(1)

1.基本概念

        1)"示例" (instance) 或"样本" (sample):

        这组记录的集合称为一个"数据集" (data set) ,其中每条记录是关于一 个事件或对象的描述。

        2)"属性" (attribute) 或"特征" (feature):

        反映事件或对象在某方面的表现或性质的事项

        3)"属性空间" (attribute space) "样本空间" (sample space) 或"输入 空间":

        属性上的取值,属性张成的空间。

        4)"泛化" (generalization) 能力:
        学得模型适用于新样本的能力。

2.监督与非监督

       1)根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督学习" (supervised learning) 和"无监督学习" (unsupervised learning) ,分类和回归是前者的代表,而聚类则是后者的代表

       2) 预测的是离散值即为分类、预测的是连续值即为回归;(根据已知类别进行分类)

       3) 聚类即将训练集中的西瓜分成若干组,每组称为 个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念 划分,例如"浅色瓜"、 "深色瓜”。(能够根据特征分成不同的未知类别)
3.假设空间和版本空间
        假设空间就是每一种映射的合集,即每一种情况的合集,比如《“青绿、蜷缩、浊响”为好瓜》这是一种映射;
        
        版本空间就是与训练集一致的所有假设所构成的集合,也就是假设空间的一个最大子集,该子集内的每一个元素都不与训练集相冲突。
4.两个算法对于一个问题并没有孰优孰劣,他们的性能差距由归纳偏好决定:
        以下为数学证明:

        1)f为完美符合样本的目标函数(绝对准确映射),X表示全体训练样本,La为该归纳偏好下的算法;

        2)Eote表示:假设f为完美符合样本的目标函数,X为全体训练样本,采用La算法所带来的误差的期望;

        3)H为假设空间,\sum_{h}^{}即对假设空间里的所有h求和;

        4)\sum_{x\in \chi -X}^{}表示对训练集外的所有数据进行求和;

        5)P(x)*II(h(x)≠f(x))*P(h|X,La):目标是求误差,那些符合准确映射的假设h (h(x)=f(x))的误差自然为0;反之 (h(x)≠f(x)),对于这个集合中的一个样本而言(h0(x0)≠f(x0)),他出现的概率即为h0出现的概率×x0出现的概率(x和h相互独立,可以想象从训练集中随便取一个点和映射集里随便取一个点完全无关),故误差的期望为P(x)(这样的样本点出现的概率)×P(h|X,La)( 算法La基于训练数据 产生假设h的概率,h为假设空间H中的一个)。
(30条消息) 周志华机器学习---训练集外误差_小怪兽的博客-CSDN博客_训练集外误差icon-default.png?t=LBL2https://blog.csdn.net/qq_43465223/article/details/117261480?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&utm_relevant_index=1

你可能感兴趣的:(机器学习,人工智能,算法)