6.1.1机器学习的概念
机器学习的定义是基于人的学习的,由于学习没有统一的定义,机器学习也没法给出严格的定义
从学科角度来讲,机器学习是研究如何让计算机来模拟人类学习活动的一门学科
机器学习的主要研究内容:
①认知模型的研究
主要目的是要通过对人类学习机理的研究和模拟,从根本上解决机器学习方面存在的种种问题
②理论学习的研究
主要目的是要从理论上探索各种可能的学习方法,并建立起独立于具体应用领域的学习算法
③面向任务的研究
主要目的是要根据特定任务的要求,建立相应的学习系统
6.1.2机器学习的发展历史
(3)复兴时期
20世纪70年代中期到80年代中期,人们开始把机器学习与各种实际应用相结合,尤其是专家系统在知识获取方面的需求
(4)蓬勃时期
自1986年起,机器学习进入了新阶段。神经网络的研究再度兴起,使得机器学习进入了连接学习的研究阶段,与此同时,传统的符号学习研究也取得了很大的发展。因此,把符号学习和连接学习结合起来的混合型学习系统研究已成为机器学习研究的一个新的热点
6.1.3学习系统的基本模型
学习环节是将外界信息加工成知识的过程
知识库是以某种形式表示的知识的集合,用来存放学习环节所得的知识
执行环节是利用知识库中的知识完成某种任务的过程,并把完成任务过程中所获得的一些信息反馈给学习环节
6.1.4学习策略
将机器学习的学习策略分为:记忆学习、类比学习、传授学习、演绎学习、归纳学习和联络学习等
记忆学习的基本过程是:执行元素每解决一个问题,系统就记住这个问题和它的解,当以后再遇到此类问题时,系统就不必重新进行计算,而可以直接找出原来的解去使用
6.3.1示例学习
示例学习又称实例学习,它是通过环境中若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法
(1) 示例空间
在双空间模型中,实例空间所要考虑的主要问题包括两个:一是示教例子的质量,另一个是实例空间的搜索方法。解释例子的目的是从例子中抽取出用于搜索规则空间的信息,也就是把示教例子变换成易于进行符号归纳的形式。选择例子就是确定需要哪些新的例子和怎样得到这些例子
(2)规则空间
规则空间的目的是指定表示规则的操作符和术语,用以描述和表示规则空间中的规则,与之相关的两个问题是对规则空间的要求和规则空间的搜索方法
归纳学习方法可分为以下两大类:
①单概念学习方法
典型的单概念学习系统包括米切尔(Tom Mitchell)的基于数据驱动的变形空间法,昆兰(J.R. Quinlan)的ID3方法,狄特利希(T.G. Dietterich)和米哈尔斯基(R.S. Michalski)提出的基于模型驱动的Induce算法
②多概念学习方法
典型的多概念学习方法和系统有米哈尔斯基的AQ11、DENDRAL和AM程序等。多概念学习任务可以划分成多个单概念学习任务来完成
多概念学习与单概念学习的差别在于多概念学习方法必须解决概念之间的冲突问题
6.3.2观察与发现学习
(1)定义
决策树是一种由节点和边构成的用来描述分类过程的层次数据结构。每个节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。在决策树种,从根节点到叶节点的每一条路径都代表一个具体的实例,并且同一路径上的所有属性之间为合取关系,不同路径之间为析取关系
例:从中可以看出一个客户是否购买计算机,用它预测某个人的购买意向
①还可以表示成规则形式:
IF age=youth AND income=high THEN 该客户会购买计算机
IF age=youth AND income=low THEN 该客户不会购买计算机
IF age=meddle aged THEN 该客户会购买计算机
IF age=senior AND credit_rating=fair
THEN 该客户不会购买计算机
IF age=youth AND credit_rating=excellent THEN 该客户会购买计算机
②ID3算法