中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版
第1章 机器学习概述
1.机器学习的发展历史上有哪些主要事件?
解:机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几个阶段。
知识推理期时,Herbert Simon和Allen Newell实现的自动定理证明系统Logic Theorist证明了逻辑学家Rusell和Whitehead编写的《数学原理》中的52条定理,并且其中一条定理比原作者所写更加巧妙。
20世纪70年代开始,人工智能进入知识工程期,E.A.Feigenbaum作为知识工程之父在1994年获得了图灵奖。
浅层知识期,马文·明斯基提出了著名的XOR问题和感知器线性不可分的问题。但是随着最近邻等算法的相继提出,浅层模型在模型理解、准确率、模型训练等方面被超越,机器学习的发展几乎处于停滞状态。
2006年,Hinton发表了深度信念网络论文,Bengio等人发表了“Greedy Layer-Wise Training of Deep Networks”论文,LuCun团队发表了“Efficient Learning of Sparse Representations with an Energy-Based Model”论文,这些事件标志着人工智能正式进入了深层网络的实践阶段,同时云计算和GPU并行计算为深度学习的发展提供了基础保障,特别是最近几年,机器学习在各个领域都取得了突飞猛进的发展。
2.机器学习有哪些主要的流派?它们分别有什么贡献?
解:主要包括了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。
符号主义起源于逻辑学、哲学,实现方法是用符号表示知识,并用规则进行逻辑推理,其中专家系统和知识工程是这一学说的代表性成果。符号主义流派认为知识是信息符号的表示,是人工智能的基础,将这些符号输入到计算机中进行模拟推理,从而实现人工智能。
贝叶斯定理是概率论中的一个定理。贝叶斯学习已经被应用于许多领域。例如,自然语言中的情感分类、自动驾驶和垃圾邮件过滤等。
联结主义起源于神经科学,主要算法是神经网络,由大量神经元以一定结构组成。神经元是一种看起来像树状的细胞,它由细胞体和细胞突起构成,在长的轴突上套有一层鞘,组成神经纤维,它的末端的细小分支叫做神经末梢。每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突,可以把兴奋从胞体传送到另一个神经元或其他组织,神经元之间是互相连接的,这样形成了一个大的神经网络,人类所学会的知识几乎都存在其中。
在微观上,DNA是线性串联编码,进化过程是基因交叉、突变的过程。宏观上,进化过程是生物个体适应环境的优胜劣汰的过程。只能要适应不断变化的环境,通过该对进化的过程进行建模,产生智能行为。进化算法(Evolutionary Alogrithm,EA)是在计算机上模拟进化过程,基于“物竞天择,适者生存”的原则,不断迭代优化,直到找到最佳的结果。遗传算法的优化要视具体情况进行算法选择,也可以与其他算法相结合,对其进行补充。
根据约束条件来优化函数,行为类推主义者倾向于通过类比推理获取知识和理论,将未知情况与已知情况建立对应关系,在实际应用中,就是计算它们之间的相似度,然后定义关联关系。
3.简述机器学习与人工智能的关系。
解:机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。
4.简述机器学习与数据挖掘的关系。
解:数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的进行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术。
5.简述机器学习与数据科学、大数据分析等概念的关系。
解:数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。大数据分析即是后者的一个部分。一般使用机器学习这个工具做大数据的分析工作,也就是说机器学习是我们做大数据分析的一个比较好用的工具,但是大数据分析的工具并不止机器学习,机器学习也并不只能做大数据分析。
6.机器学习有哪些常用的应用领域?举例说明其应用。
解:机器学习应用的典型领域包括了艺术创作、金融领域、医疗领域、自然语言处理、网络安全、工业领域、娱乐行业。
卷积神经网络(CNN)等对图像进行处理具有天然的优势,通过模拟人类视觉处理过程,辅以计算机视觉处理技术,机器学习在图像处理领域应用广泛,除了图像识别、照片分类、图像隐藏等,最近几年图像处理方面的创新应用已经涉及了图片生成、美化、修复和图片场景描述等。
在信用评分方面,用用评分模型评估信贷过程中的各类风险,并对其进行监督,基于客户的职业、薪酬、所处行业、历史信用记录等信息确定客户的信用评分,不仅可以降低风险还可以加快放贷过程,减少尽职调查的工作量,提高工作效率。
对脑外科医生而言,术中病理分析往往是诊断脑肿瘤的最佳方式之一,而这一过程耗时较长,容易延误正在进行的脑部手术。科学家开发出机器学习系统,能够将未经处理的大脑样本进行“颜色”,提供非常精确的信息,效果与病理分析的一样,通过它诊断脑瘤的准确率和使用常规组织切片的准确率几乎相同,对身处手术中的脑瘤患者来说至关重要,因为它极大地缩短了诊断的时间。
自然语言处理属于文本挖掘的范畴,融合了计算机科学、语言学、统计学等基础学科。自然语言处理设计的翻出包括了自然语言理解和自然语言生成,其中前者包括文本分类、自动摘要、机器翻译、自动问答、阅读理解等,目前在这些方面取得了较大的成就,但是自然语言生成方面成果不多,具备一定智能且能商用的产品很少。
在垃圾邮件过滤系统中,如何提升过滤的准确性一直是一个难题。传统的机器学习算法包括贝叶斯分类器、支持向量机等分类算法,对正常和垃圾邮件中的文本内容应用自然语言处理技术提取特征,并训练分类器判断垃圾邮件。
将深度学习算法应用到工业机器人上,可大幅提升作业性能,并实现制造流程的自动化和无人化。例如,用于商品或零件分拣,使用分类算法对商品进行识别,同时可以采用加强化学习算法来实现商品的定位和拣起动作。
美国波士顿的Pilot Movies公司使用算法来预测票房,把要预测的电影拿来和1990年以来的每一部电影进行比较,预测准确度可以超过80%。例外,把AI和大数据应用到分析娱乐行业的其他方面,例如,分析观众愿意为哪些内容付费等。
7.机器学习能解决哪些问题?解决每一类问题使用的常用方法有哪些?举例说明其应用。
解:机器学习主要解决分类问题、聚类问题、关联分析、回归分析和深度学习。
分类问题的解决办法主要包括了决策树、支持向量机、最近邻算法、贝叶斯网络和神经网络。
聚类算法主要包括了BIRCH算法、CURE算法、K-均值算法、DBSCAN算法和OPTICS算法。
关联分析主要包括了Apriori算法、FP-growth算法和Eclat算法。
回归分析主要包括了线性回归、逻辑回归、多项式回归、岭回归和LASSO回归。
深度学习包括首先玻尔兹曼机、深度信念网、卷积神经网络、层叠自动编码器、深度神经网络、循环神经网络和对抗神经网络。
8.举例说明机器学习的基本过程,并举例说明各步骤使用的方法。
解:机器学习的基本过好层包括了定义分析目标、收集数据、整理预处理、数据建模、模型训练、模型评估和模型应用几个部分。
应用机器学习解决实际问题,首先需要明确目标任务,这是机器学习算法选择的关键。明确需解决的问题和业务需求,才可能基于现有数据设计或选择算法。
数据要有代表性并尽量覆盖领域,否则容易出现过拟合或欠拟合。
获取数据后,不必急于创建模型,可先对数据进行一些探索,了解数据的大致结构、数据的数据冗余等。
应用特征选择方法,可以从数据中提取出合适的特征,并将其应用于模型中得到较好的结果。
在模型训练过程中,需要对模型超参数进行调整。
使用训练数据构建模型后,需使用测试数据对模型进行测试和评估,测试模型对新数据的泛化能力。
模型应用主要与工程实现的相关性比较大。
9.讨论数据数量和质量对机器学习的影响。
解:机器学习需要一定数量的数据作为支撑。数据量过多会耗费更多的计算资源,还可能有不平衡数据集、维度灾难等问题。数据量过少会导致机器学习的准确率下降,甚至不能完成学习的目标。数据数量和质量问题会导致过拟合或欠拟合的现象,优秀的数据集对机器学习的将诶过影响是决定性的。
10.讨论深度学习发展对推动机器学习的意义。
解:深度学习需要大量的标记数据并需要大量的计算能力,因此深度学习可以较好地应对机器学习中大规模数据集,为机器学习提供了解决复杂问题的方法。
11.讨论目前机器学习应用中存在的主要问题。
解:例如选择什么模型或算法、选择什么优化方法、如何对数据进行预处理、目标函数是什么、过拟合与欠拟合的处理和维度爆炸等。
12.从机器学习的发展过程讨论其未来的发展方向。
解:新的机器学习算法面临的问题更加复杂,应用领域更加广泛,从广度到深度发展,对模型训练和应用偶读提出了更高的要求。随着人工智能的发展,冯诺依曼的有限状态机的理论基础越来越难以适应神经网络的层数要求,新的机器学习理论发展也迫在眉睫。