机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。随着各行业对数据的需求量增多,对处理和分析数据的效率要求变高,一系列机器学习算法应运而生。机器学习算法主要是指通过数学及统计方法求解最优化问题的步骤和过程。针对不同的数据和不同模型需求,选择和使用适当的的机器学习算法可以更高效地解决一些实际问题。本文将从机器学习的起源出发,逐步介绍70多年来机器学习领域的若干重大突破及国内外研究现状,并指出未来机器学习算法面临的挑战。
机器学习最早可以追溯到对人工神经网络的研究。1943年,Warren McCulloch和Wallter Pitts提出了神经网络层次结构模型[1],确立了神经网络的计算模型理论,从而为机器学习的发展奠定了基础。1950年,“人工智能之父”图灵提出了著名的“图灵测试”,使人工智能成为了科学领域的一个重要研究课题。
1957年,康奈尔大学教授Frank Rosenblatt提出了Perceptron概念,并且首次用算法精确定义了自组织自学习的神经网络数学模型,设计出了第一个计算机神经网络。这个机器学习算法成为了神经网络模型的开山鼻祖[2]。1959年美国IBM公司的A.M.Samuel设计了一个具有学习能力的跳棋程序,曾经战胜了美国保持8年不败的冠军。这个程序向人们初步展示了机器学习的能力。
1962年,Hubel和Wiesel发现了猫脑皮层中独特的神经网络结构可以有效降低学习的复杂性,从而提出著名的Hubel-Wiese生物视觉模型,这之后提出的神经网络模型均受此启迪。
1969年,人工智能研究的先驱者Marvin Minsky和Seymour Papert出版了对机器学习研究有深远影响的著作《Perceptron》,其中对于机器学习基本思想的论断:解决问题的算法能力和计算复杂性,影响深远且延续至今。
1980年夏,在美国卡内基梅隆大学举行了第一届机器学习国际研讨会,标志着机器学习研究在世界范围内兴起。1986年,《Machine Learning》创刊,标志着机器学习逐渐为世人瞩目并开始加速发展。
1986年,Rumelhart,Hinton和Williams联合在《自然》杂志发表了著名的反向传播算法(BP)。1989年,美国贝尔实验室学者Yann和LeCun教授提出了目前最为流行的卷积神经网络(CNN)计算模型,推导出基于BP算法的高效训练方法,并成功地应用于英文手写体识别。
进入90年代,多浅层机器学习模型相继问世,诸如逻辑回归,支持向量机等,这些机器学习算法的共性是数学模型为凸代价函数的最优化问题,理论分析相对简单,容易从训练样本中学习到内在模式,来完对象识别,人物分配等初级智能工作。
2006年,机器学习领域泰斗Geoffrey Hinton和Ruslan Salakhutdinov发表文章[3],提出了深度学习模型。主要论点包括:多个隐层的人工神经网络具有良好的特征学习能力;通过逐层初始化来克服训练的难度,实现网络整体调优。这个模型的提出,开启了深度网络机器学习的新时代。2012年,Hinton研究团队采用深度学习模型赢得了计算机视觉领域最具有影响力的ImageNet 比赛冠军,标志着深度学习进入第二阶段。
深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译,苹果语音工具siri,微软的Cortana个人语音助手,蚂蚁金服的Smile to Pay扫脸技术[4]。特别是2016年3月,谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGo Zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈。
1.支持向量机分类。Lau等[5]为SVM提出一种在线学习算法,用于处理按顺序逐渐提供输入数据的分类问题。该算法速度快,所用的支持向量个数少,具有强泛化能力。Laskov等[6]提出一种快速,数值稳定和鲁棒的增量支持向量机学习方法。Huang等[7]提出一种大边缘分类器,与其他大边缘分类器或局部构建分离超平面不同,该模型能局部和全局地判定边界。Kim等[8]提出适用于大数据的特征提取和分类算法。
2.决策树分类。传统决策树作为一种经典的分类学习算法,对大数据处理存在内
存开销过大的问题。Franco-Arcega等[9]提出一种从大规模数据中构造决策树的方法,解决当前算法中的一些限制条件,可利用所有的训练集数据,但不需将它们都保存在内存中。 Yang等[10]提出一种增量优化的快速决策树算法用于处理带有噪音的大数据。与传统的挖掘大数据的决策树算法相比,该算法的主要优势是实时挖掘能力,这使得当移动数据流是无限时,它能存储完整的数据用于再训练决策模型。 Ben-Haim等[11]提出一种构建决策树分类器的算法。该算法在分布式环境中运行,适用于大数据集和流数据,与串行决策树相比,在精度误差近似的前提下能提高效率。
3.神经网络与极端学习机。传统前馈神经网络一般采用梯度下降算法调整权值参数,学习速度慢、泛化性能差等问题是制约前馈神经网络应用的瓶颈。Huang等[12]摒弃梯度下降算法的迭代调整策略,提出ELM。该方法随机赋值单隐层神经网络的输入权值和偏差项,并通过一步计算即可解析求出网络的输出权值。相比于传统前馈神经网络训练算法需经多次迭代调整才可最终确定网络权值,ELM 的训练速度获得较显著提升。
聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。
在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据对象往往是大数据集,其中包含的属性数和记录数都很大,导致处理算法的执行效率低下。通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。Kolda[20]提出一种内存使用高效的Tucker分解方法用于解决传统的张量分解算法无法解决的时间和空间利用问题。Quevedo等[21]基于输入变量的有用性,采用经典技术的简单组合,如相关性和正交性,提出一种输入变量排名算法,用于大数据降维和特征提取,取得良好效果。Gheyas等[22]结合模拟退火算法、遗传算法、贪心算法及神经网络算法的优点,提出一种模拟退火和遗传算法混合算法用于解决选择最优化特征子集的NP时间问题。Pal等[23]提出一种基于SVM的用于分类的特征选择方法,Sun等[24]提出一种用于分类的特征选择算法。该算法利用局部学习理论首先将复杂的非线性问题转换为一组线性问题,然后在最大间隔的框架下学习特征关联性。Hua等[25]对比一些现有的特征选择方法,提出一种特征标签分布式模型。
机器学习及其算法在国内外备受瞩目,许多优秀的科研及技术人员致力于此。一些机器学习相关的期刊及会议应运而生,集中收录了大批高质量的论文,汇聚了一些创新性前瞻性的思想。这一部分我将以表格的形式对部分国内外杰出的致力于机器学习及其算法的研究人员,收录优秀机器学习论文的期刊及会议进行总结整理。
姓名 |
就职单位 |
研究方向 |
代表论文/书著 |
吴恩达 |
斯坦福大学教授 百度首席科学家 |
深度学习 机器学习 人工智能 |
《Deep Learning with COTS HPC Systems》,《Parsing with Compositional Vector Grammars》 |
林轩田 |
台湾大学 Appier首席数据科学家 |
机器学习 数据科学 |
《Learning from Data: A Short Course》,《Machine Learning Techniques》 |
周志华 |
南京大学教授 长江学者 杰青 |
人工智能 机器学习 数据挖掘 |
《机器学习》,《Ensemble Methods: Foundations and Algorithms》,《神经网络集成》 |
李航 |
华为诺亚方舟实验室,首席科学家,实验室主任 |
信息检索,自然语言处理,统计机器学习及数据挖掘 |
《统计学习方法》,《A Short Introduction toLearning to Rank》 |
蔡登 |
浙江大学教授 |
机器学习,计算机视觉,数据挖掘及信息检索 |
《Deep feature based contextual model for object detection》,《信息协同过滤》 |
万小军 |
北京大学教授 |
文本挖掘 自然语言处理 |
《Co-training for cross-lingual sentiment classification》,《文档聚类中k-means算法的一种改进算法》 |
吴军 |
原腾讯副总裁 |
语音识别、自然语言处理 |
《数学之美》,《浪潮之巅》,《文明之光》 |
张钹 |
清华大学人工智能研究院院长 |
人工智能理论 人工神经网络 遗传算法,模式识别 |
《Theory and Applications of Problem solving》,《人工神经网络理论及应用》 |
表1 国内机器学习杰出研究工作者(部分)
姓名 |
就职单位 |
研究方向 |
代表论文/书著 |
Yoshua Bengio |
Canadian Institute for Advanced Research |
计算机科学 人工神经网络 深度学习 |
《Learning deep architectures for AI》 |
Yann LeCun |
New York University |
机器学习 计算机视觉 移动机器人 计算神经科学 |
《Gradient-based learning applied to document recognition》 |
Alpaydin,E |
Bogaziçi University |
深度学习 机器学习 |
《Introduction to Machine Learning》 |
DavidE. Goldberg
|
University of Illinois at Urbana-Champaign |
机器学习 遗传算法 优化 |
《Genetic algorithms and machine learning》 |
Christophe Andrieu |
the University of Bristol |
统计科学 机器学习 |
《An introduction to MCMC for machine learning》 |
Robert Holte |
the University of Alberta |
机器学习 智能路由 网络信息访问 |
《Machine learning for the detection of oil spills in satellite radar images》 |
Geoffrey Hinton |
the University of Toronto |
神经网络 机器学习 |
《Imagenet classification with deep convolutional neural networks》 |
表2 国际机器学习杰出研究工作者(部分)
期
刊 |
(9)Journal of Artificial Intelligence Research |
会
议 |
(4)Asian Conference on Machine Learning (ACML)亚洲机器学习会议 (6)Neural Information Processing Systems 神经信息处理系统(NIPS) |
表3 机器学习相关期刊及会议(部分)
目前,以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹,有力地推动了人工智能的发展。但是也应该看到,它毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann LeCun在2015IEEE 计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习[26]。基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发,虽然深度学习是目前最接近人类大脑的智能学习方法,但是当前的深度网络在结构、功能、机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知,如果要真正模拟人脑的 100 多亿个神经元组成的神经系统,目前还难以实现。因此,对计算神经科学的研究也需要有很长一段路要走。此外,机器学习模型的网络结构、算法及参数越发庞大、复杂,通常只有在大数据量、大计算量支持下才能训练出精准的模型,对运行环境要求越来越高、占用资源也越来越多,这也抬高了其应用门槛。总之,机器学习方兴未艾并且拥有广阔的研究与应用前景,但是面临的挑战也不容忽视,二者交相辉映才能够把机器学习推向更高的境界。
本文从机器学习的发展简史谈起,介绍了机器学习算法现阶段的研究情况以及取得的进展,整理了国内外部分优秀学者及相关期刊会议的信息,最后探讨了机器学习面临的挑战。毋庸置疑,机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力。但是更应该看到,机器学习的发展仍然处理初级阶段,目前虽然有各种各样机器学习算法但却无法从根本上解决机器学习所面临的壁垒,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能。因此对于机器学习我们还有很长的一段路要走。
1913-1920