在计算机出现之前人们就幻想着一种机器可以实现人类的思维,可以帮助人们解决问题,甚至比人类有更高的智力。人工智能是计算机科学的一个研究分支,是多年来计算机科学研究发展的结晶。
人工智能是使用与传统计算机系统完全不同的工作模式,它可以依据通用的学习策略,读取海量的大数据,并从中发现规律、联系和洞见,因此人工智能能够根据新数据自动调整,而无需重设程序。
目前,人工智能在金融、医疗、制造等行业得到了广泛应用。其中,机器学习是人工智能技术发展的主要方向。
01
机器学习:实现人工智能的高效方法
从广义上来说,机器学习是一种能够赋予机器学习的能力,以此让它完成直接编程无法完成的功能。但从实践的意义上来说,机器学习是通过经验或数据来改进算法的研究,通过算法让机器从大量历史数据中学习规律,得到某种模式并利用此模型预测未来,机器在学习的过程中,处理的数据越多,预测结果就越精准。
机器学习在人工智能的研究中具有十分重要的地位。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。从20世纪50年代人们就开始了对机器学习的研究,从最初的基于神经元模型以及函数逼近论的方法研究,到以符号演算为基础的规则学习和决策树学习的产生,以及之后的认知心理学中归纳、解释、类比等概念的引入,至最新的计算学习理论和统计学习的兴起,机器学习一直都在相关学科的实践应用中起着主导作用。现在已取得了不少成就,并分化出许多研究方向,主要有符号学习、连接学习和统计学习等。
• 机器学习的结构模型
机器学习的本质就是算法,算法是用于解决问题的一系列指令。程序员开发的用于指导计算机进行新任务的算法是我们今天所看到先进数字世界的基础。计算机算法根据某些指令和规则,将大量数据组织到信息和服务中。机器学习向计算机发出指令,允许计算机从数据中学习,而不需要程序员做出新的分步指令。
机器学习的基本过程是给学习算法提供训练数据。然后,学习算法基于数据的推论生成一组新的规则。这本质上就是生成一种新的算法,称之为机器学习模型。通过使用不同的训练数据,相同的学习算法可以生成不同的模型。从数据中推理出新的指令是机器学习的核心优势。它还突出了数据的关键作用:用于训练算法的可用数据越多,算法学习到的就越多。事实上,AI 的许多最新进展并不是由于学习算法的激进创新,而是现在积累了大量的可用数据。
• 机器学习的工作流程
1.选择数据:首先将原始数据分成三组:训练数据、验证数据和测试数据;
2.数据建模:再使用训练数据来构建使用相关特征的模型;
3.验证模型:使用验证数据输入到已经构建的数据模型中;
4.测试模型:使用测试数据检查被验证的模型的性能表现;
5.使用模型:使用完全训练好的模型在新数据上做预测;
6.调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现。
02
自动机器学习:将ML自动化
今天的机器学习不仅限于研发应用,而且已经进入了企业领域。不过,传统的ML流程仍依赖于人力,但并非所有企业都有资源来投资经验丰富的数据科学团队,AutoML正是解决这种困境的一种方法。
自动机器学习(AutoML)是将机器学习应用于现实问题的端到端流程自动化的过程。AutoML 使机器学习真正意义上成为可能,即使对于在该领域没有专业知识的人也是如此。
从上面介绍的ML流程可以看到,从选择数据、到数据建模,再到调优模型,每个步骤都由人来控制和执行。而AutoML主要关注三个主要方面:数据预处理、特征处理、模型训练。中间发生的所有其他步骤都可以轻松实现自动化,同时提供经过优化并准备好进行预测的模型。
• 为什么需要AutoML
在过去几年中,对机器学习系统的需求飙升。这是因为ML如今在广泛的应用中取得了成功。然而,即使有这种明确的迹象表明机器学习可以为企业提供支持,但很多公司仍在为部署ML模型而艰难地探索。
首先,他们需要建立一支由经验丰富的数据科学家组成的团队,这些科学家都要拿丰厚的薪水。其次,即使你拥有一支优秀的团队,往往需要更多的经验来决定哪种模式最适合你的问题,而不是知识。
机器学习在各种应用中的成功,促使了对机器学习系统不断增长的需求,非专家倾向于用AutoML尽可能多地自动化完成 ML中的步骤,在只需最少人力的情况下仍保持模型的性能。
• AutoML 的三大优点
1.通过自动执行的重复性任务来提高工作效率,这使得数据科学家能够更多地关注问题而不是模型;
2.自动化ML还有助于避免可能因手动操作引起的错误;
3.AutoML是向机器学习民主化迈出的一步,它使所有人都能使用ML的功能。
03
ML和AutoML在BI的应用:数据挖掘
数据挖掘利用ML技术从大量数据中挖掘出有价值的信息。对比传统的数据分析,数据挖掘揭示数据之间未知的关系,可以做一些预测性的分析,例如精准营销、销量预测、流失客户预警等等。
虽然数据挖掘学习门槛较高,但是有越来越多的软件工具支持ML模型的自动构建,也即AutoML,这些模型可以尝试许多不同的算法来找出最成功的算法。一旦通过训练数据找到了能够进行预测的最佳模型,就可以部署它,并对新的数据进行预测。
例如在Smartbi V9中推出的数据挖掘,里面的图形化建模、一键部署等功能,把数据挖掘的学习门槛降低了很多。Smartbi V10进一步降低使用难度,增加了模型对比与报告生成的功能,建模与结果对比几乎连学习成本都不需要了。
在Smartbi V10中提供AutoML功能,通过三步向导化的点选,就自动完成整个模型的构建。当对同一需求使用不同算法完成建模后,只需要一步就能生成对比报告,从中挑选出最合适的进行上线。这个功能对于客户是有很大帮助的,降低了挖掘项目的实施门槛和成本。
04
AutoML的未来
从本质上讲,AutoML的目的是自动化重复的任务,如管道创建和超参数调整,以便数据科学家在实际中可以将更多的时间花在手头的业务问题上。
AutoML还在于让所有人都能使用这项技术,而不仅仅少数人才能用。AutoML和数据科学家可以联合起来加速ML的发展过程,从而实现机器学习的真正效率。
AutoML是否成功取决于它的使用率和在这个领域所取得的进展。很明显,AutoML是机器学习未来的一个重要组成部分。