机器学习三要素:模型、策略和算法

机器学习在干嘛?就是利用已有数据,找到一些合适的数学模型去描述它,然后做一些预测分析,从而优化企业的流程或者提高决策效率。机器学习的核心是:模型、策略和算法

机器学习的目的——模型(Model)

模型就是用来描述客观世界的数学模型,模型是从数据里抽象出来的。在进行数据分析时,我们通常手上只有数据,然后看数据找规律,找到的规律就是模型。就跟我们小时候做猜数字游戏似的,1,4,16...()...256...括号里面是什么?只有把这串数抽象成模型,我们才能知道括号里面是什么。

再举个例子,购买产品的顾客到达服务台的时间是什么模型?也许是一个泊松分布。股票价格随时间的变化是什么关系?是基于布朗运动的二项随机分布...

模型可以是确定的,也可以是随机的,无所谓,总之用数学可以描述,只要数学可以描述的,就可以进行预测分析。所以,我们的根本目的,是找到一个模型区描述我们已经观测到的数据。

如何构造模型——策略(Strategy)

例如,我们想用一个正态分布去描述一组数据,我们就要去构造这个正态分布,实际上就是预测这个分布的参数,例如:均值?方差?...但是,我们需要有一系列的标准去选择合适的模型,模型不是拍脑袋来的。我想用正态分布,理由呢?我想用二项分布,凭啥呢?我想让正态分布的均值为0.5,凭什么0.5比0.2好?所以,需要有一些列标准来证明一个模型比另一个模型好,这就是策略。

不同的策略,对应不同的模型的比较标准和选择标准。就和选班干部一样,选帅的,那就让吴彦祖当班长;选逗比的,也许选出来的是王宝强;选会唱歌的,没准是周杰伦...所以,最终确定的模型是什么,实际上就跟两件事有关,1)我们的数据是什么? 2)我们选择模型的策略是什么?

说到策略,一般会讲到,经验风险最小化作为常用的标准。经验风险最小指的是,用这个模型,用在已有的观测数据上,基本上是靠谱的。但在已有观测数据不足的情况下,我们也可以采用结构风险最小化作为标准。这也是我们在机器学习的时候用到的准则。经验风险和结构最小化是一个参数优化的过程,我们需要构造一个损失函数来描述经验风险,损失函数可以理解为我们预测一个数据错了给我们带来的代价。每个人对损失函数的定义都不同,所以优化出来的结果也不同,这也导致最终我们学习到的模型会各种各样,解决一个问题的方案有多种多样...

模型的实现——算法(Algorithm)

我们有了数据,有了学习模型的策略,然后就要开始去构造模型了,如果模型的基本形式有了,就是一个优化模型参数的问题了。面对复杂的数学优化问题,我们通常难以通过简单的求导获得最终结果,所以就要构造一系列的算法。

我们的目标是让算法尽量高效,更少的计算机内存代价,更快的运算速度,更有效的参数优化结果...

总结:在进行机器学习时,只要把握住模型、策略和算法这三个要点即可。商业决策的基础是对客观环境进行描述,我们用数学模型去描述预测,所以要采取一定的策略选择合适的模型,而模型的构造本质是数学参数优化问题,在大数据的环境下要构造合适的算法去解决对应的优化问题,这就是整个机器学习的方法构造理念。

你可能感兴趣的:(python)