机器学习相关哲学思考

机器学习相关哲学思考

由于机器学习这类算法主要处理的是不确定的世界中相关问题,与传统的经典算法设计的问题有很大的不同和解决的问题方法,传统算法通常都是有固定唯一标准答案,但是机器学习不同,它面对的是高度不确定的世界中的问题,那么面对这些问题,机器学习给我们的答案其实也是一个不确定的概率性的拥有统计意义的答案,那么面对这样的答案我们难免会思考一些问题,比如说这个答案真的可靠吗?到底有多么可靠?我们到底能够多大程度的相信到底有多么可靠?我们到底能够多大程度的相信这些答案?那么机器学习学习的本质是什么等等,那么对这个问题呢,我都把它叫做相关的哲学思考。
机器学习相关哲学思考_第1张图片
对于机器学习而言,首先必须提及的是微软在2001年的一篇论文。论文大意是对于四个不同的机器学习算法,从算法的角度。其实它们是有优有劣的。但是这个文章揭示出来,如果给这些算法喂足够多的数据,那么所有的算法它的准确率都在稳定的上升。图中横坐标是数据的规模,纵坐标是算法预测的准确率,数据量越大准确率越高,而且会看到数据量达到一定程度的时候,其实算法的准确率之间的差别并不大,这样的一个结果在当时就引起了轰动,这说明在人工智能这个领域,或者更局限一点说,在机器学习这个领域,似乎算法本身并不是那么重要,只要我们喂给算法的数据足够多,数据的质量足够好,甚至曾经一时有过数据即算法这样的一种说法,也就是因为如此,大数据的时代才拉开了帷幕。
机器学习相关哲学思考_第2张图片
人们对数据本身越来越重视,那么对于这个问题,我个人认为这些数据本身确实是非常重要的,而且在现阶段,同学们看到的是用机器学习处理的大多数任务都是数据驱动,数据驱动就是高度依赖数据质量。其实很多机器学习的研究者会花费很多时间来处理数据,包括收集更多的数据、想办法提高数据质量、提高数据的代表性、研究更重要的特征,所以在现阶段如果做机器学习相关研究,那么研究算法本身当然是非常重要的一部分,可是当真正的把机器学习应用起来的话,就会发现数据本身是极其重要的。
机器学习相关哲学思考_第3张图片
今年人工智能界有一个新的突破,就是AlphaGo zero,starting from scratch也就是从零开始,那么这也是一个公司把这个版本的AlphaGo叫做zero零的原因,那么alphago zero之所以非常的突破其原因就在于,我们人类本身并没有给alphago zero这个智能输入任何数据,所有的数据都是靠算法产生的,这就是所谓的从零开始starting from scratch具体的意思,那么这样的一个突破似乎打破了之前所说的数据即算法这样的一个说法,似乎依然是算法为王。对于一些问题即使没有数据的话算法也可以给我们生成数据,当然围棋问题这个问题本身有它的特殊性在里面,所以这个结论不一定对所有的领域都适用,但是这样的一个突破至少告诉我们算法本身依然是很重要的,再好的数据都需要有高效优秀的算法作为辅助才能最大程度的发挥数据的作用。虽然我个人认为在短时间内大部分机器学习领域的任务可能依然是数据驱动,但是在短时间内在算法领域也很有可能有很多的突破使得人们可以更加好的利用这些数据。
机器学习相关哲学思考_第4张图片
对于机器学习领域,另外有一个非常重要的问题,就是很多同学可能也看到了在我们的这个课程中,要介绍很多种机器学习算法,而这个课程介绍的算法远远没有涵盖机器学习领域中的所有的方法,机器学习领域有非常多的算法,而他们解决的问题大抵是差不多的,那么之前我已经讲过以监督学习为例,它解决的主要问题就是两个问题:分类问题和回归问题。那么在这种情况下,针对你要研究的问题到底要选择怎样的算法呢?
机器学习相关哲学思考_第5张图片
那么和选择相关的问题最简单可能也是最深刻的一个原则,就是“奥卡姆的剃须刀”。“奥卡姆的剃须刀”的原则:简单的就是好的。我们对于一个问题,不要有过多的假设,不要对他进行过多的复杂化,那么对于这样的一个原则的使用,我们后续在讲解具体的算法时,可能还会提及。这句话本身好理解,可是一个容易引发争议的问题就是在机器学习领域:到底什么叫简单?那么对于这个问题其实本身是没有标准答案的,不同人有不同的看法,不同领域有不同的定义,这里只是告诉同学们机器学习处理的是不确定的世界中的真实的问题,对于很多问题来说并没有标准答案。

机器学习相关哲学思考_第6张图片
机器学习相关哲学思考_第7张图片
一个更加有意思的定理称之为“没有免费的午餐定理”,这个定理它讲述的是我们可以严格地用数学的方式推导出,对于任意两个机器学习的算法,他们的期望性能是相同的,在这里这个定理揭示出了一个非常重要的问题,如果任意两个算法他们的期望性能是相同的,那就说明其实没有任何一个算法比另外一个算法好,相当于说所有的算法是等价的,那么如果是这样的话,我们为什么要学习更多的算法?这里头就要注意。任意两个算法他们的期望性能是相同,期望可以简单的理解为平均值。换句话说对于任意两个方法把它们作用在所有的问题中,那么对于有的问题A算法比B算法好,对于另外一些问题,B算法比A算法好,但是平均来讲A、B两个算法是一样的,那么这其实告诉我们,具体到某个特定领域的某个特定的问题,有可能是有些算法比另外一些算法更好。然而我们在学习机器学习的时候,其实都是要解决某个特定领域的某个特定的问题,所以我们还是需要去真正的寻找对你所要解决的领域哪个算法更加合适。但是整体而言,是没有一种算法绝对的比另外一种算法好的。那么“没有免费的午餐定理”及时告诉我们脱离具体的问题来谈哪个算法好是没有意义的。
与此同时,告诉我们一个在机器学习领域实践的过程中必须做的一件事情,就是当面对一个具体问题的时候,很多时候,我们都需要尝试使用多种算法对多种算法的结果进行对比实验,这是非常有必要的,来选择出针对你所解决的那个领域的问题最适合的算法,那么以上已经讲解了很多和机器学习相关的思考。包括是不是数据本身其实就是算法,还是算法为王。面对那么多的算法,我们应该怎样选择他们,我们可以使用“奥卡姆的剃须刀”,选择所谓的简单的算法,但是此时我们需要思考到底什么是简单。同时“没有免费的午餐的定理”告诉我们其实没有一个算法比另外一个算法更好,面对一个具体的问题,我们通常要尝试多种算法来选择最适合你的这个问题相应的算法。当然啦其实这个机器学习还有很多很多相关的思考,最典型的其实就是面对不确定的事情我们到底怎么看待使用机器学习进行预测的结果。
机器学习相关哲学思考_第8张图片
比如说在美国的大选上,即使大量地使用这个数据科学机器学习的方式来预测选举的结果。有的团队预测的结果是准确的,那么此时我们到底应该怎么看待这个结果?到底是机器学习的算法本身起到了决定性的作用,使得我们得到了一个准确的预测结果?还是其实是一个巧合,机器学习算法本身并没有起到太大的作用。当然对于这些问题的思考其实适用于使用机器学习预测的各个领域,比如说预测经济、预测股票、预测社会、预测历史等等等等。另外一方面我们可以使用机器学习进行预测的时候对于他所应用的场景很多时候我们可能要额外小心,可能很多同学听说过已经有了这样的相关的研究,通过人脸的特征可以测出他是不是一个罪犯,如果机器说一个人可能成为罪犯的概率是60%,那么此时我们到底要怎样看待这样的预测结果?与之相应的,甚至可能会产生出一个新的学科,就是所谓的机器伦理学。等等这些都是在我们学习机器学习过程中需要思考的问题。

你可能感兴趣的:(机器学习相关哲学思考)