首先,想要澄清一下:之所以取名这个专题,仅仅是一个噱头,其实我更愿意把这个专题称作机器学习专题。提到这里,就不得不向大家介绍一下目前比较火的一些技术及它们之间的关系。
首先是我们这个专题主要介绍的内容:机器学习。那么什么是机器学习呢?每个人对它的定义都不一样,我比较喜欢通俗的来介绍它:就是利用计算机通过特定的算法使其能够提高人们的生产效率的一种技术手段。所以,在机器学习中,算法是最重要的,如何根据特定问题选择合适的算法、训练出较优的模型是一名合格的机器学习工程师应该具备的素质。
其次是已经了好几年的大数据技术。说到大数据,我们肯定会联想到数据库。那么大数据跟数据库又有什么联系呢?首先,大数据是一种技术,由于信息量巨大并且复杂,其中含有很多无用或者价值较低的信息,所以通常需要数据挖掘技术来配合以实现对关键信息的提取以及利用。大数据与传统数据库的区别在于传统数据库例如MySql,Oracle等对于信息的存储都是基于二维表的形式,而大数据的信息存储基本上是基于文件的形式。大数据技术目前比较流行的框架有Hadoop,Spark,Hive等。由于笔者对大数据也只是了解皮毛,所以在此也就不多做介绍。
最后,我们介绍一下AI,也就是大家说的人工智能。其实大家很容易将AI和机器学习画上等号,其实这是不对的。人工智能是一门综合性的学科,或者我们更愿意将其成为一门技术,它是一个多学科共同协作以使机器在某一个领域达到甚至超过人类的一种技术。机器学习只是人工智能的一个子领域,但却是目前人工智能的核心。
所以人工智能与机器学习的关系可以概括为下图所示:
从上图可以看出,机器学习还包括深度学习技术。比较热门的深度学习框架如TensorFlow、Caffe、Keras等。
所以,我们这个专题主要会分为两个部分来介绍:第一是传统的机器学习算法如KNN、决策树、SVM、逻辑回归、贝叶斯算法等;第二是这几年兴起的深度学习算法如CNN系列算法、RNN系列算法以及它们在CV(计算机视觉)和NLP(自然语言处理)领域的应用。