在36氪上看到一篇很好的关于机器学习的文章,对机器学习与各个领域的结合讲得非常清晰。
现小结一下如下。
基本定义:
机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。
机器学习与人类对历史经验的归纳,类比图如下:
机器学习的范畴,见下图:
下面逐个介绍机器学习与各领域之间的关系。
模式识别=机器学习。一个源自工业界,一个源自计算机学科。
数据挖掘=机器学习+数据库。大部分数据挖掘算法,是机器学习算法在数据库中的优化。
统计学习~=机器学习。一个偏数学 ,一个偏实践。
计算机视觉=机器学习+图像处理。图像处理负责给机器学习模型提供输入,机器学习负责学习并给出视觉结果。
语音识别=语音处理+机器学习。语音识别负责给机器学习模型提供输入,一般语音识别和自然语言处理技术结合使用。
自然语言处理=文本处理+机器学习。
机器学习的常用方法:
1、回归算法。分两类:线性回归、逻辑回归
线性回归:用线性函数来拟合样本空间,从而根据下次输入,预测输出。
拟合效果有好有坏。评价好坏的工具是代价函数。
常用代价函数为“最小二乘法”。
如果求得最小二乘的极值呢:数学上求导数不适合计算机处理,计算机上一般使用梯度下降、牛顿法。
逻辑回归:是一个种分类方法。
分类线一般是线性的。
如果分类线是非线性的,逻辑回归解决不了。这就引申出能拟合出非线性分类线的神经网络和SVM。
区别与联系:
1.1 线性回归最终得到的是一个数值。逻辑回归得到是一个标称值分类。
1.2 逻辑回归是线性回归加上sigmoid函数
2、神经网络。深度学习是基于深度神经网络的机器学习算法。
学习机理:分解与结合。
把一个整体分解成局部,在神经网络节点上用逻辑回归模型进行预测。
然后,多层这样的神经网络共同结合,形成神经网络的深度学习能力。
3、SVM。通过跟高斯“核函数”结合,表达出非常复杂的分类线。
最典型的核函数,将低维的空间映射到高维空间。
且,映射到高维空间后,计算量不会加大。
4、 聚类算法:主要是K-means.
如果不知道该用几个标签来表示样本集合,怎么办?
5、降维算法:无监督学习的一种。
将成千上万个特征向量,降维成主要的若干个。
一般用于数据压缩、好处是提升机器学习效率、数据可视化。
具体方法是主成分分析PCA。
6、推荐算法:主要是基于内容、基于用户两种。
7、大数据与机器学习。
大数据指数据量大这种技术;机器学习指利用数据的关键技术。
大数据技术不仅仅指机器学习,还包括:分布式计算、分布式存储、内存数据库redis、多维分析等等。
机器学习指大数据分析的一种技术,一种很好发挥大数据价值,挖掘大数据潜力的技术。
有理论表明:只要数据量足够大,机器学习的预测准确度都相差无几。
8、机器学习与深度学习。
深度学习理论很简单,就是神经网络发展到多隐藏层的情况。
9、人工智能、机器学习、深度学习的关系。
参考文章:
1、http://www.36dsj.com/archives/20382