机器学习(Machine Learning)根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。
目前机器学习已经有了十分广泛的应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
总体上说,机器学习算法和问题可以分为有监督学习和无监督学习两大类。
在有监督学习中,数据带有额外的属性(例如每个样本所属的类别),必须同时包含输入和输出(也就是特征和目标),通过大量已知的数据不断训练和减少错误来提高认知能力,最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。在分类算法中,样本属于两个或多个离散的类别之一,我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。如果预期的输出是一个或多个连续变量,则分类问题变为回归问题。
在无监督学习算法中,训练数据包含一组输入向量而没有任何相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合(称作聚类),或者确定数据的分布(称作密度估计),或者把数据从高维空间投影到二维或三维空间(称作降维)以便进行可视化。
一般地,不会把给定的整个数据集都用来训练模型,而是将其分成训练集和测试集两部分,模型使用训练集进行训练(或学习),然后把测试集输入训练好的模型并评估其表现。另外,大多数模型都有若干参数可以设置,例如支持向量机模型的gamma参数,这些参数可以手动设置,也可以使用网格搜索(grid search)和交叉验证(cross validation)寻找合适的值。
接下来,我们一起了解一下机器学习中常见的几个概念。
阅读原文