机器学习算法-汇总

机器学习算法是人工智能分析的基础,机器学习算法分支很多,大体有以下几类。 统计机器学习的方式,人工神经网络,深度学习,和聚类算法。

在统计机器学习算法中,主要包括一下三个方面:模型,策略,算法。以下从各种不同的角度简单介绍一下,机器学习算法。

资源总结:

深度学习和机器学习资源库:http://suanfazu.com/t/ji-qi-xue-xi-he-shen-du-xue-xi-xue-xi-zi-liao/126?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

图解决策树:http://www.r2d3.us/圖解機器學習第一章/?charset=simplified(决策树)

http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io(深度学习)

抽象一下机器学习中的几个重要元素:

任务类型——分类、聚类、回归

分类问题:通过已知的数据训练一个模型,对未知的数据进行分类判别。定性输出,分类问题包含学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。

回归算法:试图对误差的衡量来探索变量之间的关系。定量输出,用于估计变量之间的关系。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

聚类算法:通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法(Expectation Maximization, EM)。

学习方式——监督、半监督、无监督

监督学习方式:监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的所以称为监督学习。

半监督的学习方式:半监督的学习从分类样本出发,利用少量标注的样本和大量未标注的样本训练分类器,对大量未标注的测试样本进行分类判别。正如目前比较流行的tracking-by-detection的方式,就是半监督的学习方式。从概率学的角度出发,就是利用输入边缘分布p(x)和条件概率分布p(x|y)来学习后验概率p(y|x).

无监督学习方式:无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm),其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

模型评估--训练误差、测试误差

在了解训练误差和测试误差之前先来理解一下,损失函数和风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。损失函数预测真实值和预测值之间的差距。

机器学习算法-汇总_第1张图片

损失函数的值越小模型越好,损失函数的期望就是风险函数或期望损失。

当损失函数给定时,基于损失函数模型的训练误差和模型的测试误差就自然成了学习方法评估的标准。训练误差是模型关于训练数据集的平均损失。测试误差是模型关于测试数据集的平均损失。

模型选择——过拟合

过拟合:是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测很好,但是对未知数据预测很差的现象。模型选择旨在避免过拟合并提高模型的预测能力。

泛化误差:一般是指一个模型在训练集和测试集上错误率的差距。

参数学习算法:梯度下降法

梯度下降法也叫最速下降法(Steepest Descend Method) 。如果一个实值函数f(x)在点a处可微且有定义, 那么函数f(x)在a点沿着梯度相反的方向−∇f(a)下降最快。梯度下降法经常用来求解无约束优化的极值问题。梯度下降法的迭代公式为:
        a t+1 = a t − λ∇f(a t ),
其中λ > 0是梯度方向上的搜索步长。

参考资料:

李航-----《统计学习方法》



你可能感兴趣的:(机器学习)