机器学习算法的一些简介2

1.回归算法(线性回归)

回归算法是利用输入数据的特征来预测数值的一种监督算法。比如在基于给定某特征(卫生间大小、层数、位置、均摊面积等)考虑房屋成本。回归分析是尝试找到最适合输入数据集的函数的参数值。

回归算法主要有线性回归、逻辑回归、梯度下降等算法,这里先简单的介绍线性回归。在线性回归算法中,目的就是要最小化成本函数。方法是通过输入数据为函数找到近似目标值的适当参数。其用到的代表性的成本函数是均方误差,即期望值与预测结果之差的平方。确定目标函数之后,对其求偏导。导数代表函数增加(减少)的方向,因此向导数相反方向移动会提高函数的准确率。向成本函数最小值方向移动(这代表误差),是线性回归的要点。我们需要确定应该以多快的速度沿导数方向移动,移动的步长成为学习率,以符号 “Ir” 来表示。

2.决策树

决策树算法是监督算法,它会创造树形结构的分类器。组成包括:在具体特征上执行测试的决策节点,以及说明目标属性的值的叶节点。它从根节点开始沿着决策节点向下移动,直至到达叶节点。该算法的经典应用是鸢尾花数据集。

3.K均值聚类

聚类算法是无监督机器学习方法,最常见的是K均值聚类。它是一种通过将数据集中每个元素分组为K个不同子集的方式来实现对元素分类的聚类技术。该过程可总结如下:

  1. 选择初始K点(称为质心)
  2. 将最近的质心关联到数据集中的点
  3. 计算与特定质心相关联的点集的新中心
  4. 将新中心定义为新的质心
  5. 重复3和4,直到质心停止移动

4.朴素贝叶斯(Naive Bayes)

朴素贝叶斯是一种分类算法,前提是假设不同事件在计算概率时的独立性。(后面会具体介绍)

5.支持向量机

支持向量机也是用于分类的监督机器学习算法。其优点在于它不仅将数据分离成类,还能据此发现分离的超平面(在大于三维的空间中的平面模拟)——这个超平面能够最大化分离超平面每个点的间隔。还能处理非线性可分数据,方法有两种:一是引入软间隔,另一种是引入所谓的核技巧。

6.交叉熵方法

交叉熵方法属于强化学习类算法,是一种求解最优化问题的技术,即可以找到最小化(最大化)特定函数的最佳参数。

一般包括以下阶段:

  1. 生成我们想要优化的变量的随机样本。对于深度学习,这些变量可能会是神经网络的权值。
  2. 运行任务并存储性能变量。
  3. 确定最佳运行并选择最佳性能变量。
  4. 基于最佳性能变量的运行,计算每个变量的新均值及方差,并生成变量的新样本。
  5. 重复上述步骤,直至达到停止条件或者系统停止改善为止。

7.神经网络及深度学习

该内容后面会具体介绍。

你可能感兴趣的:(机器学习,机器学习,python)