Datawhale第23期组队集成学习上-Task1

Datawhale第23期组队集成学习上-Task1

机器学习的三大主要任务

  • 机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测

  • 数据通常由一组向量组成,这组向量中的每个向量都是一个样本,一般用 x i x_i xi来表示一个样本,而其中 i = 1 , 2 , 3 , . . . , N i=1,2,3,...,N i=1,2,3,...,N,共有N个样本。每个样本 x i = ( x i 1 , x i 2 , . . . , x i p , y i ) x_i=(x_{i1},x_{i2},...,x_{ip},y_i) xi=(xi1,xi2,...,xip,yi)共有p+1个维度,前p个维度的每个维度,我们称之为一个特征。最后一个维度 y i y_i yi,称它为因变量特征用来描述影响因变量的因素

  • 通常一个数据表DataFrame里面,一行表示一个样本 x i x_i xi,一列表示一个特征。

有如下所示的图,表示机器学习。

Datawhale第23期组队集成学习上-Task1_第1张图片


1. 有监督学习

有监督学习:给定某些特征估计因变量,即因变量存在的时候,我们称这个这个机器学习任务为有监督学习。如:房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价

根据因变量是否连续,有监督学习中又分为回归分类

  • 回归:因变量是连续型变量,如:房价、体重等

    • 有关的回归算法:线性回归、Ridge回归(岭回归)、Lasso最小回归系数估计。
  • 分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等

    • 有关的分类算法:K-近邻算法、朴素贝叶斯算法、支持向量机、决策树。

1.1 回归

1.1.1线性回归
  • 只包括一个自变量和一个因变量,且两者的关系可用一条直线近似表示——一元线性回归分析
  • 包括两个或两个以上的自变量,且因变量和自变量之间是线性关系——多元线性回归分析
1.1.2 Ridge回归

​ Ridge回归又称岭回归,实质上是一种改良的最小二乘估计法。通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。它是对不适定问题进行回归分析时最经常使用的一种正则化方法。

1.1.3 Lasso最小回归系数估计

​ Lasso方法是以缩小变量集(降阶)为思想的压缩估计方法。它通过构造一个惩罚函数,可将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。

1.2 分类

1.2.1 K-近邻算法

​ K最近邻(KNN)分类算法是最简单的机器学习算法之一,它的思路:在特征空间中,若一个样本附件的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。用官方的话来说,即给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例多数属于某个类,就把该输入实例分类到这个类中。

1.2.2 朴素贝叶斯算法

​ 朴素贝叶斯分类是以贝叶斯定理为基础(贝叶斯决策理论的核心思想是:选择具有最高概率的决策)且假设特征条件之间相互独立的方法。先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入 X X X求出使得后验概率最大的输出 Y Y Y

1.2.3 支持向量机

​ 支持向量机(SVM)是按监督学习方式对数据进行二元分类广义线性分类器,其决策边界是对学习样本求解的最大边距超平面

1.2.4 决策树

如图所示就是一个决策树:

Datawhale第23期组队集成学习上-Task1_第2张图片

  • 长方形代表判断模块

  • 椭圆代表终止模块,表示已经得出结论,可以终止运行。

    在构建决策树的时候,我们首先要解决的问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用


2. 无监督学习

无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。*如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。*在这里,我们本身是不知道哪些用户属于哪些客群,即没有给定因变量

我们可以使用python中的sklearn库来生成符合自身需求的数据集:

Datawhale第23期组队集成学习上-Task1_第3张图片

在无监督学习中同样有两种分类,聚类密度估计

  • 聚类:将数据集合分成由类似的对象组成的多个类的过程
    • 有关的聚类算法:K-均值、DBSCAN。
  • 密度估计:将寻找描述数据统计值的过程
    • 有关的密度估计算法:最大期望算法。

2.1 聚类

2.1.1 K-均值

​ K均值聚类算法是一种迭代求解的聚类分析算法。步骤:预先将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离他最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这过程将不断重复直到满足某个终止条件。

2.1.2 DBSCAN

​ DBSCAB是一个比较有代表性的基于密度的聚类算法。它讲簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

2.2 密度估计

2.2.1 最大期望算法

最大期望算法(EM)是一类通过迭代进行极大似然估计的优化算法。EM算法的标准计算框架由E步和M步交替组成,算法的收敛性可以确保迭代至少逼近局部最大值


通常为了更好的表示内容,会对数据形式作出如下约定:

  • 第i个样本: x i = ( x i 1 , x i 2 , . . . , x i p , y i ) T , i = 1 , 2 , . . . , N x_i=(x_{i1},x_{i2},...,x_{ip},y_i)^T,i=1,2,...,N xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,N

  • 因变量: y = ( y 1 , y 2 , . . . , y N ) T y=(y_1,y_2,...,y_N)^T y=(y1,y2,...,yN)T

  • 第k个特征: x ( k ) = ( x 1 k , x 2 k , . . . , x N k ) T x^{(k)}=(x_{1k},x_{2k},...,x_{Nk})^T x(k)=(x1k,x2k,...,xNk)T

  • 特征矩阵: X = ( x 1 , x 2 , . . . , x N ) T X=(x_1,x_2,...,x_N)^T X=(x1,x2,...,xN)T

你可能感兴趣的:(Datawhale第23期组队集成学习上-Task1)