李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model

1.利用Regression来分类

示例:

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第1张图片

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第2张图片

当有上图右小角的点的时候,这些点会大幅改变分类线的位置。这时候就会导致整体的回归结果变差。当把多分类当成回归问题,类别分别为1,2,3,4……,因为回归的问题是预测具体的值,这样定义类别就默认这些数据之间有相应的关系。如果数据间没有具体的这些数字关系,就会导致最后的回归结果变差。

2.分类的方法

下图中,可以利用一些Model进行分类,根据结果划分分类,同时损失函数为分类结果错误的个数

常见的分类方法有SVM(支持向量机)

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第3张图片

x的概率,下面有两个分类

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第4张图片

下面对Pokemon进行分类实验:

pokemon的分类中,每个pokemon用一个向量vector表示,每个属性即特征Feature。

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第5张图片

假设pokemon的分布符合高斯分布(正太分布),

利用最大似然法得到样本点的高斯分布

最大可能性

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第6张图片

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第7张图片

计算结果得到样本的最大可能分布:

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第8张图片

接下来利用样本得到的概率模型可以对一些未知的pokemon进行分类:

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第9张图片

分类结果(不好):

下面的颜色表示不同的概率:

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第10张图片

模型的改进

利用不同的mean和Covariance来确定高斯分布,会由于参数的过多导致结果不好,实际上这是由于参数多导致的overfitting,可以通过减少参数的方法来改进模型。

下面利用相同的的Covariance来预测模型

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第11张图片

相同的covariance通过加权平均计算得到

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第12张图片

模型效果:

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第13张图片

复习一下几率产生模型,主要有以下三个步骤

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第14张图片

朴素贝叶斯

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第15张图片

后验概率

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第16张图片

上图中有一个Sigmoid函数

李宏毅机器学习三天速成~~~第五课~~~Classification:Probabilistic Generative Model_第17张图片

关于这个函数将在Logistic 回归中着重介绍。

你可能感兴趣的:(机器学习)