【李宏毅机器学习】Classification_1 分类(p10) 学习笔记

全文总结于哔哩大学的视频:李宏毅2020机器学习深度学习(完整版)国语

2020版课后作业范例和作业说明在github上:点击此处

李宏毅上传了2020版本的机器学习视频和吴恩达的CS229机器学习相比,中文版本的机器学习显得亲民了许多,李宏毅的机器学习是英文的ppt+中文讲解,非常有利于大家入门。吴恩达的CS229中偏向于传统机器学习(线性回归、逻辑回归、Naive Bayes、决策树、支持向量机等),李宏毅2020版本的机器学习中除了最前面的回归、分类,后面更多篇幅涉及卷积神经网络(CNN)、循环神经网络(RNN)、强化学习(RL)等深度学习的内容。

博客内容多为转载。结合哔哩大学的视频观看效果更佳。
在这里插入图片描述

文章目录

  • Classification
    • Probabilistic Gernerative Model 分类:概率遗传模型
    • ==**如何完成这个任务?**==
    • ==**强行把classification当作regression来做会遇到的问题:**==
    • Modifying Model 改造模型
    • Probability Distribution 概率分布
    • ==**妙啊!**==
    • 接下来又是数学部分。。。
    • 结论

Classification

Probabilistic Gernerative Model 分类:概率遗传模型

找一个function,input:x,output:属于的class

  • 信用评估
    input:收入、存款、工作、年纪、过去有无欠款
    output:借钱/不借钱
  • 医疗诊断
    input:症状、年纪、性别、过往病史
    output:何种疾病
  • 手写文字识别
    input:手写文字
    output:是什么字
  • 人脸辨识
    input:一张脸的图像
    output:是哪个人
    【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第1张图片
    【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第2张图片
    【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第3张图片

如何完成这个任务?

当仅仅只是将标签映射成一个数字的时候,可以把分类问题当作回归问题,但是其本身压缩了很多信息
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第4张图片

强行把classification当作regression来做会遇到的问题:

使用绿色的线代表model的值为0的话,左上角小于0,右下角大于0,越右下越大,>>1。但是用regression的话,会希望蓝色点越接近1越好(太大太小都不行,所以>>1的点对于regression来说是错的点,是不好的),所以这样的两群蓝色和一群红色的点做regression,得到的不会是绿色的线(虽然人看上去他是一个好的boundary),而是紫色的分界线,因为模型会觉得,将线向右偏移,右下角的蓝色点的值就不会>>1了,会更接近1。对于regression来说,这样的function(紫色)却是比较好的。但是对于classification来说,绿色的却是比较好的

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第5张图片

Ideal Alternative 理想的做法
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第6张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第7张图片
推广到类别,生产模型
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第8张图片
先验概率
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第9张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第10张图片
假设所有点都有相同分布——高斯分布
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第11张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第12张图片
利用局部求出高斯分布的参数,然后应用到未知的的输入,求其概率
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第13张图片
如何找μ和

    ∑
   
  
  
   \sum
  
 
(参数估计)——最大似然估计
最大似然估计,从样本估计出最可能的模型参数

虽然每一个高斯分布都有可能sample出这些点,但是sample出这些点的概率不一样

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第14张图片
找一个概率最大的,作为估计的高斯分布
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第15张图片
把正态分布拓展到二维,分别为均值和方差
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第16张图片
现在可以做分类问题了

Q:箭头指向的那个概率密度函数还需要对它积分吗
A:不需要了,老师前面解释了将概率密度当成在这个样本点的概率值
A2:分子分母都在积分的时候乘dx,抵消了

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第17张图片

只用二维没有办法分出来,acc只有47%
宝可梦是七维空间的一个点
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第18张图片
emmm效果依旧和瞎猜一样。。。

Modifying Model 改造模型

如果把不同的高斯分布都给不同的协方差,导致model参数多,使得variance大,容易overfiting过拟合。
所以,不同的class共用一个协方差矩阵,减少参数,避免过拟合

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第19张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第20张图片

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第21张图片

直线就是线性判别函数
二分类的LDA跟线性回归来分类的结果是一样的

定义一个function的好坏:
在概率模型中,要评价的其实是高斯里的参数,产生training data的likehood,就是这组参数的好坏

所以要做的就是找一个概率分布,可以最大化地产生这些data的likehood

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第22张图片

Probability Distribution 概率分布

如果假设各个维度相互独立,说明你在使用朴素贝叶斯分类器
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第23张图片

妙啊!

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第24张图片

接下来又是数学部分。。。

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第25张图片
后验概率
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第26张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第27张图片

【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第28张图片
【李宏毅机器学习】Classification_1 分类(p10) 学习笔记_第29张图片

结论

由于共用

     ∑
    
   
   
    \sum
   
  
 ,所以可以化简,最后得到z如下式子,可以发现是一个线性模型
在这里插入图片描述

综上,我们把一个posterior Probability后验概率

,然后计算得到W和b,带入最终式子算出概率。

弹幕

  • 如果不用同一个协方差的话会多出关于x的非线性项
  • 朴素贝叶斯 到 线性分类器
  • 最后z的展开式的协方差矩阵是不是没有1,2之分了,已经假设共用matrix了

那么,假设最终是找一个W和b,那为什么要算这个概率呢,能不能直接得到W和b呢?下节讲

最后这部分推导是真的牛逼!

补充:

Q:为了减小模型参数,将c1和c2的协方差矩阵作为共享参数,从而减小模型空间,从而避免过拟合。为什么要共享协方差矩阵而不是均值向量呢?
A:共享协方差就是让水属性和一般属性的高斯分布形状相同,也就是认为他们的分布算法是一样的,但靶心不一样。均值向量相当于靶心。

你可能感兴趣的:(深度学习,深度学习,神经网络,机器学习)