李宏毅深度学习笔记06(Logistic Regression)

Step1 :Function Set

在这里插入图片描述Including all different w and b

Step2:Goodness of a Function(决定一个function的好坏)

假设training data的数据如下图所示:
李宏毅深度学习笔记06(Logistic Regression)_第1张图片
则probability就是如下:
在这里插入图片描述
cross entropy(与线性分析的时候的误差类似的东西):
在这里插入图片描述

Step3 : Find the best Function(Logistic regression与liner regression一样)

李宏毅深度学习笔记06(Logistic Regression)_第2张图片

Cross Entropy v.s. Square Error

(为啥Logistic Regression用交叉熵损失,而不是平方损失)
李宏毅深度学习笔记06(Logistic Regression)_第3张图片
距离目标远时,微分很大,参数更新大
相反用square Error 目标远,微分很小,就会卡,而且微分小时不知道是距离目标远还是近。

Discriminative v.s. Generative

李宏毅深度学习笔记06(Logistic Regression)_第4张图片
同样的模型,同样的训练数据,采用两种方法所得结果(w,b)不同。因为生成方法对概率分布做了假设。
Discriminative model 常比 Generative model 表现更好。

但是有时候生成模型在一些情况下相对判别模型是有优势的:
1、训练数据较少时。判别模型的表现受数据量影响较大,而生成模型受数据量影响较小。
2、label有噪声时。生成模型的假设(“脑补”)反而可以把数据中的问题忽视掉。
3、判别模型直接求后验概率,而生成模型将后验概率拆成先验和似然,而先验和似然可能来自不同来源。以语音识别(生成模型)为例,DNN只是其中一部分,还需要从大量文本(不需要语音)中计算一句话说出来的先验概率。

Multi-class Classification

李宏毅深度学习笔记06(Logistic Regression)_第5张图片
李宏毅深度学习笔记06(Logistic Regression)_第6张图片
logistics的缺点:对于线性不可分的数据没有办法分类,此时考虑在Logistic回归建模之前对特征进行转化,线性不可分的数据在特征转化后可以很好地被红色直线区分开。
解决方法:做feature transformation. (Not always easy to find a good transformation.)
希望机器自己找到 transformation:把多个Logistic Regression接起来。
李宏毅深度学习笔记06(Logistic Regression)_第7张图片
一个Logistic Regression的input可以是其它Logistic Regression的output;一个Logistic Regression的output可以是其它Logistic Regression的input。这样,我们就得到了Neural Network,其中每个Logistic Regression叫做一个Neuron.

你可能感兴趣的:(笔记,深度学习)