【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第1张图片

简要声明


  1. 课程学习相关网址
    1. Bilibili
    2. 网易云课堂
    3. 学习讲义
  2. 由于课程学习内容为英文,文本会采用英文进行内容记录,采用中文进行简要解释。
  3. 本学习笔记单纯是为了能对学到的内容有更深入的理解,如果有错误的地方,恳请包容和指正。
  4. 非常感谢Andrew Ng吴恩达教授的无私奉献!!!

文章目录

  • 简要声明
  • 专有名词
  • Classification
      • Classification
  • Hypothesis Representation
      • Logistic Regression Model
      • Interpretation of Hypothesis Output
  • Decision boundary
      • Logistic regression
      • Decision Boundary
  • Cost function
      • Cost function
      • Logistic regression cost function
  • Simplified cost function and gradient descent
      • Logistic regression cost function
      • Gradient Descent
  • Advanced optimization
  • Multi‐class classification: One-­versus­‐all
      • Multi-class classification
      • One‐vs­‐all (one‐vs­‐rest)
  • 吴恩达教授语录

专有名词


Classification problem 分类问题 Logistic Regression 逻辑回归
Decision boundary 决策边界 Conjugate gradient 共轭梯度法
Multi‐class classification 多元分类 One-­versus­‐all 一对多

Classification


Classification

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第2张图片

  1. Classification problems 分类问题 →垃圾邮件分类、网上交易分类、肿瘤分类
  2. 分类问题尝试预测变量y,y=0表示负类(表示没有某样东西),y=1表示正类(表示具有某样东西),正负没有明确规定也并不重要

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第3张图片

  1. 线性回归拟合异常数据时会改变阈值导致预测不准确,线性回归不适合应用于分类问题
  2. Logistic Regression 逻辑回归 →Classification 分类算法 →算法的输出一直介于0和1之间

Hypothesis Representation


Logistic Regression Model

  1. Want 0 ≤ h_θ(x) ≤ 1 → h_θ(x) = g(θT*x)
  2. sigmoid 函数 or logistic 函数 →当z趋于正无穷,g(z)趋于1,当z趋于负无穷g(z)趋于0。

g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第4张图片

Interpretation of Hypothesis Output

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第5张图片

  1. h_θ(x)表示对于一个输入x,y=1的概率估计
  2. 对于一个特征为x的患者,y=1的概率是70% → 这个肿瘤70%可能性是恶性肿瘤 → P( y=1 | x ; θ)

Decision boundary


Logistic regression

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)=1+eθTx1

{ y = 1 h θ ( x ) ≥ 0.5 θ T x ≥ 0 y = 0 h θ ( x ) < 0.5 θ T x < 0 \begin{cases} y=1 \qquad h_\theta(x) \ge 0.5 \qquad \theta^Tx \ge 0 \\ y=0 \qquad h_\theta(x) < 0.5 \qquad \theta^Tx < 0 \end{cases} {y=1hθ(x)0.5θTx0y=0hθ(x)<0.5θTx<0

Decision Boundary

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第6张图片

  1. 对于任何样本,只要x_1和x_2满足-3+x_1+x_2≥0,则认为y=1的可能性更大
  2. 通过决策边界将样本空间分割成不同区域
  3. 决策边界是假设函数的一个属性,取决于模型参数,并不是数据集的属性

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第7张图片

  1. 通过在特征中增加复杂的多项式,可以得到复杂的决策边界
  2. 一旦有了参数θ,就确定了决策边界

Cost function


Cost function

J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) − y ( i ) ) J(\theta)=\frac{1}{m}\sum_{i=1}^{m} Cost(h_{\theta}(x^{(i)})-y^{(i)}) J(θ)=m1i=1mCost(hθ(x(i))y(i))

  1. 代价函数表示在输出的预测值是h_θ(x)而实际值是y的情况下,希望学习算法付出的代价
  2. 预期值与实际值差的平方的代价函数在logistic函数会变成参数θ的非凸函数,使得难以收敛到全局最小值

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第8张图片

Logistic regression cost function

C o s t ( h θ ( x ) − y ) = { − l o g ( h θ ( x ) ) y = 1   − l o g ( 1 − h θ ( x ) ) y = 0 Cost(h_{\theta}(x)-y) = \begin{cases} \qquad -log(h_{\theta}(x)) \qquad y=1 \\ \ -log(1-h_{\theta}(x)) \qquad y=0 \end{cases} Cost(hθ(x)y)={log(hθ(x))y=1 log(1hθ(x))y=0

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第9张图片

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第10张图片

  1. 如果y=1,如果h_θ(x)=1则代价值为0,如果h_θ(x)趋于0则代价值趋于正无穷
  2. 如果y=0,如果h_θ(x)=1则代价值趋于正无穷,如果h_θ(x)趋于0则代价值为0

Simplified cost function and gradient descent


Logistic regression cost function

J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) − y ( i ) ) J(\theta)=\frac{1}{m}\sum_{i=1}^{m} Cost(h_{\theta}(x^{(i)})-y^{(i)}) J(θ)=m1i=1mCost(hθ(x(i))y(i))

C o s t ( h θ ( x ) − y ) = { − l o g ( h θ ( x ) ) y = 1   − l o g ( 1 − h θ ( x ) ) y = 0 Cost(h_{\theta}(x)-y) = \begin{cases} \qquad -log(h_{\theta}(x)) \qquad y=1 \\ \ -log(1-h_{\theta}(x)) \qquad y=0 \end{cases} Cost(hθ(x)y)={log(hθ(x))y=1 log(1hθ(x))y=0

Note: y=0 or 1 always

C o s t ( h θ ( x ) − y ) = − y   l o g ( h θ ( x ) ) − ( 1 − y )   l o g ( 1 − h θ ( x ) ) Cost(h_{\theta}(x)-y) = -y\ log(h_{\theta}(x))-(1-y)\ log(1-h_{\theta}(x)) Cost(hθ(x)y)=y log(hθ(x))(1y) log(1hθ(x))

J ( θ ) = − 1 m ∑ i = 1 m [ y   l o g ( h θ ( x ) ) + ( 1 − y )   l o g ( 1 − h θ ( x ) ) ] J(\theta)=-\frac{1}{m}\sum_{i=1}^{m} [y\ log(h_{\theta}(x))+(1-y)\ log(1-h_{\theta}(x))] J(θ)=m1i=1m[y log(hθ(x))+(1y) log(1hθ(x))]

  1. 式子是从统计学中的极大似然法得来的,它是凸函数
  2. 找到J(θ)最小时的参数θ

Gradient Descent

J ( θ ) = − 1 m ∑ i = 1 m [ y ( i )   l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) )   l o g ( 1 − h θ ( x ( i ) ) ) ] J(\theta)=-\frac{1}{m}\sum_{i=1}^{m} [y^{(i)}\ log(h_{\theta}(x^{(i)}))+(1-y^{(i)})\ log(1-h_{\theta}(x^{(i)}))] J(θ)=m1i=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]

Repeat {

θ j : = θ j − α ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_j:=\theta_j-\alpha\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j θj:=θjαi=1m(hθ(x(i))y(i))xj(i)

} (simultaneously update all θ_j)

  1. 逻辑回归梯度下降公式和线性回归梯度下降公式一样
  2. 特征缩放适用于逻辑回归

Advanced optimization


  1. 给出参数θ,可以计算出 J(θ) 和 J(θ)的偏导数
  2. Optimization algorithms: Gradient descent 梯度下降法, Conjugate gradient 共轭梯度法, BFGS, L­‐BFGS
  3. Advantages:
    • No need to manually pick α →不需要手动选择学习率α →智能内循环 →线搜索算法
    • Often faster than gradient descent →收敛速度远快于梯度下降
  4. Disadvantages: More complex 太难了

Multi‐class classification: One-­versus­‐all


Multi-class classification

  1. Email foldering/tagging: Work, Friends, Family, Hobby →自动将邮件归类到不同文件夹或者自动加标签
  2. Medical diagrams: Not ill, Cold, Flu → 药物诊断
  3. Weather: Sunny, Cloudy, Rain, Snow →天气分类

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第11张图片

One‐vs­‐all (one‐vs­‐rest)

【学习笔记】吴恩达机器学习 | 第五章 | 逻辑回归_第12张图片

  1. 将训练集转化为三个独立的二元分类问题 →将需要分类的作为正类,其余作为负类 →标准的逻辑回归分类器
  2. 对于 i=1, 2, 3,拟合分类器h_θ(i)(x)来估计给定x和θ时y=i的概率
  3. 训练一个逻辑回归分类器h_θ(i)(x)预测i类别y=i的概率,为了做出预测选择h最大的类别(可行度最高效率最好)

m a x i   h θ ( i ) ( x ) \mathop {max }\limits_{i} \ h_{\theta}^{(i)}(x) imax hθ(i)(x)

吴恩达教授语录


  • “logistic regression is a very powerful and probably the most widely used classification algorithm in the world.”
  • “It is actually entirely possible to use these algorithms successfully and apply to lots of different learning problems without actually understanding the inner-loop of what these algorithms do.”

你可能感兴趣的:(学习笔记,【学习笔记】吴恩达机器学习,机器学习,学习,人工智能,逻辑回归)