机器学习实战——Logistic回归

【主要内容】

  • Sigmoid函数和Logistic回归分类器
  • 最优化理论初步
  • 梯度下降最优算法
  • 数据中的缺失项处理

【Sigmoid函数】

  • 类似阶跃函数,数学上更易处理
  • 为了实现L机器学习实战——Logistic回归ogistic回归分类器,
    • 把每个特征都乘以一个回归系数,
    • 然后把所有的结果值想加,
    • 将这个总和带入Sigmoid函数
    • 得到一个范围在0~1之间的数值
  • 0.5 1类,<0.5 0类

  • 剩下的问题:回归系数(参数)

【最优化方法】

  • 梯度上升
    • 思想:要找到某函数的最大值,最好的方法就是沿着该函数的梯度方向探寻。(函数沿着各个分量求偏导)
    • 公式:w := w+alpha*gradient(f(w),w)
      • alpha是步长,影响误差
    • 梯度下降(求最小值)
  • 梯度上升求最优参数实战
    • 数据集整理
    • 梯度的计算
      • 数学公式推导(李航、NG)
        • 李航的略复杂(sigmoid函数复杂)
        • NG:
          • 基于sigmoid函数求1-0的概率
          • 基于概率求似然函数—>求对数似然函数
          • 求max对数似然函数
            • 梯度上升,求对数似然函数的求导(y-h(x))x,然后梯度算法
            • 牛顿迭代算法,求对数似然函数一阶导数、二阶导数,然后求一阶导数为0的点
    • 算法
      • 解析格式化数据
      • 准备公式的因子: error=(labels - sigmoid(w*x))
      • 梯度:x*error
      • 梯度算法迭代:w=w-alphaxerror
      • 迭代500次
      • result:
机器学习实战——Logistic回归_第1张图片
Paste_Image.png
- 优化:
    - 迭代次数500?
    - 能否不要每次计算都遍历所有样本?
    - 优化算法
        - 单样本随机梯度
        - 样本次序随机
        - 收敛情况:
机器学习实战——Logistic回归_第2张图片
Paste_Image.png
  • 其他的调研

【缺失数据项的处理】

你可能感兴趣的:(机器学习实战——Logistic回归)