Andrew Ng ML(2)——linear regressing


linear regressing with multiple variables(supervised learning)

  • m: numbers of training examples
    n:numbers of features
    x^(i): input (features) of example
    : values of feature j in traing example
    e.g.

    example
    ,=2

  • Hypothesis:(for convenience,define ,means )
    , ,


梯度下降(多变量)

  • Hypothesis:
    Parameters:(n+1维向量)
    Cost function:
单特征值与多特征值的梯度下降公式(特征值:variable\feature\n)
  • Gradient descent in practice I
    • Feature Scaling(特征收缩)

在两个或者多个特征值范围差距太大时,cost function的等高线图会呈现出细长的椭圆形,会导致梯度下降缓慢(可以做一定的处理,使多个特征值范围限制在同一个范围内)


对于特征值范围的选择,不一定要限制在-1~1之间,但是范围不能太大或者太小

  • Mean normalization(归一化处理)

,代表第个特征值的平均值,代表第个特征变量的标准差

  • Gradient descent in practice II(about )

确定梯度下降正常工作的方法:1:画出cost function的值与对应迭代次数的函数图像,观察是否收敛(通常使用的方法) 2.确定一个的值,自动收敛测试

确定梯度下降正常工作的方法

所取的alpha(学习率)太大可能出现的情况
summary

if too small: slow convergence
if too large: cost function may not decrease on every iteration,may not converge(slow converge also possible)
To choose ,try


  • 特征选择
    如:在使用房屋的临街长度深度预测房价时,可以定义一个新的特征——面积

  • polynomial regression (多项式回归)
    根据所给出的数据集的特征,用不同的多项式模型拟合数据
    e.g.:


    对于上图
    1、用三次模型拟合

    ,,
    P.S. 注意特征值缩放!
    2、用平方根模型拟合


  • 正规方程——最优解的另一种解法(即使特征范围差距很大不需要特征缩放)
对theta 求偏微分,即能求得最优解

e.g.:
Q:是如何求出来的???

(其中)
由于X并不是方阵,也就没有逆矩阵,所以首先需要两边同乘
即:(其中为方阵)
易得,

Q:不可逆怎么办???

1.检查特征之间是否线性相关 2.检查是否特征太多(样本太少)或者使用正规化

总结
梯度下降和正规化优缺点以及选择

梯度下降的向量计算方式

你可能感兴趣的:(Andrew Ng ML(2)——linear regressing)