ch2 监督学习

  1. 岭回归
    (0)正则化 是指对模型做显式约束,以避免过拟合。
    岭回归用到的是L2正则化。
    (1)复杂度更小的模型意味着在训练集上的性能更差,但泛化集上的性能更好。
    (2)Ridge模型在模型的简单性(系数都接近于0)与训练集性能之间做出权衡。
    简单性 和 训练集性能 二者对于模型的重要程度可由用户通过设置alpha参数来指定。
    alpha的最佳设定值取决于用到的 具体数据集。
    增大alpha会使得系数更加趋向于0,从而降低训练集性能,但可能会提高泛化性能
    减小alpha 可以让系数收到的限制更小
    对于非常小的alpha值,系数几乎没有受到限制,得到一个与LinearRegression类似的模型。
    **更大的alpha表示约束更强的模型。
    所以 大alpha对应的coef_ 小;小alpah对应的coef_大。 ** (coef_即w,斜率/权重/系数)
    (3) 没有做正则化的线性回归(alpha=0)
    (4)理解正则化的影响。(固定alpha值,改变训练数据量)
    **学习曲线:**模型性能 作为 数据集大小的 函数。
    对于较小的数据集,线性回归学不到任何内容,
    如果右足够多的训练数据,正则化变得不那么重要。 并且岭回归和线性回归将有相同的性能。
    随着数据集增大,线性回归的性能在下降,即如果增加更多数据,模型将更加难以过拟合或记住所有数据。
  2. 用于分类的线性模型
    (1)常见的两种线性分类算法:Logistic回归、线性支持向量机。

转载于:https://my.oschina.net/workhardforward/blog/2872664

你可能感兴趣的:(ch2 监督学习)