https://www.bilibili.com/video/BV1MA411J7wm?p=16&spm_id_from=pageDriver
# 多元线性回归
https://www.zhihu.com/people/zhang-bing-zhen-19/posts?page=1
逻辑回归就是把线性回归的输出作为sigmiod函数的输入
https://zhuanlan.zhihu.com/p/44591359
https://blog.csdn.net/liulina603/article/details/78676723
https://blog.csdn.net/qq_27972567/article/details/81949023
https://www.cnblogs.com/nickchen121/p/11686739.html
交叉熵函数的由来:https://zhuanlan.zhihu.com/p/44591359
(上述连接中第五章中 x i x_i xi表示预测值, y i y_i yi表示标签真值。连接中,‘这里的损失函数值等于事件发生的总概率,这里和损失的含义有点违背,因此在前面取负号’)
pytorch 公式很重要
https://zhuanlan.zhihu.com/p/139122386
## 最大似然估计
见lesson1草稿
最大似然估计本质上是一种参数估计方法
https://www.zhihu.com/question/22983179
参数估计->求最小值->梯度下降
不同时刻,求出的梯度不一样
https://www.bilibili.com/video/BV1Ux411j7ri
https://www.bilibili.com/video/BV16x411V7Qg
https://www.bilibili.com/video/BV16x411V7Qg?p=2
利用当前所有样本(的损失)
https://zhuanlan.zhihu.com/p/35400672
训练集的损失 与 一般化的数据集的损失之间的差异叫泛化误差
泛化误差:偏差、方差、噪声
学习的目的是为了使一个模型更加接近真实模型
bias和variance从两个方面描述学习到的模型与真实模型之间的差异
https://www.zhihu.com/question/25391960
其他-样本总体
https://www.jianshu.com/p/8dbb2535407e
https://zhuanlan.zhihu.com/p/148050748
https://zhuanlan.zhihu.com/p/38853908
用所有可能的训练集训练出的所有模型的输出的平均值与真实模型输出值之间的差异
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力(脱离数据集来说)
期望与真值之间的差异
https://zhuanlan.zhihu.com/p/38853908
不同训练集训练出的模型之间的差异
方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响
预测与期望之间的差异
偏差:对于单个模型来说,是期望输出与真实标记的差别,描述拟合程度
方差: 对于多个模型来说,是相同分布的不同数据集训练出模型的输出值之间的差异 ,描述数据扰动
https://zhuanlan.zhihu.com/p/38853908
噪声表达了在当前任务任何学习算法所达到的期望泛化误差的下界,刻画了学习问题本身的难度
真值与实际真值之间的差异
欠拟合->偏差大 ——>模型复杂度小
过拟合->偏差小,大方差——>模型复杂度大
https://zhuanlan.zhihu.com/p/29707029
偏差、欠拟合:
找更好的特征,具有代表性
用更多的特征,增加模型复杂度
方差,过拟合
增大数据集,减少数据扰动对模型的影响
减少数据特征,减少数据维度,减少模型复杂度
正则化
交叉验证
early stop(每个epoch 计算验证集精度,如果不再提高就停止:记录最佳验证集精度,如果连续10次没有超过,则认为不再提高)
正则化能够减少模型复杂度
https://vimsky.com/article/3852.html似懂非懂
解空向量元素很多为0
L1正则化减少模型复杂度,使得模型参数聚焦于有用的特征???
回归系数就是一个例子,标准化后回归系数较小,模型更简单
注意:稀疏这是防止过拟合,使得权重参数趋向于0,防止降低模型复杂度
正则化与损失函数不一样
https://vimsky.com/article/3852.html
https://www.zhihu.com/question/37096933/answer/70426653 (很重要)
https://zhuanlan.zhihu.com/p/50142573
https://zhuanlan.zhihu.com/p/29707029(很重要)
https://zhuanlan.zhihu.com/p/72038532?ivk_sa=1024320u
https://www.zhihu.com/search?type=content&q=l1%E6%8D%9F%E5%A4%B1%E5%92%8Csmooth%20l1
L1稀疏解
L2平滑解,近似稀疏
L2又叫做权重衰减
线性回归+L1为Lasso回归
线性回归+L2为岭回归
https://www.zhihu.com/question/28641663?sort=created
https://www.zhihu.com/question/29316149/answer/110159647
https://www.cnblogs.com/solong1989/p/9637134.html
1.特征方差小,说明样本在这个特征上基本没有差异,特征对于样本的区分没有什么用
2.特征与目标的相关性
根据方差或相关性选择
根据目标函数,通常是预测效果评分,每次选择若干特征,或排除若干特征
https://blog.csdn.net/sqiu_11/article/details/59487177
https://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_with_cross_validation.html#sphx-glr-auto-examples-feature-selection-plot-rfe-with-cross-validation-py
集成法
https://www.cnblogs.com/wj-1314/p/10422159.html
看文档就好了
https://www.bilibili.com/video/BV1MA411J7wm?p=179
https://zhuanlan.zhihu.com/p/151636748?utm_source=wechat_session&ivk_sa=1024320u
https://blog.csdn.net/mounty_fsc/article/details/51588794
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
https://www.jianshu.com/p/2ca96fce7e81