机器学习-->笔记

机器学习

四类: 聚类,回归,分类,降维

分类


1、基础结构
分类 属于 过程
深度学习 端到端 输入–>模型–> 输出
传统机器学习 非端到端 输入–>特征提取–>特征分类–>输出
  • 特征分类:用于分类的依据
2、流程
  • 1、加载数据
  • 2、划分训练集与测试集 :

划分条件–> 时间依赖,分层(属性)依赖
若都没有,随机切分

  • 3、数据预处理

预处理分类:
归化:放到0~1之间 --> 方便分析数据
标准化:(x - 平均值)/方差 --> 为了后续处理–>高斯分布
正则化:L1范数,L2范数(归–>压缩)

  • 4、创建模型
  • 5、模型训练
  • 6、交叉验证
  • 7、测试,得到标签
  • 8、评估
3、交叉验证法–>当数据量少时

若一共有十个对象,采用一个验证,剩余九个训练,得到一个得分
然后采用其他一个验证,剩余九个训练,得到一个得分……。
一共分成cv个部分,得到每个组的得分,再求出其得分的平均值。

训练集只能用一次,测试集可以多次。
不能用验证集验证(重复验证).

测试用旧测试集。评估用新测试集。


预测值,label真实值(区分监督学习)

回归:所处理的样本必须是连续的

普通线性回归 :(优化函数)均方差损失+感知机模型 -->会过拟合

梯度下降法(可超过大于10万)
最小二乘法(更快):局限性:要求矩阵的逆,数据越大越不好用。依赖各模型相互独立性,不能存在联系,若存在会导致奇艺矩阵,数据波动范围大->方差大,导致结果偏差大,称为过拟合。细节导致结果敏感(因为某只猫没有胡子,就判定其不是猫)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F4AqIS9H-1618818304687)(assets/markdown-img-paste-20210419091410385.png)]
回归:连续的数据
分类:离散的数据

评价好坏:

1、平均值绝对误差(mean_absolute_error):(不可微,不可梯度下降)越小越好,值域不在0~1之间
2、均方评估误差(mean_squared_error):(可微,可梯度下降)
3、可解释方差(explained_variance_score)–>方差:误差的期望,越离散->方差越大->真实值越差 ,看中个体特征
     分母:目标的方差 , 分子:(目标值-预估值)的方差
     重点:方差的分布
4、r2得分(r2_score):划分至0~1,看整体水平,更具有代表性,要比真实值要低一点。

岭回归 = 最小二乘+惩罚项(依旧为线性模型)
  • (a = 0.5)
    岭回归 = 损失函数+正则化:–>对损失函数进行抑制,防止权重过大导致过拟合(L2范式:)
LASSO回归 = 1/(2n)*损失函数+ a * L2 (a = 0.1)
  • (a = 0.1)
  • 过拟合:一般由于数据集太少,或者模型大:太复杂(采用模型退化)
  • L1范式:生成菱形,有可能生成权重为0的值
  • L2范式(L1的平方):生成圆,不会出现为0的权重值,但是可以非常靠近0
  • 模型压缩:w1,w2,w3…… 取值为0,即不全为0
  • 欠拟合:换模型
弹性网络 :最小二乘+L1,L2两个公式的结合,但是体现效果一般,达不到非线性效果
  • a,p 都是超参,指定数值(手动)

  • 另一个手动的是,特征选取,决定数据是否能够分的开。

  • 神经元–>特征。

  • 线性模型:简单,但是对数据敏感,容易过拟合

  • 理论上特征X应为满秩状态,但是实际上打不到该效果,数据具有相关性,所以使用时,会对其压缩变成0.

贝叶斯岭回归:求解思路:先输入数据,得到一个类似的结果,再去与结果比对,再采用贝叶斯进行调整,
  • 贝叶斯求的是条件概率问题。
核岭回归
  • 核函数:可以将低维数据映射到高维数据。
    1、linear:线性核》不能解决非线性问题
    2、ploynomial:多项式核》升维多条直线
    3、rbf:径向基(高斯核函数)》将数据映射到高维空间,依然保持在低维空间上的普适性,高斯分布提供一定的非线性能力,容易被计算机学习
    4、sigmoid:加入激活函数

线性回归转为线性不回归:

  • 1、多种感知机:多条直线
  • 2、升纬度
  • 3、激活sigmal,回归带入不回归公式

你可能感兴趣的:(人工智能,人工智能,机器学习)