机器学习随笔

绪论

  1. 奥卡姆剃刀: 若有多个假设与观察一致,则选择最简单的那个
  2. 无免费午餐(NFL):不同算法对所有可能的真实目标函数拥有相同的训练集外总误差。
  3. NFL核心思想:脱离具体问题,空泛的谈论“什么学习算法最好”是没有意义的。
  4. 假设空间: 假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集”匹配“的假设。
    注:假设数据集有n种属性,第i个属性可能的取值有titi种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1种假设。
  5. 版本空间: 现实问题中常常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。

模型评估与选择

  1. 训练误差: 学习器在训练集上的误差,也称作经验误差。
  2. 泛化误差: 学习器在新样本上的误差
  3. 复杂度可以分为两种级别:一种是O(1),O(log(n)),O(n^a )等,我们把它叫做多项式级的复杂度,另一种是O(a ^n )和O(n!)型复杂度,它是非多项式级的,其复杂度往往计算机都不能承受。
  4. P: 一个问题可以在多项式(O(n^k))的时间复杂度内解决 (计算机比较容易算出答案的问题)
  5. NP: 问题的解可以在多项式的时间内被验证(已知答案以后计算机可以比较容易地验证答案的问题。)
    举例:大整数因式分解问题-比如有人告诉你数9938550可以分解成两个数的乘积,你不知道到底对不对,但是如果告诉你这两个数是1123和8850,那么很容易就可以用最简单的计算器进行验证。
  6. NP-hard: 指所有NP问题都能在多项式时间复杂度内归约到的问题,但该问题本身不一定是NP问题
  7. NPC(NP完全问题): 既是NP问题,也是NP-hard问题。目前没有找到多项式时间解决NP问题的方法,因此无法证明P=NP。
  8. 模型评估方法:
    留出法:直接将数据集划分为两个互斥集合,多次划分取平均
    交叉检验法: 将数据集划分为k个大小的互斥子集(k折交叉验证),每个子集尽量保持数据分布一致性
    自助法(bootstraping):又放回从样本集D(样本大小为m)中进行m次采样得到D‘,经计算D中约有36.8%(1/e)未出现在D’(训练集)中。
    为了不破坏初始数据集的分布,在数据量足够的情况下,留出法和交叉验证法更加常用。
  9. 错误率: 分类错误的样本数占样本总数的比率。
  10. 精度: 分类正确的样本数占样本总数的比例。
  11. ROC曲线 :研究泛化性能,横轴是假正例率(FPR), 纵轴是真正例率(TPR),AUC是ROC曲线下方面积,用来衡量学习器的优劣。
  12. 偏差: 偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的你和能力
  13. 方差: 方差度量了同样大小的训练集变动导致的学习性能的变化,即刻画了数据扰动所造成的影响
  14. 噪声: 表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
  15. 泛化性能是由学习算法的能力,数据的充分性以及学习任务本身的难易程度所共同决定的。

线性模型

  1. 逻辑回归:又称为对数几率回归,实际上是用线性回归模型的预测结果去逼近真实标记的对数几率。
  2. 解决步骤:不同类别后验概率 ——>对数似然——>梯度下降——> 权重向量w, 偏移量b
  3. 线性判别分析(LDA):给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离。
  4. 再缩放:对于类别不平衡问题,正例与反例之比不再是以1为分界线,而是以训练集中正反例之比为分界线。

决策树

  1. 信息熵:熵在各种情况等概率时最大。信息熵越大事件不确定性越大。
  2. 信息增益:信息增益越大,意味着使用属性a来进行划分所获得的纯度提升越大。
  3. 基尼指数:基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率,其值越小数据集D的不确定性越小,纯度越高。
  4. 剪枝:
    预剪枝:设计测试集与训练集,通过判断测试集错误率进行剪枝,缺点是有欠拟合风险。
    后剪枝:通过训练集生成完整的决策树,自底向上进行剪枝,欠拟合风险小,但是训练开销大。
  5. 连续问题:与离散属性不同,若当前节点划分属性为连续属性,该属性还可以作为其后代节点的划分属性
  6. 缺失值处理:
    (1)ρ:无缺失样本所占的比例
    (2)pk:无缺失样本中第k类所占的比例
    (3)rv:无缺失样本中在属性a上取值av的样本所占的比例
    (4)wx:为每个样本赋予权重,默认为1
    解题步骤:
    ①信息增益公式:
    Gain(D, a) = ρ * (Ent(D’) - Σ(v:1 => V) rv * Ent(D’v))
    ②取得信息增益最大属性值a
    ③将完整样本根据属性值a进行分类, 缺失样本则将其权重调整为rv * wx,直观的说就是让同一个样本以不同的概率划入到不同的子节点中去;

你可能感兴趣的:(机器学习)