《机器学习:算法原理与编程实践》的读书笔记:SMO部分最难,大部分代码基于Scikit-Learn,决策树其实用处不大

机器学习:算法原理与编程实践

目录

 [隐藏] 
  • 1 机器学习的基础
  • 2 中文文本分类
  • 3 决策树的发展
  • 4 推荐系统原理
  • 5 梯度寻优
  • 6 神经网络初步
  • 7 预测的技术与哲学
  • 8 万能分类器:SVM
  • 9 人脸识别中的机器学习
  • 10 认知计算与深度学习
  • 11 概率图模型与词性标注

机器学习的基础[编辑]

  1. p12 矩阵的3个用途:(1)解线性方程组;(2)利用二次型,将线性不可分的数据集映射到高维可分,如SVM;(3)变换,维度约简,如PCA
  2. NumPy
    1. Linalg
  3. p21 相似度:范数(距离)
  4. 多元统计:联合分布/边缘分布?
  5. 特征之间的相关性
    1. (样本向量与均值的)马氏(Mahalanobis)距离 --> 若协方差矩阵是I,则变成欧氏距离
  6. 特征值与特征向量:分解为旋转和某方向上的伸缩?
  7. 数据归一化:略

中文文本分类[编辑]

  1. 文本挖掘的7个领域:IR、聚类、分类、Web挖掘、信息抽取、NLP、概念提取
  2. 文本分类的流程:预处理、分词、统计词频,生成词向量空间(全局的?)、权重策略(TF-IDF)、分类、评价
    1. 太学术了,没办法增量运算
  3. p62 中文分词:基于概率图模型的条件随机场(CRF),Lafferty 2001
  4. jieba分词?
  5. Scikit-Learn库简介
    1. 召回率(recall)与准确率(precision),F-score
  6. 朴素Bayes
  7. kNN

决策树的发展[编辑]

  1. 最优特征子函数:ID3是信息增益、C4.5是信息增益率、CART是节点方差
  2. 信息熵测度*
    1. vs 关系数据库中索引的‘区分度’概念?
  3. ID3
    1. 缺点:倾向于选择特征值个数多的特征;过拟合问题
  4. C4.5
  5. Scikit-Learn与回归树(CART)
    1. CART使用最小剩余方差来判定回归树的最优化分(即期望划分之后的子树与样本点的误差方差最小),然后对子模型数据进行线性回归(模型树
    2. 避免过拟合:剪枝
      1. E(子树误判次数) - Var(子树误判次数) > E(叶子误判次数)

推荐系统原理[编辑]

  1. 协同过滤
    1. User CF
    2. Item CF
  2. kMeans
  3. 聚类的改进:二分kMeans
    1. 首先将整体作为一个簇,选择能够最大限度降低聚类代价(误差平方和)的簇划分为二,直到>=k为止
  4. SVD:分解任意N*M矩阵
    1. 奇异值 vs 特征值

梯度寻优[编辑]

  1. 最优化与计算复杂性
    1. 凸集分离定理(超平面)
  2. Logistic梯度下降
    1. Logistic把(-∞,+∞)映射到(0,1)
    2. 随机梯度下降(SGD):随机样本抽取 + 动态步长取值

神经网络初步[编辑]

  1. BP
    1. 隐含层/传递函数:f(net) = 1/(1+exp(-net)) ——这不就是前面的Logistic函数嘛,为了归一化?
    2. (误差反馈)反向传播:略
    3. BP设计
      1. 隐含层数
    4. 问题:网络设计复杂、收敛慢、容易陷入局部最优(=> 动量因子)
  2. SOM
    1. 只有2层,输入层与输出层之间1:N连接
    2. 学习率 ?
    3. 聚类半径
  3. Boltzmann机*
    1. 模拟退火应用到BP?
    2. Boltzmann/Gibbs分布
      1. 统计力学中的表述形式:F(state)∝exp(-E/kT)
    3. 降温策略

预测的技术与哲学[编辑]

  1. 线性系统的预测
    1. 最小二乘
    2. 正规方程组法
  2. RBF
    1. 1985,Powell提出多变量插值的RBF法(拟合非线性函数,无须增加高次项)
    2. 前馈网络,无BP的误差反馈权值更新,学习速度比BP快得多,并且能够避免局部极小(层与层之间是N:N全连接???)
  3. 岭回归
    1. 随机变量存在多重共线性?
    2. A(k) = (X'X + kI)^-1 X' Y, 这里X'是X的转置
      1. ** 岭迹分析
      2. k值的判定:最小二乘是否合理?
  4. *预测的哲学(周易八卦阴阳两仪的部分感觉作者在扯淡)
    1. 周期3意味着混沌?
    2. Li-Yorke定理
    3. 求导后的Logistic映射:X_n+1 = k * X_n * (1-X_n)
    4. Logistic中的吸引子
    5. 三生万物 p259

万能分类器:SVM[编辑]

  1. 数学推导
    1. * Vapnik和Chervonenkis的VC维
    2. 结构风险最优(SRM原则)
    3. SVM的最佳分类超平面(这个感觉其实没多大用?)
    4. SVM求解过程:拉格朗日乘子法 p275-
      1. *** KKT条件与对偶变换
        1. KKT:指在满足Slater条件下(保证鞍点存在),一个非线性规划有最优解的充要条件
    5. 映射到高维空间
      1. 增加维度:可用x_i和x_j的乘积表示...
      2. 降低计算开销:核函数法
        1. RBF的Gauss核
    6. *** 离群点(噪声?)的松弛变量
  2. *** SMO

人脸识别中的机器学习[编辑]

  1. 人脸检测
    1. Haar级联
    2. LBP级联
  2. AdaBoost
  3. 人脸识别
    1. PCA原理
    2. 特征脸

认知计算与深度学习[编辑]

  1. DL已经发展为一套人工认知算法体系:多层感知器、CNN(LeNet)、RNN、LSTM网络、稀疏编码器、堆叠的自动编码器、深度置信网络、混合Monte Carlo抽样、压缩的自动编码器、RNN-RBM网络
  2. 多层感知器
    1. Softmax回归类*
    2. ** 正则化方法:
      1. 提前终止
      2. L1/L2
  3. *** 卷积神经网络(CNN)
  4. Theano与GPU计算

概率图模型与词性标注[编辑]

  1. Markov过程
  2. Bayes网
  3. HMM
  4. 词性标注系统

你可能感兴趣的:(算法,机器学习,smo,theano,scikit-learn)