华工机器学习培训笔记

Day1


一、上午

  1. 传统程序:数据 + 程序 -> 电脑 -> 输出
    机器学习:数据 + 输出 -> 电脑 -> 程序
  2. 条件概率、边缘概率、联合概率、参考;
    贝叶斯公式、贝叶斯网络、概率的链式法则(重点理解)、参考;
    概率图模型(自学,即贝叶斯网络和马尔柯夫网络);
  3. 概率密度函数、Transformed Densities(不理解)、参考;
    最大似然估计、最大后验估计、参考;
  4. 自信息:不确定性的消除;
    概率:事件的不确定性程度;
    熵、联合熵、条件熵、相对熵、交叉熵、参考
  5. 导数的链式求导法则

二、下午

  1. 数据、代价函数、最小化代价函数、
  2. 最小二乘法(推导)、正则化、梯度下降、线性回归(FIT,拟合)
  3. 线性分类、支持向量机(软间隔、hinge loss)、各种损失函数
  4. 随机梯度下降、批次随机梯度下降(节约内存)
  5. Adma(AdaGrad + RMSProp)(重点理解!面试必考!)
    AdaGrad:适用于稀疏梯度;当梯度较小时,下一步跑得慢;梯度较大时,下一步跑得快。
    RMSProp:自适应学习率。
  6. 牛顿法:每一步梯度都由一个 xxx 矩阵确定,但是复杂度高。(自学)
  7. 优化算法:分布式(中心化(工业界常用)、去中心化)、量化


    华工机器学习培训笔记_第1张图片
    梯度下降矩阵计算.png

三、晚上

  1. Linux(环境变量、常用命令)

man: Linux 下的帮助指令。
which:用于查找并显示给定命令的绝对路径。
free:显示当前系统未使用和已使用的内在数目。-h:以可读的方式显示。
df:显示磁盘分区上的可用空间。挂载点
top:系统的运行情况。(load:1、5、15 分钟的负载情况)

  1. GPU 的基础概念
  2. Docker的基础概念
  3. NVIDIA Docker 的基础概念 (deepo、docker hub)
  4. 实验、及相关代码


Day2

一、上午

大纲
华工机器学习培训笔记_第2张图片
大纲.png
1. 线性模型:单层感知机(sign -> (-1, 1))、逻辑回归(sigmoid -> (0,1))。
2. 决策树(详见《机器学习》):
华工机器学习培训笔记_第3张图片
决策树学习基本算法

2.1. 纯度:the degree that the samples in one leaf node belong to the same class
2.2. 信息熵:平均而言发生一个事件我们得到的信息量大小。
2.3. 信息增益:熵 - 条件熵,在一个条件下,信息不确定性减少的程度。(ID3)
2.4. 增益率:惩罚参数 * 信息增益。(C4.5)
2.5. 基尼系数:是一种与信息熵类似的做特征选择的方式,可以用来数据的不纯度。(CART)

3. 集成学习(详见《机器学习》)
华工机器学习培训笔记_第4张图片
集成学习.png

3.1. 基分类器
3.2. 加性模型

4. AdaBoost(如何训练、合并、更新数据分布)(一堆数学公式……)

4.1. 流程:


华工机器学习培训笔记_第5张图片
AdaBoost 算法流程.png

4.2. 伪代码:


华工机器学习培训笔记_第6张图片
AdaBoost 伪代码.png

4.3. 理论分析:错误率有上界;模型自由率比较小,不容易过拟合;
4.4. AdaBoost 的局限性:等价对待正例和负例。

4.5. 解决:代价敏感学习


华工机器学习培训笔记_第7张图片
AdaBoost 局限性解决 - 代价敏感学习.png

4.6. AdaCost
华工机器学习培训笔记_第8张图片
image.png
华工机器学习培训笔记_第9张图片
AdaCost.png
5. GBDT(基于回归树)

5.1.动机


华工机器学习培训笔记_第10张图片
image.png

华工机器学习培训笔记_第11张图片
image.png

5.2. 训练基分类器


华工机器学习培训笔记_第12张图片
1.png

华工机器学习培训笔记_第13张图片
3.png

5.3. 组合分类器:加性模型
华工机器学习培训笔记_第14张图片
image.png

5.4. 改变数据分布:残差。
5.5 伪代码


华工机器学习培训笔记_第15张图片
梯度提升算法 -伪代码.png

华工机器学习培训笔记_第16张图片
GBDT 伪代码(第 3 步).png
6. XGBoost

6.1. 过拟合、欠投合、偏差、方差


华工机器学习培训笔记_第17张图片
新的目标函数.png

6.2. XGBoost 目标函数


华工机器学习培训笔记_第18张图片
XGBoost 目标函数.png

6.3. How to learn? (……一堆公式+一堆例子,这一部分完全没听懂)
7. 剪枝、正则化
华工机器学习培训笔记_第19张图片
image.png
8.准确度
image.png
9.总结
华工机器学习培训笔记_第20张图片
image.png
10. 附件: XGBoost的实验手册、调参

二、下午

大纲

华工机器学习培训笔记_第21张图片
day02 下午大纲.png

华工机器学习培训笔记_第22张图片
照片的形成.png

华工机器学习培训笔记_第23张图片
像素值相关.png

华工机器学习培训笔记_第24张图片
图片存储.png

没怎么听……不太感兴趣……


三、晚上

如何做实验及管理实验
1. Research Workflow
华工机器学习培训笔记_第25张图片
工作流程.png
2.模型设计
华工机器学习培训笔记_第26张图片
Model Design.png
3. 训练数据
华工机器学习培训笔记_第27张图片
Training Data.png
4. 目录结构
华工机器学习培训笔记_第28张图片
Directory Structure.png

checkpoints:用来保存中间结果。
opts(即 configure):放所有超参数等各种设置。
main:训练和测试的代码。

5. 命名及注释
华工机器学习培训笔记_第29张图片
train and annotation.png
6. 管理结果
华工机器学习培训笔记_第30张图片
Result Management.png



Day6

一、上午 推荐系统
1. 流程
华工机器学习培训笔记_第31张图片
推荐系统工作流程.png
2. 协同过滤:过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
华工机器学习培训笔记_第32张图片
协同过滤.png

2.1. 协同过滤分类


华工机器学习培训笔记_第33张图片
协同过滤分类.png

2.2. 协同过滤的基本方法


华工机器学习培训笔记_第34张图片
image.png
3. User-based 模型
华工机器学习培训笔记_第35张图片
User-based 模型.png

3.1. 基本问题


华工机器学习培训笔记_第36张图片
User-based 模型的三个基本问题.png

3.1.1 相似度(套一个PCC公式,皮尔森)


华工机器学习培训笔记_第37张图片
相似度计算.png

3.1.2. 计算总分
华工机器学习培训笔记_第38张图片
总分.png

3.1.3. 取几个近邻(经验值)
华工机器学习培训笔记_第39张图片
近邻数.png

3.2. 模型的优化


华工机器学习培训笔记_第40张图片
User-based 模型优化,近邻算法.png

3.3 模型分析
华工机器学习培训笔记_第41张图片
image.png
4. Item-based 模型

4.1 模型的直观理解:利用其他相似值相同的 item,来评估 target item。


华工机器学习培训笔记_第42张图片
image.png

4.2 相似度计算:PCC 或者 余弦相似度


华工机器学习培训笔记_第43张图片
image.png

4.3 预测
[图片上传失败...(image-749553-1532742673361)]

4.4 优势:可以做离线预测。

5. 以上两个模型的基本问题:冷启动(content-based, 迁移学习)
华工机器学习培训笔记_第44张图片
image.png
6. Model-based 模型(难)
华工机器学习培训笔记_第45张图片
推荐的论文.png

华工机器学习培训笔记_第46张图片
使用 SVD 去 xxx.png

华工机器学习培训笔记_第47张图片
矩阵的评估.png
7. 聚类模型
华工机器学习培训笔记_第48张图片
image.png
8. 概率模型

[图片上传中...(image.png-952044-1532744092074-0)]

9. 分类模型
华工机器学习培训笔记_第49张图片
image.png
10. content-based 模型
华工机器学习培训笔记_第50张图片
image.png
11. learn to rank
华工机器学习培训笔记_第51张图片
image.png

二、Deep learning for RS

1.主流模型
华工机器学习培训笔记_第52张图片
image.png

华工机器学习培训笔记_第53张图片
image.png

华工机器学习培训笔记_第54张图片
image.png

华工机器学习培训笔记_第55张图片
image.png

你可能感兴趣的:(华工机器学习培训笔记)