一、机器学习
1、机器学习框架
转换为网络结构,如下图所示:
2、框架分析
(1)数值特性:
① 连续特征:log1P、|x| 、ex、归一化、离散化、顺序号等。
② 离散特征:频率、目标编码、One-hot 编码、合并、Label-Encoder 等。
(2)特征提取(以文本为例):
特征特征提取与特征选择有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。
(3)交叉特征:
① 文本交叉特征:文本相似度、N-gram 集合关系、词向量差、子串匹配、模糊匹配等。
② 数值交叉特征:a-b 、|a-b| 、a>b 、a*b 、 a/b 、 (a-b)2 等。
(4)特征选择、降维:
① 特征选择:Stepwise Regression(逐步回归)、特征重要性 ;
② 随机投影:Locality-Sensitive Hashing 、随机投影 ;
注:随机投影矩阵的维度和分布是受控制的,所以可以保存任意两个数据集的距离。因此随机投影适用于基于距离的方法。
③ 线性投影:PCA(主分量分析)、LDA(线性判别分析);
④ 非线性投影:Auto-Encoder(自动编码??)、GDA(标准广义判别分析)。
(5)模型选择、调参:
① 模型选择:暴力搜索 ;
② 超参数选择:网格搜索、随机搜索、Bayes Optimization(贝叶斯优化)。
二、深度学习
1、深度学习框架
转换为网络结构,如下图所示:
2、框架分析
类似于机器学习的分析。
3、Neural Architecture Search(神经网络搜索)
4、控制器的两种方案