NEFU数据科学导论(五)特征工程2特征选取

一、概念 什么是特征选择?
从数据集的全部特征中选取一个特征子集的过程被称为特征选择
二、基本流程

NEFU数据科学导论(五)特征工程2特征选取_第1张图片

2.1子集产生

NEFU数据科学导论(五)特征工程2特征选取_第2张图片 

2.2子集评估

NEFU数据科学导论(五)特征工程2特征选取_第3张图片 

 停止条件

NEFU数据科学导论(五)特征工程2特征选取_第4张图片

2.3子集检验

NEFU数据科学导论(五)特征工程2特征选取_第5张图片 

三、过滤式方法

 3.1常用特征选择统计量

NEFU数据科学导论(五)特征工程2特征选取_第6张图片

3.1.1方差阈值

NEFU数据科学导论(五)特征工程2特征选取_第7张图片 

3.1.2Pearson相关

NEFU数据科学导论(五)特征工程2特征选取_第8张图片 

3.1.3距离计算

NEFU数据科学导论(五)特征工程2特征选取_第9张图片 

NEFU数据科学导论(五)特征工程2特征选取_第10张图片 

统计分量越大,特征越重要 

3.1.4信息熵

NEFU数据科学导论(五)特征工程2特征选取_第11张图片

NEFU数据科学导论(五)特征工程2特征选取_第12张图片 

信息增益越大特征越重要 

四、产生特征子集的搜索策略

4.1启发式搜索策略-贪心算法

NEFU数据科学导论(五)特征工程2特征选取_第13张图片 

 前向搜索    后向搜索’    双向搜索

4.2.1 前向搜索

NEFU数据科学导论(五)特征工程2特征选取_第14张图片

4.2.2 后向搜索

NEFU数据科学导论(五)特征工程2特征选取_第15张图片

 4.2.3. 双向搜索

NEFU数据科学导论(五)特征工程2特征选取_第16张图片 五、封装式方法

5.1过程

NEFU数据科学导论(五)特征工程2特征选取_第17张图片

 5.2相应指标

NEFU数据科学导论(五)特征工程2特征选取_第18张图片

NEFU数据科学导论(五)特征工程2特征选取_第19张图片 

NEFU数据科学导论(五)特征工程2特征选取_第20张图片 

 5.3递归信息的消除

NEFU数据科学导论(五)特征工程2特征选取_第21张图片

六、嵌入式方法 

6.1概念

6.2方法

正则化

基于树的模型 

6.2.1正则化

 NEFU数据科学导论(五)特征工程2特征选取_第22张图片

LI范数更易于获得“稀疏”解,即求得的w会有更少的非零分量
 6.2.2基于树的模型 

NEFU数据科学导论(五)特征工程2特征选取_第23张图片

6.2.2判断指标

平均不纯度

 NEFU数据科学导论(五)特征工程2特征选取_第24张图片

平均精确度

NEFU数据科学导论(五)特征工程2特征选取_第25张图片

 

 

你可能感兴趣的:(人工智能)