面试总结之特征工程

面试总结之特征工程

  • 特征工程有哪些
  • 遇到缺值的情况,有哪些处理方式
  • 样本不均衡的处理办法
  • 出现Nan的原因
  • 特征筛选,怎么找出相似性高的特征并去掉
  • 包含百万,上亿特征的数据在深度学习中怎么处理
  • 计算特征之间的相关性方法有哪些?

特征工程有哪些

  1. 数据预处理
    1. 处理缺失值
    2. 图片数据扩充
    3. 处理异常值
    4. 处理类别不平衡问题
  2. 特征缩放
    1. 归一化
    2. 正则化
  3. 特征编码
    1. 序号编码
    2. 独热编码
    3. 二进制编码
    4. 离散化
  4. 特征选择
    1. 过滤式(filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题,如方差选择,卡方检验,互信息
    2. 包裹式(wrapper):实际上就是一个分类器,它是后续的学习器的性能作为特征子集的评价标准。如las vagas算法
    3. 嵌入式(embedding):实际上是学习器自主选择特征。如基于惩罚项的选择,基于树的选择GBDT
  5. 特征提取
    1. 降维
    2. 图像特征提取
    3. 文本特征提取
  6. 特征构建

遇到缺值的情况,有哪些处理方式

  1. 直接使用含有缺失值的特征:当仅有少量样本缺失该特征的时候可以尝试使用;
  2. 删除含有缺失值的特征:这个方法一般适用于大多数样本都缺少该特征,且仅包含少量有效值是有效的
  3. 插值补全缺失值
    均值、众数、中位数、固定值、手动、最近邻补全
    建模预测:回归、决策树
    高维映射,压缩感知
    多种方法插补

样本不均衡的处理办法

  1. 扩充数据集
  2. 尝试其他评价指标
  3. 对数据集进行重采样
 - 对小类的数据样本进行采样来增加小类的数据样本个数,即过采样(over-sampling, 采样的个数大于该类样本的个数)
 - 对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样(under-sampling, 采样的次数少于该类样本的个数) 
  • 尝试不同的分类算法:如决策树往往在类别不均衡数据上表现不错
  • 尝试对模型进行惩罚:比如你的分类任务是识别那些小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,focal loss

出现Nan的原因

  • Nan的含义是没有意义的数,一般有几种情况:0/0, Inf/Inf, Inf-Inf, Inf*0等,都会导致结果不确定,所以会得到NaN
  • 数据处理时,在实际工程中经常数据的缺失或者不完整,此时我们可以将那些缺失设置为nan
  • 读取数据时,某个字符不是数据,那么我们将它认为nan处理

特征筛选,怎么找出相似性高的特征并去掉

特征选择—过滤法:可以采用方差选择法相关系数法

包含百万,上亿特征的数据在深度学习中怎么处理

特征多,数据少,很容易导致模型过拟合

  • 降维:PCA 或LDA
  • 使用正则化,L1或L2
  • 样本扩充
  • 特征选择:去掉不重要的特征

计算特征之间的相关性方法有哪些?

  1. pearson系数,对定距连续变量的数据进行计算。是介于-1和1之间的值
  2. spearman秩相关系数:是度量两个变量之间的统计相关性的指标,用来评估当前单调函数来描述两个变量之间的关系有多好
  3. kendall相关系数:肯德尔系数是一个用来测量两个随机变量相关性的统计值

你可能感兴趣的:(Pytorch复习,深度学习)