ML-DL-Algorithm--1--算法工程师/研究员的小白进阶之路--特征工程与模型评估

1、特征工程与模型评估

对于不同的特征该如何进行特征工程?

特征工程:

顾名思义, 是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用。

从本质上来讲, 特征工程是一个表示和展现数据的过程。 在实际工作中, 特征工程旨在去除原始数据中的杂质和冗余, 设计更
高效的特征以刻画求解的问题与预测模型之间的关系。

  • 两种常用的数据类型:
  1. 结构化数据
  2. 非结构化数据

不同特征的处理方法:

  1. 特征归一化:化到0-1之间
  2. 类别型特征:例如男、女,血腥ABC,通常为字符串输入,处理时需转化为数值型
  3. 高维组合特征的处理:把各种一阶离散特征(即1阶矩阵)组合成高阶特征(即高阶矩阵),然后进行矩阵运算
  4. 组合特征:例如基于决策树的特征组合查找方法
  5. 文本表示模型:词袋模型(Bag of Words) , TF-IDF(Term Frequency-Inverse Document
    Frequency) , 主题模型(Topic Model) , 词嵌入模型(Word Embedding)
     
  6. Word2Vec:谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。 Word2Vec实际
    是一种浅层的神经网络模型, 它有两种网络结构, 分别是CBOW(Continues Bag
    of Words) 和Skip-gram。
     
  7. 图像数据不足时的处理方法:数据增强、迁移学习(Transfer Learning) , 生成对抗网络, 上采样技术, 数据扩充
     

2、模型评估中不同的指标用在什么场景中?

  • 指标有:准确率(Accuracy) , 精确率(Precision) , 召回率(Recall) , 均方根误差(Root Mean Square Error, RMSE)
  1. mAP:各种类别的平均准确率
  2. ROC曲线:横坐标为假正率(False Positive Rate, FPR),纵坐标为真正率(True Positive Rate, TPR),
  3. 直观地绘制ROC曲线的方法。 首先, 根据样本标签统计出
    正负样本的数量, 假设正样本数量为P, 负样本数量为N; 接下来, 把横轴的刻度
    间隔设置为1/N, 纵轴的刻度间隔设置为1/P; 再根据模型输出的预测概率对样本进
    行排序(从高到低) ; 依次遍历样本, 同时从零点开始绘制ROC曲线, 每遇到一
    个正样本就沿纵轴方向绘制一个刻度间隔的曲线, 每遇到一个负样本就沿横轴方
    向绘制一个刻度间隔的曲线, 直到遍历完所有样本, 曲线最终停在(1,1) 这个
    点, 整个ROC曲线绘制完成
  4. AUC:指的是ROC曲线下的面积大小,AUC的取值一般在0.5~1之间。 AUC越大, 说明分类器越可能把真正的正样本排在前面, 分类性能越好。
    如果研究者希望更多地看到模型在特定数据集上的表现, P-R曲线则能够更直观地反映其性能。
  5. P-R曲线:横轴是召回率, 纵轴是精确率。 对于一个排序模型来说, 其P-R曲
    线上的一个点代表着, 在某一阈值下, 模型将大于该阈值的结果判定为正样本,
    小于该阈值的结果判定为负样本, 此时返回结果对应的召回率和精确率。
  6. F-score:适用于不平衡数据集,调整精度与召回率之间的矛盾,较为全面的评价一个分类器
     

你可能感兴趣的:(ML-DL-Algorithm)