03_机器学习相关笔记——特征工程(3)

03_机器学习相关笔记——特征工程(3)

  1. 在许多实际问题中常常需要面对欧中高维特征,简单地两两组合容易存在参数过多,过拟合的问题。
  2. 可以使用基于决策树的方式来寻找有效的组合特征。
  3. 梯度提升决策树,每次在之前构建的决策树的残差上构建下一棵决策树。
  4. 文本表示模型:词袋模型、N-gram模型、主体模型、词嵌入和深度学习模型。
  5. 词袋模型,将每篇文章看成一袋子词 ,并忽略每个词出现的顺序。每篇文章用一个长向量表示,每个维度表示一个单词,该维度反映了对应词在文章中的重要程度,常用TF-IDF计算其重要程度。
  6. TF-IDF(t,d)=TF(t,d)×IDF(t)
  7. TF表示词频,当前单词在当前文档中的频率。
  8. IDF表示逆文档频率,衡量当前单词对表达语义的重要程度。IDF(t)=log(文章总数/包含单词的文章总数+1)。IDF的直观解释为:如果一个单词在多数文章中出现则表明是一个较为通用的词汇,对于区分文章特殊语义的贡献较小,需要对权重做一定的惩罚。
  9. 词袋模型将文章中的所有的词汇都拆分开了,这样会使得相邻连贯的词汇分隔开,导致词汇的语义表达发生变化。可以将连续的几个单词作为一个整体用一个特征来表示(N-gram模型)。
  10. 在N-gram模型实际使用中,一般会对单词进行词干提取处理,将不同词性的单词统一成为同一词干的形式。
    注:笔记内容来源于《百面机器学习》

你可能感兴趣的:(百面机器学习阅读笔记,人工智能)