深度学习常见问题(二)-特征工程概述

常见概念

1. 什么是特征工程?

  1.    如何理解:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”?
    
  • 数据和特征是对问题的一种表示,他们从理论上可以反映这个问题,所以是机器学习的上限,是模型和算法是利用数据和特征对这个问题进行解答,但由于其复杂性和局限性,不能完全体现出数据和特征的所有内在特性,因为不能达到这个上限,只是逼近上限
  1.    在机器学习和深度学习中,特征获取的方式有什么不同?
    
  2.    什么是自动分词?
    
  • 自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。
  1.    中文的自动分词和英文的自动分词有什么不同?
    
  • 英文单词之间有空格,中文词之间没有分割符
  1.    自然语言处理中中文分词的“word”和英文的“word”有什么区别,难点在哪里?
    
  • 英文文档的最小语义单位是单词,多数情况在处理时可以以空格分隔,而中文文档则没有这样的“便利”,中文分词需要考虑的问题要更多一些,即中文的“字”在很多时候是文档的最小语义单位,要考虑前后组合和粒度的问题
  1.    什么是词根提取?
    
  • 是抽取词的词干或词根形式(不一定能够表达完整语义)。
  1.    什么是词形还原?
    
  • 词形还原(lemmatization):是把词汇还原为一般形式(能表达完整语义)。
  1.    词形还原与词根提取的处理结果一样吗。
    
  • 不一样 ,一个单词通常包含其词根,然后再进行变化,词形还原是对变化进行还原,提取的结果是一个包含词根的单词,而词根提取是对单词的词根进行提取,提取的结果不一定是个单词
  1.    什么是词性标注?
    
  • 词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。
  1. 什么是句法分析?自然语言处理中的句法分析的目的是什么?
    
  2. 列举你所知道的文本预处理工具。
    
  • NLTK,TextBlob,Spacy,Apache OpenNLP,OpenNMT,MBSP
  1. NLTK的全称?提供了哪些文本处理功能?
    
  • NLTK:Natural Language Toolkit
    提供了:
    1.词语切分
    2.词干提取
    3.标记
    4.句法分析
  1. Text Processing API提供了哪些文本处理功能?
    
  • 词根提取与词形还原,情感分析,词性标注和语块抽取,短语抽取和命名实体识别

2.向量空间模型及文本相似度计算

  1.    文档向量化的意义?
    
  • 为了便于计算文档之间的相似度,需把文档转成统一空间的向量。
  1.    如何进行文档向量化表示?
    
  2.    什么是词袋模型?
    
  • 为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。
  1.    什么是VSM模型?
    
  • 向量空间模型。其是指在BOW词袋模型
    假设下,将每个文档表示成同一向量空间的向量。
  1.    什么是停用词?分别举中、英文的例子;
    
  • 停用词通常是非常常见且实际意义有限的词,如英文中“the”, “a”, “of”, “an” 等;中文中“的”、“是”、“而且”等。几乎可能出现在所有场合,因而对某些应用如信息检索、文本分类等区分度不大。
  1.    什么情况避免进行停用词过滤?
    
  • 在某些应用如短语搜索phrasesearch 中,停用词可能是重要的构成部分,因此要避免进行停用词过滤。
  1.    什么是N-gram模型?N-gram模型有哪些应用场景?
    
  • N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。
  1.    在文档表示中,连续的若干词可否作为VSM的维度?
    
  • 连续的若干词可以作为VSM的维度, 如uni-gram bi-gram tri-gram
  1.    什么是 uni-gram, bi-gram, tri-gram?
    
  • N‐gram通常是指一段文本或语音中连续N个项目(item)的序列。项目(item)可以是单词、字母、碱基对等。N=1时称为uni‐gram,N=2称为bi‐gram,N=3称为tri‐gram
  1. 常见文档相似度度量方法?试简述之
    
  • 常见文档相似度度量方法有欧氏距离,余弦相似度,相关系数,曼哈顿距离等 欧氏距离 计算两者的直接距离,余弦距离相似度 计算两者夹角的大小 距离越小,说明文档越相似
  1. 如何计算文档之间的欧式距离?
    

在这里插入图片描述

  1.  如何计算文档之间的余弦相似度?
    

在这里插入图片描述

  1.  Tf-idf是什么?改善了什么问题?(为什么要引入idf?)
    
  • TF:衡量词对描述文档内容的能力大小,IDF:衡量词区分其所在文档与其他文档的能力
  1. 在Tf‐idf模式下,词条t在文档d中的权重如何计算?
    
  • 停止词 或是 无关重要的词语在多篇文档上都可能多次出现,直接按频率赋权重,可能将非核心词以更高的权重,基于这一问题 可以将所有文档里出现越多的词的权重降低,而将单个文档高频但多个低频的词视作关键词,给这类词以较高的权重
  1. Idf(t)如何计算?
    
  • 单句词频*(log总数/出现改词的句子数 +1)

3.特征处理(特征缩放、选择及降维)

  1.    什么是特征值的缩放?为什么要进行特征值的缩放?特征值缩放方法有哪些?
    
  • 特征值缩放(Feature Scaler)也可以称为无量纲处理。主要是对每个列,即同一特征维度的数值进行规范化处理。原因:如果某一特征的方差数量级较大,可能会主导目标函数,导致其他特征的影响被忽略 。方法:标准化法 区间缩放法
  1.    标准化法的公式表达?
    
  • 规范化、
    深度学习常见问题(二)-特征工程概述_第1张图片
  • 正规化、
    -深度学习常见问题(二)-特征工程概述_第2张图片
  • 归一化
    深度学习常见问题(二)-特征工程概述_第3张图片
  1.    特征值的区间缩放法的公式表达?
    
  2.    特征值归一化的必要性?
    
  • 数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。
  1.    什么是定量特征的二值化?
    
  • 特征二值化:设立阈值,将特征二值化,分为有还是无
  1.    缺失特征值的弥补计算?
    
  • 缺失的特征值可以通过计算整体同类特征的平均值进行弥补
  1.    如何创建多项式特征?
    
  • 通过对原始特征进行组合作为新的特征,如 加 减 乘 除
  1.    什么是特征选择?为什么要进行特征选择?
    
  • 有帮助的若干特征
  • 1)降维以提升模型的效率;2)降低学习任务的难度;3)增加模型的可解释性。
  1.    特征选择的角度有哪些?分别关注了什么问题。
    
  2. 总结一下常见的特征选择方法?
    
  • 方差选择法
  • 皮尔逊相关系数法
  • 基于森林的特征选择法
  • 递归特征消除法
  1. 方差选择法的原理?
    
  • 方差非常小的特征维度对于样本的区分作用很小,可以剔除。
  1. 皮尔森相关系数法的计算公式?
    

深度学习常见问题(二)-特征工程概述_第4张图片

  1. 基于森林的特征选择的原理是什么?
    
  • 利用随机森林算法的变量重要性度量对特征进行排序,然后采用序列后向搜索方法
  1. 什么是递归特征消除法?
    
  2. 线性判别分析LDA解决了什么问题?基本思想是什么。
    
  • LDA的思想:将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
  1. 主成分分析法(PCA)解决了什么问题?基本思想是什么。
    
  • PCA对原始数据的正则化或预处理敏感(相对缩放)。
    基本思想:
    将坐标轴中心移到数据的中心,然后旋转坐标轴,使得数据在C1轴上的方差最大,即全部n个数据个体在该方向上的投影最为分散。意味着更多的信息被保留下来。C1成为第一主成分。
    C2第二主成分:找一个C2,使得C2与C1的协方差(相关系数)为0,以免与C1信息重叠,并且使数据在该方向的方差尽量最大。
    以此类推,找到第三主成分,第四主成分。。。。第p个主成分。p个随机变量可以有p个主成分。
    主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。

你可能感兴趣的:(深度学习,深度学习,自然语言处理)