1.在早期,自然语言的处理思路可以分为哪两个流派? (121)
答: 1948年, 信息论创始人Cade Ewnd Shamon发表论文《通信的教学理论》,其中提到了把自然语言当作一个马尔科夫过程,把概率模型和城的概念引人到了自然语言处理中。1956年,数学家Stephen Kleene发表了论文《神经网络事件表示法和有穷自动机),提出了正则表达式的概念。语言学家Avram Noum Chomsky在1956 年提出了上下文无关语法在自然语言处理中的应用。这一系列的研究基本也表明了自然语言处理技术的两大阵营,基于概率的符号派和基于规则的随机派。
2.为什么基于规则的自然语言处理方法应用逐渐减少? (P21)
答:基于规则的方法工作量大,可扩展性不高。比如一些早期的聊天系统只能在特定的领城表现良好,当稍微超出预定的规则,将系统置于一个比较合糊和不确定的语境时,聊天系统就无法正常聊天了。
3.你知道21世纪以来哪些具有里程碑意义的自然语言处理研究成果? (P21)
答:基于神经网络的语言模型、多任务学习、循环神经网络、词向量、注意力机制等。
4.自然语言处理可以与哪些领域深度结合? (P21)
答:医疗、教育、媒体、金融、法律等领域。
5.自然语言处理的挑战有哪些? (P21)
答:从细粒度的任务层面而言,词义消歧、指代消解、上下文理解以及对于语用意义的理解等。
6.自然语言处理有哪些基本任务及基本工具? (P21)
答:基础任务有词形还原、词性标注、分词、命名实体识别、句法分析;基本工具有NLTK、Spacy、Stanford CoreNLP、LTP、 Polyglol、 jieba 等。
7.有哪些常用的机器学习相关工具? (121)
答: Numpy、 Seipy、 Pandas 、sikit - learm、MLib、Shogun 等。
8. 你知道哪些深度学习框架? (21)
答: Mxnet、 Caffe、 CNTK、TensorFlow、Keras、PYTorch等。
1.逻辑回归应用于何种问题? (P47)
答:逻辑回归一般应用于比较简单的二分类问题,也可以通过一定的方法使其造应于多分类问题。
2.逻辑回归有什么优缺点? (P47)
答:逻辑回归算法实现简单,计算代价不高,解释性强,还能够提供分类概率,缺点则是在比较复杂的场景下容易欠拟合,精度不高。
3.朴素贝叶斯中的“朴素"指什么? (P47)
答:各个特征之间的条件独立性假设,即特征之间不存在关联。
4. Kmeans 的一般步骤是什么? ( P47)
答: (1) 选择K个点作为初始质心。
(2) 将余下的点归类到最近的质心形成K个簇。
(3) 重新计算每个簇的质心。
(4)重复2、3步骤直到达到设定的最大选代次数或者簇不发生变化。
5.对于Kmeans中质心的选择有什么改进方案? (P47)
答:存在多种方案: (1)通过层次聚类划分k个层次,并且计算每个簇对立的质心作为初始质心。
(2)随机选择第一个质心,接下来选择离此点距离最大的点作为下一个质心。依次进行,直到选出k个质心。
(3)大体思想与2类似,不同的点在于,通过检测样本点的祥本密度和与之前质心的分散度来决定下一个质心的选取。
6. 决策树有哪些选择特征的方法? (P47)
答: ID3、C4.5、 CART.
7.什么是随机森林? (P47)
答:是一种自助抽祥集成算法,将训练集分成n个新训练集,,分别构建n个模型,预测阶段整合此n个模型得到最终结果,当模型为决策树的时候便为随机森林。
8.还有哪些经典的机器学习算法?(P47)
答: K邻近算法、支持向量机、奇异值分解、独立成分分析等。
1.人类神经元的结构是什么样的? (P61)
答:神经元主要由细胞体和细胞突起构成,细胞突起是细胞体延伸出的细长部分,又可分为树突与轴突。树突可以有多个,可以接受刺激并将兴奋传入细胞体,而轴突一般只有一个,可将兴奋从胞体传送至其他组织或另外的神经元。
2.激活函数有什么作用?有哪些常见的激活函数? (P61)
答:激活函数用于将数据进行非线性变化,增强模型的拟合能力,常见的有Sigmoid.Tanh、Relu等。
3. Sigmoid作为激活函数的时候有什么缺点? (P61)
答:输出值不以零为中心,并且容易导致梯度消失问题。
4.相比于传统的机器学习,深度学习有哪些优势? (P62)
答:能够自主选择有用特征并且挖掘潜在特征,模型的拟合能力很强大,能应对更复杂的问题。
5.有哪些基础的神经网络结构? ( P62)
答:多层感知机、循环神经网络、卷积神经网络。
6.预训练模型有什么作用,在什么场最下可以用到? (P62)
答:相当于前人的经验与总结,能够极大地提高当前任务的运作效率,几乎大部分场景下都可以应用,在自然语言处理中主要体现在对词的预编码。
7.有哪些减少过拟合的方法? (P62)
答:增强数据的“质”及“量”,加入正则化项,适当简化模型,应用集成思想等。
8.注意力机制和自注意力机制的差别是什么? (P62)
答:以机器翻译的场景为例,注意力机制针对的是原文与译文之间的注意力关系,而自注意力机制则指同一文本间的注意力关系。
1.有哪些常用的文本预处理项目? (P83)
答:格式统一、去噪、去停用词、大小写转换、去特殊符号、词形还原、分词、词性标注、句法分析、文本纠错、关键词提取等,根据具体任务有机选取。
2.中英文本的预处理过程有何不同? (P83 )
答:中文的词语中间不存在空格,因此需要分词算法将词语进行区分;英文是形态变化语,因此存在词形还原、大小写转换、词干提取等预处理步骤。
3.你知道哪些关键词提取的方法? ( P83)
答:基于规则、基于主题模型、基于图模型。
4.有哪些常用的分词工具? (P83)
答: StanforCoreNLP、 HanLP、 THULAC、SnowNLP、 jieba 等。
5.数据不平衡会对模型训练带来什么影响? ( P83)
答:模型容易过拟合,对数据量少的类别识别不佳。
6.从数据层面有哪些针对数据不平衡问题的思路? ( P83)
答:基于数据量及数据特性,对数据进行上下采样、数据合成等操作。
7.从算法层面有哪些针对数据不平衡问题的思路? (P83 )
答:采用集成学习的思路减弱过拟合,为模型添加特殊的代价机制。
8.你用过哪些处理数据不平衡的工具?(P83)
1.基于频次的词袋模型有什么缺点? (P107)
答:没有考虑词序、词之间的联系以及文法,丢失了许多重要信息。
2. TF-IDF的基本原理是什么? (P107)
答:其核心包含两部分: TF表示某个词在某一文本中出现的频率,IDF为逆向文档频率,与某词在综合语料库中出现的频率相关。TF- IDF综合考虑了以上两个方面,如果某词在当前文本中出现频次越多,而在其他文本中出现频次越少,此词越是重要。
3. Word2Vec的基本原理是什么? (P107)
答:利用深度学习对大量语料库中词与词之间的上下文联系进行建模,输入中心词预测上下文或者输入上下文预测中心词,最终训练而得的词向量在模型隐层矩阵中。
4. Word2Vec的训练过程中有哪些技巧? (P107)
答:将常见的单词组合(或者说词组) 当作一个单词来处理;
对高频词进行抽样处理,减少其样本量;
负采样,大幅度减小计算量。(三大创新)
s.有哪些改进后的词表征方案? (P107)
答: GloVe、FastText、 ELMo 、Open AI GPT、Bert等。
6.如何应用词向量获取句向量? (P107)
答:最简单的方式是直接平均,或者基于词语在语科中的出现频次等因素进行加权平均。
7.可以应用类似Word2Vec的方法直接训练句向量吗? (P107)
答:可以,以三个相邻的句子为为一组,利用中心句来预测前后两个句子。
8.为什么可以将多任务学习应用于句向的表征中?(P107)
答:基于语料与任务的多样性,模型可以学习到更广泛更通用的语言表征。
1. 有哪些任务可以转化为序列标注问题?(P120)
答:常见的有词性标注、分词、命名实体识别等基础自然语言处理任务,另外,只要数据可以转换为序列形式,并且序列元素需要进行分类的问题都可以认为是序列标注问题。
2. 序列标注任务的难点有哪些? (P120)
答:与具体任务相关,如果序列元素之间、标注与元素之间、标注与标注之间等存在错综复杂的关系,那么特征提取会很困难,不容易用单一模型进行建模。
3.基于HMM模型的序列标注的大概原理是什么? (P120)
答:将输入序列当作观测序列,标注组成的序列为隐藏状态序列,HNM模型假设前一隐藏状态与后一隐藏状态存在转移关系,隐藏状态与观测值间也存在关系,通过这些假设对数据进行建模,预测某一观测序列的隐藏状态序列。
4.基于HMM模型的序列标注存在哪些问题? ( P120)
答:假设性太强,任一隐藏状态只有前一隐藏状态及观测值存在关系,而很多实际问题事实上与全局序列都存在关联;对隐藏状态和观测序列进行联合分布建模,而在标注问题中,我们的预测目标仅仅是,在给定观测序列时隐藏状态序列的条件概率。
5. MEMM模型与HMM模型有哪些不同? (P120)
答: MEMM考虑到相邻隐藏状态之间的依赖关系,且考虑了整个观察序列,因此提取特征能力更强;是判别模型,针对分类问题(序列标注可看作对每个序列元素的分类问题)。
6.基于CRF模型的序列标注有哪些优势? (P120)
答: CRF在具MEMM模型优点的基础上,还克服了MEMM模型标记偏置的问题。
7.如何应用深度学习模型进行序列标注? (P120)
答:一般可应用循环神经网络进行序列建模,在输入的表征、特征的提取、模型细节的设计等方面有诸多选择方案,具体根据任务情况来考量。
8.为什么要在深度学习模型中加人CRF层? (P120)
答:深度学习模型比较倾向于提取输入序列的特征并进行建模,而忽略了标注序列间的元素也存在一定联系,CRF层可以通过建模相邻标注之间的关系弥补这一缺陷。
1.谷歌、百度等搜索引擎是如何实现关联搜索的? (P136)
答:搜索引擎背后有一张巨大的由实体和关系组成的关系网络,相当于计算机的大脑,根据输入内容联想到相关信息。
2.关系抽取有哪些主要方法? (P136)
答:应用传统机器学习或者深度学习的方法进行全监督学习;
基于Bootstrap 的半监督关系抽取方法;
基于聚类的无监督学习方法。
3.关系抽取中的远程监督是为了解决什么问题? (P136)
答:随着深度学习的发展,基于监督学习的方法在性能上有了很大的提升,但是存在标签数据缺少的问题。远程监督的核心假设为:如果某两个实体存在确定的某一关系,那么所有包含此两者的句子都表达了这一关系。基于这一假设,只需要带有确定关系的实体对,便能够在大量文本数据中提取相应的句子并转化为带标签的数据,极大地增加了标注数据量。
4.强化学习如何解决远程监督中错误标签的问题? ( P136)
答:将对关系候选项集合进行识别的任务当作一系列动作组合而成的行为,根据筛选出的集合在分类任务上的性能表现评判筛选质量,并基于此对行为进行反馈,最终学习到最佳的筛选行为。
5. Snowball系统的基本流程是什么? (P136)
答:依靠少量的种子实体对,即已确认存在关系的实体对,生成关系表达模式,再根据关系表达式生成更多的实体对,如此反复迭代直至找到更多的实体对。
6. Snowball系统中是如何对Patterns以及Tuples质量评估的? (P136)
答:对于Patterns的评估,如果一个Pattern 找到的Tuples质量高,那说明此Patterm 的质量也高,反之对于Tuples也是如此,质量好的Pattern 所生成的Tuple质量也高。作者利用Tuples以及Patterns之间相互生成以及相互监督质量的方式,正如系统名所示,滚雪球般地从文本中获取了实体及实体间的关系信息,其中的思想非常巧妙。
7. DeepDive的一般工作流程是什么? (P136)
答:数据预处理、数据标注、学习与推理、交互迭代。
8.什么是因子图? (P136)
答:因子图是一种概率图模型,其节点有两种模式,随机变量及因子。随机变量用于描述一个事实,因子是关于变量的函数,用于表述变量间的关系。
1.知识图谐的前身是什么? (P152)
答:基于对人类大脑的认识,Qullin早在20世纪600年代就提出了语义网络的概念,由相互连接的节点和边组成,节点表示概念或对象,边表示其间的关系,进而表达人类知识。其后,万维网之父Tim Berners Lee分别在1998年和2000提出了语义网(Semantic Web)和链接数据(Linked Data)的概念。 知识图谱的概念是对以上概念的部分继承以及进一步包装。
2.知识图谱的表现形式是什么? (P152)
答:知识图谱由一条条知识构成,而每一条知识可以用一个三元组表示,其基本形式主要包括“实体-属性-属性值"和“实体1-关系-实体2”。每个实体都是唯一的,其“属性-属性值”用描述实体的特性。
3.如何存储知识图谱? (P152)
答:要结合数据的特性及相关应用进行选择,通常在很多情况下会结合多种形式进行存储,可以选取关系型数据、NoSQL 数据库、图数据库等。假如数据间的关系比较复杂,可以选用图数据库;如果数据中的属性很多,考虑关系式数据库;如果考虑可移植性、可分布性等性能,可以采用NoSQL数据库。
4.实体匹配的难点是什么? (P152)
答:本体匹配存在数据杂以及数据规模大两大挑战。
5.实体链接解决的是什么语言现象? (PI52)
答:自然语言的多样性及歧义性。
6. 知识推理主要有哪些方法? (P152)
答:主要可分为基于规则的推理、基于分布式表达的推理、基于神经网络的推理以及融合多种方法的推理。
7.如何将知识图谱应用于反欺诈系统? (P152)
答:通过知识图谱可以更加体系化地存储、查询并使用信息,在用户背景调查、虚假信息检测、动态异常检测等方面都能发挥作用。
8.如何将知识图谱结合推荐系统? (P152)
答:将知识图谱中实体的属性作为算法的输入特征,从而增加推荐系统所考虑的特征维度;或者将其当作一个异构信息网络,并且构造特定的关系路径或关系图来挖掘实体点的潜在联系,并基于此进行个性化推荐。