人工智能NLP算法岗面试题精选,附解析

问题1:当在文本数据中创建一个机器学习模型时,你创建了一个输入数据为 100K 的文献检索词矩阵(document-term matrix)。

下列哪些纠正方法可以用来减少数据的维度:

1、隐狄利克雷分布(Latent Dirichlet Allocation)

2、潜在语义索引(Latent Semantic Indexing)

3、关键词归一化(Keyword Normalization)

A、只有 1

B、2、3

C、1、3

D、1、2、3

答案:D

解析:所有的这些方法都可用于减少数据维度。


文末VIP会员、机械键盘、纸质书、硬盘等包邮送!


问题2:谷歌搜索特征——「Did you mean」,是不同方法相混合的结果。下列哪种方法可能是其组成部分?

1、用协同过滤模型(Collaborative Filtering model)来检测相似用户表现(查询)

2、在术语中检查 Levenshtein 距离的模型

3、将句子译成多种语言

A、1

B、2

C、1、2

D、1、2、3

答案:C

解析:协同过滤可以用于检测人们使用的是何种模式,Levenshtein 用来测量术语间的距离。协同过滤相信大家有所了解,这里具体说一下Levenshtein Distance 算法,它又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。这个“编辑距离”问题在搜索引擎中有着重要的作用,如搜索引擎关键字查询中拼写错误的提示,如下图所示,当你输入“Jult”后,因为没有这个单词“Jult”,所以搜索引擎猜测你可能是输入错误,进而会提示你是不是找“July”。

问题3: 在处理自然结构的新闻性句子的时候,哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测。

A、部分语音标注

B、依存句法分析(Dependency Parsing)和选取句法分析(Constituency Parsing)

C、Skip Gram 和 N-Gram 提取

D、连续性词包

答案:B

解析:依存句法分析和选取句法分析可从文本中提取这些关系。

问题4:社交媒体平台是文本数据最直观的呈现形式。假设你有一个推特社交媒体完整语料库,你会如何创建一个建议标签的模型?

A、完成一个主题模型掌握语料库中最重要的词汇;

B、训练一袋 N-gram 模型捕捉顶尖的 n-gram:词汇和短语

C、训练一个词向量模型学习复制句子中的语境

D、以上所有

答案:D

解析:上面所有的技术都可被用于提取语料库中最重要的词条。

问题5:在从文本数据中提取语境时,你遇到两个不同的句子:The tank is full of soldiers. The tank is full of nitrogen。下面哪种措施可被用于句子中词意模糊的问题?

A、对比模糊词汇与近义词在词典上的定义

B、同指(Co-reference) 解决方案,使用先前句子中包含的正确词意解决模糊单词的含义。

C、使用句子的依存解析理解含义

答案:A

解析:A 选项被称为 Lesk 算法,被用在词意模糊问题上,其他选择不对。

问题6:协同过滤和基于内容的模型是两种流行的推荐引擎,在建立这样的算法中 NLP 扮演什么角色?

A、从文本中提取特征

B、测量特征相似度

C、为学习模型的向量空间编程特征

D、以上都是

答案:D

解析:NLP 可用于文本数据相关的任何地方:特征提取、测量特征相似度、创造文本的向量特征。

问题7:基于检索的模型和生成式模型是建立聊天机器人的两个主流技术,下面那个选项分别包含检索模型和生成式模型例子?

A、基于辞典的学习和词向量模型

B、基于规则的学习和序列到序列模型

C、词向量和句子到向量模型

D、循环神经网络和卷积神经网络

答案:B

解析:选项 B 最佳诠释了基于检索的模型和生成式模型的例子。

问题8:CRF(条件随机场)和 HMM(隐马尔可夫模型)之间的主要区别是什么?

A、CRF 是生成式的,而 HMM 是判别式模型;

B、CRF 是判别式模型,HMM 是生成式模型。

C、CRF 和 HMM 都是生成式模型;

D、CRF 和 HMM 都是判别式模型。

答案:B

解析:

1)生成式模型or判别式模型(假设 o 是观察值,m 是模型。)

a)生成式模型:无穷样本 -> 概率密度模型 = 产生式模型 -> 预测 如果对 P(o|m) 建模,就是生成式模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和 Bayes 理论的基础之上。 HMM模型对转移概率和表现概率直接建模,统计共同出现的概率,是一种生成式模型。

b)判别式模型:有限样本 -> 判别函数 = 判别式模型 -> 预测 如果对条件概率 P(m|o) 建模,就是判别模型。其基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。 CRF是一种判别式模型。MEMM不是一种生成式模型,它是一种基于下状态分类的有限状态模型。

2)拓扑结构 HMM和MEMM是一种有向图,CRF是一种无向图

3)全局最优or局部最优 HMM对转移概率和表现概率直接建模,统计共现概率。 MEMM是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,由于其只在局部做归一化,所以容易陷入局部最优。 CRF是在全局范围内统计归一化的概率,而不像是MEMM在局部统计归一化概率。是全局最优的解。解决了MEMM中标注偏置的问题。

4)优缺点比较 优点:

a)与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)

b)与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。

c)与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。 缺点: 训练代价大、复杂度高

问题9:根据语句「I am planning to visit New Delhi to attend Analytics Vidhya Delhi Hackathon」解方程。

A = (名词作为语音标签的一部分)

B = (动词作为语音标签的一部分)

C = (频率计数大于 1)

下面哪个是A、B、 C 的正确值?

A、5、5、2

B、5、5、0

C、7、5、1

D、7、4、2

E、6、4、3

答案:D

解析:名词:I, New, Delhi, Analytics, Vidhya, Delhi, Hackathon (7) 动词:am, planning, visit, attend (4) 频率计数大于 1 的词:to, Delhi (2) 因此,选项 D 正确。

问题10:Word2vec 也包含预处理模型(preprocessing mode),它不属于深度神经网络。下列关于 Word2vec 的说法哪些是正确的?

A、word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型

B、连续性词包是浅层神经网络模型

C、Skip-gram 是深度神经网络模型

D、CBOW 和 Skip-gram 都是深度神经网络模型

E、以上表述全部正确

答案:B

解析:Word2vec 有两个变种,即连续性词包和 skip-gram 模型,都是浅层神经网络。


限时抢,猛戳直达>>AI提升季,正价课免费学,VIP会员、机械键盘、纸质书、硬盘等包邮送!--七月在线

人工智能NLP算法岗面试题精选,附解析_第1张图片

 

你可能感兴趣的:(最新名企AI面试题,自然语言处理,算法,人工智能,nlp,面试)