下列哪些纠正方法可以用来减少数据的维度:
1、隐狄利克雷分布(Latent Dirichlet Allocation)
2、潜在语义索引(Latent Semantic Indexing)
3、关键词归一化(Keyword Normalization)
A、只有 1
B、2、3
C、1、3
D、1、2、3
答案:D
解析:所有的这些方法都可用于减少数据维度。
文末VIP会员、机械键盘、纸质书、硬盘等包邮送!
1、用协同过滤模型(Collaborative Filtering model)来检测相似用户表现(查询)
2、在术语中检查 Levenshtein 距离的模型
3、将句子译成多种语言
A、1
B、2
C、1、2
D、1、2、3
答案:C
解析:协同过滤可以用于检测人们使用的是何种模式,Levenshtein 用来测量术语间的距离。协同过滤相信大家有所了解,这里具体说一下Levenshtein Distance 算法,它又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。这个“编辑距离”问题在搜索引擎中有着重要的作用,如搜索引擎关键字查询中拼写错误的提示,如下图所示,当你输入“Jult”后,因为没有这个单词“Jult”,所以搜索引擎猜测你可能是输入错误,进而会提示你是不是找“July”。
A、部分语音标注
B、依存句法分析(Dependency Parsing)和选取句法分析(Constituency Parsing)
C、Skip Gram 和 N-Gram 提取
D、连续性词包
答案:B
解析:依存句法分析和选取句法分析可从文本中提取这些关系。
A、完成一个主题模型掌握语料库中最重要的词汇;
B、训练一袋 N-gram 模型捕捉顶尖的 n-gram:词汇和短语
C、训练一个词向量模型学习复制句子中的语境
D、以上所有
答案:D
解析:上面所有的技术都可被用于提取语料库中最重要的词条。
A、对比模糊词汇与近义词在词典上的定义
B、同指(Co-reference) 解决方案,使用先前句子中包含的正确词意解决模糊单词的含义。
C、使用句子的依存解析理解含义
答案:A
解析:A 选项被称为 Lesk 算法,被用在词意模糊问题上,其他选择不对。
A、从文本中提取特征
B、测量特征相似度
C、为学习模型的向量空间编程特征
D、以上都是
答案:D
解析:NLP 可用于文本数据相关的任何地方:特征提取、测量特征相似度、创造文本的向量特征。
A、基于辞典的学习和词向量模型
B、基于规则的学习和序列到序列模型
C、词向量和句子到向量模型
D、循环神经网络和卷积神经网络
答案:B
解析:选项 B 最佳诠释了基于检索的模型和生成式模型的例子。
A、CRF 是生成式的,而 HMM 是判别式模型;
B、CRF 是判别式模型,HMM 是生成式模型。
C、CRF 和 HMM 都是生成式模型;
D、CRF 和 HMM 都是判别式模型。
答案:B
解析:
1)生成式模型or判别式模型(假设 o 是观察值,m 是模型。)
a)生成式模型:无穷样本 -> 概率密度模型 = 产生式模型 -> 预测 如果对 P(o|m) 建模,就是生成式模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和 Bayes 理论的基础之上。 HMM模型对转移概率和表现概率直接建模,统计共同出现的概率,是一种生成式模型。
b)判别式模型:有限样本 -> 判别函数 = 判别式模型 -> 预测 如果对条件概率 P(m|o) 建模,就是判别模型。其基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。 CRF是一种判别式模型。MEMM不是一种生成式模型,它是一种基于下状态分类的有限状态模型。
2)拓扑结构 HMM和MEMM是一种有向图,CRF是一种无向图
3)全局最优or局部最优 HMM对转移概率和表现概率直接建模,统计共现概率。 MEMM是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,由于其只在局部做归一化,所以容易陷入局部最优。 CRF是在全局范围内统计归一化的概率,而不像是MEMM在局部统计归一化概率。是全局最优的解。解决了MEMM中标注偏置的问题。
4)优缺点比较 优点:
a)与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)
b)与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。
c)与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。 缺点: 训练代价大、复杂度高
A = (名词作为语音标签的一部分)
B = (动词作为语音标签的一部分)
C = (频率计数大于 1)
下面哪个是A、B、 C 的正确值?
A、5、5、2
B、5、5、0
C、7、5、1
D、7、4、2
E、6、4、3
答案:D
解析:名词:I, New, Delhi, Analytics, Vidhya, Delhi, Hackathon (7) 动词:am, planning, visit, attend (4) 频率计数大于 1 的词:to, Delhi (2) 因此,选项 D 正确。
A、word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型
B、连续性词包是浅层神经网络模型
C、Skip-gram 是深度神经网络模型
D、CBOW 和 Skip-gram 都是深度神经网络模型
E、以上表述全部正确
答案:B
解析:Word2vec 有两个变种,即连续性词包和 skip-gram 模型,都是浅层神经网络。
限时抢,猛戳直达>>AI提升季,正价课免费学,VIP会员、机械键盘、纸质书、硬盘等包邮送!--七月在线