斯坦福NLP笔记74 —— Phrase Queries and Positional Indexe

这一节讲的是前面index的term如果是一个phrase的时候怎么办,有些地方没太懂。

主要介绍的算法是position index,就是在前面存posting的时候除了存下doc的ID,也存下该term在该doc中出现的位置,这样就能知道位置关系来判断phrase了。

所以上一节的那个匹配算法需要多出一步:

在发现某个doc同时包含了这两个token以后,进入position的那一层,试探位置关系。

然后教授指出position index并没有多出很大的空间需求,因为平均起来,一个词在一个文档里面出现的位置并不会很多。

但是,对于有些过于常见的搭配,例如“Michael Jackson”这种,还是应该当成一个biword来处理比较快。

最后教授说到现在时髦的做法是缓存的方法。

你可能感兴趣的:(斯坦福NLP笔记74 —— Phrase Queries and Positional Indexe)