斯坦福NLP笔记5 —— Sentence Segmentation

不光是词与词之间需要划分开,句子和句子之间也是需要划分的,咋一想,句子划分(Sentence Segmentation)会更简单,是这样的吗?我们一起来看看。

用脚趾头都能想到,划分句子,应该用标点符号,标点符号(punctuation)实际上也是起这个作用的,不同的标点符号分起句子来可是不一样的。

譬如!( exclamation point )和?( quetion mark )基本上可以绝对地讲一个句子分开,无任何歧义

但句号 . (period)就不一样了,缩写中会出现.号,譬如Dr.

点号还可以是小数点

解决这个问题(period problem)的方案就是建立一个二元的分类器(binary classifier)

到了需要分类器的时候,自然就需要机器学习了,视频中讲了以决策树为例,说明了需要哪些特征,当然这些特征也可用于逻辑回归、SVM。

决策树如下:

斯坦福NLP笔记5 —— Sentence Segmentation_第1张图片

到第三层开始讨论点号的问题,前两层其实都是单特征,但是到了判断点号的时候,就需要多特征了。上树中只给出了一个大概的判决特征,即点号前是否有缩写,若有,则不认为是句子的结尾。下面是更精确的特征讨论:

斯坦福NLP笔记5 —— Sentence Segmentation_第2张图片

upper、lower、cap这些称为wordshape,上述四种wordshape分别指大写字母、小写字母、全大写(USA这种)、数字

case of word with "."的意思是:词后面跟一个点号的情况,譬如"nothing."

case of word after "."的意思是:点号后面跟一个词的情况譬如".A"

length of word with ",":点号前面的那个词的长度,因为缩写一般都很短

后面两个特征都是统计模型,分别是

看这个词后面跟了一个点号在语料库中作为了句子的结尾的概率是多少

看这个词的前面是一个点号在语料库中作为了句子的开头的概率是多少,譬如".The"作为开头的概率就很高

然后是一个练习题,答案选lower

A period (".") occurs at the end of four words that each have one of the following four wordshapes. Which of the four periods (all else being equal) is more likely than the other to be a sentence boundary?

1.Upper

2.Lower

3.Cap

4.Number

最后教授指出,判决特征都是人手动选取,这不需要太大的工作量,对于简单的特征也好办,问题是在选取numeric feature的时候,阈值不好确定,所以阈值应该学习出来。

你可能感兴趣的:(斯坦福NLP笔记5 —— Sentence Segmentation)