文本摘要(text summarization)五: 统计模型(text_pronouns、text_teaser,feature-base)

一、文本摘要(统计模型)

        统计模型(feature base)是深度学习兴起之前,最有效果,应用最广泛的文本摘要技术方案。统计学习方法,即便是在今天,基于统计的文本摘要模型,也是一个重要的baseline,以及高并发复杂条件下的有效算法。

        应用比较多的应该是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013)),以及早年比较出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005))等。

        github项目地址:https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo/text_summarization/extractive_sum/feature_base

二、文本摘要之text_teaser

        text teaser算法,这是一篇2013年的paper提出的。让人诧异的是,作者居然是印度尼西亚和沙特阿拉伯的。不过瞅一瞅文章的标题,也就能明白了,Automatic Text Summarization for Indonesian Language Using TextTeaser,研究的是印尼语。

        这篇论文把几种常见的特征用于计算抽取式文本摘要,突出的特点在于其对文章标题的极度重视。论文中这样提及:“通过对文章标题特征、句子长度、句子位置、关键词频率等四个因素的计算,得出了最佳得分句子。”

        抽取的特征有:

                1.  文章标题特征:(当前句子与文章标题词语的交集) 除以 (文章标题的词语的个数)

                2.  句子长度: 以一个标准长度为基准,约大于或者小于该标准长度,得分越低;

                3.  句子位置: 用的是别人家的数据标准,句子在句首、句中、句末等不同位置都有不同固定的得分,以比率计算;

                4.1  关键词权重:首先取去全文中除停用词后词频最高的10个词作为关键词,关键词频率+出现该词的句子条数;

                4.2  句中关键词密度(DBS):(两个关键词权重乘积) 除以 (两个关键词间的长度距离的平方) 除以 (关键词个数的平方);

                4.3  句中关键词权重(SBS):[开 (所有关键词权重的x次方相加) x次方] 除以 (句子中词语个数);

                4.句子中关键词重要性: (DBS+SBS) / 20

 

三、文本摘要之text_pronouns

        text pronouns,是2003年发表的一篇paper,Sentence Extraction Based Single Document Summarization(2005)。主要讲的是如何构建一些抽取式但文本摘要特征等,同时给出文本摘要系统的一般构建流程、通用方案等。在github和百度上搜索没有发现实现方案,自己实现了一个。

        论文中提出的特征,包括句子级别(sentence)和词语级别(word):

        3.1  句子级别:

                1.  句子位置;

                2.  是否有动词,这是构成摘要句子句式的重要特征;

                3.  句子中出现的指代词是专有名词的情况;

                4.  句子长度

        3.2  词语级别:

                1.  字、词,尤其是专有名词的频率,可以考虑n-gram特征

                2.  平均单词(词语)长度;

                3.  词语标签,如词性、依存句法等;

                4.  词语权重,wordnet等;

                5.  命名实体NE;

                6.  出现在标题、副标题的词语;

                7.  词语印刷格式,大小写等。

 

希望对你有所帮助!

你可能感兴趣的:(文本摘要)