基于wikipedia的摘要系统

    传统的基于图的摘要,我们所选择作为摘要的句子,不仅应该与主题相似而且相似于与主题有很高相似度的句子。

    基于 wikipedia相似度计算方法分为四部曲。

    The first one is sentence wikipedia.

    传统的BOW方法是利用tf-tdf把句子刻画成一个词的向量。本文中把句子wikipedia化的方法是利用exact—match策略,首先抽取wikipedia概念,其次步骤如下:first,合并概念(当两个词合成表示一个意思时要把两个词当做一个词来对待)。sencond,去掉一些无用概念(对于句子表达毫无意义的词)。finally,句子就被表征为词的向量。

    The sencond step is smooting concept matching with semantic relatedness

    当然根据第一步我们已经生成了句子的向量,就可以用consin来计算他们的相似度。但是这样效果并不好,例如{Kyoto protocol ,Emissions trading,Carbon dioxide}和{Global warming,Greenhouse gas,Fossil fuel}语义上很相似,但是用上面的方法的相似度为零,所以我们建了一个词的矩阵,用来存储词与词的相似度。其中涉及到的阈值为0.4-0.7。

    Third conbined similarity and summarization

   就是两个方法都用,中间加一个参数就ok了

    第四步 redundancy checking

去除一些冗余信息


你可能感兴趣的:(存储,Semantic)