本文介绍了基于复杂网络的自动文本摘要的方法。
具体分为四步骤:
1 将文章进行预处理,根据句子分隔符将句子分开,并将名词提取出。
2 根据文章构建成两个N*N的矩阵,一个是表示邻接关系的矩阵,一个是表示权重的矩阵,分别叫做A和W,N为句子的个数。
3 计算节点的值
4 根据一定的算法将句子进行排序,然后取出前n个句子组成摘要。
文中提出了7种网络测量的算法和14中句子排序算法,具体介绍如下:
1 Degree strategies: CN-Degree and CN-Strength
根据与节点i相连的节点的个数作为节点i的值,即Ki = ∑aij,aij为矩阵A中的元素。也可以用W中的元素,即Si = ∑wij。
Ki和Si越大,说明句子越重要,所以相应的排序就是取前n个最大的Ki(CN-Degree)或Si(CN-Strength)。
2 Shortest path strategies: CN-SP, CN-SPwc and CN SPwi
计算每个节点到其他所有节点的距离的总和,即SPi = ∑dij,dij为矩阵A或W中i和j的最短路径。如果是W,生成两个矩阵Wwc和Wwr。
Wwcij = 0 if wij = 0, or Wwc = Wmax - wij + 1 if wij > 0;
Wwrij = 0 if wij = 0, or Wwr = 1 / wij if wij > 0;
选取n个最小的SPi的句子,相对应CN-SP, CN-SPwc and CN-SPwi 。
3 Locality index strategy: CN-LI
Li = Niint/Niint + Niext; Niint为与节点i相邻的Ki个邻居的相互之间的链接个数加上Ki;Niext为与节点i相邻的Ki个邻居为外界其它节点的链接总数。
取前n个最大的Li的句子。
4 d-Rings strategies: CN Ringsl, CN Ringsk and CN Ringslk
将图化成子图
先选择度最大的节点i,然后根据一下三种方法从它的d-rings中选择句子。
1)选择第一句
2)选择度最大的
3)selects from every RdðhubÞ only the nodes with degree no lower than the average network degree, and also extracts the sentences that appear first in the source text when the outermost d-ring does not fit into the extract.
5 k-Cores strategies: CN Coresl and CN Cores