Automatically generating wikipedia articles: A structure-aware approach笔记

这是少见的没有用神经网络的论文,感觉像是一股清流

一、任务定义

在本文中,我们考虑的任务是自动创建一个多段的概述文章,提供一个主题的综合总结。

我们使用特定领域的自动生成的内容模板为文章选择相关的材料。

(例如,关于疾病的文章的模板可能包含诊断、原因、症状和治疗。我们的系统通过分析人类创作文档的结构模式,归纳出这些模板。)

我们将这个任务定义为一个结构化的分类问题。我们估计我们的模型的参数使用感知器算法与整数线性规划(ILP)公式,运行在给定领域的一个示例文章的训练集。

我们的重点是生成新的概述文章,遵循维基百科文章的结构。

结构:

  • 自动创建模板:模板自动从人工编写的文档中导出

  • 内容选择的联合参数估计:模板中所有主题的参数共同学习。

二、相关工作

2种任务

  • Concept-to-text generation
  • text-to-text generation(鲁棒性强)

二者之间:domain-specific text-to-text generation

特定领域的训练数据中观察到的模式为主题组织提供了充分的约束

三、方法

1.预处理

  • Template Induction
    • 节标题做了聚类
    • TF-IDF消除了任何内部相似度低的聚类
  • Search
    • 雅虎搜索 document title + topic,取前10个页面

2.学习内容的选择

3.Application:结果是,每个主题,一个摘要

四、模型

Ranking+Optimizing

对于每个主题,都有很多摘录片段竞争

为了选出最优的摘录,采用整数线性规划(ILP)。

变量声明

对于每个摘录 e j l e_{jl} ejl,如果摘录包含在最终文档中,则对应的指示符变量 x j l = 1 x_{jl}= 1 xjl=1,否则 x j l = 0 x_{jl}= 0 xjl=0

优化目标:

Automatically generating wikipedia articles: A structure-aware approach笔记_第1张图片

2个限制
  • 只能有一个被摘录:

在这里插入图片描述

  • 防止主题之间的冗余:(这个sim的计算应该得调参到一个合理的值吧)

Automatically generating wikipedia articles: A structure-aware approach笔记_第2张图片

计算使用了很多特征,如下

Automatically generating wikipedia articles: A structure-aware approach笔记_第3张图片

训练过程

自制的反向传播,我震惊

不过毕竟是09年的论文

五、实验结果

数据

两个领域:

  • 美国电影演员和疾病
  • 有2,150篇关于美国电影演员的文章和523篇关于疾病的文章(来自维基百科)
  • 人类撰写的文章平均包含四个主题,每个主题平均包含193个单词。

基准

3个基准:

  • Search
  • No Template
  • Disjoint

结果

联合的完整模型是最好的,但是无法超过Oracle system

论文值得学习的地方

毕竟是老论文,训练没有现在这么方便,得手动找一些特征,所以他们找的特征一定是很完整的。

采用了模板的方法。

你可能感兴趣的:(看论文)