摘要(Summarization)是传统的自然语言处理任务之一[1],多年以来,一直被广大研究者持续挖掘推进,该任务旨在将输入数据转换为包含关键信息的简短概述。在早些年,该方向一直以DUC,CNNDM,Gigaword等数据集为核心进行研究[2],并取得了显著的进展。为了满足各种需求,近些年,跨语言摘要[3],多模态摘要[4],无监督摘要[5],摘要事实性研究[6],对话摘要[7],科学文献摘要[8],基于预训练的摘要[9],摘要任务分析[10]等方向喷薄发展,百花齐放,论文数量持续增多,除了各大会议(例如ACL,EMNLP)中的摘要相关论文之外,arXiv也会涌现出众多摘要相关论文。
受yizhen20133868/NLP-Conferences-Code[11],teacherpeterpan/Question-Generation-Paper-List[12],thunlp/PLMpapers[13],thu-coai/PaperForONLG[14],NiuTrans/ABigSurvey[15]等项目的激励,旨在整理现有摘要研究成果,追踪最新摘要论文,中心文本生成组博士生冯夏冲收集并整理了摘要论文阅读列表,该列表每条信息包括论文题目,作者,PDF链接,论文来源,是否有实现代码,可以帮助研究者快速整合该方向核心资料,并会长期维护和迭代整理现有论文列表。
图1 摘要论文阅读列表除论文信息之外,该仓库还包括了文本生成组摘要论文笔记与讲解PPT,可以帮助初学者快速了解与入门该任务。
图2 摘要论文笔记与讲解PPT项目地址:
https://github.com/xcfcode/Summarization-Papers
参考资料
[1]Paice C D. Constructing literature abstracts by computer: Techniques and prospects[J]. Inf. Process. Manag, 1990, 26(1): 171-186.
[2]Gambhir M, Gupta V. Recent automatic text summarization techniques: a survey[J]. Artificial Intelligence Review, 2017, 47(1): 1-66.
[3]Cao Y, Liu H, Wan X. Jointly Learning to Align and Summarize for Neural Cross-Lingual Summarization[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 6220-6231.
[4]Li M, Chen X, Gao S, et al. VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles[J]. arXiv preprint arXiv:2010.05406, 2020.
[5]Kohita R, Wachi A, Zhao Y, et al. Q-learning with Language Model for Edit-based Unsupervised Summarization[J]. arXiv preprint arXiv:2010.04379, 2020.
[6]Dong Y, Wang S, Gan Z, et al. Multi-Fact Correction in Abstractive Text Summarization[J]. arXiv preprint arXiv:2010.02443, 2020.
[7]Feng X, Feng X, Qin B, et al. Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks[J]. arXiv preprint arXiv:2010.10044, 2020.
[8]Subramanian S, Li R, Pilault J, et al. On extractive and abstractive neural document summarization with transformer language models[J]. arXiv preprint arXiv:1909.03186, 2019.
[9]Bi B, Li C, Wu C, et al. PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation[J]. arXiv preprint arXiv:2004.07159, 2020.
[10]Bhandari M, Gour P, Ashfaq A, et al. Re-evaluating Evaluation in Text Summarization[J]. arXiv preprint arXiv:2010.07100, 2020.
[11]https://github.com/yizhen20133868/NLP-Conferences-Code
[12]https://github.com/teacherpeterpan/Question-Generation-Paper-List
[13]https://github.com/thunlp/PLMpapers
[14]https://github.com/thu-coai/PaperForONLG
[15]https://github.com/NiuTrans
本期责任编辑:李忠阳 本期编辑:朱文轩
下载1:四件套
在机器学习算法与自然语言处理公众号后台回复“四件套”,
即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!
下载2:仓库地址共享
在机器学习算法与自然语言处理公众号后台回复“代码”,
即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!机器学习算法与自然语言处理交流群已正式成立!
群内有大量资源,欢迎大家进群学习!
额外赠送福利资源!邱锡鹏深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源
获取方式:进入群后点开群公告即可领取下载链接
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
推荐阅读:
工业界求解NER问题的12条黄金法则
三步搞定机器学习核心:矩阵求导
神经网络中的蒸馏技术,从Softmax开始说起