NLG相关实验总结

  1. 论文选择:
    Data-to-text Generation with Entity Modeling( Puduppully, R., Dong, L., & Lapata, M.; ACL 2019,https://www.aclweb.org/anthology/P19-1195/)
    Challenges in Data-to-Document Generation(Wiseman, Shieber, Rush; EMNLP 2017,https://arxiv.org/abs/1707.08052)
  2. 选择理由:
    技术上,基于OpenNMT的改进(ACL2017,https://www.aclweb.org/anthology/P17-4012/),OpenNMT涉及较全的机制,可以使用到后续的研究中,包括并不限于:encoder-decoder structure,batching and beam search,conditional copy mechanism,Hierarchical Attention(dotprod or general or MLP attatention), Jointly learning(https://arxiv.org/abs/1909.02074),Information extraction system,GPU运算等。
    想法上,实验中的模型是短文本生成长文本任务,其中使用到以实体信息为中心的建模思想与key2text的以key为中心的建模思想接近。
    可行性上,data2text的研究成熟,相关研究资料多,易于了解相关机制和结构。
  3. 环境配置:
    (由于机房服务器没有GPU,实验室那台没法连,所以我使用自己的电脑运行。第一次实验做到中间,ubuntu系统(双系统)空间不足,扩展空间的过程中出现错误,导致Ubuntu系统启动程序发生崩溃,恢复系统拖了一点时间。
  4. 实验数据:
    ROTOWIRE(https://github.com/harvardnlp/boxscore-data)
  5. 实验预处理、训练过程、模型和实验结果地址:https://pan.baidu.com/s/1-9ZO65bD8a84S1H0KBUMzQ --- 9nsw
  6. BLEU结果:
    实验一:data2text with entity model ----- bleu=15.97
    实验二:data2text with Joint Copy + Rec + TVD-total variation distance ----- bleu=13.44
    实验三:data2text with Conditional Copy ----- bleu=15.34
    实验中出现的问题:
    (1)源码使用的环境比较老,在配置环境时直接pip或者luarocks新的版本都不兼容,需要下载压缩包后安装,同时源码使用的cuda与本机GPU不适配,修改后一部分源码需要修改。
    (2)data2text-1中使用到了IE,但是在实验过程中在本机运行出现了问题,暂时没能解决,所以以上实验都没有使用到IE
    (3)源码涉及GPU运算的一块使用了lua脚本语言,之前没有接触过,配置环境和理解代码上遇到了障碍。
    (4)源码中的内容要比论文中讲的内容要多得多,其中很多机制的实现理解较为困难,还需要递归学习理解。

你可能感兴趣的:(NLG相关实验总结)