信息抽取实战:基于R-NET算法的答案抽取 代码+数据

  • 任务描述:通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。本教程以多文档阅读理解任务为例介绍,展示如何利用MRC模型从海量文本信息中获得人们想要的答案。
  • 数据集:SQuAD(The Stanford Question Answering Dataset)该数据集基于群众在维基百科中提出的问题,其中每个问题的答案来自于对应阅读段落的一段文本,共计 500 多篇文章中的 10 万多个问答配对。数据集:https://download.csdn.net/download/qq_38735017/87092548
  • 运行环境:Python3.7环境下测试了本教程代码。需要的第三方模块和版本包括:
    tqdm=4.43.0
    tensorflow>=1.5
    numpy=1.19.4
  • 方法概述:本教程包括以下内容:文本数据准备、模型准备、训练和验证模型、测试模型和结果展示。模型的主体结构为R-NET,具体模型的细节参见论文。
    • 文本数据准备。通过样例对数据进行分析展示,让大家对本任务有充分的了解
    • 训练准备阶段。构造数据加载类和词典类;其次根据训练集和验证集数据构建词表词典,将词汇转化为数字id;初始化词向量等
    • 模型构建、训练和验证。对数字id向量化,输入R-NET进行模型训练和验证,并对每轮次的模型进行保存

你可能感兴趣的:(机器学习从入门到精通,python,深度学习,信息抽取,自然语言处理)