NLP自然语言处理中的阅读理解

我们在上学的时候经常会做阅读理解的题目,根据文章内容提取出其中的答案。NLP中的阅读理解同样是提出文章中的中心句,不过不同的是,这是利用机器自动提取出来,其中涉及到NLP中LR(逻辑回归)分类算法、XGboost模型。

LR(逻辑回归)分类算法是一个二分类算法,主要作用是预测事务发生的概率。通过利用一致的自变量来预测一个离散型因变量的值。

优点:计算代价不高,易于理解和实现

缺点:容易欠拟合,分类精度可能不高

适用数据类型:数值型和标称型数据

XGboost模型一个监督模型,xgboost对应的模型是一堆CART树。xgboost出名的原因一是准,二是快,之所以快,其中就有选用CART树的一份功劳。由于CART树的叶子节点对应的值是一个实际的分数,而非一个确定的类别,这将有利于实现高效的优化算法

业务诉求

利用阅读理解的技术,提取word文档中重点内容。当用户提出问题后,机器能自动从多个文档中找到对应的答案推送给用户查看,从而解决用户的问题

解决思路

用户要咨询的问题作为作为一个输入源,大量的文档是检索的对象。

根据问题内容,机器去多个文档中检索,找出前N个与问题相关的所有文档中的段落,可以是意思相近,可以是包含相同关键词等。找出后利用LR算法进行二次分类,提取出其中机器认为质量较好的前30个段落。

然后再利用xgboost模型做分类,从30个段落中,找出前10个段落。使用阅读理解方式,从10个段落中挑选一个段落出来,作为多文档阅读理解的最终答案

存在的问题

1.仅将用户的问题作为输入,范围太小,需要将问题进行语义泛化

2.仅凭问题去多个文档中进行检索答案,准确性有多高还需待验证

你可能感兴趣的:(NLP自然语言处理中的阅读理解)