摘要提取文本的主流算法

文本摘要提取的主流算法主要有以下几种:

1:根据核算的办法:这种办法运用核算模型来剖析文本,然后提取要害信息。其间,最常用的办法是TF-IDF(词频-逆文档频率)算法和TextRank算法。
2:根据机器学习的办法:这种办法运用机器学习算法来练习模型,然后运用模型来提取摘要。其间,最常用的办法是支撑向量机(SVM)和朴素贝叶斯(Naive Bayes)算法。
3:根据深度学习的办法:这种办法运用深度学习算法来练习模型,然后运用模型来提取摘要。其间,最常用的办法是循环神经网络(RNN)和卷积神经网络(CNN)。
4:根据规矩的办法:这种办法运用人工界说的规矩来提取摘要。其间,最常用的办法是根据句法结构的办法和根据语义剖析的办法。
5:根据图模型的办法:这种办法运用图模型来表明文本中的联系,然后运用图算法来提取摘要。其间,最常用的办法是根据最小生成树的办法和根据图神经网络的办法。
6:根据强化学习的办法:这种办法运用强化学习算法来练习模型,然后运用模型来提取摘要。其间,最常用的办法是根据Q-learning的办法和根据策略梯度的办法。
7:根据常识图谱的办法:这种办法运用常识图谱来表明文本中的实体和联系,然后运用图算法来提取摘要。其间,最常用的办法是根据实体联系图的办法和根据常识图谱嵌入的办法。
几种办法的运用场景及优缺陷:

1:根据核算的办法:适用于提取长文本中的要害信息,如新闻报道和科技论文等。长处是简略易懂,核算速度快,缺陷是无法处理杂乱的语义联系。
2:根据机器学习的办法:适用于提取长文本中的要害信息,如新闻报道和科技论文等。长处是能够处理杂乱的语义联系,缺陷是需求很多的练习数据和特征工程。
3:根据深度学习的办法:适用于提取长文本中的要害信息,如新闻报道和科技论文等。长处是能够处理杂乱的语义联系,缺陷是需求很多的练习数据和核算资源。
4:根据规矩的办法:适用于提取结构化文本中的要害信息,如表格和数据库等。长处是能够处理杂乱的语义联系,缺陷是需求手动界说规矩,难以适应不同的文本类型。
5:根据图模型的办法:适用于提取长文本中的要害信息,如新闻报道和科技论文等。长处是能够处理杂乱的语义联系,缺陷是需求构建图模型,核算杂乱度较高。
6:根据强化学习的办法:适用于提取长文本中的要害信息,如新闻报道和科技论文等。长处是能够处理杂乱的语义联系,缺陷是需求很多的练习数据和核算资源。
7:根据常识图谱的办法:适用于提取结构化文本中的要害信息,如表格和数据库等。长处是能够处理杂乱的语义联系,缺陷是需求构建常识图谱,难以适应不同的文本类型。

你可能感兴趣的:(机器学习,深度学习,人工智能)