锅巴QAQ

中文文本关键词抽取的三种方法（TF-IDF、TextRank、word2vec）

链接地址：https://github.com/AimeeLee77/keyword_extraction

1、基于TF-IDF的文本关键词抽取方法

词频（Term Frequency，TF）

指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频，因此根据文件的长度，需要对给定词语进行归一化，即用给定词语的次数除以当前文件的总词数。

逆向文件频率（Inverse Document Frequency，IDF）

是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现，表示更能代表文件的主旨，它的权重也就越大；如果一个词在大量文件中都出现，表示不清楚代表什么内容，它的权重就应该小。

TF-IDF的主要思想是，

如果某个词语在一篇文章中出现的频率高，并且在其他文章中较少出现，则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比，与它在语料库中文档出现的频率成反比。

1.1TF-IDF文本关键词抽取方法流程

由以上可知，TF-IDF是对文本所有候选关键词进行加权处理，根据权值对关键词进行排序。假设Dn为测试语料的大小，该算法的关键词抽取步骤如下所示：

（1）对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用结巴分词，保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（2）计算词语ti 在文本D中的词频；

（3）计算词语ti 在整个语料的IDF=log (Dn /(Dt +1))，Dt 为语料库中词语ti 出现的文档个数；

（4）计算得到词语ti 的TF-IDF=TF*IDF，并重复（2）—（4）得到所有候选关键词的TF-IDF数值；

（5）对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为文本关键词。

1.2代码实现：

Python第三方工具包Scikit-learn提供了TFIDF算法的相关函数，本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中，CountVectorizer函数用来构建语料库的中的词频矩阵，TfidfTransformer函数用来计算词语的tfidf权值。

注：TfidfTransformer()函数有一个参数smooth_idf，默认值是True，若设置为False，则IDF的计算公式为idf=log(Dn /Dt ) + 1。

基于TF-IDF方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt，并对拼接的文本进行数据预处理操作，包括分词、筛选出符合词性的词语、去停用词，用空格分隔拼接成文本;

（4）遍历文本记录，将预处理完成的文本放入文档集corpus中；

（5）使用CountVectorizer()函数得到词频矩阵，a[j][i]表示第j个词在第i篇文档中的词频；

（6）使用TfidfTransformer()函数计算每个词的tf-idf权值；

（7）得到词袋模型中的关键词以及对应的tf-idf矩阵；

（8）遍历tf-idf矩阵，打印每篇文档的词汇以及对应的权重；

（9）对每篇文档，按照词语权重值降序排列，选取排名前topN个词最为文本关键词，并写入数据框中；

（10）将最终结果写入文件keys_TFIDF.csv中。

2 基于TextRank的文本关键词抽取方法

2.1 PageRank算法思想

TextRank算法是基于PageRank算法的，因此，在介绍TextRank前不得不了解一下PageRank算法。

PageRank算法是Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学读研究生期间发明的，是用于根据网页间相互的超链接来计算网页重要性的技术。该算法借鉴了学术界评判学术论文重要性的方法，即查看论文的被引用次数。基于以上想法，PageRank算法的核心思想是，认为网页重要性由两部分组成：

① 如果一个网页被大量其他网页链接到说明这个网页比较重要，即被链接网页的数量；

② 如果一个网页被排名很高的网页链接说明这个网页比较重要，即被链接网页的权重。

2.2 TextRank算法

把文本拆分成词汇作为网络节点，组成词汇网络图模型，将词语间的相似关系看成是一种推荐或投票关系，使其可以计算每一个词语的重要性。

基于TextRank的文本关键词抽取是利用局部词汇关系，即共现窗口，对候选关键词进行排序，该方法的步骤如下：

（1）对文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用结巴分词，保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（2）构建候选关键词图G=(V,E)，其中V为节点集（由候选关键词组成），并采用共现关系构造任两点之间的边，两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇；

（3）根据公式迭代计算各节点的权重，直至收敛；

（4）对节点权重进行倒序排列，得到排名前TopN个词汇作为文本关键词。

说明：Jieba库中包含jieba.analyse.textrank函数可直接实现TextRank算法，本文采用该函数进行实验。

2.3 代码实现：

基于TextRank方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt;

（4）遍历文本记录，采用jieba.analyse.textrank函数筛选出指定词性，以及topN个文本关键词，并将结果存入数据框中；

（5）将最终结果写入文件keys_TextRank.csv中。

3 基于Word2Vec词聚类的文本关键词抽取方法

3.1 Word2Vec词向量表示

利用浅层神经网络模型自动学习词语在语料库中的出现情况，把词语嵌入到一个高维的空间中，通常在100-500维，在新的高维空间中词语被表示为词向量的形式。

特征词向量的抽取是基于已经训练好的词向量模型，词向量模型的训练需要海量的语料才能达到较好的效果，而wiki中文语料是公认的大型中文语料。

3.2 K-means聚类算法

聚类算法旨在数据中发现数据对象之间的关系，将数据进行分组，使得组内的相似性尽可能的大，组间的相似性尽可能的小。

算法思想是：首先随机选择K个点作为初始质心，K为用户指定的所期望的簇的个数，通过计算每个点到各个质心的距离，将每个点指派到最近的质心形成K个簇，然后根据指派到簇的点重新计算每个簇的质心，重复指派和更新质心的操作，直到簇不发生变化或达到最大的迭代次数则停止。

3.3 Word2Vec词聚类文本关键词抽取方法

主要思路是对于用词向量表示的文本词语，通过K-Means算法对文章中的词进行聚类，选择聚类中心作为文章的一个主要关键词，计算其他词与聚类中心的距离即相似度，选择topN个距离聚类中心最近的词作为文本关键词，而这个词间相似度可用Word2Vec生成的向量计算得到。

假设Dn为测试语料的大小，使用该方法进行文本关键词抽取的步骤如下所示：

（1）对Wiki中文语料进行Word2vec模型训练，参考我的文章“利用Python实现wiki中文语料的word2vec模型构建”（ http://www.jianshu.com/p/ec27062bd453 ），得到词向量文件“wiki.zh.text.vector”；

（2）对于给定的文本D进行分词、词性标注、去重和去除停用词等数据预处理操作。本分采用结巴分词，保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（3）遍历候选关键词，从词向量文件中抽取候选关键词的词向量表示，即WV=[v1，v2，…，vm]；

（4）对候选关键词进行K-Means聚类，得到各个类别的聚类中心；

（5）计算各类别下，组内词语与聚类中心的距离（欧几里得距离），按聚类大小进行升序排序；

（6）对候选关键词计算结果得到排名前TopN个词汇作为文本关键词。

步骤（4）中需要人为给定聚类的个数，本文测试语料是新闻文本，因此只需聚为1类，各位可根据自己的数据情况进行调整；步骤（5）中计算各词语与聚类中心的距离，常见的方法有欧式距离和曼哈顿距离，本文采用的是欧式距离，计算公式如下：

3.4 代码实现

第三方工具包Scikit-learn提供了K-Means聚类算法的相关函数，本文用到了sklearn.cluster.KMeans()函数执行K-Means算法，sklearn.decomposition.PCA()函数用于数据降维以便绘制图形。

基于Word2Vec词聚类方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt，并对拼接的文本进行数据预处理操作，包括分词、筛选出符合词性的词语、去重、去停用词，形成列表存储；

（4）读取词向量模型文件'wiki.zh.text.vector'，从中抽取出所有候选关键词的词向量表示，存入文件中；

（5）读取文本的词向量表示文件，使用KMeans()函数得到聚类结果以及聚类中心的向量表示；

（6）采用欧式距离计算方法，计算得到每个词语与聚类中心的距离；

（7）按照得到的距离升序排列，选取排名前topN个词作为文本关键词，并写入数据框中；

（8）将最终结果写入文件keys_word2vec.csv中。

三种算法对比图：

4 结语

本文总结了三种常用的抽取文本关键词的方法：TF-IDF、TextRank和Word2Vec词向量聚类，并做了原理、流程以及代码的详细描述。因本文使用的测试语料较为特殊且数量较少，未做相应的结果分析，根据观察可以发现，得到的十个文本关键词都包含有文本的主旨信息，其中TF-IDF和TextRank方法的结果较好，Word2Vec词向量聚类方法的效果不佳，这与文献[8]中的结论是一致的。文献[8]中提到，对单文档直接应用Word2Vec词向量聚类方法时，选择聚类中心作为文本的关键词本身就是不准确的，因此与其距离最近的N个词语也不一定是关键词，因此用这种方法得到的结果效果不佳；而TextRank方法是基于图模型的排序算法，在单文档关键词抽取方面有较为稳定的效果，因此较多的论文是在TextRank的方法上进行改进而提升关键词抽取的准确率。

另外，本文的实验目的主要在于讲解三种方法的思路和流程，实验过程中的某些细节仍然可以改进。例如Word2Vec模型训练的原始语料可加入相应的专业性文本语料；标题文本往往包含文档的重要信息，可对标题文本包含的词语给予一定的初始权重；测试数据集可采集多个分类的长文本，与之对应的聚类算法KMeans()函数中的n_clusters参数就应当设置成分类的个数；根据文档的分词结果，去除掉所有文档中都包含某一出现频次超过指定阈值的词语。

DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
NLP自然语言处理——文本处理的基本方法小村学长毕业设计自然语言处理人工智能
NLP（自然语言处理）是人工智能领域的一个重要分支，它专注于使计算机能够理解和生成人类语言。文本处理是NLP中的基础且核心的部分，涉及多个步骤和技术，以确保原始文本数据能够被有效地转换、分析和利用。以下是对文本处理基本方法的详细探讨，包括文本预处理、文本表示、以及常见的NLP任务等。一、文本预处理文本预处理是NLP中的第一步，也是至关重要的一步。它主要包括以下几个子步骤：文本清洗：去除特殊字符：移
NLP自然语言处理：文本表示总结 - 上篇word embedding（基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）陈宸-研究僧 NLP自然语言处理
文本表示分类（基于表示方法）离散表示one-hot表示词袋模型与TF-ID分布式表示基于矩阵的表示方法降维的方法聚类的方法基于神经网络的表示方法NNLMCBOWSkip-gramGloVeELMoGPTBERT目录一、文本离散表示1.1文本离散表示：one-hot1.2文本离散表示：词袋模型与TF-IDF1.2.1词袋模型（bagofwords）1.2.2对词袋模型的改进：TF-IDF二、文本分布
29、深度学习-自学之路-深入理解-NLP自然语言处理-做一个完形填空，让机器学习更多的内容程序展示小宇爱深度学习-自学之路深度学习自然语言处理机器学习
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpnp.random.seed(1)random.seed(1)f=open('reviews.txt')raw_reviews=f.readlines()f.close()tokens=list(map(lambdax:(x.split("")),raw_reviews)
【AI视野·今日NLP 自然语言处理论文速览第八十期】Fri, 1 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Fri,1Mar2024Totally67papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLooseLIPSSinkShips:AskingQuestionsinBattleshipwithLanguage-InformedProgramSamplingAuthorsGabrielGrand,V
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
26、深度学习-自学之路-NLP自然语言处理-理解加程序，怎么把现实的词翻译给机器识别。小宇爱深度学习-自学之路深度学习自然语言处理人工智能
一、怎么能让机器能够理解我们的语言呢，我们可以利用神经网络干很多的事情，那么我们是不是也可以用神经元做自然语言处理呢，现在很多的实际应用已经说明了这个问题，可以这么做。那我们考虑一下该怎么做，首先我们应该把我们现实中的每一个单词都用一个词向量来进行表示：importnumpyasnponehots={}onehots['cat']=np.array([1,0,0,0])onehots['the']
27、深度学习-自学之路-NLP自然语言处理-做一个简单的项目识别一组电影评论，来判断电影评论是积极的，还是消极的。小宇爱深度学习-自学之路深度学习自然语言处理人工智能
一、如果我们要做这个项目，第一步我们要做的就是需要有对应的训练数据集。这里提供两个数据集，一个是原始评论数据集《reviews.txt》，以及对应的评论是消极还是积极的数据集《labels.txt》，下面的程序就是找到这两个数据集，并把对应的数据集的内容分别赋值给reviews和labelsdefpretty_print_review_and_label(i):print(labels[i]+"\
Python NLP 自然语言处理简简单单OnlineZuozuo m1 Python 领域 python 自然语言处理开发语言
文章目录PythonNLP自然语言处理PythonNLP自然语言处理"""基于https://github.com/isnowfy/snownlp$pipinstallsnownlp"""fromsnownlpimportSnowNLP#分词defsnownlp_cut(text):returnSnowNLP(text).words#词性标准defsnownlp_tags(text):#返回积极情
6. NLP自然语言处理（Natural Language Processing）啊波次得饿佛哥 AI人工智能自然语言处理人工智能
自然语言是指人类日常使用的语言，如中文、英语、法语等。自然语言处理是人工智能（AI）领域中的一个重要分支，它结合了计算机科学、语言学和统计学的方法，通过算法对文本和语音进行分析，使计算机能够理解、解释和生成自然语言。随着深度学习技术的发展，NLP在文本分类、机器翻译、情感分析、对话系统等任务中取得了显著进展，推动了人工智能技术在多个领域的广泛应用。自然语言处理的核心任务涉及如何使计算机理解和处理语
pytorch NLP自然语言处理入门一：文本表示 whyte王 pytorch NLP基础 pytorch 自然语言处理人工智能
开始编辑：2024/2/16；最后编辑2024/2/16教程出自：https://learn.microsoft.com/en-sg/training/modules/intro-natural-language-processing-pytorch/第二部分：https://blog.csdn.net/qq_33345365/article/details/136142152本博客旨在探讨处理自
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
2018-03-05 baitu
使用sar和kSar来发现Linux性能瓶颈剖析内存中的程序之秘JavaEE未来路在何方？用户帐户，授权和密码管理的12个最佳实践NLP自然语言处理框架ClearTKApacheUIMAClearTKLoggingWiththeElasticStack
【NLP 自然语言处理(一)---词向量】 y_dd 深度学习自然语言处理人工智能
文章目录什么是NLP自然语言处理发展历程自然语言处理模型模型能识别单词的方法词向量分词一个向量vector表示一个词词向量的表示-one-hot多维词嵌入wordembeding词向量的训练方法CBOWSkip-gram词嵌入的理论依据一个vector（向量）表示短语或者文章vectorspaceModelbag-of-wordvectorspaceModel+bag-of-word实现信息搜索改
NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进 Nobitaxi NLP自然语言处理实战学习自然语言处理机器学习人工智能
目录1.距离和相似度2.反馈及改进线性判别分析1.距离和相似度我们可以使用相似度评分（或距离），根据两篇文档的表达向量间的相似度（或距离）来判断文档间有多相似。LSA能够保持较大的距离，但它并不能总保持较小的距离（文档之间关系的精细结构）。LSA底层的SVD算法的重点是使新主题向量空间中所有文档之间的方差最大化。特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着NLP流水线或任何机器学
NLP自然语言处理-第一章NLP基础 Viterbi
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括：NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1什么是NLP1.1.1NLP的概念NLP（NaturalLanguageProcessing，自然语言处理）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯
NLP自然语言处理 AI论道自然语言处理人工智能
随着人工智能的飞速发展，自然语言处理（NaturalLanguageProcessing，简称NLP）已经成为了AI领域的一颗璀璨明珠。NLP旨在赋予机器理解和处理人类语言的能力，这不仅仅是一项技术革新，更是一种推动人与机器交流方式根本性变革的力量。本文将对NLP进行简析，带领读者一探究竟。1、什么是自然语言处理？自然语言处理是计算机科学、人工智能和语言学交叉的一个分支学科，它涉及到让计算机能够理
NLP自然语言处理的基本语言任务介绍人生万事须自为，跬步江山即寥廓。机器学习人工智能自然语言处理人工智能机器学习
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学、人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。NLP的基本任务包括以下几个方面：1.分词（Tokenization）：将文本分割成单词、短语或其他有意义的元素（称为tokens）。分词是许多NLP任务的第一步。2.词性标注（Part-of-SpeechTagging）：为文本中的
【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 LLM 大语言模型大模型自动翻译文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,15Jan2024Totally57papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMachineTranslationModelsareZero-ShotDetectorsofTranslationDirectionAuthorsMichelleWastl,JannisVamvas,R
【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024 hitrjj LLM NLP Papers 自然语言处理大语言模型 LLM NLP
AI视野·今日CS.NLP自然语言处理论文速览Fri,12Jan2024Totally60papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAxisTour:WordTourDeterminestheOrderofAxesinICA-transformedEmbeddingsAuthorsHiroakiYamagiwa,YusukeTakas
深入浅出自然语义处理原理并构建自然语义处理(NLP)模型GPT2 「已注销」笔记深度学习人工智能 pytorch 自然语言处理神经网络
NLP自然语言处理，GPT2模型1、词向量在图像的处理中，我们无需对图像进行特殊的处理，因为图像本身就是由矩阵来表示的。而处理自然语言的时候，语言是由每一个字、词组成的。而字、词是通过编码存储在计算机当中的。所以我们可以通过将字、词编码成为向量的形式，如此就可以输入进深度学习网络模型中。但是我们应该如何去编码呢？像做图像分类那样，使用one—hot的形式编码？但是这样会存在一个问题，在自然语言中，
NLP自然语言处理介绍 love6a6 nlp
自然语言处理（NaturalLanguageProcessing，NLP）是一种通过计算机技术与人类语言交互的研究领域。它致力于使计算机能够理解、解析、处理和生成人类语言，以实现人机之间的自然语言交流。NLP涉及多个技术和方法，包括语音识别、文本分析、语义理解、机器翻译、情感分析等。通过这些技术，NLP可以处理和分析大量的文本数据，识别文本中的关键信息和结构，并从中提取出有用的知识和洞察。NLP在
分享一个“产业级，开箱即用”的NLP自然语言处理工具李楷杰自然语言处理人工智能
NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库？它是用现实世界语言表达的语言学习，是从文本和语言与另一种
【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Thu,11Jan2024Totally36papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLeveragingPrintDebuggingtoImproveCodeGenerationinLargeLanguageModelsAuthorsXueyuHu,KunKuang,JiankaiSun
NLP自然语言处理原理应用讲解打工人何苦为难打工人 nlp
自然语言处理（NLP）是人工智能领域中研究如何让计算机理解和处理人类自然语言的一门学科。它的应用广泛，例如在搜索引擎、聊天机器人、机器翻译等领域中都发挥了重要的作用。NLP的基本原理是通过对大量的语料库进行训练，让计算机学习到语言的语法、语义、上下文等信息，从而能够理解人类的语言。在处理自然语言时，NLP需要先将文本转换成一系列的符号，然后对这些符号进行分析和处理，最后将这些处理结果转换成机器可以
rnn相关爱学习的羽 workHappy pytorch rnn 人工智能深度学习
构成比之前多了一个圈这个圈包含t时刻之前的数据特征，主要用在NLP自然语言处理中。只用最后一个结果ht，前面的当做中间结果特点会把之前看到的都记下来，但第n句话和第一句话之间联系不太大，没必要LSTM自然语言处理考虑词的前后顺序和相关性构建词向量，不断向后滑动学习cbow和skip-gram方法cbow输入上下文，输出预测最中间的位置的词skip-gram输入中间的词，输出预测的上下文改进方法加入
NLP自然语言处理实战 AI论道自然语言处理人工智能
一、自然语言处理的概念1.1自然语言处理的起源语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人RichardBandler和JohnGri
NLP自然语言处理介绍 Dxy1239310216 nlp
自然语言处理（NLP，NaturalLanguageProcessing）是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言，从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支，也是当今社会应用广泛的领域之一。在NLP中，一个基础但关键的任务是分词。由于自然语言中的词语是由连续的字符序列组成，计算机需要将这些连续的字符切分成单独的词语或词素
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

中文文本关键词抽取的三种方法（TF-IDF、TextRank、word2vec）

1、基于TF-IDF的文本关键词抽取方法

1.1TF-IDF文本关键词抽取方法流程

1.2代码实现：

2 基于TextRank的文本关键词抽取方法

2.1 PageRank算法思想

2.2 TextRank算法

2.3 代码实现：

3 基于Word2Vec词聚类的文本关键词抽取方法

3.1 Word2Vec词向量表示

3.2 K-means聚类算法

3.3 Word2Vec词聚类文本关键词抽取方法

3.4 代码实现

4 结语

你可能感兴趣的:(NLP自然语言处理)