南七澄江

利用Python实现中文文本关键词抽取的三种方法

文本关键词抽取，是对文本信息进行高度凝练的一种有效手段，通过3-5个词语准确概括文本的主题，帮助读者快速理解文本信息。目前，用于文本关键词提取的主要方法有四种：基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取，以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中，发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子，代码和步骤也比较简单，但是采用Word2Vec词聚类方法时网上的资料并未把过程和步骤表达的很清晰。因此，本文分别采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法实现对专利文本（同样适用于其它类型文本）的关键词抽取，通过理论与实践相结合的方式，一步步了解、学习、实现中文文本关键词抽取。

1 概述

一篇文档的关键词等同于最能表达文档主旨的N个词语，即对于文档来说最重要的词，因此，可以将文本关键词抽取问题转化为词语重要性排序问题，选取排名前TopN个词语作为文本关键词。目前，主流的文本关键词抽取方法主要有以下两大类：

（1）基于统计的关键词提取方法

该方法根据统计信息，如词频，来计算得到文档中词语的权重，按权重值排序提取关键词。TF-IDF和TextRank均属于此类方法，其中TF-IDF方法通过计算单文本词频（Term Frequency， TF）和逆文本频率指数（Inverse Document Frequency， IDF）得到词语权重；TextRank方法基于PageRank的思想，通过词语共现窗口构建共现网络，计算词语得分。此类方法简单易行，适用性较强，然而未考虑词序问题。

（2）基于机器学习的关键词提取方法

该方法包括了SVM、朴素贝叶斯等有监督学习方法，以及K-means、层次聚类等无监督学习方法。在此类方法中，模型的好坏取决于特征提取，而深度学习正是特征提取的一种有效方式。由Google推出的Word2Vec词向量模型，是自然语言领域中具有代表性的学习工具。它在训练语言模型的过程中将词典映射到一个更抽象的向量空间中，每一个词语通过高维向量表示，该向量空间中两点之间的距离就对应两个词语的相似程度。

基于以上研究，本文分别采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法，利用Python语言进行开发，实现文本关键词的抽取。

2 开发环境准备

2.1 Python环境

笔者使用的是anaconda环境下的Python 3.10.13。

2.2 第三方模块

本实验实现使用的主要模块如下所示：

（1）Jieba

目前使用最为广泛的中文分词组件。

（2）Gensim

用于主题模型、文档索引和大型语料相似度索引的python库，主要用于自然语言处理（NLP）和信息检索（IR）。本实例中的维基中文语料处理和中文词向量模型构建需要用到该模块。

（3）Pandas

用于高效处理大型数据集、执行数据分析任务的python库，是基于Numpy的工具包。安装方法：pip install pandas。

（4）Numpy

用于存储和处理大型矩阵的工具包。

（5）Scikit-learn

用于机器学习的python工具包，python模块引用名字为sklearn，安装前还需要Numpy和Scipy两个Python库。本实例中主要用到了该模块中的feature_extraction、KMeans（k-means聚类算法）和PCA（pac降维算法）。

（6）Matplotlib

Matplotlib是一个python的图形框架，用于绘制二维图形。

3 数据准备

3.1 样本语料

文本将汽车行业的10篇专利作为样本数据集，见文件“data/sample_data.csv”。文件中依顺序包含编号（id）、标题（title）和摘要（abstract）三个字段，其中标题和摘要都要参与到关键词的抽取。各位可根据自己的样本数据进行数据读取相关代码的调整。

3.2 停用词词典

本文使用中科院计算所中文自然语言处理开放平台发布的中文停用词表，包含了1208个停用词。下载地址：http://www.hicode.cc/download/view-software-13784.html

另外，由于本实例的样本是专利文本，词汇专业性较高，需要人工新增停用词，可直接在上述停用词表中添加，一行为一个停用词，见文件“data/stopWord.txt”。在本例中，笔者在文件最前面人工新增了“包括、相对、免受、用于、本发明、结合”这六个停用词，用于示范，各位可根据实际情况自行删减或新增停用词。

4 基于TF-IDF的文本关键词抽取方法

4.1 TF-IDF算法思想

词频（Term Frequency，TF）指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频，因此根据文件的长度，需要对给定词语进行归一化，即用给定词语的次数除以当前文件的总词数。

逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现，表示更能代表文件的主旨，它的权重也就越大；如果一个词在大量文件中都出现，表示不清楚代表什么内容，它的权重就应该小。

TF-IDF的主要思想是，如果某个词语在一篇文章中出现的频率高，并且在其他文章中较少出现，则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比，与它在语料库中文档出现的频率成反比。

计算公式如下：

4.2 TF-IDF文本关键词抽取方法流程

由以上可知，TF-IDF是对文本所有候选关键词进行加权处理，根据权值对关键词进行排序。假设D_n为测试语料的大小，该算法的关键词抽取步骤如下所示：

（1）对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本文采用jieba分词，保留’n’,‘nz’,‘v’,‘vd’,‘vn’,‘l’,‘a’,'d’这几个词性的词语(‘n’: 名词,‘nz’: 其他专有名词,‘v’: 动词,‘vd’: 副动词,‘vn’: 名动词,‘l’: 习用语,‘a’: 形容词,‘d’: 副词)，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（2）计算词语t_i 在文本D中的词频；

（3）计算词语t_i 在整个语料的IDF=log (D_n /(D_t +1))，D_t 为语料库中词语t_i 出现的文档个数；

（4）计算得到词语t_i 的TF-IDF=TF*IDF，并重复（2）—（4）得到所有候选关键词的TF-IDF数值；

（5）对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为文本关键词。

4.3 代码实现

Python第三方工具包Scikit-learn提供了TFIDF算法的相关函数，本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中，CountVectorizer函数用来构建语料库的中的词频矩阵，TfidfTransformer函数用来计算词语的tfidf权值。

注：TfidfTransformer()函数有一个参数smooth_idf，默认值是True，若设置为False，则IDF的计算公式为idf=log(D_n /D_t ) + 1。

基于TF-IDF方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt，并对拼接的文本进行数据预处理操作，包括分词、筛选出符合词性的词语、去停用词，用空格分隔拼接成文本;

（4）遍历文本记录，将预处理完成的文本放入文档集corpus中；

（5）使用CountVectorizer()函数得到词频矩阵，a[j][i]表示第j个词在第i篇文档中的词频；

（6）使用TfidfTransformer()函数计算每个词的tf-idf权值；

（7）得到词袋模型中的关键词以及对应的tf-idf矩阵；

（8）遍历tf-idf矩阵，打印每篇文档的词汇以及对应的权重；

（9）对每篇文档，按照词语权重值降序排列，选取排名前topN个词最为文本关键词，并写入数据框中；

（10）将最终结果写入文件keys_TFIDF.csv中。

源代码如下：

# 采用TF-IDF方法提取文本关键词
# http://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting
import sys,codecs
import pandas as pd
import numpy as np
import jieba.posseg
import jieba.analyse
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
"""
       TF-IDF权重：
           1、CountVectorizer 构建词频矩阵
           2、TfidfTransformer 构建tfidf权值计算
           3、文本的关键字
           4、对应的tfidf矩阵
"""
# 数据预处理操作：分词，去停用词，词性筛选
def dataPrepos(text, stopkey):
    l = []
    pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd']  # 定义选取的词性
    seg = jieba.posseg.cut(text)  # 分词
    for i in seg:
        if i.word not in stopkey and i.flag in pos:  # 去停用词 + 词性筛选
            l.append(i.word)
    return l

# tf-idf获取文本top10关键词
#@profile
def getKeywords_tfidf(data,stopkey,topK):
    idList, titleList, abstractList = data['id'], data['title'], data['abstract']
    corpus = [] # 将所有文档输出到一个list中，一行就是一个文档
    for index in range(len(idList)):
        text = '%s。%s' % (titleList[index], abstractList[index]) # 拼接标题和摘要
        text = dataPrepos(text,stopkey) # 文本预处理
        text = " ".join(text) # 连接成字符串，空格分隔
        corpus.append(text)
    # 1、构建词频矩阵，将文本中的词语转换成词频矩阵
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(corpus) # 词频矩阵,a[i][j]:表示j词在第i个文本中的词频
    # 2、统计每个词的tf-idf权值
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(X)
    # 3、获取词袋模型中的关键词
    word = vectorizer.get_feature_names_out()
    # 4、获取tf-idf矩阵，a[i][j]表示j词在i篇文本中的tf-idf权重
    weight = tfidf.toarray()
    # 5、打印词语权重
    ids, titles, keys = [], [], []
    for i in range(len(weight)):
        print("-------这里输出第", i+1 , "篇文本的词语tf-idf------")
        ids.append(idList[i])
        titles.append(titleList[i])
        df_word,df_weight = [],[] # 当前文章的所有词汇列表、词汇对应权重列表
        for j in range(len(word)):
            print (word[j],weight[i][j])
            df_word.append(word[j])
            df_weight.append(weight[i][j])
        df_word = pd.DataFrame(df_word,columns=['word'])
        df_weight = pd.DataFrame(df_weight,columns=['weight'])
        word_weight = pd.concat([df_word, df_weight], axis=1) # 拼接词汇列表和权重列表
        word_weight = word_weight.sort_values(by="weight",ascending = False) # 按照权重值降序排列
        keyword = np.array(word_weight['word']) # 选择词汇列并转成数组格式
        word_split = [keyword[x] for x in range(0,topK)] # 抽取前topK个词汇作为关键词
        word_split = " ".join(word_split)
        keys.append(word_split)
    result = pd.DataFrame({"id": ids, "title": titles, "key": keys},columns=['id','title','key'])
    return result

def main():
    # 读取数据集
    dataFile = 'data/sample_data.csv'
    data = pd.read_csv(dataFile)
    # 停用词表
    stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r', encoding='utf-8').readlines()]
    # tf-idf关键词抽取
    result = getKeywords_tfidf(data,stopkey,10)
    result.to_csv("result/keys_TFIDF.csv",index=False)

if __name__ == '__main__':
    main()

最终运行结果如下图所示。

5 基于TextRank的文本关键词抽取方法

5.1 PageRank算法思想

TextRank算法是基于PageRank算法的，PageRank算法是Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学读研究生期间发明的，是用于根据网页间相互的超链接来计算网页重要性的技术。该算法借鉴了学术界评判学术论文重要性的方法，即查看论文的被引用次数。基于以上想法，PageRank算法的核心思想是，认为网页重要性由两部分组成：

① 如果一个网页被大量其他网页链接到说明这个网页比较重要，即被链接网页的数量；

② 如果一个网页被排名很高的网页链接说明这个网页比较重要，即被链接网页的权重。

一般情况下，一个网页的PageRank值（PR）计算公式如下所示：

其中，PR(Pi)是第i个网页的重要性排名即PR值；ɑ是阻尼系数，一般设置为0.85；N是网页总数；Mpi 是所有对第i个网页有出链的网页集合；L(Pj)是第j 个网页的出链数目。

初始时，假设所有网页的排名都是1/N，根据上述公式计算出每个网页的PR值，在不断迭代趋于平稳的时候，停止迭代运算，得到最终结果。一般来讲，只要10次左右的迭代基本上就收敛了。

5.2 TextRank算法思想

TextRank算法是Mihalcea和Tarau于2004年在研究自动摘要提取过程中所提出来的，在PageRank算法的思路上做了改进。该算法把文本拆分成词汇作为网络节点，组成词汇网络图模型，将词语间的相似关系看成是一种推荐或投票关系，使其可以计算每一个词语的重要性。

基于TextRank的文本关键词抽取是利用局部词汇关系，即共现窗口，对候选关键词进行排序，该方法的步骤如下：

（1）对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本文采用结巴分词，保留’n’,‘nz’,‘v’,‘vd’,‘vn’,‘l’,‘a’,'d’这几个词性的词语，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（2）构建候选关键词图G=(V,E)，其中V为节点集，由候选关键词组成，并采用共现关系构造任两点之间的边，两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇；

（3）根据公式迭代计算各节点的权重，直至收敛；

（4）对节点权重进行倒序排列，得到排名前TopN个词汇作为文本关键词。

说明：Jieba库中包含jieba.analyse.textrank函数可直接实现TextRank算法，本文采用该函数进行实验。

5.3 代码实现

基于TextRank方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt;

（4）遍历文本记录，采用jieba.analyse.textrank函数筛选出指定词性，以及topN个文本关键词，并将结果存入数据框中；

（5）将最终结果写入文件keys_TextRank.csv中。

源代码如下：

# 采用TextRank方法提取文本关键词
import sys
import pandas as pd
import jieba.analyse
"""
       TextRank权重：

            1、将待抽取关键词的文本进行分词、去停用词、筛选词性
            2、以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
            3、计算图中节点的PageRank，注意是无向带权图
"""

# 处理标题和摘要，提取关键词
def getKeywords_textrank(data,topK):
    idList,titleList,abstractList = data['id'],data['title'],data['abstract']
    ids, titles, keys = [], [], []
    for index in range(len(idList)):
        text = '%s。%s' % (titleList[index], abstractList[index]) # 拼接标题和摘要
        jieba.analyse.set_stop_words("data/stopWord.txt") # 加载自定义停用词表
        print("\"",titleList[index],"\" ,  10 Keywords - TextRank :")
        keywords = jieba.analyse.textrank(text, topK=topK, allowPOS=('n','nz','v','vd','vn','l','a','d'))  # TextRank关键词提取，词性筛选
        word_split = " ".join(keywords)
        print(word_split)
        keys.append(word_split)
        ids.append(idList[index])
        titles.append(titleList[index])

    result = pd.DataFrame({"id": ids, "title": titles, "key": keys}, columns=['id', 'title', 'key'])
    return result

def main():
    dataFile = 'data/sample_data.csv'
    data = pd.read_csv(dataFile,encoding='utf-8')
    result = getKeywords_textrank(data,10)
    result.to_csv("result/keys_TextRank.csv",index=False,encoding='utf-8')

if __name__ == '__main__':
    main()

最终运行结果如下图所示。

6 基于Word2Vec词聚类的文本关键词抽取方法

6.1 Word2Vec词向量表示

众所周知，机器学习模型的输入必须是数值型数据，文本无法直接作为模型的输入，需要首先将其转化成数学形式。基于Word2Vec词聚类方法正是一种机器学习方法，需要将候选关键词进行向量化表示，因此要先构建Word2Vec词向量模型，从而抽取出候选关键词的词向量。

Word2Vec是当时在Google任职的Mikolov等人于2013年发布的一款词向量训练工具，一经发布便在自然语言处理领域得到了广泛的应用。该工具利用浅层神经网络模型自动学习词语在语料库中的出现情况，把词语嵌入到一个高维的空间中，通常在100-500维，在新的高维空间中词语被表示为词向量的形式。与传统的文本表示方式相比，Word2Vec生成的词向量表示，词语之间的语义关系在高维空间中得到了较好的体现，即语义相近的词语在高维空间中的距离更近；同时，使用词向量避免了词语表示的“维度灾难”问题。

就实际操作而言，特征词向量的抽取是基于已经训练好的词向量模型，词向量模型的训练需要海量的语料才能达到较好的效果，而wiki中文语料是公认的大型中文语料，本文拟从wiki中文语料生成的词向量中抽取本文语料的特征词向量。Wiki中文语料的Word2vec模型训练在文章“利用Python实现wiki中文语料的word2vec模型构建”(https://github.com/gmh1627/Wiki_Zh_Word2vec_Python3) 中做了详尽的描述，在此不赘述。即本文从文章最后得到的文件“wiki.zh.text.vector”中抽取候选关键词的词向量作为聚类模型的输入。

另外，在阅读资料的过程中发现，有些十分专业或者生僻的词语可能wiki中文语料中并未包含，为了提高语料的质量，可新增实验所需的样本语料一起训练，笔者认为这是一种十分可行的方式。本例中为了简便并未采取这种方法，各位可参考此种方法根据自己的实际情况进行调整。

6.2 K-means聚类算法

聚类算法旨在数据中发现数据对象之间的关系，将数据进行分组，使得组内的相似性尽可能的大，组件的相似性尽可能的小。

K-Means是一种常见的基于原型的聚类技术，本文选择该算法作为词聚类的方法。其算法思想是：首先随机选择K个点作为初始质心，K为用户指定的所期望的簇的个数，通过计算每个点到各个质心的距离，将每个点指派到最近的质心形成K个簇，然后根据指派到簇的点重新计算每个簇的质心，重复指派和更新质心的操作，直到簇不发生变化或达到最大的迭代次数则停止。

6.3 Word2Vec词聚类文本关键词抽取方法流程

Word2Vec词聚类文本关键词抽取方法的主要思路是对于用词向量表示的文本词语，通过K-Means算法对文章中的词进行聚类，选择聚类中心作为文章的一个主要关键词，计算其他词与聚类中心的距离即相似度，选择topN个距离聚类中心最近的词作为文本关键词，而这个词间相似度可用Word2Vec生成的向量计算得到。

假设D_n为测试语料的大小，使用该方法进行文本关键词抽取的步骤如下所示：

（1）对Wiki中文语料进行Word2vec模型训练，参考文章“利用Python实现wiki中文语料的word2vec模型构建”(https://github.com/gmh1627/Wiki_Zh_Word2vec_Python3) ,得到词向量文件“wiki.zh.text.vector”；

（2）对于给定的文本D进行分词、词性标注、去重和去除停用词等数据预处理操作。本分采用结巴分词，保留’n’,‘nz’,‘v’,‘vd’,‘vn’,‘l’,‘a’,'d’这几个词性的词语，最终得到n个候选关键词，即D=[t1,t2,…,tn] ；

（3）遍历候选关键词，从词向量文件中抽取候选关键词的词向量表示，即WV=[v₁，v₂，…，v_m]；

（4）对候选关键词进行K-Means聚类，得到各个类别的聚类中心；

（5）计算各类别下，组内词语与聚类中心的距离（欧几里得距离），按聚类大小进行升序排序；

（6）对候选关键词计算结果得到排名前TopN个词汇作为文本关键词。

步骤（4）中需要人为给定聚类的个数，本文测试语料是汽车行业的专利文本，因此只需聚为1类，各位可根据自己的数据情况进行调整；步骤（5）中计算各词语与聚类中心的距离，常见的方法有欧式距离和曼哈顿距离，本文采用的是欧式距离，计算公式如下：

6.4 代码实现

Python第三方工具包Scikit-learn提供了K-Means聚类算法的相关函数，本文用到了sklearn.cluster.KMeans()函数执行K-Means算法，sklearn.decomposition.PCA()函数用于数据降维以便绘制图形。

基于Word2Vec词聚类方法实现文本关键词抽取的代码执行步骤如下：

（1）读取样本源文件sample_data.csv;

（2）获取每行记录的标题和摘要字段，并拼接这两个字段；

（3）加载自定义停用词表stopWord.txt，并对拼接的文本进行数据预处理操作，包括分词、筛选出符合词性的词语、去重、去停用词，形成列表存储；

（4）读取词向量模型文件’wiki.zh.text.vector’，从中抽取出所有候选关键词的词向量表示，存入文件中；

（5）读取文本的词向量表示文件，使用KMeans()函数得到聚类结果以及聚类中心的向量表示；

（6）采用欧式距离计算方法，计算得到每个词语与聚类中心的距离；

（7）按照得到的距离升序排列，选取排名前topN个词作为文本关键词，并写入数据框中；

（8）将最终结果写入文件keys_word2vec.csv中。
源代码1如下：

# 采用Word2Vec词聚类方法抽取关键词1——获取文本词向量表示
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')  # 忽略警告
import sys, codecs
import pandas as pd
import numpy as np
import jieba
import jieba.posseg
import gensim

# 返回特征词向量
def getWordVecs(wordList, model):
    name = []
    vecs = []
    for word in wordList:
        word = word.replace('\n', '')
        try:
            if word in model:  # 模型中存在该词的向量表示
                name.append(word)
                vecs.append(model[word])
        except KeyError:
            continue
    a = pd.DataFrame(name, columns=['word'])
    b = pd.DataFrame(np.array(vecs, dtype='float'))
    return pd.concat([a, b], axis=1)

# 数据预处理操作：分词，去停用词，词性筛选
def dataPrepos(text, stopkey):
    l = []
    pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd']  # 定义选取的词性
    seg = jieba.posseg.cut(text)  # 分词
    for i in seg:
        if i.word not in l and i.word not in stopkey and i.flag in pos:  # 去重 + 去停用词 + 词性筛选
            # print i.word
            l.append(i.word)
    return l

# 根据数据获取候选关键词词向量
def buildAllWordsVecs(data, stopkey, model):
    idList, titleList, abstractList = data['id'], data['title'], data['abstract']
    for index in range(len(idList)):
        id = idList[index]
        title = titleList[index]
        abstract = abstractList[index]
        l_ti = dataPrepos(title, stopkey)  # 处理标题
        l_ab = dataPrepos(abstract, stopkey)  # 处理摘要
        # 获取候选关键词的词向量
        words = np.append(l_ti, l_ab)  # 拼接数组元素
        words = list(set(words))  # 数组元素去重,得到候选关键词列表
        wordvecs = getWordVecs(words, model)  # 获取候选关键词的词向量表示
        # 词向量写入csv文件，每个词400维
        data_vecs = pd.DataFrame(wordvecs)
        data_vecs.to_csv('result/vecs/wordvecs_' + str(id) + '.csv', index=False)
        print("document ", id, " well done.")

def main():
    # 读取数据集
    dataFile = 'data/sample_data.csv'
    data = pd.read_csv(dataFile)
    # 停用词表
    stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r').readlines()]
    # 词向量模型
    inp = 'wiki.zh.text.vector'
    model = gensim.models.KeyedVectors.load_word2vec_format(inp, binary=False)
    buildAllWordsVecs(data, stopkey, model)

if __name__ == '__main__':
    main()

源代码2如下：

# 采用Word2Vec词聚类方法抽取关键词2——根据候选关键词的词向量进行聚类分析
import sys,os
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
import os

# 对词向量采用K-means聚类抽取TopK关键词
def getkeywords_kmeans(data,topK):
    words = data["word"] # 词汇
    vecs = data.iloc[:,1:] # 向量表示

    kmeans = KMeans(n_clusters=1,n_init=10,random_state=10).fit(vecs)
    labels = kmeans.labels_ #类别结果标签
    labels = pd.DataFrame(labels,columns=['label'])
    new_df = pd.concat([labels,vecs],axis=1)
    df_count_type = new_df.groupby('label').size() #各类别统计个数
    # print df_count_type
    vec_center = kmeans.cluster_centers_ #聚类中心

    # 计算距离（相似性） 采用欧几里得距离（欧式距离）
    distances = []
    vec_words = np.array(vecs) # 候选关键词向量，dataFrame转array
    vec_center = vec_center[0] # 第一个类别聚类中心,本例只有一个类别
    length = len(vec_center) # 向量维度
    for index in range(len(vec_words)): # 候选关键词个数
        cur_wordvec = vec_words[index] # 当前词语的词向量
        dis = 0 # 向量距离
        for index2 in range(length):
            dis += (vec_center[index2]-cur_wordvec[index2])*(vec_center[index2]-cur_wordvec[index2])
        dis = math.sqrt(dis)
        distances.append(dis)
    distances = pd.DataFrame(distances,columns=['dis'])

    result = pd.concat([words, labels ,distances], axis=1) # 拼接词语与其对应中心点的距离
    result = result.sort_values(by="dis",ascending = True) # 按照距离大小进行升序排序
    """
    # 将用于聚类的数据的特征维度降到2维
    pca = PCA(n_components=2)
    new_pca = pd.DataFrame(pca.fit_transform(new_df))
    print(new_pca)
    # 可视化
    d = new_pca[new_df['label'] == 0]
    plt.plot(d[0],d[1],'r.')
    d = new_pca[new_df['label'] == 1]
    plt.plot(d[0], d[1], 'go')
    d = new_pca[new_df['label'] == 2]
    plt.plot(d[0], d[1], 'b*')
    plt.gcf().savefig('kmeans.png')
    plt.show()
    """
    # 抽取排名前topK个词语作为文本关键词
    wordlist = np.array(result['word']) # 选择词汇列并转成数组格式
    word_split = [wordlist[x] for x in range(0,topK)] # 抽取前topK个词汇
    word_split = " ".join(word_split)
    return word_split

def main():
    # 读取数据集
    dataFile = 'data/sample_data.csv'
    articleData = pd.read_csv(dataFile,encoding='utf-8')
    
    ids, titles, keys = [], [], []

    rootdir = "result/vecs" # 词向量文件根目录
    fileList = os.listdir(rootdir) #列出文件夹下所有的目录与文件
    # 遍历文件
    for i in range(len(fileList)):
        filename = fileList[i]
        path = os.path.join(rootdir,filename)
        if os.path.isfile(path):
            data = pd.read_csv(path, encoding='utf-8') # 读取词向量文件数据
            artile_keys = getkeywords_kmeans(data,10) # 聚类算法得到当前文件的关键词
            
            # 根据文件名获得文章id以及标题
            (shortname, extension) = os.path.splitext(filename) # 得到文件名和文件扩展名
            t = shortname.split("_")
            article_id = int(t[len(t)-1]) # 获得文章id
            artile_tit = articleData[articleData.id==article_id]['title'] # 获得文章标题
            artile_tit = list(artile_tit)[0] # series转成字符串
            ids.append(article_id)
            titles.append(artile_tit)
            keys.append(artile_keys)
    # 所有结果写入文件
    result = pd.DataFrame({"id": ids, "title": titles, "key": keys}, columns=['id', 'title', 'key'])
    result = result.sort_values(by="id",ascending=True) # 排序
    result.to_csv("result/keys_word2vec.csv", index=False,encoding='utf-8')

if __name__ == '__main__':
    main()

最终运行结果如下图所示。

7 结语

本文总结了三种常用的抽取文本关键词的方法：TF-IDF、TextRank和Word2Vec词向量聚类，并做了原理、流程以及代码的详细描述。因本文使用的测试语料较为特殊且数量较少，未做相应的结果分析，根据观察可以发现，得到的十个文本关键词都包含有文本的主旨信息，其中TF-IDF和TextRank方法的结果较好，Word2Vec词向量聚类方法的效果不佳，这与文献[8]中的结论是一致的。文献[8]中提到，对单文档直接应用Word2Vec词向量聚类方法时，选择聚类中心作为文本的关键词本身就是不准确的，因此与其距离最近的N个词语也不一定是关键词，因此用这种方法得到的结果效果不佳；而TextRank方法是基于图模型的排序算法，在单文档关键词抽取方面有较为稳定的效果，因此较多的论文是在TextRank的方法上进行改进而提升关键词抽取的准确率。

另外，本文的实验目的主要在于讲解三种方法的思路和流程，实验过程中的某些细节仍然可以改进。例如Word2Vec模型训练的原始语料可加入相应的专业性文本语料；标题文本往往包含文档的重要信息，可对标题文本包含的词语给予一定的初始权重；测试数据集可采集多个分类的长文本，与之对应的聚类算法KMeans()函数中的n_clusters参数就应当设置成分类的个数；根据文档的分词结果，去除掉所有文档中都包含某一出现频次超过指定阈值的词语；等等。各位可根据自己的实际情况或者参考论文资料进行参数的优化以及细节的调整，欢迎给我留言或者私信讨论，大家一起共同学习。

至此，利用Pyhon实现中文文本关键词抽取的三种方法全部介绍完毕，测试数据、代码和运行结果已上传至本人的GitHub仓库。项目文件为keyword_extraction，data文件夹中包含停用词表stopWord.txt和测试集sample_data.csv，result文件夹包含三种方法的实验结果和每篇文档对应的词向量文件（vecs）。文中若存在不正确的地方，欢迎各位朋友批评指正！本文是在https://github.com/AimeeLee77/keyword_extraction 的基础上加以修改的（原文用的是python 2.7)，在此对原作者深表感谢！

参考文献：

[1] http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

[2]
http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html

[3] https://yq.aliyun.com/articles/69934

[4] https://www.cnblogs.com/rubinorth/p/5799848.html

[5]余珊珊, 苏锦钿, 李鹏飞. 基于改进的TextRank的自动摘要提取方法[J]. 计算机科学, 2016, 43(6):240-247.

[6] http://www.doc88.com/p-8955287687257.html

[7] http://www.doc88.com/p-4711540891452.html

[8] 夏天. 词向量聚类加权TextRank的关键词抽取[J]. 现代图书情报技术, 2017, 1(2):28-34.

你可能感兴趣的:(python,python,开发语言,算法)

Windows上安装与使用 Jupyter Notebook 梓仁沐白 python windows jupyter ide
1.了解JupyterNotebookJupyterNotebook是一个交互式计算环境，非常适合进行数据科学和机器学习的研究和实验。可以在Notebook中直接编写代码、运行代码块、保存结果，非常直观。在安装JupyterNotebook时，可以选择全局环境（base环境）或虚拟环境。全局环境指的是安装在Miniconda或Anaconda根目录的Python环境，而虚拟环境是用于隔离不同项目和
讯飞绘镜（ai生成视频）技术浅析（三）：自然语言处理（NLP）爱研究的小牛 AIGC—视频 AIGC—自然语言处理自然语言处理人工智能自然语言处理 AIGC 深度学习
1.技术架构概述讯飞绘镜的NLP技术架构可以分为以下几个核心模块：语义分析：理解用户输入的文本，提取关键信息（如实体、事件、情感等）。情节理解：分析文本中的故事情节，识别事件序列和逻辑关系。人物关系建模：识别文本中的人物及其关系，构建人物关系图。场景生成：根据情节和人物关系生成场景描述。每个模块都依赖于先进的深度学习模型和算法，以下将逐一详细讲解。2.语义分析语义分析的目标是从用户输入的文本中提取
【加密算法】简单区分HS、RSA、ES 和 ED，与对应go实现案例 {⌐■_■} golang java 前端后端开发语言服务器
HS、RSA、ES、ED四种签名算法：一、算法对比属性HSRSAESED加密类型对称加密非对称加密非对称加密非对称加密密钥长度任意长度私钥：2048+位私钥：256+位私钥：256位（Ed25519）签名效率高较低高高验证效率高较低高高安全性中高高高密钥分离不支持支持支持支持典型场景内部系统通信安全性要求高的场景移动设备和IoT场景安全敏感的高效场景二、构建过程1.HS(HMAC-SHA)密钥生成
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.18 逻辑运算引擎：数组条件判断的智能法则精通代码大仙 numpy python numpy python 开发语言
1.18逻辑运算引擎：数组条件判断的智能法则1.18.1目录逻辑运算引擎：数组条件判断的智能法则引言短路逻辑的向量化替代方案复合条件表达式的优化编写掩码操作在图像分割中的应用多条件并行评估的性能测试总结参考文献1.18.2短路逻辑的向量化替代方案在Python中，短路逻辑（short-circuitlogic）是一种常用的逻辑运算方式，但在NumPy数组中使用短路逻辑可能会导致性能问题。向量化操作
web前端三大主流框架 109702008 人工智能编程前端框架人工智能
Claude3OpusWeb前端开发中，目前有三个主流的框架：1.React：React是由Facebook开发的一款JavaScript库，用于构建用户界面。它采用组件化的开发模式，将界面拆分成多个独立且可复用的组件，使开发和维护更加高效。React的核心思想是虚拟DOM（VirtualDOM）和单向数据流，通过高效的DOMdiff算法进行页面更新，提供出色的性能和用户体验。2.Angular：
ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 from C head Garfield2005 错误bug流水账 numpy c语言开发语言
背景numpy是一个用户科学计算的开源python库，是一个非常基础的库，现有的python库很多都会用到numpy这个库，如果你是从事计算机视觉的，这个库完全躲不过去被很多库使用，很容易出现的问题就是兼容性，特别是numpy的接口如果发生了调整，那依赖numpy的库使用起来就很容易出问题，多数情况下调整下numpy版本即可兼容性问题中，有一个很常见的问题：File"/usr/local/lib/
数据分析案例-2024 年热门动漫数据集可视化分析艾派森数据分析数据可视化 python 信息可视化数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
python 阴暗图像亮度增强对比度增强去雾 weixin_37763484 python 数据挖掘深度学习 python opencv 计算机视觉图像处理目标检测
背景说明最近在处理图像，发现一些样本由于逆光原因过于阴暗，影响图像识别。解决时，可以在训练样本中加入类似的图像，或者手动把相关图像进行颜色变化。这里主要介绍手工颜色变化。原始图像如下，假设你需要判断裤子的种类（牛仔裤还或棉布裤子），类似阴暗图像很难判断：网上现有的解决方法中，主要包含直方图变化和gamma变换，例如下面几篇文章OpenCV调整图像对比度和亮度、qunshansj/opencv-py
Ardely暗区图像增强元气少女缘结神 Image Denoising 图像增强
因为要用到特别暗的图像，要分割出目标和背景，所以只有先增强，看到《一种基于Ardely分割算法的夜间图像增强方法》，但去找其引用文献的Ardely的博客却找不到了？本来想看其csdn博客步骤自己编的，但没找到，后来又看到http://blog.csdn.net/programman83/article/details/1349262点击打开链接所以直接用它的了。/*maintestforbmppa
利用去雾算法实现低光增强 mytzs123 图像增强算法 opencv 人工智能
[论文阅读](11)ACE算法和暗通道先验图像去雾算法（Rizzi|何恺明老师）_暗通道去雾算法-CSDN博客//https://zhuanlan.zhihu.com/p/500023711?utm_id=0#include#include#include#include#include#includeusingnamespacecv;usingnamespacestd;namespace{voi
python-OpenCV图片增强深度学习小学生 python
importnumpyasnpimportcv2defcrop_image(img,x0,y0,w,h):"""定义裁剪函数:paramimg:要处理的图片:paramx0:左上角横坐标:paramy0:左上角纵坐标:paramw:裁剪宽度:paramh:裁剪高度:return:裁剪后的图片"""returnimg[x0:x0+w,y0:y0+h]defrandom_crop(img,area_r
用Python制作无法拒绝的表白界面 SuRuiYuan1 python 前端 json
创建一个无法拒绝的表白界面可以是一个有趣的小项目，它不仅能够展示你的编程技能，还能让你以一种创意和个性化的方式表达感情。下面我将为你提供一个使用`tkinter`库创建简单但吸引人的表白界面的例子。`tkinter`是Python的标准GUI库，适合快速构建桌面应用。首先确保你有Python环境安装好了。接下来我们将编写代码来创建一个简单的表白界面。importtkinterastkfromtki
python 爬虫如何爬取动态生成的网页内容骗鬼 python 爬虫开发语言
---好的方法很多，我们先掌握一种---【背景】对于静态页面，我们通常可以通过python的request.get()库获取到页面的信息，但是对于动态生成的网页信息来说，我们通过request.get()获取不到。【方法】我们可以通过python第三方库selenium来配合实现信息获取采取方案：python+request+selenium+BeautifulSoup我们拿纵横中文网的小说采集举
{每日一道算法题21/11/25} zzh666ya 算法算法 java python c语言开发语言
458.可怜的小猪难度困难有buckets桶液体，其中正好有一桶含有毒药，其余装的都是水。它们从外观看起来都一样。为了弄清楚哪只水桶含有毒药，你可以喂一些猪喝，通过观察猪是否会死进行判断。不幸的是，你只有minutesToTest分钟时间来确定哪桶液体是有毒的。喂猪的规则如下：选择若干活猪进行喂养可以允许小猪同时饮用任意数量的桶中的水，并且该过程不需要时间。小猪喝完水后，必须有minutesToD
C++中常用的排序方法之——冒泡排序 Stanford_1106 学习 C++高级教程算法 java 排序算法微信开放平台微信小程序微信公众平台学习
成长路上不孤单【14后///计算机爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于C++中常用的排序方法之——冒泡排序的相关内容！关于【C++中常用的排序方法之——冒泡排序】目录：一、冒泡排序的定义二、冒泡排序的算法原理三、冒泡排序的算法示例四、冒泡排序的算法分析五、冒泡排序的特点六、冒泡排序的优点七、冒泡排序的缺点冒泡排序（BubbleSort）‌一、冒泡排序的定义冒泡排序
【每日一道算法题】Leetcode之decode-ways解码方式问题 Java 动态规划佛系宅女 leetcode 算法
91.leetcode题目描述：一条仅包含字母‘A’-‘Z’的消息用下列的方式加密成数字‘A’->1‘B’->2…‘Z’->26现在给出加密成数字的密文，请判断有多少种解密的方法例如：给出的密文为“12”，可以解密为"AB"(12)或者"L"(12).所以密文"12"的解密方法是2种.importjava.util.*;publicclassSolution{publicintnumDecodin
Github 2025-01-12 php开源项目日报 Top10 老孙正经胡说 github php 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-12统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量PHP项目10JavaScript项目1Shell项目1SymfonyPHP框架和组件创建周期：5130天开发语言：PHP协议类型：MITLicenseStar数量：28999个Fork数量：9440次关注人数：28999人贡献人数：368人Open
Github 2025-01-28 Python开源项目日报 Top9 老孙正经胡说 github python 开发语言 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-28统计)共有9个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目9Rust项目1ComfyUI：强大而模块化的稳定扩散GUI创建周期：399天开发语言：Python,JavaScript协议类型：GNUGeneralPublicLicensev3.0Star数量：25663个Fork数量：2741次
Github 2024-08-18 php开源项目日报 Top10 老孙正经胡说 github php 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-08-18统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量PHP项目10Shell项目1Blade项目1JavaScript项目1SecLists-安全测试人员的伴侣创建周期：4375天开发语言：PHP协议类型：MITLicenseStar数量：52010个Fork数量：23569次关注人数：52010人贡
Github 2024-07-14 php开源项目日报 Top10 老孙正经胡说 github php 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-07-14统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量PHP项目10CSS项目1SymfonyPHP框架和组件创建周期：5130天开发语言：PHP协议类型：MITLicenseStar数量：28999个Fork数量：9440次关注人数：28999人贡献人数：368人OpenIssues数量：846个Gi
python3.7.4怎么安装pycryptodome_python3.6 安装第三方库 pyCryptodome 实现AES加密 weixin_39799646
起因前端日子写完的Python入库脚本，通过直接读取配置文件的内容(包含了数据库的ip，数据库的用户名，数据库的密码)，因为配置文件中的数据库密码是明文显示的，所以不太安全，由此对其进行加密。编码之路编程环境Python3.6第三方库–pyCryptodome第三方库的介绍及下载1.在之前的AES加密中，python2或者3.4采用的是pyCyrpto这个模块，但是昨天废了好大劲去安装它都是失败，
Nginx 负载均衡算法：让你轻松应对流量高峰！ ❀͜͡傀儡师 nginx 负载均衡算法
轮询（RoundRobin）描述轮询是Nginx默认的负载均衡算法。它将前端请求按顺序分配到后端服务器，确保每个服务器都能接收到请求。公平性：每个服务器都有相同的机会接收请求。无状态：不考虑服务器的当前负载情况。upstreambackend{serverbackend1.example.com;serverbackend2.example.com;serverbackend3.example.c
python字符串查找王十二的 python python
python字符串查找有四种方法：1.find2.index3.rfind4.rindex1.find()：查找字符串，若找到返回从0开始的下标，找不到返回-1info='abca'printinfo.find('a')##从下标0开始，查找在字符串里第一个出现的子串，返回结果：02.index():python的index方法是在字符串里查找子串第一次出现的位置，类似字符串的find方法，不过比
python判断字符串 iteye_13776 Python Python
s为字符串s.isalnum()所有字符都是数字或者字母s.isalpha()所有字符都是字母s.isdigit()所有字符都是数字s.islower()所有字符都是小写s.isupper()所有字符都是大写s.istitle()所有单词都是首字母大写，像标题s.isspace()所有字符都是空白字符、\t、、判断是整数还是浮点数a=123b=123.123>>>isinstance(a,int)
推荐开源项目：PyCryptodome——Python加密库的卓越替代品明俪钧
推荐开源项目：PyCryptodome——Python加密库的卓越替代品pycryptodomeAself-containedcryptographiclibraryforPython项目地址:https://gitcode.com/gh_mirrors/py/pycryptodome1、项目介绍PyCryptodome是一个独立的Python加密原语包，提供了低级别的加密算法。它支持Python
python上一个很好用的密码学库——PyCryptodome UN_spoken python pycryptodome python
1.关于安装不要再使用PyCrypto这个库了，因为这个库三年没有维护了，因此使用它的替代库——PyCryptodome，方法都差不多，安装方法也比较简单，使用下面的命令就可以安装了：pip3installpycryptodome如果之前安装了PyCrypto库，那么，请使用下面的命令进行卸载：pipuninstallpycrypto2.关于使用
Python 语法基础：字符串的查找、判断与修改详解 Selina .a python教程 python java linux
在Python编程中，字符串（string）是一种非常重要的数据类型，它用于表示文本数据。Python提供了丰富的字符串操作方法，使得对字符串进行查找、判断和修改变得简单而高效。本文将详细讲解Python中字符串的查找、判断与修改操作。一、字符串的查找在Python中，字符串的查找操作主要用于确定某个子串或字符在字符串中的位置，或者检查某个子串或字符是否存在于字符串中。1.使用find()方法fi
python | OpenCV小记（一）：cv2.imread(f) 读取图像操作（待更新）墨绿色的摆渡人 python OpenCV小记 python opencv 开发语言
python|OpenCV小记（一）：cv2.imread（f）读取图像操作1.为什么`[:,:,0]`提取的是第一个通道（B通道）？OpenCV的通道存储格式索引操作`[:,:,0]`的解释常见误解1.为什么[:,:,0]提取的是第一个通道（B通道）？OpenCV的通道存储格式OpenCV默认读取的图像是BGR格式，即通道顺序为Blue（蓝）、Green（绿）、Red（红）。当使用cv2.imr
简述Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch 等模型科学的发展-只不过是读大自然写的代码断纱检测 caffe tensorflow pytorch
以下是对Caffe、TensorFlow、TensorFlowLite、ONNX、DarkNet和PyTorch等模型的简述：Caffe：Caffe（ConvolutionArchitectureForFeatureExtraction）是一个用于特征抽取的卷积框架，它是一个清晰、可读性高且快速的深度学习框架。Caffe由加州伯克利大学的贾扬清开发，起初是一个用于深度卷积网络的Python框架（无
【C语言基础习题】C语言练习题——bite 寒假班作业（8）拾贰_C 【bite就业课】作业习题 c语言算法开发语言
你是如何克服编程学习中的挫折感的？编程学习之路上，挫折感就像一道道难以逾越的高墙，让许多人望而却步。然而，真正的编程高手都曾在这条路上跌倒过、迷茫过，却最终找到了突破的方法。你是如何在Bug的迷宫中找到出口的？面对复杂的算法时，你用什么方法让自己保持冷静？让我们一起分享那些克服挫折的经验，为彼此的编程之路点亮希望之光！2024-01-31_debug和release的区别等_作业文章目录你是如何克
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f