weixin_30896825

关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank...

关键词：
   TF-IDF实现、TextRank、jieba、关键词提取
数据来源：
   语料数据来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据
   数据处理参考前一篇文章
介绍：
   介绍了文本关键词提取的原理，tfidf算法和TextRank算法
   利用sklearn实现tfidf算法
   手动python实现tfidf算法
   使用jieba分词的tfidf算法和TextRank提取关键词

　　1.关键字提取：

　　关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。

　　除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取出这些新闻的关键词，就可以大致了解那天发生了什么事情；或者将某段时间内几个人的微博拼成一篇长文本，然后抽取关键词就可以知道他们主要在讨论什么话题。

　　目前大多数领域无关的关键词抽取算法（领域无关算法的意思就是无论什么主题或者领域的文本都可以抽取关键词的算法）和它对应的库都是基于后者的。从逻辑上说，后者比前着在实际使用中更有意义。

从算法的角度来看，关键词抽取算法主要有两类：

有监督学习算法，将关键词抽取过程视为二分类问题，先抽取出候选词，然后对于每个候选词划定标签，要么是关键词，要么不是关键词，然后训练关键词抽取分类器。当新来一篇文档时，抽取出所有的候选词，然后利用训练好的关键词抽取分类器，对各个候选词进行分类，最终将标签为关键词的候选词作为关键词；
无监督学习算法，先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同，有不同的算法，例如TF-IDF，TextRank等算法；

　　2.TF-IDF算法：

　　TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。
TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

　　TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
　　TF是词频(Term Frequency)：词频（TF）表示词条（关键字）在文本中出现的频率。
　　逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。
　　TF-IDF实际上是：TF *IDF。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

　　TF-IDF计算：
（1）计算词频

　　
（2）计算逆文档频率

　　
（3）计算TF-IDF

　　3.TextRank算法：

　　此种算法的一个重要特点是可以脱离语料库的背景，仅对单篇文档进行分析就可以提取该文档的关键词。基本思想来源于Google的PageRank算法。这种算法是1997年，Google创始人拉里.佩奇和谢尔盖.布林在构建早期的搜索系统原型时提出的一种链接分析算法，基本思想有两条：
　　1）链接数量。一个网页被越多的其他网页链接，说明这个网页越重要.
　　2）链接质量。一个网页被一个越高权值的网页链接，也能表明这个网页越重要.

　　TextRank 用于关键词提取的算法如下：
   （1）把给定的文本 T 按照完整句子进行分割，即:T=[S₁,S₂,…,S_m]
   （2）对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，其中 ti,j 是保留后的候选关键词。Si=[t_i,1,t_i,2,...,t_i,n]
   （3）构建候选关键词图 G = (V,E)，其中 V 为节点集，由（2）生成的候选关键词组成，然后采用共现关系（Co-Occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K 的窗口中共现，K表示窗口大小，即最多共现 K 个单词。
   （4）根据 TextRank 的公式，迭代传播各节点的权重，直至收敛。
   （5）对节点权重进行倒序排序，从而得到最重要的 T 个单词，作为候选关键词。
   （6）由（5）得到最重要的 T 个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

   TextRank & PageRank
        如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高
        如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高

   与TF-IDF需要在语料库上计算IDF(逆文档频率)不同，TextRank利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词。

二、利用sklearn实现tfidf算法

　　1.一个完整的例子

# coding:utf-8    
import jieba  
import jieba.posseg as pseg  
import os  
import sys  
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

corpus=["我 来到 北京 清华大学",
    "他 来到 了 网易 杭研 大厦",
    "小明 硕士 毕业 与 中国 科学院",
    "我 爱 北京 天安门"]
vectorizer=CountVectorizer()         #该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频  
transformer=TfidfTransformer()       #该类会统计每个词语的tf-idf权值  
X=vectorizer.fit_transform(corpus)   #将文本转为词频矩阵
tfidf=transformer.fit_transform(X)   #计算tf-idf，  
word=vectorizer.get_feature_names()  #获取词袋模型中的所有词语   
weight=tfidf.toarray()               #将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重  
for i in range(len(weight)):         #打印每类文本的tf-idf词语权重
    print("-------这里输出第",i,u"类文本的词语tf-idf权重------" )
    #for j in range(len(word)):  
    print(list(zip(word,weight[i])))

　　控制台输出：

-------这里输出第 0 类文本的词语tf-idf权重------
[('中国', 0.0), ('北京', 0.5264054336099155), ('大厦', 0.0), ('天安门', 0.0), ('小明', 0.0), ('来到', 0.5264054336099155), ('杭研', 0.0), ('毕业', 0.0), ('清华大学', 0.6676785446095399), ('硕士', 0.0), ('科学院', 0.0), ('网易', 0.0)]
-------这里输出第 1 类文本的词语tf-idf权重------
[('中国', 0.0), ('北京', 0.0), ('大厦', 0.5254727492640658), ('天安门', 0.0), ('小明', 0.0), ('来到', 0.41428875116588965), ('杭研', 0.5254727492640658), ('毕业', 0.0), ('清华大学', 0.0), ('硕士', 0.0), ('科学院', 0.0), ('网易', 0.5254727492640658)]
-------这里输出第 2 类文本的词语tf-idf权重------
[('中国', 0.4472135954999579), ('北京', 0.0), ('大厦', 0.0), ('天安门', 0.0), ('小明', 0.4472135954999579), ('来到', 0.0), ('杭研', 0.0), ('毕业', 0.4472135954999579), ('清华大学', 0.0), ('硕士', 0.4472135954999579), ('科学院', 0.4472135954999579), ('网易', 0.0)]
-------这里输出第 3 类文本的词语tf-idf权重------
[('中国', 0.0), ('北京', 0.6191302964899972), ('大厦', 0.0), ('天安门', 0.7852882757103967), ('小明', 0.0), ('来到', 0.0), ('杭研', 0.0), ('毕业', 0.0), ('清华大学', 0.0), ('硕士', 0.0), ('科学院', 0.0), ('网易', 0.0)]

　　2.根据语料库统计idf（每个词语的逆文档频率），并存持久化存储到文件中，以便下次输入一篇文档即可返回相应关键词

#-*-coding:utf-8-*-
import numpy as np
import math
from sklearn.feature_extraction.text import CountVectorizer  
_trainText=[]
with open('sohu_train.txt', encoding='utf-8') as trainText:
    for line in trainText:
        id,catgre,body= line.split('^_^')
        #print id,catgre
        _trainText.append(body)
# for doc in _trainText[:10]:
    # print(doc)

#将文本中的词语转换为词频矩阵  
vectorizer = CountVectorizer()  
#计算个词语出现的次数  
X = vectorizer.fit_transform(_trainText[:10000])  
words = vectorizer.get_feature_names()
X_mat=X.toarray()

doc_num=X.shape[0]
# print(X.shape[0])
# print(X.toarray()[:,1])
# doc_num=len(X_mat[:,1])
print(X.shape)
fw=open('idf.txt', 'w', encoding='utf-8') 
for index in range(len(words)):
    # print(np.sign(X_mat[:,index]),X_mat[:,index])
    idf=math.log(doc_num/(sum(np.sign(X_mat[:,index]))+1))
    fw.write(words[index]+' '+str(idf)+'\n')
    # print(words[index],math.log(doc_num/(sum(np.sign(X_mat[:,index]))+1)))
fw.close()
print('procesing completed')

　　问题：词频矩阵非常稀疏矩阵，矩阵太大（文档数量×词汇数量），实际计算中文档有59万余条，出现内存错误memoryerror，可以将语料分成多片分别进行计算，但这样效率并不高，下面手动进行词频统计

三、用python3实现tfidf提取关键词

　　手动计算词频，计算tfidf值

#利用搜狐新闻语料库计算每个词语的idf值，
#-*-coding:utf-8-*-
import numpy as np
import math
from collections import defaultdict
doc_num=0
doc_frequency=defaultdict(int)
with open('sohu_train.txt', encoding='utf-8') as trainText:
    for line in trainText:
        id,catgre,body= line.split('^_^')
        # if doc_num>100000:break 
        doc_num+=1
        for word in set(body.split('    ')):
            word=word.replace('\n','').strip()
            # if word in stopword :continue
            if word =='' or word =='' :continue
            doc_frequency[word]+=1

fw=open('idf-1.txt', 'w', encoding='utf-8') 
for word in doc_frequency:
    idf=math.log(doc_num/(doc_frequency[word]+1))
    fw.write(word+' '+str(idf)+'\n')
    print(word,doc_frequency[word])
fw.close()
print('procesing completed')


#加载已经训练好的idf值，计算部分文章的tfidf，返回相应关键词
idf_dict=defaultdict(int)
with open('idf-1.txt', encoding='utf-8') as idf_dict_text:
    for line in idf_dict_text:
        word,value= line.split(' ')
        idf_dict[word]=float(value)

doc_num=0
with open('sohu_train.txt', encoding='utf-8') as trainText:
    for line in trainText:
        id,catgre,body= line.split('^_^')
        #仅抽取前5篇文档的关键词
        if doc_num>5:break 
        else:doc_num+=1
        word_num=0
        word_frequency=defaultdict(int)
        for word in body.split('    '): #每篇文档中词频统计
            word=word.replace('\n','').strip()
            if word =='' or word =='' :continue
            word_frequency[word]+=1
            word_num+=1
        
        for word in word_frequency: #计算当前文章中每个词的tfidf值
            # print(idf_dict[word],type(idf_dict[word]))
            tfidf=idf_dict[word]*word_frequency[word]/word_num
            word_frequency[word]=tfidf
        word_sorted=sorted(word_frequency.items(),key=lambda x:x[1],reverse=True)
        print('document:',body.strip().replace('    ',''))
        print('keywords:',word_sorted[:5])

　　输出前5篇文档的关键词：

document: 主题:Re:包子老公终于早饭了主题:Re:包子老公终于早饭了
keywords: [('包子', 0.9596168091464351), ('早饭', 0.9041355597752955), ('Re', 0.8966839785996794), ('老公', 0.6378780519245452), ('主题', 0.474942714460621)]
document: 主题:不管孩子多少,只要有一对无耻的儿子媳妇,老人就完蛋这次回老家,去看姑姑。姑姑老的不成样子,身体极差,姑父身体还行,就是因为脑袋做过手术,说话有点稀里糊涂的。姑姑有4个孩子,有三个生活非常不错。但有一个儿子,生活很不好,这个儿子和我还是同学。特别是这个儿子的媳妇,那是超级的愣货,我姑姑以前那么要强的人,现在被这个儿子和媳妇逼的无路可走。
keywords: [('姑姑', 0.32601072973252054), ('儿子', 0.23452820867879176), ('媳妇', 0.18669451156212183), ('姑父', 0.0983996538992101), ('无路可走', 0.09541412728971811)]
document: 主题:[原创]家长自检:你的孩子有这些错误的饮食习惯吗?最近一直马不停蹄的忙着中心和妇联一起主办的公益测评活动,虽然每天都很忙很紧张但是对于我还是有收获的,希望对家长和孩子们都是有收获的。因为下午还要出发,所以就大概给宝妈们总结一下我这段时间和孩子家长的闲聊中总结的一些儿童饮食错误:问题 1 :用方便面代替正餐有的家长说早上没有时间给孩子做早餐就用方便面 给孩子当早餐,以为加上蔬菜和鸡蛋就可以成为一份“营养”的早餐。这样的认为是错误的,方便面在营养师的眼中是最不营养的东西。它以面粉为主,经过高温油炸,蛋白质、维生素、矿物质均严重不足,营养价值较低,还常常存在脂肪氧化的问题,热量非常高,常常食用方便面会导致营养不良。问题 2 :多吃营养滋补品有的家长说孩子太瘦,挑食,既然孩子吃得少那就给孩子吃醉营养的滋补品这样就能弥补孩子缺失的营养了,错误。孩子的生活饮食习惯是家长一定要孩子养成的,而且孩子生长发育所需要的热能、蛋白质、维生素和矿物质主要也完全可以通过一日三餐获得的。各种滋补营养品的摄入量本来就 很小,其中对身体真正有益的成分仅是微量,有些甚至具有副作用,增加孩子提前发育的风险。问题 3 :用乳饮料代替牛奶,用果汁饮料代替水果很多家长问我 “ 钙奶、果奶 ” 之类的乳饮料代替牛奶 是不是会更好更营养。殊不知,两者之间有着天壤之别,饮料根本无法代替牛奶和水果带给孩子的营养和健康。在以前的帖子里我也具体和大家说过,这里就不再仔细说了。问题 4 :用甜饮料解渴,餐前必 喝饮料现在的孩子很多都和我是同一时期的人, 80 后习惯饮料当水解渴的习惯其实不好,现在升级做爸爸妈妈的应该不要把这个习惯再传给我们的孩子。为了自己也为了孩子少喝饮料多喝水。甜饮料中 含糖达 10% 以上,饮后具有饱腹感,妨碍孩子正餐时的食欲。若要解渴,最好饮用白开水,它不仅容易吸收,而且可以帮助身体排除废物,不增加肾脏的负担。现在我们吃的多数都是“精米”“精面”其实长期进食精细食物并不好,不仅会因减少 B 族维生素的摄入而影响神经系统发育,还有可能因为铬元素缺乏 “ 株连 ” 视力。铬含量不足会使胰岛素的活性减退,调节血糖的能力下降,致使食物中的糖分不能正常代谢而滞留于血液中,导致眼睛屈光度改变,最终造成近视。适当给孩子吃点粗粮其实是有好处的。
keywords: [('孩子', 0.14306680068891997), ('饮料', 0.07809347155812614), ('营养', 0.07489176669532517), ('家长', 0.0663471334581201), ('方便面', 0.05927245295450419)]
document: 创建新论坛
keywords: [('创建', 1.9655444474558943), ('论坛', 1.573322421854069), ('新', 0.8736738323593722)]
document: 羽西当归透白莹润精华液产品名称:规格及价格:30ml/300 元羽西当归透白莹润精华液蕴含精纯当归素,它具有强力抗氧化功效和完全不粘配方,有效减退黯黄的同时抑制酪氨酸酶的活性,有 效美白肌肤。同时又拥 有晶莹凝露触感,使用感舒适。高浓度当归循采净白精萃有效净肤排浊,配合精纯乙基维生素C,有效隐褪黯黄,由内绽放纯净明亮。肌肤日渐透白莹润。使用说明:每日早晚在调理液后使用,之后进行当归透白日常护肤。产品特点:"当归循采净白精萃"有效净肤排浊,由内焕发匀白透润。适合各种肌肤类型 每日早晚在调理液后使用,之后进行当透白日常护肤请直立放置。一款根据中国的环境状况,为中国女性特殊的色素体系和美白需求度身定做的产品。羽西研究发现,中国女性的黑色素细胞树突组织更长,因此黑色素传导更易、更快、更多,使中国女性比其他国家女性更易变黑,羽西首度在美白产品中使用具有广谱抗氧化作用的阿魏酸,结合天然药用植物成分牡丹皮和维他命CG,帮助减缓黑色素传导,从根源谒制黑色素生成。精华露首创生态美白系统,屏蔽大环境伤害,营造肌肤美白小环境,不只是减褪色斑,更从根源抑制黑色素。产品功效肌肤只在有血气充盈的情况下才能白皙红润,要想肌肤明净剔透,白皙健康,就要活血养血,使血流顺畅,血管恢复到健康状态。养血圣品--当归其味甘而重,故专能补血,其气轻而辛,故又能行血,补中有动,行中有补,诚血中之气药,亦血中之圣药也。--《本草正》羽西首创气血养白,中国系美白秘诀。养血圣品--当归:排浊养血双管齐下,祛 黄呈白,令肌肤通透粉润。精选自1800余种药材,养血圣品当归独占鳌头,高科技萃取当归循采净白精粹。提升150%净肤排浊功效,抗氧化力2.6倍于维生素CG,抗氧化力10倍于桑叶提取物。
keywords: [('当归', 0.1866405240746113), ('羽西', 0.1265844668824549), ('排浊', 0.11178060976116114), ('黑色素', 0.09857243570844379), ('养血', 0.09812099637850542)]
document: 我可能感兴趣的试用常见问题Q:为什么我提交不了试用申请 A:试用申请必须同时满足以下全 部条件:1、必须是搜狐试用频道 的注册会员;2、个人资料完成度 100%;3、非试用中心黑名单用 户;Q:为什么我的试用报告不通过 A:试用报告提交后需经过编辑审核,合格的试用报告字数应该在100字以上,并且附有产品图及试用体验过程图。试用报告字数过少或抄袭,都会被编辑审核为不通过;Q:什么是试用报告? A:试用报告是收到试用产品后,按照时间规定在试用平台提交的一份关于产品使用的心得和体会。优秀的试用心得必须是图文并茂;
keywords: [('试用', 0.7254374717517048), ('报告', 0.15653977634270186), ('Q', 0.12711201927875215), ('字数', 0.1132682062893399), ('提交', 0.11185601553931523)]

四、利用jieba中的tfidf提取关键词，并自定义idf词典

jieba分词中已经对tfidf进行了实现，并预先统计出了汉语中每个词的逆文档频率（idf），存储目录为C:\Python37\Lib\site-packages\jieba\analyse\idf.txt
jieba默认使用以上路径的idf词典，并计算输入文档的tf（文本词频）值，进而求出tfidf提取关键词
jieba允许用户使用set_idf_path方法自定义idf词典
本文首先使用默认的idf词典提取测试文档的关键词，然后使用set_idf_path将idf词典设置为上一节中训练的idf-1.txt再提取关键字，并进行前后对比

PS D:\> python3
Python 3.7.1 (v3.7.1:260ec2c36a, Oct 20 2018, 14:57:15) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from jieba import analyse
>>> tfidf = analyse.extract_tags
>>> text ="""关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。
... 除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取 出这些新闻的关键词，就可以大致了解那天发生了什么事情；或者将某段时间内几个人的微博拼成一篇长文本，然后抽取关键词就可以知道他们主要在讨论什么话题。
... 总之，关键词就是最能够反映出文本主题或者意思的词语。但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定 了后续步骤的效果。"""
>>> 
>>> keywords = tfidf(text)   #使用结巴默认的idf文件（C:\Python37\Lib\site-packages\jieba\analyse\idf.txt）
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\zh\AppData\Local\Temp\jieba.cache
Loading model cost 0.878 seconds.
Prefix dict has been built succesfully.
>>> print(keywords)         #采用默认idf文件提取的关键词
['关键词', '抽取', '聚类', '文本', '可以', '论文', '文档', '词语', '这篇', '算法', '搜索', '自动', '微博', '新闻', '文献检索', '某天', '什么', '利用计算机', '拼成', '或者']
>>> 
>>> analyse.set_idf_path('D:/idf-1.txt')  #使用自定义idf文件，由搜狐新闻预料库训练得到
>>> keywords = tfidf(text)
>>> print(keywords)
['关键词', '聚类', '抽取', '论文', '文本', '词语', '可以', '文档', '算法', '这篇', '一个团', '什么', '拼成', '几篇', '写文章', '利用计算机', '某天', '文献检索', '新闻', '看成']
>>>

五、TextRank算法提取关键字

TextRank算法提取关键字采用了PageRank算法的思想，仅文章本身便可以提取关键词
算法原理: http://www.cnblogs.com/rubinorth/p/5799848.html
TextRank算法源码解析:https://www.cnblogs.com/zhbzz2007/p/6177832.html

from jieba import analyse
textrank = analyse.textrank  #引入jieba中的TextRank
text="""关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。
除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇，可以大大提高聚类算法的收敛速度；从某天所有的新闻中提取出这些新闻的关键词，就可以大致了解那天发生了什么事情；或者将某段时间内几个人的微博拼成一篇长文本，然后抽取关键词就可以知道他们主要在讨论什么话题。
总之，关键词就是最能够反映出文本主题或者意思的词语。但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定了后续步骤的效果。"""
keywords = textrank(text)
print(keywords)

　　输出：

['关键词', '文本', '抽取', '聚类', '自动', '算法', '发生', '时候', '搜索', '文档', '主题', '后续', '写文章', '利用计算机', '决定', '相似', '词语', '好坏', '摘要', '能够']

　参考：

阮一峰tf-idf讲解：http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
结巴分词tf-idf和textrank源码解析：https://www.cnblogs.com/zhbzz2007/p/6177832.html
结巴分词github：https://github.com/fxsjy/jieba
jieba分词及TF-IDF和TextRank算法提取关键字：https://blog.csdn.net/bozhanggu2239/article/details/80157305
NLP之关键词提取（jieba）：https://blog.csdn.net/qq_38923076/article/details/81630442
关键词提取算法TextRank https://www.cnblogs.com/en-heng/p/6626210.html
PageRank算法--从原理到实现: http://www.cnblogs.com/rubinorth/p/5799848.html
PageRank wiki: https://de.wikipedia.org/wiki/PageRank

转载于:https://www.cnblogs.com/Micang/p/10366954.html

【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
python基础day08 树上的 python python 开发语言
1.闭包:闭包的使用场景:当函数调用完，函数内定义的变量都销毁了，但是我们有时候需要保存函数内的这个变量，每次在这个变量的基础上完成一系列的操作，比如:每次在这个变量的基础上和其它数字进行求和计算。闭包的定义:在函数嵌套的前提下，内部函数使用了外部函数的变量，并且外部函数返回了内部函数，我们把这个使用外部函数变量的内部函数称为闭包。闭包的作用:闭包可以保存函数内的变量，不会随着函数调用完而销毁。闭
什么是智能体（Agent）？用什么都重名大模型相关人工智能 Agent 大模型
目录前言一、大语言模型1.什么是大语言模型？2.应用领域二、什么是Agent三、Agent核心特点1.感知能力2.规划能力3.行动能力4.记忆能力总结前言目前智能体市场正处于快速发展阶段，呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此，让我们一起来学习一下何为智能体。一、大语言模型1.什么是大语言模型？大语言模型是一种采用大量数据进行训练的人工智能模型，主要用于理解和生成自然语
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
华为OD机试 2025B卷 - 字符串序列判定(C++&Python&JAVA&JS&C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机试华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述：字符串序列判定/最后一个有效字符（本题分值100）输入两个字符串S和L，都只包含英文小写字母。S长度<=100，L长度<=500,000。判定S是否是L的有效子串。判定规则：S中的每个字符在L中都能找到（可以不连续），且S在Ｌ中字符的前后顺序与S中顺序要保持一致。（例如，S=”a
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
华为OD机试E卷 - 分糖果（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python javascript c++华为OD2025A卷华为od
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明从糖果盒中随意抓一把糖果，每次小明会取出一半的糖果分给同学们。当糖果不能平均分配时，小明可以选择从糖果盒中（假设盒中糖果足够）取出一个糖果或放回一个糖果。小明最少需要多少次（取出、放回和平均分配均记一次），能将手中糖果分至只剩一颗。输入描述抓取的糖果数（<10000000000）：15输出描述最少分至一颗糖果的次数
（Python基础篇）字符串的操作 EternityArt 基础篇 python 开发语言算法
目录引言一、字符串的基本定义与访问（一）字符串的定义（二）字符串的索引与切片二、字符串的常用操作方法（一）字符串的拼接与重复（二）字符串的大小写转换（三）字符串的去除空白（四）字符串的查找与替换（五）字符串的分割与连接（六）字符串的判断方法三、字符串的格式化（一）使用%运算符（二）使用str.format()方法（三）使用f-字符串（Python3.6+）四、字符串的不可变性五、总结引言在Pyth
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD2025B卷华为OD机试华为机试2025B卷华为OD机试2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明有n个可选运动，每个运动有对应卡路里，想选出其中k个运动且卡路里和为t。k，t，n都是给定的。求出可行解数量输入描述第一行输入ntk第一行输入每个运动的卡路里按照空格进行分割备注00,00输出描述求出可行解
【华为OD机试真题 2025B卷】130、最多获得的短信条数、云短信平台优惠活动 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java javascript 华为OD机试真题 c语言最多获得的短信条数
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
【华为OD机试真题 2025B卷】128、判断一组不等式是否满足约束并输出最大差 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 c语言 javascript
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank...

1.关键字提取：

2.TF-IDF算法：

3.TextRank算法：

二、利用sklearn实现tfidf算法

1.一个完整的例子

2.根据语料库统计idf（每个词语的逆文档频率），并存持久化存储到文件中，以便下次输入一篇文档即可返回相应关键词

三、用python3实现tfidf提取关键词

四、利用jieba中的tfidf提取关键词，并自定义idf词典

五、TextRank算法提取关键字

参考：

你可能感兴趣的:(人工智能,python)

　　1.关键字提取：

　　2.TF-IDF算法：

　　3.TextRank算法：

　　1.一个完整的例子

　　2.根据语料库统计idf（每个词语的逆文档频率），并存持久化存储到文件中，以便下次输入一篇文档即可返回相应关键词

　参考：