weixin_39644952

利用python进行tf-idf算法绘制词云图_TF-IDF算法解析与Python实现方法详解

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时，我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF)，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)

逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率(另一说：TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。(另一说：IDF反文档频率(Inverse Document Frequency)是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。)但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

为了演示在Python中实现TF-IDF的方法，一些基于自然语言处理的预处理过程也会在本文中出现。如果你对NLTK和Scikit-Learn两个库还很陌生可以参考如下文章：

必要的预处理过程

首先，我们给出需要引用的各种包，以及用作处理对象的三段文本。

import nltk

import math

import string

from nltk.corpus import stopwords

from collections import Counter

from nltk.stem.porter import *

from sklearn.feature_extraction.text import TfidfVectorizer

text1 = "Python is a 2000 made-for-TV horror movie directed by Richard \

Clabaugh. The film features several cult favorite actors, including William \

Zabka of The Karate Kid fame, Wil Wheaton, Casper Van Dien, Jenny McCarthy, \

Keith Coogan, Robert Englund (best known for his role as Freddy Krueger in the \

A Nightmare on Elm Street series of films), Dana Barron, David Bowe, and Sean \

Whalen. The film concerns a genetically engineered snake, a python, that \

escapes and unleashes itself on a small town. It includes the classic final\

girl scenario evident in films like Friday the 13th. It was filmed in Los Angeles, \

California and Malibu, California. Python was followed by two sequels: Python \

II (2002) and Boa vs. Python (2004), both also made-for-TV films."

text2 = "Python, from the Greek word (πύθων/πύθωνας), is a genus of \

nonvenomous pythons[2] found in Africa and Asia. Currently, 7 species are \

recognised.[2] A member of this genus, P. reticulatus, is among the longest \

snakes known."

text3 = "The Colt Python is a .357 Magnum caliber revolver formerly \

manufactured by Colt's Manufacturing Company of Hartford, Connecticut. \

It is sometimes referred to as a \"Combat Magnum\".[1] It was first introduced \

in 1955, the same year as Smith & Wesson's M29 .44 Magnum. The now discontinued \

Colt Python targeted the premium revolver market segment. Some firearm \

collectors and writers such as Jeff Cooper, Ian V. Hogg, Chuck Hawks, Leroy \

Thompson, Renee Smeets and Martin Dougherty have described the Python as the \

finest production revolver ever made."

TF-IDF的基本思想是：词语的重要性与它在文件中出现的次数成正比，但同时会随着它在语料库中出现的频率成反比下降。但无论如何，统计每个单词在文档中出现的次数是必要的操作。所以说，TF-IDF也是一种基于 bag-of-word 的方法。

首先我们来做分词，其中比较值得注意的地方是我们设法剔除了其中的标点符号(显然，标点符号不应该成为最终的关键词)。

def get_tokens(text):

lowers = text.lower()

#remove the punctuation using the character deletion step of translate

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

no_punctuation = lowers.translate(remove_punctuation_map)

tokens = nltk.word_tokenize(no_punctuation)

return tokens

下面的代码用于测试上述分词结果，Counter() 函数用于统计每个单词出现的次数。

tokens = get_tokens(text1)

count = Counter(tokens)

print (count.most_common(10))

执行上述代码后可以得到如下结果，我们输出了其中出现次数最多的10个词。

[('the', 6), ('python', 5), ('a', 5), ('and', 4), ('films', 3), ('in', 3),

('madefortv', 2), ('on', 2), ('by', 2), ('was', 2)]

显然，像 the, a, and 这些词尽管出现的次数很多，但是它们与文档所表述的主题是无关的，所以我们还要去除“词袋”中的“停词”(stop words)，代码如下：

def stem_tokens(tokens, stemmer):

stemmed = []

for item in tokens:

stemmed.append(stemmer.stem(item))

return stemmed

同样，我们来测试一下上述代码的执行效果。

tokens = get_tokens(text1)

filtered = [w for w in tokens if not w in stopwords.words('english')]

count = Counter(filtered)

print (count.most_common(10))

从下面的输出结果你会发现，之前那些缺乏实际意义的 the, a, and 等词已经被过滤掉了。

[('python', 5), ('films', 3), ('film', 2), ('california', 2), ('madefortv', 2),

('genetically', 1), ('horror', 1), ('krueger', 1), ('filmed', 1), ('sean', 1)]

但这个结果还是不太理想，像 films, film, filmed 其实都可以看出是 film，而不应该把每个词型都分别进行统计。这时就需要要用到我们在前面文章中曾经介绍过的 Stemming 方法。代码如下：

tokens = get_tokens(text1)

filtered = [w for w in tokens if not w in stopwords.words('english')]

stemmer = PorterStemmer()

stemmed = stem_tokens(filtered, stemmer)

类似地，我们输出计数排在前10的词汇(以及它们出现的次数)：

count = Counter(stemmed)

print(count)

上述代码执行结果如下：

Counter({'film': 6, 'python': 5, 'madefortv': 2, 'california': 2, 'includ': 2, '2004': 1,

'role': 1, 'casper': 1, 'robert': 1, 'sequel': 1, 'two': 1, 'krueger': 1,

'ii': 1, 'sean': 1, 'lo': 1, 'clabaugh': 1, 'finalgirl': 1, 'wheaton': 1,

'concern': 1, 'whalen': 1, 'cult': 1, 'boa': 1, 'mccarthi': 1, 'englund': 1,

'best': 1, 'direct': 1, 'known': 1, 'favorit': 1, 'movi': 1, 'keith': 1,

'karat': 1, 'small': 1, 'classic': 1, 'coogan': 1, 'like': 1, 'elm': 1,

'fame': 1, 'malibu': 1, 'sever': 1, 'richard': 1, 'scenario': 1, 'town': 1,

'friday': 1, 'david': 1, 'unleash': 1, 'vs': 1, '2000': 1, 'angel': 1, 'nightmar': 1,

'zabka': 1, '13th': 1, 'jenni': 1, 'seri': 1, 'horror': 1, 'william': 1,

'street': 1, 'wil': 1, 'escap': 1, 'van': 1, 'snake': 1, 'evid': 1, 'freddi': 1,

'bow': 1, 'dien': 1, 'follow': 1, 'engin': 1, 'also': 1})

至此，我们就完成了基本的预处理过程。

TF-IDF的算法原理

预处理过程中，我们已经把停词都过滤掉了。如果只考虑剩下的有实际意义的词，前我们已经讲过，显然词频(TF，Term Frequency)较高的词之于一篇文章来说可能是更为重要的词(也就是潜在的关键词)。但这样又会遇到了另一个问题，我们可能发现在上面例子中，madefortv、california、includ 都出现了2次(madefortv其实是原文中的made-for-TV，因为我们所选分词法的缘故，它被当做是一个词来看待)，但这显然并不意味着“作为关键词，它们的重要性是等同的”。

因为”includ”是很常见的词(注意 includ 是 include 的词干)。相比之下，california 可能并不那么常见。如果这两个词在一篇文章的出现次数一样多，我们有理由认为，california 重要程度要大于 include ，也就是说，在关键词排序上面，california 应该排在 include 的前面。

于是，我们需要一个重要性权值调整参数，来衡量一个词是不是常见词。如果某个词比较少见，但是它在某篇文章中多次出现，那么它很可能就反映了这篇文章的特性，它就更有可能揭示这篇文字的话题所在。这个权重调整参数就是“逆文档频率”(IDF，Inverse Document Frequency)，它的大小与一个词的常见程度成反比。

知道了 TF 和 IDF 以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。如果用公式来表示，则对于某个特定文件中的词语 ti 而言，它的 TF 可以表示为：

其中 ni,j是该词在文件 dj中出现的次数，而分母则是文件 dj 中所有词汇出现的次数总和。如果用更直白的表达是来描述就是，

某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数即可：

其中，|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用 1+|{j:ti∈dj}|。同样，如果用更直白的语言表示就是

最后，便可以来计算 TF-IDF(t)=TF(t)×IDF(t)。

下面的代码实现了计算TF-IDF值的功能。

def tf(word, count):

return count[word] / sum(count.values())

def n_containing(word, count_list):

return sum(1 for count in count_list if word in count)

def idf(word, count_list):

return math.log(len(count_list) / (1 + n_containing(word, count_list)))

def tfidf(word, count, count_list):

return tf(word, count) * idf(word, count_list)

再给出一段测试代码：

countlist = [count1, count2, count3]

for i, count in enumerate(countlist):

print("Top words in document {}".format(i + 1))

scores = {word: tfidf(word, count, countlist) for word in count}

sorted_words = sorted(scores.items(), key=lambda x: x[1], reverse=True)

for word, score in sorted_words[:3]:

print("\tWord: {}, TF-IDF: {}".format(word, round(score, 5)))

输出结果如下：

Top words in document 3

Word: revolv, TF-IDF: 0.02097

Word: colt, TF-IDF: 0.02097

Word: manufactur, TF-IDF: 0.01398

利用Scikit-Learn实现的TF-IDF

因为 TF-IDF 在文本数据挖掘时十分常用，所以在Python的机器学习包中也提供了内置的TF-IDF实现。主要使用的函数就是TfidfVectorizer()，来看一个简单的例子。

>>> corpus = ['This is the first document.',

'This is the second second document.',

'And the third one.',

'Is this the first document?',]

>>> vectorizer = TfidfVectorizer(min_df=1)

>>> vectorizer.fit_transform(corpus)

<4x9 sparse matrix of type ''

with 19 stored elements in Compressed Sparse Row format>

>>> vectorizer.get_feature_names()

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

>>> vectorizer.fit_transform(corpus).toarray()

array([[ 0. , 0.43877674, 0.54197657, 0.43877674, 0. ,

0. , 0.35872874, 0. , 0.43877674],

[ 0. , 0.27230147, 0. , 0.27230147, 0. ,

0.85322574, 0.22262429, 0. , 0.27230147],

[ 0.55280532, 0. , 0. , 0. , 0.55280532,

0. , 0.28847675, 0.55280532, 0. ],

[ 0. , 0.43877674, 0.54197657, 0.43877674, 0. ,

0. , 0.35872874, 0. , 0.43877674]])

最终的结果是一个 4×9 矩阵。每行表示一个文档，每列表示该文档中的每个词的评分。如果某个词没有出现在该文档中，则相应位置就为 0 。数字 9 表示语料库里词汇表中一共有 9 个(不同的)词。例如，你可以看到在文档1中，并没有出现 and，所以矩阵第一行第一列的值为 0 。单词 first 只在文档1中出现过，所以第一行中 first 这个词的权重较高。而 document 和 this 在 3 个文档中出现过，所以它们的权重较低。而 the 在 4 个文档中出现过，所以它的权重最低。

最后需要说明的是，由于函数 TfidfVectorizer() 有很多参数，我们这里仅仅采用了默认的形式，所以输出的结果可能与采用前面介绍的(最基本最原始的)算法所得出之结果有所差异(但数量的大小关系并不会改变)。有兴趣的读者可以参考这里来了解更多关于在Scikit-Learn中执行 TF-IDF 算法的细节。

总结

以上就是本文关于TF-IDF算法解析与Python实现方法详解的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。

记者问一个大爷：大爷，您保持亮丽的秘诀是什么？

大爷说：白天敲代码，晚上撸系统，姿势不要动，眼动手动就可以。

记者：啊？大爷您是做什么工作的？

大爷：敲代码的呀。

记者：那大爷您是本身就很喜欢光头的吗？

大爷：掉光的~

Qt Embedded性能优化详解 HiRuyue QT
QtEmbedded是挪威公司的图形化界面开发工具QT的嵌入式版本，它通过QTAPI与LinuxI/O以及Framebuffer直接交互,拥有较高的运行效率，而且整体采用面向对象编程，拥有良好地体系架构和编程模式.QtEmbedded和Qt一样，在4.5版本之后提供了三种不同的授权协议GPL,LGPL和Commercial。长久以来，虽然使用QtEmbedded在作开发，但对QtEmbedded的
深入理解 QObject的作用 @hdd Qt qt
QObject作为Qt库中所有对象的基类，其地位无可替代。几乎Qt框架内的每一个类，无论是负责构建用户界面的QWidget，还是专注于数据处理与呈现的QAbstractItemModel，均直接或间接继承自QObject。这种继承体系赋予Qt类库高度的一致性和可扩展性，使得开发者能够基于统一的接口和特性进行开发，极大地提高了开发效率和代码的可读性。从底层实现来看，QObject内部维护了一套元数据
三、详细解释：系统管理与监控命令猫猫虫。 #Linux linux ubuntu
1.ps–查看进程状态用途：显示当前系统的进程状态。语法：ps[选项]常用选项：aux：显示所有用户的进程（详细信息）。-ef：显示所有进程（完整格式）。-u用户名：显示指定用户的进程。输出字段：PID：进程ID。USER：进程所有者。%CPU：CPU占用率。%MEM：内存占用率。COMMAND：启动进程的命令。示例：#查看所有进程的详细信息psaux#查找与Nginx相关的进程psaux|gre
绿色低碳转型中的多场景有序充电 ACRELKY 物联网汽车
摘要：公共交通是城市的“动脉”，在城市公交车辆逐渐新能源化的当下，对充电桩资源进行集约化一体化管理，实现充电资源的有效利用；根据电池充放电特性及行车作业计划，制定合理的充电策略是保证城市“动脉”畅通的关键所在。在当今全球气候变化和环境保护的大背景下，推动公交绿色低碳转型已成为城市可持续发展的重要任务。多场景有序充电作为一项创新的技术和管理模式，正为公交绿色低碳转型注入强大动力。关键词：公共交通，一
Python爬虫 +数据采集分析：淘宝商品评论页面数据接口代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
Python爬虫+数据采集分析：淘宝商品评论页面数据接口一、引言在当今数字化商业时代，电商平台的数据蕴含着巨大的价值。淘宝作为全球知名的电商平台，其商品评论数据能反映消费者的真实反馈、偏好和需求，对于商家优化产品、制定营销策略，以及研究人员进行市场分析等都具有重要意义。然而，直接从淘宝商品评论页面采集数据并非易事，淘宝有严格的反爬机制。为了高效、合法地获取这些数据，利用数据接口是一种可行的解决方案
Eclipse2024中文汉化教程(图文版) Roc-xb Eclipse Windows java
对应Eclipse，部分人需要中文汉化，本章教程，介绍如何对Eclipse进行汉化的具体步骤。一、汉化前的Eclipse默认安装Eclipse的时候，默认一般都是English的，我当前版本是使用的是2024-06版本的Eclipse。二、汉化详细步骤点击上方菜单选项卡，Hep——InstallNewSoftware…填写插件地址：https://mirrors.tuna.tsinghua.edu
图像处理：模拟色差的生成何以为皇图像处理人工智能
图像处理：模拟色差的实战案例在做瓷砖瑕疵检测的过程中，需要检测色差。但在实际生产环境中，瓷砖色差检测的数据量较少，无法直接获取足够的数据来训练和优化深度学习模型。于是就考虑通过人为生成色差数据的方式来扩充数据集，进行色差的模拟。1.什么是色差？色差（ColorDifference）是指两种颜色之间的视觉差异。在色彩科学中，CIEDE2000是目前最先进的色差计算方法之一。然而，CIEDE1976也
Nginx与API安全：OAuth2与JWT验证的守护神盾墨瑾轩一起学学Nginx【一】nginx 安全网络
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣开篇：API安全的奇幻冒险嗨，勇敢的网络安全骑士们！今天我们要一起踏上一段保卫API安全的奇幻冒险。在这个数字王国中，我们的使命是确保只有合法的勇士才能访问珍贵的数据宝藏。我们将使用强大的Nginx，结合神秘的OAuth2和JWT验证，来铸造我们坚不可摧的守护
python工具——pypinyin 汉字转换拼音 xiaoming0018 python python list
把汉字转成拼音后可以进行深度学习分类，做内容识别1.安装pipinstallpypinyin将汉字转换为拼音并生成slug字符串importpypinyinfrompypinyinimportStylecontent=pypinyin.slug('汉语拼音')print(content)#E:\python\>pythonpinyin.py#han-yu-pin-yin修改分隔字符串importp
Leetcode Day6 (图论I, dfs, bfs) 比起村村长 leetcode 深度优先 leetcode 图论
创建一个visited的模版#mxn大小的矩阵m=len(matrix)n=len(matrix[0])visited=[[Falsefor_inrange(n)]for_inrange(m)]foriinrange(m):forjinrange(n):blablabla#DFS模版```python200岛屿数量classSolution:defnumIslands(self,grid:List
基于单片机的智能温控风扇系统的设计电气_空空单片机毕业设计单片机嵌入式硬件毕设毕业设计
［摘要］设计一种基于单片机的智能温控风扇系统，系统由STC系列的51单片机、温度传感器、LED数码管和风扇等模块组成。本系统具有对外界温度感知以及对感知数据进行分析处理、智能调节等功能，避免因温度过高而产生对整个系统的损坏，以此提高整个系统的性能。［关键词］单片机；温度传感器；PWM一、引言随着现代科技的日益发展，传统的电风扇不能满足人们的生活需求，它只能以恒定的速度运行，这对人们的生活造成诸多不
Python爬虫实战：爬取贝壳网二手房成交数据，将数据存入Excel。马虎的程序猿 python 爬虫 excel
importrequests,refromlxmlimporthtmlaaa=['heping','nankai','hexi','hebei','hedong','hongqiao','xiqing','beichen','dongli','jinnan','tanggu','kaifaqutj','wuqing','binhaixinqu','baodi','jizhou','jinghai'
随想录Day 64| 图论part01 转行中的小石头图论深度优先算法数据结构 leetcode c++
随想录Day64|图论part01深度搜索广度搜索98所有可达路径题目描述给定一个有n个节点的有向无环图，节点编号从1到n。请编写一个函数，找出并返回所有从节点1到节点n的路径。每条路径应以节点编号的列表形式表示。输入描述第一行包含两个整数N，M，表示图中拥有N个节点，M条边后续M行，每行包含两个整数s和t，表示图中的s节点与t节点中有一条路径输出描述输出所有的可达路径，路径中所有节点之间空格隔开
掌握 ElasticSearch 精准查询：Term Query 与 Filter 详解全端工程师 elasticsearch elasticsearch 大数据搜索引擎
掌握ElasticSearch精准查询：TermQuery与Filter详解一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、TermQuery：精准匹配3.1`term`查询：单个值的精准匹配3.2`terms`查询：多个值的精准匹配3.3`term`vs.`match_phrase`四、Filter：高效过滤4.1什么是Filter？4.2Queryvs.Filter
BeautifulSoup爬取贝壳网成都二手房源信息（附：完整源代码）进击的SB 爬虫 python 大数据爬虫
BeautifulSoup爬取贝壳网成都二手房源信息最近想出一套二手房，刚好在学习爬虫，那就顺手爬一下贝壳上成都各区二手房信息了解一下行情，本篇先介绍数据爬取，数据分析稍后有时间再写。仅用于技术交流，请勿商业应用，如有侵权，联系删除。1.开发环境：python3.8.3；bs4,pandas,requests；存为csv,excel文件；个人比较喜欢用bs4,比较简洁，xpath也有优势，虽然路径
变形的宽搜育才官网 HN036 涂色游戏 williamzhou_2013 算法宽度优先 c++
描述李老师喜欢玩一种涂色游戏：一个由n × n个单元格组成的白色格子纸，按照事先给定的m次操作，一个接一个地把白色单元格涂黑，总共在纸上涂m个不同的单元格。李老师想知道，在涂黑的过程中，要出现一个边长为3的黑色方块，需要进行多少次操作？输入描述第一行包含两个整数n和m(1 ≤ n ≤ 1000，分别表示方格纸的大小和操作次数）然后，m行包含操作的描述。第i行包含两个整数xi，yi（1 ≤ xi,
股指期货套利例子（金融期货套利的例子） v527209157 区块链
股指期货套利是什么意思，怎么才可以股指期货套利？楼上的朋友都说的太复杂。。。我通俗一点说吧。。股指期货套利有几种套发。1。股指期货跨月套利，比方说，多12月合约，空10月合约，认为股指期货合约之间价差不合理，价差偏大或者是偏小，认为价差日后将会回归理性，做套利。2。股指期货期现套利：方法1：股指期货和基金套利，跟etf或者是指数型基金，或者其他股票型基金套利，认为股指期货价格偏高，而实际基金价格偏
安全面试2 白初& 面试题目总结面试职场和发展
文章目录简单描述一下什么是水平越权，什么是垂直越权，我要发现这两类漏洞，那我代码审计要注意什么地方水平越权：垂直越权：水平越权漏洞的审计重点垂直越权漏洞的审计重点解释一下ssrf漏洞原理攻击场景修复方法横向移动提权win权限提升Linux权限提升include和require区别绕waf的常见姿势log4g有哪些混淆绕过的方法文件上传绕过XSS绕过内存马常见实现方式：内存马的特点内存马的检测简单描
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
创新思维培养：激发团队创造力的方法 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言创新思维的重要性在当今快速变化且竞争激烈的商业环境中，创新思维已经成为企业持续发展和竞争力的关键因素。创新不仅仅体现在产品和服务上，还渗透到了管理、运营和营销等多个方面。创新思维是一种能够帮助个体和团队在既定框架内突破限制、发现问题、提出解决方案的能力。《创新思维培养：激发团队创造力的方法》这本书正是为了帮助读者理解和掌握这一关键能力而编写的。它旨在探讨创新思维的理论基础、实践应用以及培养策略
Java 8 至 Java 23 版本特性对比表小天努力学java Java笔记 java
Java现在发布的版本很快，每年两个，但是真正会被大规模使用的是三年一个的TLS版本。文章目录一、各版本详细说明二、核心特性解析三、如何选择版本？四、特性影响力说明五、关键特性演进六、火车发布模式的优缺点6.1、优点6.2、缺点6.3、总结七、生产环境建议版本年份LTS关键特性影响力等级Java82014✅Lambda表达式、StreamAPI、方法引用、接口默认方法、Optional类⭐⭐⭐⭐⭐
【Python爬虫(44)】分布式爬虫：筑牢安全防线，守护数据之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言安全
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、防范分布式爬虫遭受DDoS攻击2.1设置防火墙2.2使
Python 汉字转拼音库 pypinyin, 附：汉字拼音转换工具 tboqi1 python 拼音汉字拼音转换
一、初衷：一些开源软件的配置文件中识别区分的部分用英文，那么我们在批量生成配置文件的时候，可以从CMDB导入汉字(idc_name)，然后将它转换成拼音，再或者拼接上IP地址，以便更准确的识别。例如：Smokeping的Targets配置文件，如下：正在上传…重新上传取消+telcommenu=中国电信title=telcom++yunfuxinxingshuangxian-01-61menu=云
(一)基于车险案例的多模型预测评估、箱线图绘制 renshixinghuo python 机器学习开发语言
一、案例引入(一)问题提出回访问卷是一种常用的、用于评估客户质量的手段，基于回访问卷所得数据，我们一定程度上能够推断具有什么样特征的用户可能更具有产品依赖性。因此，基于某车险回访问卷，我们利用sklearn库中各类模型对其进行预测，并展示此案例中各模型预测的表现情况。(二)原始数据原始数据包含用户ID、性别、年龄、所在地区代码、年保费、沟通渠道、是否有驾照、是否购买过车辆、车龄、是否发生过车祸、是
QChart Class Reference 七贤岭双花红棍 Qt Charts 小课堂 qt
QChart是Qt框架中用于绘制图表的类，属于QtCharts模块。它提供了一种简单而强大的方式来创建各种类型的图表，如折线图、柱状图、饼图、散点图等。QChart可以与QChartView结合使用，将图表嵌入到应用程序的GUI中。QChart的核心功能多种图表类型：支持折线图、柱状图、饼图、散点图、面积图等多种图表类型。数据管理：通过QAbstractSeries的子类（如QLineSeries
End-to-End Object Detection with Transformers M1kk0 目标检测计算机视觉神经网络
End-to-EndObjectDetectionwithTransformers会议：2020ECCV论文：https://arxiv.org/abs/2005.12872代码：https://github.com/facebookresearch/detr创新点：\作者摒弃了基于anchor、NMS等这种需要手工设计的模块，和R-CNN系列、YOLO系列，以及其他anchor-free的方法都
【Python】探索PyPinyin 库：Python 中的中文拼音转换工具音乐学家方大刚 Python 爬虫 python 开发语言
花未全开月未圆，半山微醉尽余欢。何须多虑盈亏事，终是小满胜万全。——《对抗路—吕布》PyPinyin是一个功能强大的Python库，用于将中文文本转换为拼音。它提供了丰富的功能，能够满足各种中文文本处理的需求。在本文中，我们将介绍PyPinyin库的基本用法，并给出三个实用案例。1.安装PyPinyin首先，我们需要通过pip安装PyPinyin：pipinstallpypinyin2.使用案例一
股指期货交割对大盘有啥影响？股指期货交割需要注意什么？财财有个期权懂金融财经
相信很多老板们都常常听到股指期货对大盘的影响很大这个事情，但具体来说股指期货交割对大盘有什么影响呢？股指期货交割的核心逻辑股指期货交割是指合约到期时，买卖双方按约定价格结算盈亏的过程。与商品期货不同，股指期货采用现金交割，无需实际买卖股票，而是以交割结算价（通常为到期日最后两小时的指数均价）计算差价，资金直接从亏损方账户划转至盈利方。例如：若您持有沪深300期货多单且交割日指数上涨，空头需向您支付
算法|图论|BFS和DFS 锅巴xx 算法算法图论宽度优先 c++笔记学习
图论|BFS和DFS1.BFS2.DFS心有猛虎，细嗅蔷薇。你好朋友，这里是锅巴的C\C++学习笔记，常言道，不积跬步无以至千里，希望有朝一日我们积累的滴水可以击穿顽石。BFSBFS广度优先搜索BFS(Breadth-First-Search)，是一种遍历算法，也是很多重要的图的算法的原型(如：Dijstra单源最短路径算法和Prim最小生成树算法)。属于一种盲目搜寻法，目的是系统地展开并检查图中
3D晶格与图论：BFS在空间网络中的应用 t0_54coder 3d 图论宽度优先个人开发
引言在现代计算科学中，3D晶格模拟是许多物理、化学和材料科学研究中的重要工具。通过将3D空间中的每个单元看作图论中的顶点（Vertex），并通过边（Edge）连接相邻的单元，可以构建一个复杂的图结构来模拟和分析这些晶格的特性。本文将探讨如何使用BoostGraphLibrary（BGL）来实现这一模拟，并通过广度优先搜索（Breadth-FirstSearch,BFS）来识别和统计晶格中的孤立互联
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 alxw4616@Msn.com 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

利用python进行tf-idf算法绘制词云图_TF-IDF算法解析与Python实现方法详解

你可能感兴趣的:(利用python进行tf-idf算法绘制词云图_TF-IDF算法解析与Python实现方法详解)