王宇韬

小白都能学会的Python基础第六讲：综合实战2 - 大数据分词与词云图绘制

1.华小智系列 - Python基础（案例版）

《Python基础》目录

第六讲：综合实战2 - 大数据分词与词云图绘制
- 1、大数据分词技巧
- 2、词频统计技巧
- 3、词云图绘制
- 4、微博词云图绘制
- 5、课程相关资源

第六讲：综合实战2 - 大数据分词与词云图绘制

配套书籍：《Python大数据分析与机器学习商业案例实战》第16章
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词，我们知道，在英文的行文中，单词之间是以空格作为分界符的，而中文的词语则没有一个形式上的分界符，因此在分词这一层面，中文比英文要复杂一些。

1、大数据分词技巧

1.jieba库的安装
在进行文本大数据分词前首先需要安装一个中文分词库jieba库，安装方法可以通过PIP安装法来安装，以Windows系统为例：Win + R快捷键调出运行框，输入cmd后回车，然后在弹出框中输入“pip install jieba”的方法来进行安装，如果安装失败可以尝试清华镜像pip安装法。
安装完jieba库之后就可以利用它进行分词操作了。首先回顾下13.3.2节演示的简单案例，然后我们再进行一些更深入的讲解，演示代码如下：

import jieba
word = jieba.cut('我爱北京天安门')
for i in word:
    print(i)

其中第1行代码引入jieba库；第2行代码通过cut()函数对里面的文本内容进行分词，分词后的结果赋给变量word；第3和4行代码通过for循环，打印分词后的结果，结果如下所示：

我
爱
北京
天安门

中文分词的核心就是利用jieba库的cut()函数来进行分词，上面演示的案例较为简单，下面以一个较长的文本内容来进行中文分词及词频统计。

2.读取文本内容，并进行分词
信托行业报告
（电脑浏览器端打开，然后点击可以下载）

下图所示为2017年的信托行业年度报告，其共有约20万字，对于业务分析人员来说，他其实关心的是这近20万字的报告中哪些内容更重要，一个简单实现手段就是看哪些词出现的频率最高，那么其对应内容的重要程度可能就越高，如果要实现这么一个功能，就需要先进行中文大数据分词然后进行词频统计。

对该txt文件中的文本内容进行分词的代码如下：

import jieba
report = open('信托行业年度报告.txt', 'r').read()
words = jieba.cut(report)

第1行引入jieba库；第2行通过open()函数打开txt文件，参数’r’表示以读取方式打开txt文件，并通过read()函数读取其中的文本内容；第3行这通过cut()函数对读取到的文本进行分词操作。
注意这里得到的words并不是一个列表，而是一个迭代器，所谓迭代器其实和列表很相似，为方便理解，可以把它理解成一个“隐身的列表”。想要获取迭代器里的元素，不能够直接通过print(words)来获取结果，而需要通过for循环才来查看迭代器里的元素，如下所示：

for word in words:
    print(word)

此时的结果如下图所示：

这样就能把分完的词一一打印出来了，但现实生活中我们可能只需要其中的三字词汇或者四字词汇，那么这时候就需要用到下面的处理手段了。到这里，其实分词这一关键步骤已经做完了，下面就是把结果更好地呈现出来了。
3.提取分词后的4字词
有的时候我们并不关心所有长度的词汇，因为有的两字词汇虽然出现的频率多，但其实可能没有什么特别的含义。这里我们以提取大于等于四个字的词汇为例讲解下如何按特定的要求来获取词汇，代码如下：

words = jieba.cut(report)
report_words = []
for word in words:  # 将大于等于4个字的词语放入列表
    if len(word) >= 4:
        report_words.append(word)
print(report_words)

首先创建一个report_words的列表，然后遍历words中的每一个元素，如果该词汇的长度大于等于4则把它放到report_words列表中，最后把它打印出来，结果如下：

可以看到里面有的词重复出现了很多次，比如上图圈出来的一些“信托公司”。那么这个report_words列表还可以再深度挖掘，比如希望能够统计出这个列表里的高频词汇，那么就需要用到下面的小技巧了。感兴趣的读者也可以代码中的数字4改成3或者2，看看短词的内容。

2、词频统计技巧

统计高频词汇的词频相对而言并不复杂，需要用到一个小技巧：引入collections库中的Counter()函数就可以统计列表中每个词语的频次了，代码如下：

from collections import Counter
result = Counter(report_words) 
print(result)

这样便可以打印输出每个词的出现频次，如果你想看出现频次最多的前50名，那么可以利用most_common()函数来获取高频词及其出现次数，代码如下：

result = Counter(report_words).most_common(50)  # 取最多的50组

将result打印出来可以看到运行效果如下：

可以看到里面的一些高频词还是能体现出整个信托行业的一个情况的，比如最近几年的信托行业年度报告里便频繁提到信息技术与人工智能这类词，那这个可能也的确是行业未来发展的一个趋势。
完整代码如下：

import jieba  # 分词库，需要单独pip安装
from collections import Counter  # 自带的库，无需安装

# 1.读取文本内容，并利用jieba.cut功能来进行自动分词
report = open('信托行业报告.txt', 'r').read()  # 可以自己打印下report看一下，就是文本内容
words = jieba.cut(report)  # 将全文分割，获取到的是一个迭代器，需要通过for循环才能获取到里面的内容

# 2.通过for循环来提取words列表中大于等于4个字的词语
report_words = []
for word in words:
    if len(word) >= 4:  # 将大于等于4个字的词语放入列表
        report_words.append(word)
print(report_words)

# 3.获得打印输出高频词的出现次数
result = Counter(report_words).most_common(50)  # 取最多的50组
print(result)

3、词云图绘制

在进行词云图绘制前首先需要安装一个wordcloud库，安装方法可以通过PIP安装法来安装，以Windows系统为例：Win + R快捷键调出运行框，输入cmd后回车，然后在弹出框中输入“pip install wordcloud”的方法来进行安装，如果直接安装失败可以尝试清华镜像pip安装法。
（1）词云图初步绘制
在5.1.1节我们已经获取到了分词后的结果report_words，上一节获取的都是4字以上的词语，也可以将代码中的数字4改成自定义的数字。在绘制词云图前，首先引入相关库：

from wordcloud import WordCloud  # 这个库需要单独pip安装下

引入相关库后，就可以通过如下代码绘制词云图了：

content = ' '.join(report_words)  # 把列表转换成字符串
wc = WordCloud(font_path='simhei.ttf',  # 字体
               background_color='white',  # 背景颜色
               width=1000,  # 宽度
               height=600,  # 高度
               ).generate(content)  # 生成词云图
wc.to_file('词云图.png')  # 导出成png图片

第1行代码通过1.2.3节提到的join()函数（用法为：‘连接符’.join(列表名)），将列表转为字符串，并通过’ '一个空格连接列表中的元素，这样处理后的内容才符合等会词云图生成函数的数据要求；
第2-6行代码通过WordCloud()函数生成词云图，其中也可以把括号里的内容写到一行里，这里为了方便阅读，每行写一个参数。其中字体：simhei是黑体的意思，电脑默认都有该字体，simhei.ttf则是黑体字体文件。设置完参数后，便可以通过generate()函数生成词云图。
第7行代码通过to_file()函数将图片导出，这里使用的是3.3.2节提到的相对路径，也即代码所在文件夹，结果如下图所示：

（2）绘制特定形状的词云图
上面的图片还不是特别好看，这里来讲解下如何生成特定形状的词云图，首先引入相关库：

from PIL import Image
import numpy as np

PIL库是专门处理图片的库，如果电脑没有这个库的话，安装方法为：pip install pillow；numpy库是用来处理数据的库，如果是Anaconda安装的话，默认已经安装好了这个库，在笔者的《Python金融大数据挖掘与分析》第6章也有该库的详细讲解，这里简单了解即可。
引入相关库后，就可以绘制指定形状的词云图了，代码如下：

blackgroud_pic = '微博.jpg'  # 图片路径
images = Image.open(blackgroud_pic)  # 打开图片
maskImages = np.array(images)  # 将图片转为数字格式，感兴趣的可以打印它看看

content = ' '.join(report_words)
wc = WordCloud(font_path='simhei.ttf',  # 字体
               background_color='white',  # 背景颜色
               width=1000,  # width是宽度，
               height=600,  # height是高度
               mask=maskImages  # 设置图片形状
               ).generate(content)
wc.to_file('词云图+自定义形状.png')

第1行代码就是需要绘制的形状图片，例如这边要绘制的图片形状就是微博的logo形状，这里就传入“微博.jpg”，这里采用的是3.3.2节提到的相对路径，也即代码所在文件夹下的图片；
第2行代码通过PIL库的Image模块打开图片；
第3行代码通过np.array()将图片转为数组格式，其实就是将图片每一个像素点的RGB值生成一个多维数组，感兴趣的读者可以将其打印观察下，如下所示，其中255 255 255就是白色的RGB值。这三行代码了解即可，本质就是将图片转为数字格式，实际过程中直接照用就行。

[[[255 255 255]
  [255 255 255]
  [255 255 255]……

第10行代码设置mask形状参数，传入的就是第3行代码转为数字格式的maskImages。
最终生成结果如下图所示，此时已经有了微博logo的形状，不过颜色还是默认的颜色。

（3）绘制特定形状加特定颜色的词云图
这一节讲解下如何在生成特定形状的基础上，再加上特定颜色，首先引入相关库：

from wordcloud import WordCloud, ImageColorGenerator
from imageio import imread  # 这个库是自带的，用来读取图像

其中第1行代码从wordcloud再额外引入ImageColorGenerator模块，用来获取颜色；第2行代码引入imageio库的imread模块，用来读取图像，如果没有该库的可以pip安装下。
引入相关库后，就可以绘制指定颜色的词云图了，在之前代码基础最下面加上如下代码：

back_color = imread(blackgroud_pic)  # 读取图片
image_colors = ImageColorGenerator(back_color)  # 获取颜色
wc.recolor(color_func=image_colors)  # 词云图加上颜色

wc.to_file('词云图+自定义形状+颜色.png')

第1行代码通过imread()函数读取图片，其中blackgroud_pic就是上一节的“微博.jpg”；第2行代码通过ImageColorGenerator()函数获取图片颜色；第3行代码通过recolor()函数给图片加上指定颜色，最终导出图片如下所示，可以看到除了形状外，也加上了微博logo的特定颜色：

完整代码如下：

import jieba  # 这个库需要单独pip安装下
from collections import Counter  # 这个库是自带的
from wordcloud import WordCloud, ImageColorGenerator  # 需要单独安装下
from PIL import Image  # 没有的话，通过pip install pillow安装
import numpy as np  # 这个库是自带的
from imageio import imread  # 这个库是自带的，用来读取图像

# 1.读取文本内容，并利用jieba.cut功能俩进行自动分词
report = open('信托行业报告.txt', 'r').read()
words = jieba.cut(report)

# 2.通过for循环来提取words列表中大于4个字的词语
report_words = []
for word in words:
    if len(word) >= 4:
        report_words.append(word)
print(report_words)

# 3.绘制词云图（加上形状和颜色参数）
# 3.1 获取词云图形状参数mask
blackgroud_pic = '微博.jpg'
images = Image.open(blackgroud_pic)
maskImages = np.array(images)

# 3.2 绘制词云图
content = ' '.join(report_words)
wc = WordCloud(font_path='simhei.ttf',  # 字体
               background_color='white',  # 背景颜色
               width=1000,  # width是宽度，
               height=600,  # height是高度
               mask=maskImages  # 设置图片形状
               ).generate(content)

# 3.3 修改词云图的底层颜色，这个blackgroud_pic就是之前的背景图片
back_color = imread(blackgroud_pic)  # 读取图片
image_colors = ImageColorGenerator(back_color)  # 获取颜色
wc.recolor(color_func=image_colors)  # 词云图加上颜色

wc.to_file('词云图+自定义形状+颜色.png')  # 导出图片到代码所在文件夹

4、微博词云图绘制

了解了上面的知识点后，就可以结合3.6节相关知识点，绘制爬取到的微博相关内容的词云图了，首先引入相关库：

import jieba  # 这个库需要单独pip安装下
from collections import Counter  # 这个库是自带的
from wordcloud import WordCloud, ImageColorGenerator  # 需要单独pip安装
from PIL import Image  # 安装方法：pip install pillow
import numpy as np  # 这个库是自带的
from imageio import imread  # 这个库是自带的，用来读取图像
import requests
import re

然后通过3.6节相关知识点爬取并汇总每条新闻信息：

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

# 1.获取网页源代码
url = 'https://s.weibo.com/weibo?q=阿里巴巴'
res = requests.get(url, headers=headers, timeout=10).text

# 2.解析网页源代码提取信息
p_source = '<p class="txt" node-type="feed_list_content" nick-name="(.*?)">'
source = re.findall(p_source, res)
p_title = '<p class="txt" node-type="feed_list_content" nick-name=".*?">(.*?)</p>'
title = re.findall(p_title, res, re.S)

# 3.清洗 & 打印 & 汇总数据
title_all = ''  # 创建一个空字符串，用来汇总数据
for i in range(len(title)):
    title[i] = title[i].strip()
    title[i] = re.sub('<.*?>', '', title[i])
    title_all = title_all + title[i]  # 通过字符串拼接，汇总数据
    print(str(i + 1) + '.' + title[i] + '-' + source[i])

这里较之前的代码多了一个汇总数据的过程，也就是上面的第14行和第18行代码，通过字符串拼接可以将所有新闻汇集成一个大字符串。
然后通过5.3.1节相关知识点进行分词，代码如下：

# 4.读取文本内容，并利用jieba.cut功能俩进行自动分词
words = jieba.cut(title_all)  # 传入的就是上面汇总的title_all

# 5.通过for循环来提取words列表中大于2个字的词语
report_words = []
for word in words:
    if len(word) >= 2:
        report_words.append(word)
print(report_words)

# 6.获得打印输出高频词的出现次数
result = Counter(report_words).most_common(50)  # 取最多的50组
print(result)

最终通过5.3.2节相关代码绘制词云图：

# 7.绘制词云图（加上形状和颜色)
# 7.1 获取词云图形状参数mask
blackgroud_pic = '微博.jpg'
images = Image.open(blackgroud_pic)
maskImages = np.array(images)

# 7.2 绘制词云图
content = ' '.join(report_words)
wc = WordCloud(font_path='simhei.ttf',  # 字体，simhei是黑体的意思
               background_color='white',  # 背景颜色
               width=1000,  # width是宽度，
               height=600,  # height是高度
               mask=maskImages  # 设置图片形状
               ).generate(content)

# 7.3 修改词云图的底层颜色，这个blackgroud_pic就是之前的背景图片
back_color = imread(blackgroud_pic)  # 读取图片
image_colors = ImageColorGenerator(back_color)  # 获取颜色
wc.recolor(color_func=image_colors)  # 词云图加上颜色

wc.to_file('微博内容词云图.png')

最终生成图片如下所示：
汇总代码如下：

import jieba  # 这个库需要单独pip安装下
from collections import Counter  # 这个库是自带的
from wordcloud import WordCloud, ImageColorGenerator  # 这个库需要单独pip安装下
from PIL import Image  # 这个库是自带的，如果没有的话，就pip安装下：pip install pillow
import numpy as np  # 这个库是自带的
from imageio import imread  # 这个库是自带的，用来读取图像
import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

# 1.获取网页源代码
url = 'https://s.weibo.com/weibo?q=阿里巴巴'
res = requests.get(url, headers=headers, timeout=10).text

# 2.解析网页源代码提取信息
p_source = '<p class="txt" node-type="feed_list_content" nick-name="(.*?)">'
source = re.findall(p_source, res)
p_title = '<p class="txt" node-type="feed_list_content" nick-name=".*?">(.*?)</p>'
title = re.findall(p_title, res, re.S)

# 3.清洗 & 打印 & 汇总数据
title_all = ''  # 创建一个空字符串，用来汇总数据
for i in range(len(title)):
    title[i] = title[i].strip()
    title[i] = re.sub('<.*?>', '', title[i])
    title_all = title_all + title[i]  # 通过字符串拼接，汇总数据
    print(str(i + 1) + '.' + title[i] + '-' + source[i])

# 4.读取文本内容，并利用jieba.cut功能俩进行自动分词
words = jieba.cut(title_all)  # 将全文分割，获取到的是一个迭代器，需要通过for循环才能获取到里面的内容

# 5.通过for循环来提取words列表中大于2个字的词语
report_words = []
for word in words:
    if len(word) >= 2:
        report_words.append(word)
print(report_words)

# 6.获得打印输出高频词的出现次数
result = Counter(report_words).most_common(50)  # 取最多的50组
print(result)

# 7.绘制词云图（加上形状和颜色)
# 7.1 获取词云图形状参数mask
blackgroud_pic = '微博.jpg'
images = Image.open(blackgroud_pic)
maskImages = np.array(images)

# 7.2 绘制词云图
content = ' '.join(report_words)
wc = WordCloud(font_path='simhei.ttf',  # 字体，simhei是黑体的意思，电脑默认都有该字体
               background_color='white',  # 背景颜色
               width=1000,  # width是宽度，
               height=600,  # height是高度
               mask=maskImages  # 设置图片形状
               ).generate(content)

# 7.3 修改词云图的底层颜色，这个blackgroud_pic就是之前的背景图片
back_color = imread(blackgroud_pic)  # 读取图片
image_colors = ImageColorGenerator(back_color)  # 获取颜色
wc.recolor(color_func=image_colors)  # 词云图加上颜色

wc.to_file('微博内容词云图.png')

5、课程相关资源

拓展：Python进阶的其他应用
https://shimo.im/docs/vp6KVJXR8tqWxgXR/ 《华小智智能平台课程（课表）》，可复制链接后用石墨文档 App 或小程序打开

Python软件下载地址
2020软件最新安装教程（附软件）：https://shimo.im/docs/Y6cG9gx8djkvT86R/ 《Python 2020最新安装教程（巨详细版）》

备选：Anaconda(这个就是Python的安装包)&Pycharm&Wampserver网盘下载地址：
链接: https://pan.baidu.com/s/1DWJ5ptC7jrkNr5IXPkD9Rw 提取码: p8w8

课程源代码地址
获取方式1：石墨文档获取

（电脑浏览器端打开（需微信扫码登录石墨文档），然后点击下载）

获取方式2：个人网站获取
访问笔者个人网站的下载专区：edu.huaxiaozhi.com/download，然后点击下载。

获取方式3：微信号获取
添加如下微信：huaxz001，和小助理沟通获取源代码。

京东链接：https://search.jd.com/Search?keyword=王宇韬，搜索“王宇韬”，在淘宝、当当也可购买。加入学习交流群，可以添加如下微信：huaxz001（请注明缘由）。

各类课程可在网易云、51CTO** 搜索王宇韬，进行查看。

本课程 Python基础（案例版）：可在网易云、51CTO 查看。（点击可直接获取。）

轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
python批量替换word内容_python win32com 库批量替换word文件内容 weixin_39657300
前言win32com模块主要为Python提供调用windows底层组件对word、Excel、PPT等进行操作的功能，只能在Windows环境下使用，并且需要安装office相关软件才行(WPS也行)。实例代码下方代码实现批量替换当前路径下word文档的指定文本内容。importwin32com.clientimportosimporttimedefupdate_replace(file):wo
python strip() 编号1993 python python
参考：http://www.jb51.net/article/37287.htm###############################s.strip(del)：在字符串s的开头结尾处，删除del中存在的字符s.lstrip(del)：在字符串s的开头处，删除del中存在的字符s.rstrip(del)：在字符串s的结尾处，删除del中存在的字符s='asdf'#前后均有空格s.strip(
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

小白都能学会的Python基础 第六讲：综合实战2 - 大数据分词与词云图绘制