八块腹肌的小胖

新媒体与传媒行业数据分析实践：从网络爬虫到文本挖掘的综合应用，以“中国文化“为主题

大家好，我是八块腹肌的小胖，

下面将围绕微博“中国文化”以数据分析、数据处理、建模及可视化等操作

1、数据获取

2、数据处理

3、词频统计及词云展示

4、文本聚类分析

5、文本情感倾向性分析

6、情感倾向演化分析

7、总结

1、数据获取

本任务以新浪微博为目标网站，爬取“中国文化”为主题的微博数据进行数据预处理、数据可视化等操作。

目标网站如图1所示：

图1 微博网站及分析

通过分析微博网站，使用爬虫获取代码，爬虫核心伪代码如下：

这段代码咱们开始处理微博数据了。这次的目标是搞清楚微博里的各种信息，包括内容、创建时间、作者、还有转发、评论、点赞这些数字。

首先呢，咱们用jsonpath这个工具从一大堆微博数据里挑出来微博的文本内容，这就是咱们要分析的主角。但这些文本里可能夹杂了一些HTML标签，看着碍眼，所以用了正则表达式把这些标签统统清除掉，让文本干净整洁。

然后，咱们也顺便把微博的发布时间、发布者、微博ID这些信息给捞出来，这都是分析的重要信息。特别的是，如果发现了有微博是长文，咱们就得用特殊的方式去获取全文，确保分析的内容不遗漏。

紧接着，转发数、评论数、点赞数这些“数字见证”，也统统不放过，这些可是衡量微博火不火的重要标尺。

最后，把这些信息整理好，打包进一个DataFrame里，这样数据就既清晰又方便后续的分析了。打印出一些列表的长度，就是为了检查一下咱们收集的信息完整不完整，防止哪里出了差错。

整个过程就像是咱们对微博数据进行了一次大扫除，把需要的信息都收集齐全，准备好了接下来的分析步骤。这样一来，不管咱们想研究微博的哪方面信息，手头上都有足够的材料了。

1.	        # 微博内容
2.	        text_list = jsonpath(cards, '$..mblog.text')
3.	        # 微博内容-正则表达式数据清洗
4.	        dr = re.compile(r'<[^>]+>', re.S)
5.	        text2_list = []
6.	        print('text_list is:')
7.	        # print(text_list)
8.	        if not text_list:  # 如果未获取到微博内容，进入下一轮循环
9.	            continue
10.	        if type(text_list) == list and len(text_list) > 0:
11.	            for text in text_list:
12.	                text2 = dr.sub('', text)  # 正则表达式提取微博内容
13.	                # print(text2)
14.	                text2_list.append(text2)
15.	        # 微博创建时间
16.	        time_list = jsonpath(cards, '$..mblog.created_at')
17.	        time_list = [trans_time(v_str=i) for i in time_list]
18.	        # 微博作者
19.	        author_list = jsonpath(cards, '$..mblog.user.screen_name')
20.	        # 微博id
21.	        id_list = jsonpath(cards, '$..mblog.id')
22.	        # 判断是否存在全文
23.	        isLongText_list = jsonpath(cards, '$..mblog.isLongText')
24.	        idx = 0
25.	        for i in isLongText_list:
26.	            if i == True:
27.	                long_text = getLongText(v_id=id_list[idx])
28.	                text2_list[idx] = long_text
29.	            idx += 1
30.	        # 转发数
31.	        reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')
32.	        # 评论数
33.	        comments_count_list = jsonpath(cards, '$..mblog.comments_count')
34.	        # 点赞数
35.	        attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')
36.	        # 把列表数据保存成DataFrame数据
37.	        print('id_list:', len(id_list))
38.	        print(len(time_list))
39.	        print('region_name_list:', len(region_name_list))
40.	        print(len(status_city_list))
41.	        print(len(status_province_list))
42.	        print(len(status_country_list))

获取的爬虫数据如图2所示：

图2微博数据

2、数据处理

咱们这一步呢，是要把数据梳理得整整齐齐的，好比给数据做个美容。首先，咱们决定了要关注哪几个方面的信息：发布者的名字、发布时间、文本内容、转发数、评论数、点赞数和位置信息。这些都是分析微博活动时不可或缺的。

接下来，咱们对日期格式做了标准化处理，确保所有的日期都是按照年-月-日时:分:秒这样的格式来的，这样看起来既整洁又方便后续的分析。

然后，文本内容里有些杂七杂八的东西需要清理掉，比如那些乱七八糟的标签啊、特殊字符啊，甚至是一些广告内容，都得用字符串替换的方法把它们给去掉，让文本内容清清爽爽。

咱们还考虑到了数据里可能会有一些空白的地方，这些地方咱们就统一填上"N/A"，意思就是这里啥也没有，但是也不能空着，得有个标记。

做完这一切，咱们就可以看看咱们的数据变成啥样了。打印出来一看，所有的信息都按部就班，整整齐齐的，这下子，无论是要做分析还是画图，手里的数据都是清清楚楚，明明白白的了。这就像是给数据穿上了新衣服，既美观又实用。

1.	# 数据清洗和预处理
2.	# 列：screen_name, created_at, text, reposts_count, comments_count, attitudes_count, location
3.	selected_columns = ['screen_name', 'created_at', 'text', 'reposts_count', 'comments_count', 'attitudes_count', 'location']
4.	data = data[selected_columns]
5.	
6.	# 处理日期格式
7.	data['created_at'] = pd.to_datetime(data['created_at'], format='%Y-%m-%d %H:%M:%S')
8.	
9.	# 去除文本中的特殊字符或标签
10.	data['text'] = data['text'].str.replace(r'#', '')
11.	data['text'] = data['text'].str.replace(r'【', '')
12.	data['text'] = data['text'].str.replace(r'】', '')
13.	data['text'] = data['text'].str.replace(r'不得鸟的微博视频', '')
14.	
15.	# 填充缺失值（如果有）
16.	data = data.fillna('N/A')
17.	
18.	# 查看预处理后的数据
19.	print(data)

“数据处理”代码输出如图3所示：

图3数据处理

3、词频统计及词云展示

咱们这一步就是要搞清楚咱们数据里面都聊了啥，用的哪些词特别多。

首先，得用jieba来分词，就是把句子切成词儿。把咱们数据里的文本内容拿出来，一条条地切，切完了汇总到一起。

然后，你知道有些词儿咱其实不太需要，比如“的”、“是”这种，这就需要用到停用词表了。

停用词表里的词儿，咱们在分词结果里看到了就直接忽略它。这个停用词表是个文件，咱们打开它，把里面的词读出来，存起来，准备用。

接下来，咱们要把切出来的词里面，不在停用词表里的筛出来，这样剩下的就都是咱们要的了。

这些词儿，咱们来数数谁出现得多，谁出现得少，就是词频统计。

统计完了，咱们就挑出来出现次数最多的前十个词，看看都是些啥，打印出来给自己看看。

最后，用这些词儿画个词云图。词云图就是把这些词以不同的大小显示出来，谁大谁就是出现次数多的。

这样一看，就一目了然了，知道咱们数据里面热点话题都有啥。

画完了直接显示出来，这图挺好看的，也挺有用的，一眼能看出来重点词汇。

1.	# 词频统计及词云显示
2.	# 分词
3.	import pandas as pd
4.	import jieba
5.	from collections import Counter
6.	from wordcloud import WordCloud
7.	import matplotlib.pyplot as plt
8.	# 分词
9.	seg_list = []
10.	for text in data['text']:
11.	    seg_list.extend(jieba.cut(text))
12.	
13.	# 加载停用词表
14.	stopwords = set()
15.	with open('stop_words.txt', 'r', encoding='utf-8') as f:
16.	    for line in f:
17.	        stopwords.add(line.strip())
18.	
19.	# 过滤停用词
20.	seg_list_filtered = [word for word in seg_list if word not in stopwords]
21.	
22.	# 统计词频
23.	word_counts = Counter(seg_list_filtered)
24.	
25.	# 获取词频最高的前N个词
26.	top_n = 10
27.	top_words = word_counts.most_common(top_n)
28.	
29.	# 打印词频最高的词
30.	for word, count in top_words:
31.	    print(f'{word}: {count}')
32.	
33.	# 生成词云
34.	wordcloud = WordCloud(font_path='SimHei.ttf', background_color='white').generate(' '.join(seg_list_filtered))
35.	
36.	# 显示词云
37.	plt.imshow(wordcloud, interpolation='bilinear')
38.	plt.axis('off')
39.	plt.show()

4、文本聚类分析

下面聚类的代码，咱们是要搞点更高级的，不光是看看热词，还要把这些文本内容分个类，看看都有哪些不同的主题或者类型在里面。

首先，还是老规矩，先把数据读进来，用Pandas从一个叫data.csv的文件里读数据。然后，还是得清理一下文本，把一些乱七八糟的特殊字符或者不需要的标签给去掉。

接着，分词。这次咱们分完词后，每个词之间加个空格，因为接下来要用TF-IDF（词频-逆文档频率）来向量化文本，这个操作是把文本转换成数学上的向量，为的是让计算机能理解和处理。

咱们用TF-IDF把文本向量化之后，文本就变成了一堆数字表示的向量，接下来就可以用KMeans这个算法来聚类了。意思就是，咱们想把这些文本按内容或风格自动分成几堆，这里咱们定了3堆。

聚类完了，为了让咱们肉眼能看出来效果，用到了SVD（奇异值分解）进行降维，就是把那些高维的数据压缩到2维空间里，这样就能在图上画出来了。

然后，咱们就可以画图看看了，用不同颜色表示不同的类，把这些点画到图上，通过颜色就能看出来哪些文本是被分到一组的。

这还不够，咱们还得知道每组里面都是些啥内容，所以要找出每个聚类（也就是每堆）的关键词。这里就是计算每个聚类里面哪些词最能代表这个聚类，然后挑出来权重最高的前10个词。

最后，把这些关键词打印出来，每个聚类的关键词都列一列，这样一看，就知道每个聚类大概是啥主题的了。还把每个聚类里面的文本也打印出来，这样咱们就能具体看看分得对不对，有没有啥意外的发现。

画完图，标上轴名，给图个标题，这图就完整了，展示的是咱们的聚类结果。看完这个，就能对咱们数据里的文本有个更深入的了解了。

1.	import pandas as pd
2.	import jieba
3.	from sklearn.feature_extraction.text import TfidfVectorizer
4.	from sklearn.cluster import KMeans
5.	from sklearn.decomposition import TruncatedSVD
6.	import matplotlib.pyplot as plt
7.	from scipy.sparse import csr_matrix
8.	
9.	# 读取数据文件
10.	data = pd.read_csv('data.csv')
11.	
12.	# 去除文本中的特殊字符或标签
13.	data['text'] = data['text'].str.replace(r'#', '')
14.	data['text'] = data['text'].str.replace(r'【', '')
15.	data['text'] = data['text'].str.replace(r'】', '')
16.	data['text'] = data['text'].str.replace(r'不得鸟的微博视频', '')
17.	
18.	# 分词
19.	seg_list = []
20.	for text in data['text']:
21.	    seg_list.append(' '.join(jieba.cut(str(text))))
22.	
23.	# 使用TF-IDF向量化文本
24.	vectorizer = TfidfVectorizer()
25.	X = vectorizer.fit_transform(seg_list)
26.	
27.	# 转换为稀疏矩阵
28.	X_sparse = csr_matrix(X)
29.	
30.	# 使用KMeans聚类
31.	k = 3  # 聚类数量
32.	kmeans = KMeans(n_clusters=k, random_state=42)
33.	kmeans.fit(X_sparse)
34.	
35.	# 使用SVD进行降维
36.	svd = TruncatedSVD(n_components=2)
37.	X_svd = svd.fit_transform(X_sparse)
38.	
39.	# 绘制聚类结果
40.	colors = ['red', 'blue', 'green']
41.	labels = kmeans.labels_
42.	for i in range(len(X_svd)):
43.	    plt.scatter(X_svd[i, 0], X_svd[i, 1], color=colors[labels[i]])
44.	
45.	# 获取聚类关键词
46.	terms = vectorizer.get_feature_names()
47.	
48.	# 显示类别关键词
49.	for cluster_id in range(k):
50.	    cluster_terms = []
51.	    cluster_indices = labels == cluster_id
52.	    cluster_text = data.loc[cluster_indices, 'text']
53.	    cluster_vector = X[cluster_indices]
54.	
55.	    # 计算每个类别的关键词权重总和
56.	    cluster_weights = cluster_vector.sum(axis=0).A1
57.	    sorted_indices = cluster_weights.argsort()[::-1]
58.	
59.	    # 获取权重排名前10的关键词
60.	    for term_index in sorted_indices[:10]:
61.	        cluster_terms.append(terms[term_index])
62.	
63.	    print(f"Cluster {cluster_id + 1} Keywords: {' '.join(cluster_terms)}")
64.	    print(f"Cluster {cluster_id + 1} Texts:")
65.	    print(cluster_text)
66.	    print()
67.	
68.	plt.xlabel('Component 1')
69.	plt.ylabel('Component 2')
70.	plt.title('KMeans Clustering')
71.	plt.show()

文本聚类最终展示的聚类前10个关键词如下所示，完整结果及聚类输出如图5所示：

Cluster 1 Keywords: 京剧 国粹 表演 中国 戏曲 艺术 文明 视频 变脸 传统

Cluster 2 Keywords: 中国 文化 历史 美食 传统 传统节日 视频 微博 我们 六级

Cluster 3 Keywords: 街头 联动 外国 上海 时代广场 疯狂 上分 文化 我们 中国

图5 聚类结果

5、文本情感倾向性分析

咱们这回的任务是要看看咱们数据里面的文本，大家是个啥心情，是不是开心，还是有点小郁闷。用的是情感分析，这玩意儿可以算出一句话是正面的、负面的还是说不上好坏中性的。

先来，对每条文本用SnowNLP这个工具跑一遍，这个东西能给咱们一个情感倾向性得分，分数高的话，说明这话挺乐观的，分数低就可能有点悲观。

得到所有文本的情感得分后，咱们分三类，负面、中性、正面。规则是这样的，得分低于0.3的咱们认为是负面的，0.3到0.7之间的算中性，高于0.7的就是正面了。然后数一数每类有多少条。

下一步，咱们要把这个结果做成一个饼图，一眼就能看出来哪种情绪的文本多。为了好看点，还得挑挑颜色，用的是sns（Seaborn库）的色板，选了个pastel（粉彩）风格的前三种颜色。

画饼图时，标上每种情绪的标签，加上每部分占的比例，然后从90度开始画，这样看起来舒服。

因为咱们要显示中文，所以还得设置下字体，确保中文不会乱码。设置完后，把所有文本的字体都调整成咱们设置的那个。

给图加个标题，叫“情感分析结果”，别忘了也要设置成中文显示。最后，为了饼图看起来是个正圆，调一调轴的比例。

做完这些，跑一下，饼图就出来啦。这样一看，咱们就清楚了，在咱们的数据里，人们大多是啥心情，乐观的、悲观的还是说不上来的，心里有数了。

1.	# 对每条文本进行情感分析并计算情感倾向性得分
2.	sentiments = []
3.	for text in data['text']:
4.	    s = SnowNLP(str(text))
5.	    sentiment_score = s.sentiments
6.	    sentiments.append(sentiment_score)
7.	
8.	# 情感类别定义
9.	labels = ['负面', '中性', '正面']
10.	
11.	# 统计情感类别的数量
12.	sentiment_counts = [0, 0, 0]
13.	for sentiment in sentiments:
14.	    if sentiment < 0.3:
15.	        sentiment_counts[0] += 1
16.	    elif sentiment >= 0.3 and sentiment < 0.7:
17.	        sentiment_counts[1] += 1
18.	    else:
19.	        sentiment_counts[2] += 1
20.	
21.	# 创建情感分析饼图
22.	plt.figure(figsize=(6, 6))
23.	
24.	# 设置颜色
25.	colors = sns.color_palette('pastel')[0:3]
26.	
27.	# 绘制饼图
28.	plt.pie(sentiment_counts, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)
29.	
30.	# 设置中文显示
31.	font = FontProperties(fname='SimHei.ttf', size=12)
32.	for text in plt.gca().texts:
33.	    text.set_fontproperties(font)
34.	
35.	# 添加标题
36.	plt.title('情感分析结果', fontproperties=font)
37.	
38.	# 调整饼图为正圆
39.	plt.axis('equal')
40.	
41.	# 显示饼图
42.	plt.show()

代码运行后的到的情感分析饼状图如图6所示：

图6 情感分析

6、情感倾向演化分析

咱们这回的动作是，要看看随着时间变化，人们的情绪变化怎么样。就像看天气预报一样，不过咱们预报的是情绪。

首先，把刚才算出来的每条文本的情感得分，直接加到数据里去，这样每条数据都有个情感分数了。

接下来，咱们要按日期来一次大聚合，把同一天的情感得分平均一下，看看这一天的整体情绪怎么样。这样咱们就能得到每一天的平均情感得分了。

然后，咱们开始画图，这次画的是折线图，一看就知道每天情绪怎么变的。图的大小定为12x6，这样显示的信息多一些，看起来也舒服。

为了让图好看，咱们选了个色板，"husl"，颜色鲜艳一点，把折线图画出来，用的是色板的第一个颜色。

标题、标签都设置好，用中文显示，并且字号也调了一下，让它更清晰易读。日期标签旋转了45度，这样不管日期多密集，每个标签都能看得清。

加了个图例，也是用中文显示。然后，为了让图看起来更有条理，加了横向的网格线，线条是虚线，透明度调低一些，不那么扎眼。

最后，调整了一下图形的边距，让整个图看起来更紧凑，信息显示得更完整。

一切设置好后，展示图形，这下咱们就能看到，随着时间的推移，整体的情绪是怎么变化的了。这可比单纯看数字有意思多了，一目了然，一折线图看天下情绪！

1.	# 添加情感得分列
2.	data['sentiment_score'] = sentiments
3.	
4.	# 按日期分组并计算每天的情感得分的平均值
5.	sentiment_by_date = data.groupby(data['created_at'].dt.date)['sentiment_score'].mean()
6.	
7.	# 创建图形
8.	plt.figure(figsize=(12, 6))
9.	
10.	# 设置颜色
11.	colors = sns.color_palette("husl")
12.	
13.	# 绘制情感得分随时间变化的折线图，并设置颜色
14.	sentiment_by_date.plot(kind='line', linewidth=2, color=colors[0])
15.	
16.	# 设置标题、标签和图例
17.	plt.title('情感分数随时间变化', fontproperties=myfont, fontsize=16)
18.	plt.xlabel('日期', fontproperties=myfont, fontsize=12)
19.	plt.ylabel('情感分数', fontproperties=myfont, fontsize=12)
20.	plt.xticks(rotation=45)
21.	plt.legend(prop=myfont)
22.	
23.	# 设置网格线
24.	plt.grid(axis='y', linestyle='--', alpha=0.5)
25.	
26.	# 调整图像边距
27.	plt.tight_layout()
28.	
29.	# 显示图形
30.	plt.show()

情感演化如图7所示：

图7 情感演化

由图7可知，2023年1月网民情绪波动较大，分析与中国传统节日“春节”有关，且整体情绪处于中性和积极分值中；2023年4月至2023年6月期间，网民整齐情绪波动较大，分析其可能与4月的清明节、5月劳动节及6月的端午节有关。

7、总结

本次任务以“中国文化”为主题，首先通过爬虫对微博数据进行爬取，并对获取的数据进行预处理等操作。通过对微博数据进行词频统计，可以发现在关于中国文化的讨论中，最常出现的词是"中国"，出现了4112次，紧随其后的是"文化"，出现了2986次。此外，历史、传统和美食也是热门关键词，分别出现了1036次、1021次和645次。这反映了人们对中国文化的关注和兴趣。

使用kmeans算法进行文本聚类，将微博文本分为了三类。第一类聚焦于中国传统艺术，如京剧、国粹和戏曲，体现了中国丰富的艺术表演传统。第二类聚集了与中国文化、历史和传统节日有关的关键词，同时也涉及到微博和视频的讨论。第三类则关注街头文化、外国影响和中国城市的繁华景象。

情感分析的结果显示，人们对中国文化的态度整体上积极，积极情感得分为91.2%，消极情感得分为4.1%，中性情感得分为4.7%。这说明大多数人在微博上表达对中国文化的喜爱和肯定。

在情感演化的分析中，选取了时间范围从2022年6月到2023年6月。2023年1月，人们的情绪波动较大，可能与中国传统节日"春节"有关，整体情绪处于中性和积极分值中。而在2023年4月至6月期间，情绪波动再次增大，推测可能与清明节、劳动节和端午节等传统节日有关。

基于微博爬取的"中国文化"分析表明人们对中国文化表达了浓厚的兴趣和积极的态度。通过文本聚类和情感分析，我们深入了解了人们对中国文化的关注焦点和情感变化。这些结果有助于我们更好地理解和推动中国文化的传播与发展。

Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具(专业版) 闪云-微星实用小程序 pdf word python pycharm 开发语言 pyqt
前言：日常生活中，我们常常会跟WPSOffice打交道。作表格，写报告，写PPT......可以说，我们的生活已经离不开WPSOffice了。与此同时，我们在这个过程中也会遇到各种各样的技术阻碍，例如部分软件的PDF转Word需要收取额外费用等。那么，可不可以自己开发一个小工具来实现PDF转Word这个功能呢?答案是肯定的，Python生来就是为应用层开发的。话不多说，我们直接开始今天的Pytho
Python-基于PyQt5,wordcloud,pillow,numpy,os,sys的智能词云生成器闪云-微星 WPS python pillow 开发语言 pycharm numpy 小程序 pyqt
前言：日常生活中，我们有时后就会遇见这样的情形：我们需要将给定的数据进行可视化处理，同时保证呈现比较良好的量化效果。这时候我们可能就会用到词云图。词云图（Wordcloud）又称文字云，是一种文本数据的图片视觉表达方式，一般是由词汇组成类似云的图形，用于展示大量文本数据。词云这个概念首先是由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登提出的，通常用于描述网站上的关键字元数据（标签），或可视化
python-矩阵转置/将列表分割成块/和超过N的最短子数组闪云-微星 python 算法机器翻译
一：矩阵转置题目描述输入一个n行m列的矩阵A，输出它的转置AT。输入第一行包含两个整数n和m，表示矩阵A的行数和列数。1≤n≤100，1≤m≤100。接下来n行，每行m个整数，表示矩阵A的元素。相邻两个整数之间用单个空格隔开，每个元素均在1∼1000之间。输出m行，每行n个整数，为矩阵A的转置。相邻两个整数之间用单个空格隔开。样例输入133123456789样例输出1147258369来源/分类（
python算法和数据结构刷题[3]：哈希表、滑动窗口、双指针、回溯算法、贪心算法励志成为美貌才华为一体的女子数据结构与算法算法数据结构散列表
回溯算法「所有可能的结果」，而不是「结果的个数」，一般情况下，我们就知道需要暴力搜索所有的可行解了，可以用「回溯法」。回溯算法关键在于:不合适就退回上一步。在回溯算法中，递归用于深入到所有可能的分支，而迭代（通常在递归函数内部的循环中体现）用于探索当前层级的所有可能选项。组合问题39.组合总和-力扣（LeetCode）给你一个无重复元素的整数数组candidates和一个目标整数target，找出
〖Python WEB 自动化测试实战篇⑥〗- selenium元素定位之find-elements 哈哥撩编程 #④ -自动化测试实战篇 Python全栈白宝书 python python自动化测试实战 WEB自动化测试实战 selenium 元素定位
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号、B站、抖音同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者大家好,我是哈哥，一位35岁但是依然头发茂密的程序员老兵，目前在公司开启了养老模式。现在热衷于分享各种编程领域的软硬技能知识以及前沿技术，在过去的三
Python 网络爬虫实战：从基础到高级爬取技术一ge科研小菜鸡编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言网络爬虫（WebScraping）是一种自动化技术，利用程序从网页中提取数据，广泛应用于数据采集、搜索引擎、市场分析、舆情监测等领域。本教程将涵盖requests、BeautifulSoup、Selenium、Scrapy等常用工具，并深入探讨反爬机制突破、动态加载页面、模拟登录、多线程/分布式爬取等高级技巧。2.爬虫基础：request
Python内存泄漏排查 SkylerHu Python python OOM 内存泄漏
Python内存泄漏排查1.排查工具1.1gc1.2tracemalloc1.3mem_top1.4guppy1.5objgraph1.6pympler1.7pyrasite2.案例分析3.参考记一次排查Python程序内存泄漏的问题。1.排查工具工具说明gcPython标准库内置模块tracemalloc推荐Python3.4以上此工具为标准库mem_top推荐是对gc的封装，能够排序输出最多的
关于排查python内存泄露的简单总结翔云123456 python python 内存泄露
这次的内存泄露问题是发生在多线程场景下的。各种工具都试过了，gc,objgraph,pdb,pympler等，仍然没有找到问题所在。pdb感觉用起来很方便，可以调试代码，对原来的代码无侵入性。排查问题的过程中，多线程场景下，相关的工具，显得无力的。使用objgraph时，代码执行很长时间后，show_growth()显示没有新创建的对象。这个可能是因为objgraph只针对当前线程的上下文。pym
Python如何查看内存泄漏 julielele python python 开发语言
在python中，当一个变量不被引用的时候就会触发垃圾回收机制从而被从内存中删除，但有时一个不注意可能就会出现内存泄漏问题。Python中可能的会出现内存泄露的情况(1)循环引用：当两个或多个对象相互引用，造成的循环引用进而导致内存泄露(2)大量创建对象：当程序中频繁创建大量的对象并没有及时销毁，也会导致内存泄露(3)全局变量：当全局变量被创建后一直存在，即使它们不再被使用，也会占用内存空间，可能
Python实现内存泄露排查的示例 Linux资源站 python 开发语言
导读一般在python代码块的调试过程中会使用memory-profiler、filprofiler、objgraph等三种方式进行辅助分析，今天这里主要介绍使用objgraph对象提供的函数接口来进行内存泄露的分析，感兴趣的可以了解一下一般情况下只有需要长期运行的项目才会去关注内存的增长情况，即使是很小部分的内存泄露经过长期的运行仍然会产生很大的隐患。python本身也是支持垃圾的自动回收的，但
Python内存泄漏排查技巧与编程代码幻想花园 python 开发语言编程
在Python编程中，内存泄漏是一个常见的问题。当我们创建对象或分配内存资源时，如果没有正确释放或销毁这些资源，就会导致内存泄漏。长时间运行的程序中的内存泄漏可能会导致内存消耗殆尽，最终导致程序崩溃。本文将介绍一些Python内存泄漏排查的小技巧，并提供相应的源代码示例。使用内存分析工具Python提供了一些内存分析工具，可以帮助我们检测和定位内存泄漏问题。其中一个常用的工具是objgraph库。
使用Python开发windows桌面程序 ww2890chen
使用Python开发windows桌面程序一、开发前期准备1.boa-constructor-0.6.1.bin.setup.exe#一个wxWidges的集成开发环境，简单如Delphi，可以直接拖拽控件，并且和其他集成环境不一样，#它不与集成开发环境的MainLoop冲突，用pythonwin,pyScripter都会冲突，典型报错就是运行第二次#程序的时候，直接导致集成开发环境的强制退出，因
python多进程和多线程晚风吹儿 Python python 开发语言 pycharm
前言进程是资源分配的最小单位，线程是CPU调度的最小单位进程：操作系统的每个一个程序都是一个进程线程：进程包括了线程，一个进程下可以有多个线程同时进行一、多进程代码如下（示例）：#-*-coding:utf-8-*-"""@Time：2022/5/2013:20@Author：盘盘@File：more_process.py@IDE：PyCharm"""fromrandomimportrandint
Python--多线程 weixin_34403693 python 运维
首先，说明一下多线程的应用场景：当python处理多个任务时，这些任务本质是异步的，需要有多个并发事务，各个事务的运行顺序可以是不确定的、随机的、不可预测的。计算密集型的任务可以顺序执行分隔成的多个子任务，也可以用多线程的方式处理。但I/O密集型的任务就不好以单线程方式处理了，如果不用多线程，只能用一个或多个计时器来处理实现。下面说一下进程与线程：进程（有时叫重量级进程），是程序的一次执行，正如我
python多线程怎么写日志_Python日志记录在多进程下的使用可以不是真名 python多线程怎么写日志
1、问题描述项目中，使用RotatingFileHandler根据日志文件大小来切分日志。设置文件的MaxBytes为1GB，backupCount大小为5。经查看，发现日志文件的大小均小于10MB，且每个回滚日志文件的写入时间也都比较接近。2、分析日志文件过小，猜测是代码有问题，或者是文件内容有丢失；日志写入时间接近猜测是同时写入的问题。经检查，代码没有问题，排除此原因。考虑当前使用gunico
python之多线程 sixkery python基础
注：本文是廖大的教程文章，本人也在学习，因为老是记不住，自己手打一边，代码也是亲自测试。廖大传送门多线程多个任务可以由多进程完成，也可以由一个进程内的多线程完成。一个线程由多个进程组成，一个进程至少有一个线程。由于线程是操作系统直接支持的单元，因此，高级语言都内置多线程的支持，python也不例外，并且，python的线程是真正的PosixThread,不是模拟出来的线程。python的标准库提供
智能风控/数据分析聚合分组连接やっはろ数据分析数据分析 pandas 数据挖掘
目录data。head（）查看前几行配环境添加环境变量聚合groupby方法基本用法分组示例聚合操作示例转换操作示例过滤操作示例实例方法示例总结apply方法结合使用groupby和applymerge聚合基本语法参数说明【连接键】DataFrame示例内连接（INNERJOIN）左连接（LEFTJOIN）右连接（RIGHTJOIN）真实全外连接（FULLOUTERJOIN）示例内连接（INNER
学习日志011--模块，迭代器与生成器，正则表达式 Z211613347 python
一、python模块在之前学习c语言时，我们学了分文件编辑，那么在python中是否存在类似的编写方式？答案是肯定的。python中同样可以实现分文件编辑。甚至还有更多的好处：‌提高代码的可维护性‌：当代码被分成多个文件时，每个文件可以专注于实现特定的功能或模块。这使得查找和修复错误变得更加容易。可以更方便地对代码进行局部修改，而不需要浏览整个项目的代码。‌增强代码的可读性‌：分文件编程允许开发者
解决VS Code无法使用虚拟环境中的Python解释器的问题不爱搬砖的饼r 工具安装与配置 python 开发语言 vscode macos
你是不是也遇到了vscode中python解释器找不到的问题？解决方案：1.首先确认你的python安装位置，以及依赖库是否为该python版本下安装；（这里就要强调一下虚拟环境的重要性了，可以看我另一篇文章）。2.打开vscode，左下角进入设置，找到python：defaultinterpreterpath（默认解释器路径），添加你的虚拟环境python地址即可。3.快捷键shitf+comm
对Python中常用的爬虫request库做一个简单的介绍 HL.云黑 python 爬虫开发语言
在Python爬虫的世界中，Requests库是一个不可或缺的工具。它以其简洁的API和强大的功能，成为了开发者进行HTTP请求的首选库。下面将从几个方面介绍Requests库的特点和使用技巧。1.简洁易用的APIRequests库的设计理念是让HTTP请求变得简单直观。通过几行代码，开发者就可以发送GET或POST请求，获取网页内容。例如：```pythonimportrequestsrespo
Python一个爬虫 HL.云黑 python 爬虫开发语言
importrequestsimportreimportthreadingfromconcurrent.futuresimportThreadPoolExecutorheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/62.0.3202.101Safari/5
python基础编程-Day02(作业) 猫侠（Python学习自用账号） python 考研
1、退休用户输入年龄，如果年龄超过60岁，输出：可以退休了。答案：age=input('yourage:')ifint(age)>60:print("可以退休了")2、小伙子，加油干用户输入年龄，如果年龄超过60岁，输出："可以退休了"，否则，输出："小伙子，加油干！"答案：age=input('yourage:')ifint(age)>60:print("可以退休了")else:print("小
python eml解析_【Python】CDO分析eml文件、发送mail（outlook Express COM对象） weixin_39640265 python eml解析
importwin32com.clientobjEmail=win32com.client.Dispatch('CDO.Message')#objEmail.Configuration.Fields.Item("http://schemas.microsoft.com/cdo/configuration/smtpserverport")=25#objEmail.Configuration.Fiel
python eml解析_提取邮件（eml格式）保存为html-python | 学步园 weixin_39820158 python eml解析
#-*-coding:utf-8-*-__author__='[email protected]'importosimportsysimportemailimporterrnoimportmimetypesPATH=os.path.abspath(os.path.dirname(sys.argv[0]))ITEM_PATH=PATH+"\item"PATH_DATA=os.path.abspat
用Python把2024年的豆瓣广播生成词云图 NuageL python 开发语言
突发奇想想对自己的2024进行分析。于是决定把豆瓣广播变成词云，学习一下词云的制作方法分为几步：1.获取数据，爬取2024的豆瓣广播#引入requests和BeautifulSoupimportrequestsfrombs4importBeautifulSoupbase_url="我的豆瓣主页网址/p?="headers={'User-Agent':'Mozilla/5.0(WindowsNT10
Windsurf cursor vscode+cline 与Python快速开发指南老大白菜 python vscode python ide
Windsurf简介Windsurf是由Codeium推出的全球首个基于AIFlow范式的智能IDE，它通过强大的AI助手功能，显著提升开发效率。Windsurf集成了先进的代码补全、智能重构、代码生成等功能，特别适合Python开发者使用。Python环境配置1.Conda安装下载Miniconda访问Miniconda官网选择对应系统的安装包（Windows/Linux/MacOS）下载最新版
华为OD2024机试最新E卷题库-(A+B+C+D+E) 蜗牛快快快快跑华为od 算法数据结构贪心算法排序算法动态规划
在这个精心策划的专栏中，我们聚焦于华为OD2024机试的最新E卷题库，涵盖JS、C、C++、Java与Python五大编程语言，旨在为挑战者提供全面而深入的备战资源。这里不仅有精选的实战题目，还有详尽的解题思路与代码实现，帮助你掌握核心算法，理解数据结构，提升编程技巧。以下是每个卷宗的详细，可以通过直接点击试卷链接查看练习试卷编号备注OD-E卷原题+个人代码+思路解析，95%以上的通过率，方便大家
AI：180-如何利用Python进行图像处理和计算机视觉任务一键难忘精通AI实战千例专栏合集 python 图像处理计算机视觉
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.探索Python在图像处理和计算机视觉任务中的应用随着人
python requests json_python json requests request 模块 weixin_39782355 python requests json
1、json通过Python的json模块，可以将字符串形式的json数据转化为字典，也可以将Python中的字典数据转化为字符串形式的json数据。之前使用这个模块时，都是随用随查，浅尝辄止，对模块的功能了解不深。随着使用次数的增加，我对这个功能完善的模块有了更多的了解，记录如下。json.loads将字符串装换成python基本数据类型json.dumps将python数据类型转换成字符串方式
python图形化界面开发工具_七个python gui图形界面开发框架 weixin_39653717 python图形化界面开发工具
Kivy这是一个非常有趣的项目，基于OpenGLES2，支持Android和iOS平台的原生多点触摸，作为事件驱动的框架，Kivy非常适合游戏开发，非常适合处理从widgets到动画的任务。如果你想开发跨平台的图形应用，或者仅仅是需要一个强大的跨平台图形用户开发框架，Kivy都是不错的选择。Pyforms诞生只有两年的Pyforms是一个Python2.7/3.x跨环境图形应用开发框架，模块化和代
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

新媒体与传媒行业数据分析实践：从网络爬虫到文本挖掘的综合应用，以“中国文化“为主题

1、数据获取

2、数据处理

3、词频统计及词云展示

4、文本聚类分析

5、文本情感倾向性分析

6、情感倾向演化分析

7、总结

你可能感兴趣的:(数据分析,python)