HHHenry2Hero

基于Python的微信聊天记录分析——可视化方法与主题模型构建

本篇为《基于Python的微信聊天记录分析》系列的第三篇，主要讲解在Python环境下对聊天记录进行进一步的可视化，并对聊天内容进行初步挖掘，涉及聊天记录可视化方法、主题模型构建等内容。希望和大家多多交流，共同进步！

一. 聊天记录可视化

在上一篇中，我们将聊天记录统计分析的结果进行了初步可视化，包括按日期统计聊天频次、按每天不同时段统计聊天频次、高频词汇统计战士等内容，总体来说，可视化的是一些数学统计结果。在本章中，我将深入到聊天记录内容中，在文本级别对聊天记录做进一步的可视化，比如词云、聊天热力图等，主要内容如下：

1. 词云

（1）Wordcloud介绍与安装

在Python环境中，第三库——wordcloud可以便捷地实现文本中关键字的可视化展现，通过词云分析，可以直观地突出文本中的主旨，在本篇内容中，即可以展现双方聊天的主要内容和口头禅，下面简单介绍一下wordcloud库：

Wordcloud（用于词云图生成）：wordcloud是一个用于生成词云图的Python库，用于展示文本数据中出现频率较高的词汇，通过将文本中的词汇按照其出现的频率进行大小排序，然后将这些词汇以特定的形状、颜色等元素组合成一个图形，从而直观地展示文本的主题和关键词。该库在文本分析中较为用。

wordcloud在Anaconda Prompt中的安装命令如下：

pip install wordcloud

安装好之后import一下，如果不报错就是安装成功啦，安好之后首先我们要对之前的数据进行简单的处理，便于wordcloud库直接加载数据生成词云。

（2）基于wordcloud的词云展示

回顾一下，上一篇博客（文末有引用~）中分词之后的数据为“result_word_new”，本篇对该数据继续进行处理。

第一步，去掉聊天记录中的“\n”换行符无效数据

word_data = result_word_new.drop(index=result_word_new[(result_word_new.labels == '\n')].index.tolist())

大家需要检查一下自己的聊天记录经过jieba分词之后，里面是否有“\n”，如果有的话需要过滤掉，否则会报错：ValueError: anchor not supported for multiline text

第二步，将数据转换为dict格式

word_dict = dict(zip(word_data['labels'],word_data['counts'])) # labels和counts按自己设置的列名

第三步，停用词过滤，将自己不想展示的词汇滤除，比如各种单个汉字、语气词、符号之类，这里建议可以使用网上开源的停用词集合：中文常用停用词表，注意：如果word_dict是字典，那么无法使用generate，需要使用generate_from_frequencies或者fit_words，此时配置参数中填写stopwords无效，因此我们将数据中的停用词提前过滤掉。
第四步，设置词云相关参数，比如字体、长、宽、背景色等，这里我用的阿里巴巴普惠体2.0字体，别的也可以啦。
第五步，生成词云，wc.fit_words()或wc.generate_from_frequencies()都可以。

# 加载下载好的停用词表
with open("D:\\Projects\\chatmsg-analysis\\哈工大停用词表.txt", "r", encoding="utf-8") as fp:
    stopwords = [s.rstrip() for s in fp.readlines()]

# 将数据中的停用词过滤掉
word_dict_result = []
for i in dict.keys(word_dict):
    if i not in stopwords:
        word_dict_result[i] = word_dict[i]

# 加载字体
font = "D:\\Projects\\chatmsg-analysis\\AlibabaPuHuiTi-2-45-Light.ttf"

# wordcloud配置参数
wc = wordcloud.WordCloud(
    font_path=font,
    width=1000,
    height=1000,
    background_color="skyblue",
    max_words=50) # 词数，可改

# 生成词云
wc.fit_words(word_dict_result)
# 或
wc.generate_from_frequencies(word_dict_result)

最后我们可以用如下代码将词云显示

plt.imshow(wc)
plt.axis("off")
plt.show()

结果如下：

另外，wordcloud还支持更换背景，这样有更多的可玩性，比如我们自己做一张爱心图片作为mask~若想用图片作为背景，需要先安装imageio（一个用于读/写图像的库）：

pip install imageio

词云的配置参数需要进行微调：

from imageio.v2 import imread

# 加载一张爱心图片
background = imread('D:\\Projects\\chatmsg-analysis\\heart.png')
# 配置参数时加上mask项
wc = wordcloud.WordCloud(
    font_path=font,
    width=1000,
    height=1000,
    background_color="skyblue",
    max_words=50,
    mask = background)

爱心图片示例和词云结果如下：

到此词云就生成完毕啦，wordcloud的配置参数中还有很多有趣的选项，大家可以多多探索。

2. 聊天热力图

（1）热力图介绍

在这节开始前，先普及一下热力图（Heatmap），实际上就是通过颜色的深浅来反应数据的统计结果，比如：在某一色系下，一般较大的值由较深的颜色表示，较小的值由较浅的颜色表示。

（2）基于matplotlib实现聊天热力图展示

本节主要基于上一篇博客（文末有引用~）中按天统计聊天频次的结果“result_total_day”，做一些简单的处理，然后通过matplotlib实现聊天热力图的展示。整体代码如下：

import matplotlib.pyplot as plt

# 对result_total_day数据进行处理
# 变量初始化
msg_dict = dict()
week_array = []
week_count = 1
for index, row in result_total_day.iterrows():
# 将每天的聊天记录数量写入每周统计数组中
    week_array = np.append(week_array, int(row["count"]))
# 因为一周有七天，所以我们这边七天将结果写入一次，重置一下数组（week_array），更新周数（week_count ）
    if len(week_array) == 7:
        msg_dict[week_count] = week_array
        week_count += 1
        week_array = []
# 获取我们后续制热力图需要的纵轴坐标（周数）和热力图中的值（聊天记录数量）
y_labels = list(msg_dict.keys())
values = list(msg_dict.values())
# 自定义横轴坐标（周一到周日，顺序大家根据数据修改一下）
x_labels = ["周一", "周二", "周三", "周四", "周五", "周六", "周日"]
# 绘图
fig, axe = plt.subplots(figsize=(15, 15)) # size可以调整
axe.set_xticks(np.arange(len(x_labels)))
axe.set_yticks(np.arange(len(y_labels)))
axe.set_xticklabels(x_labels)
axe.set_yticklabels(y_labels)
im = axe.imshow(values, cmap=plt.cm.Reds) # 颜色可更改，我这里是红色
# 是否开启参考刻度，如不需开启，注释下面这行代码
axe.figure.colorbar(im, ax=axe)
plt.show()

聊天热力图结果如下：

到此热力图就做完啦，根据热力图中的深浅结果结果，可以直观看出每周/每天的聊天频次~

二. 聊天主题模型构建

本章的目的是通过构建LDA主题模型，推断聊天记录中隐含的主题分布，包括LDA主题模型介绍、基于Python的主题模型构建等内容。

1. LDA主题模型

LDA主题模型概念如下：

LDA主题模型：LDA为Latent Dirichlet Allocation（隐含狄利克雷分布）的缩写，是一种概率主题模型，由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

2. Gensim介绍与安装

在Python环境中，已经有可以直接拿来用的LDA主题模型第三方包，比如我们这次使用的Gensim：

Gensim：Gensim是一款开源的第三方Python库，在做NLP相关项目中这个库的使用频率是比较高的，它用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。一方面，它包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型，另一方面，它支持流式训练，并提供了一些常用操作的API接口。

gensim在Anaconda Prompt中的安装命令如下：

pip install gensim

LDA主题模型相关可视化库pyLDAvis，有助于分析和创建由LDA创建的簇的高度交互式可视化，并且友好的是它有着gensim的数据接口API，更利于可视化分析，pyLDAvis的安装命令如下：

pip install pyldavis

同样，安装好之后import一下，不报错就ok。

3. 基于Gensim的LDA主题模型构建

本节主要基于上一篇博客（文末有引用~）中jieba分词之后的结果“msg_word_total”，做预处理和向量化，然后通过Gensim库中的LdaModel函数进行训练，最后获取主题词的分布并展示。

（1）预处理

预处理环节主要将“msg_word_total”中的“word”字段（分词结果）由dataframe转换为list格式，便于后续gensim加载处理，代码如下：

# 加载gensim库
from gensim.models import LdaModel
from gensim.corpora import Dictionary

# 新建list空间
data_cut = []
for index, row in msg_word_total.iterrows():
    data_cut.append(row["word"]) # 将word字段的值写入list里

如果觉得数据质量不高，还需要做进一步清洗，比如用正则表达式将文本中数字、符号过滤掉，或加载第一章中的停用词表，将停用词过滤掉，这部分不细讲了。

（2）文本向量化

LDA采用了词袋模型（BOW ——Bag of words），所以我们将每一条聊天记录分词的结果转化为词袋向量，这里我把一些频率过高的词过滤掉了（主要为了防止频率过高的语气词干扰训练结果）。代码如下：

 data_cut_dict = Dictionary(data_cut)
 data_cut_dict.filter_n_most_frequent(300) # 300次以上的过滤
 corpus = [data_cut_dict.doc2bow(text) for text in data_cut]

（3）LDA主题模型训练

将向量化之后的文本加载到LDA模型中，设定好主题的个数（聚类方法，需要指定主题的个数），这里我随机设置了20个，大家可以根据数据情况任意修改，运行下方代码开始训练：

model = LdaModel(corpus, id2word=data_cut_dict, iterations=500, num_topics=8, alpha='auto')

（4）结果可视化

最后我们要将训练好的model可视化，直接用上文提到的pyLDAvis就可以，代码如下：

import pyLDAvis.gensim

result_vis = pyLDAvis.gensim.prepare(model, corpus, data_cut_dict)
pyLDAvis.show(result_vis)

但一开始用 pyLDAvis可视化时，遇到了以下错误：

此时只需要点击报错的_display.py，将下图中226行local=True改为local=False就可以啦！

可视化结果如下：

三. 学习后记

本篇我基于Python环境开展聊天记录可视化和主题模型构建的学习和研究，在第一章中，利用wordcloud构建词云，基于matplotlib生成聊天热力图；在第二章中，利用gensim构建LDA主题模型聚类生成聊天记录主题，并利用pyLDAvis生成可视化结果。学习过程中的部分代码还有优化空间，望大家包容、见谅！在后续学习中，打算做进一步的文本挖掘。

与诸君共勉~

如何获取聊天记录数据可参考：

基于Python的微信聊天记录分析——数据获取

如何对聊天数据进行数据处理和分析可参考：

基于Python的微信聊天记录分析——数据处理与分析

你可能感兴趣的:(python,数据分析,数据挖掘,自然语言处理,中文分词,数据可视化)

Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
【Repos系列】Bandersnatch同步原理 yunqi1215 Basic 网络
Bandersnatch是PyPI（PythonPackageIndex）的官方镜像工具，旨在高效同步和维护PyPI的完整本地副本。其核心原理围绕元数据抓取、增量同步、文件校验和并发下载，以下为详细工作流程：1.元数据抓取与包列表生成PyPI接口：Bandersnatch通过PyPI的JSONAPI（如https://pypi.org/pypi/{package}/json）获取所有包的元数据。主
Python入门到精通（三）：数据结构第一部分 love9599 Python入门到精通 python 开发语言
python的常用数据结构类型字符型字典列表元组、集合一、序列序列：是python中的一类数据类型，比如字符串、列表序列类型的对象是可以进行循环变例的1.1序列特性索引：指的是在序列中找到指定元素的索引编号切片：指的是从序列中提取一部分内容加法：序列对象可以将多个序列合并成一个乘法：可以将序列通过乘法输出多个相同的1.2序列操作索引操作格式：序列名[索引值]#案例1：str1="hello"#定义
python的数据结构有哪些_Python的数据结构 weixin_39804059 python的数据结构有哪些
一、Python中有哪些数据结构？dict,list,tuple,set,str二、dict,list,tuple,set,str的特点dict：字典，由键值对构成，通过键值对字典中元素进行索引，是可变数据结构list：列表，列表中的元素可以是任意类型，通过下标进行索引，是可变数据结构tuple：元组，元组中的元素可以是任意类型，通过下标进行索引，其中的元素不可变str：字符串，通过下表索引，元素
Python基础语法（一）算法工程师y python 开发语言
一、Python的安装与环境配置在开始编程之前，你需要确保计算机上安装了Python。以下是简单步骤：下载Python：访问Python官网，选择适合你操作系统的版本（推荐Python3.10+）。安装Python：运行安装程序，勾选“AddPythontoPATH”（确保在命令行中可以直接使用Python）。验证安装：打开终端（Windows用户使用CMD/PowerShell，Mac/Linu
Python常用数据结构我真的不会做啊 python 数据结构开发语言
背景：最近在学习自动化测试，发现基本是用python写的脚本就顺带好好学一学python，准备以后也深入学习一下今天简单的介绍一下python里面常用的数据结构吧Python数据结构原生数据结构原生数据结构元组Tuple()tup1=('Python','Java',1,2)tup2=(9527,)注意：1、使用()、tuple()创建元组，元组可以为空且元素类型可以不同；2、若元组中仅包含一个数
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
使用python3批量查询ip9000.txt的9000端口标题 longerxin2020 Linux 脚本集合 python 开发语言
fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsfromselenium.common.exceptionsimportWebDriverException#配置chromium浏览器选项options=Options()options.binary_location="/usr/bin/ch
python中定义结构体的方法 lxc521wjh python
Python中没有专门定义结构体的方法，不过可以使用class标记定义类来代替结构体，其成员可以在构造函数__init__中定义，具体方法如下。classitem:def__init__(self):self.name=''#名称self.size=10#尺寸self.list=[]#列表a=item()#定义结构对象a.name='cup'a.size=8a.list.append('water
python网格插值站点_在python中，在二维零网格上两点之间插值一条值线 weixin_39965490 python网格插值站点
TLDR:在2dnumpy数组中找到2个点后，如何在0数组中在它们之间插值一条1行？在上下文：目前我正在尝试从二值化的医学图像数据(0和1)对一个3d数组执行2d操作。最终目标是在填充体素/像素(即第一个和最后一个实例)的起点和终点之间添加一条1s的线。在为此，我使用SimpleITK分割一行，然后将其转换为numpy数组。在其他示例之后，我编写了返回一组数组的函数，这些数组显示填充(1)个像素和
python 网格数据插值_python – 网格数据的快速插值 weixin_39747399 python 网格数据插值
当然！有两个选项可以做不同的事情，但是既能利用原始数据的定期网格性质。第一个是scipy.ndimage.zoom.如果你只想通过内插原始数据生成一个更加密集的规则网格，那就是要走的路。第二个是scipy.ndimage.map_coordinates.如果你想在你的数据中插入一些(或许多)任意点，但仍然利用原始数据的定期网格性质(例如，不需要四叉树)，那就是去的方式。作为一个快速示例(这将使用三
地理数据中的分辨率转换木叶清风666 地理信息数据处理 matlab python 开发语言
数据分辨率问题气象海洋数据在实际应用中，常常涉及到重采样，即分辨率的提高或降低等操作。本文提供了matlab以及python的样例程序，以降低（网格平均）或提高（线性插值）数据的分辨率。1.高分辨率——>低分辨率可以使用循环逐个网格进行操作,但循环次数过多,存在效率低下的问题。%---需要的分辨率0.25°,以及经纬度网格点deg=0.25;lat_era=16:deg:47.75;lon_era
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
python基础版课件_Python入门基础ppt课件.ppt 六间仓库的仓老师 python基础版课件
《Python入门基础ppt课件.ppt》由会员分享，可在线阅读，更多相关《Python入门基础ppt课件.ppt(30页珍藏版)》请在人人文库网上搜索。1、Python语言基础,1,Python诞生于20世纪90年代初，是一种解释型、面向对象、动态数据类型的高级程序设计语言，是最受欢迎的程序设计语言之一。这节课我们主要来介绍Python语言的基本情况和基础知识。,课程描述,2,课程知识点,1初识
Python从入门到实践电子书,python编程入门到实践pdf 小六oO 智能写作 python django 开发语言
《Python编程从入门到实践》txt下载在线阅读，求百度网盘云资源《Python编程》（[美]埃里克·马瑟斯（EricMatthes））电子书网盘下载免费在线阅读资源链接：链接：提取码：6vcz书名：Python编程作者：[美]埃里克·马瑟斯（EricMatthes）译者：袁国忠豆瓣评分：9.2出版社：人民邮电出版社出版年份：2020-10页数：476内容简介：本书是针对所有层次Python读者
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
python缩进几个空格-解析Python的缩进规则的使用 weixin_39962675
Python中的缩进（Indentation）决定了代码的作用域范围。这一点和传统的c/c++有很大的不同（传统的c/c++使用花括号{}符，python使用缩进空格）。每行代码中开头的空格数（whitespace）用于计算该行代码的缩进级别（Indentationlevel），注意一个Tab等于8个空格（Space），缩进级别为0表示无缩进空格。Python中的每一条语句都有一个缩进级别,并且缩
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
33.从入门到精通：Python3 正则表达式 re.match函数 re.search方法 re.match与re.search的区别摘星月为妆。 Python从入门到精通正则表达式
33.从入门到精通：Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式在Python3中，可以使用re模块来进行正则表达式的匹配和处理。以下是一个简单的例子，说明如何使用re模块进行正则表达式匹配：import
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他