Python学习与数据挖掘

超详细！构建基于客户细分的 K-Means 聚类算法

客群细分对于企业了解目标受众非常重要。根据受众群体的不同，我们可以给采取不同的营销策略。目前有许多无监督的机器学习算法可以帮助公司识别他们的用户群并创建消费群体。

在本文中，我将分享一种目前比较流行的 K-Means 聚类的无监督学习技术。K-Means的目标是将所有可用的数据分组为彼此不同的不重叠的子组。K-Means聚类是数据科学家用来帮助公司进行客户细分的常用技术。

在本文中，你将了解以下内容：

K-Means聚类的数据预处理
从头构建K-Means聚类算法
用于评估聚类模型性能的指标
可视化构建簇类
簇类构建的解读与分析

预备知识

在开始之前安装以下库：pandas、numpy、matplotlib、seaborn、sciket learn、kneed。完成后，我们就可以开始制作模型了！

本文中要的数据集可以文末下载，运行以下代码行以导入必要的库并读取数据集：

# Imports

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sea
from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

# reading the data frame

df = pd.read_csv('Mall_Customers.csv')

现在，让我们看看数据：

df.head()

数据集中有五个变量。CustomerID是数据集中每个客户的唯一标识符，我们可以删除这个变量。它没有为我们提供任何有用的集群信息。由于 gender 是一个分类变量，它需要编码并转换成数字。

在输入模型之前，其他所有变量都将按正态分布进行缩放。我们将标准化这些变量，平均值为0，标准偏差为1。

标准化变量

首先，让我们标准化数据集中的所有变量，使它们在相同的范围内。

col_names = ['Annual Income (k$)', 'Age', 'Spending Score (1-100)']
features = df[col_names]
scaler = StandardScaler().fit(features.values)
features = scaler.transform(features.values)
scaled_features = pd.DataFrame(features, columns = col_names)
scaled_features.head()

我们可以看到所有的变量都被转换了，现在都以零为中心。

热编码

变量"gender"是分类变量，我们需要把它转换成一个数值变量，可以用pd.get_dummies()来处理。

gender = df['Gender']
newdf = scaled_features.join(gender)

newdf = pd.get_dummies(newdf, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

newdf = newdf.drop(['Gender_Male'],axis=1)

newdf.head()

让我们再看一下数据：

我们可以看到，性别变量已经发生了变化，从数据框中删除了“Gender_Male”。这是因为不需要再保留变量了。

建立聚类模型

让我们构建一个 K-means 聚类模型，并将其拟合到数据集中的所有变量上，我们用肘部图可视化聚类模型的性能，它会告诉我们在构建模型时使用的最佳聚类数。

SSE = []

for cluster in range(1,10):
    kmeans = KMeans(n_jobs = -1, n_clusters = cluster, init='k-means++')
    kmeans.fit(newdf)
    SSE.append(kmeans.inertia_)

# converting the results into a dataframe and plotting them

frame = pd.DataFrame({
     'Cluster':range(1,10), 'SSE':SSE})
plt.figure(figsize=(12,6))
plt.plot(frame['Cluster'], frame['SSE'], marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Inertia')

可视化模型的性能：

根据上面的肘部图，我们可以看到最佳聚类数为4。

轮廓系数

轮廓系数或轮廓分数是用于评估该算法创建的簇的质量的方法。轮廓分数在-1到+1之间。轮廓分数越高，模型越好。
轮廓分数度量同一簇中所有数据点之间的距离。这个距离越小，轮廓分数就越好。

让我们计算一下我们刚刚建立的模型的轮廓分数：

# First, build a model with 4 clusters

kmeans = KMeans(n_jobs = -1, n_clusters = 4, init='k-means++')
kmeans.fit(newdf)

# Now, print the silhouette score of this model

print(silhouette_score(newdf, kmeans.labels_, metric='euclidean'))

轮廓线得分约为0.35。这是一个不错的模型，但我们可以做得更好，并尝试获得更高的簇群分离。

在我们尝试这样做之前，让我们将刚刚构建的聚类可视化，以了解模型的运行情况：

clusters = kmeans.fit_predict(df.iloc[:,1:])
newdf["label"] = clusters
 
fig = plt.figure(figsize=(21,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(newdf.Age[newdf.label == 0], newdf["Annual Income (k$)"][newdf.label == 0], df["Spending Score (1-100)"][newdf.label == 0], c='blue', s=60)

ax.scatter(newdf.Age[df.label == 1], newdf["Annual Income (k$)"][newdf.label == 1], newdf["Spending Score (1-100)"][newdf.label == 1], c='red', s=60)
ax.scatter(newdf.Age[df.label == 2], newdf["Annual Income (k$)"][newdf.label == 2], df["Spending Score (1-100)"][newdf.label == 2], c='green', s=60)
ax.scatter(newdf.Age[newdf.label == 3], newdf["Annual Income (k$)"][newdf.label == 3], newdf["Spending Score (1-100)"][newdf.label == 3], c='orange', s=60)

ax.view_init(30, 185)
plt.show()

从上图可以看出，簇类分离度不是很大。红点与蓝色混合，绿色与黄色重叠，这与轮廓分数一起向我们表明该模型表现不佳。现在，让我们创建一个比这个模型具有更好集群可分离性的新模型。

建立聚类模型2

对于这个模型，让我们做一些特征选择。我们可以使用一种叫做主成分分析（PCA）的技术。

PCA 是一种帮助我们降低数据集维数的技术。现在，让我们在数据集上运行PCA：

pca = PCA(n_components=4)
principalComponents = pca.fit_transform(newdf)

features = range(pca.n_components_)
plt.bar(features, pca.explained_variance_ratio_, color='black')
plt.xlabel('PCA features')
plt.ylabel('variance %')
plt.xticks(features)

PCA_components = pd.DataFrame(principalComponents)

这张图表显示了每个主成分分析的组成，以及它的方差。我们可以看到前两个主成分解释了大约70%的数据集方差。我们可以将这两个组件输入到模型中再次构建模型，并选择要使用的簇的数量

ks = range(1, 10)
inertias = []

for k in ks:
    model = KMeans(n_clusters=k)
    model.fit(PCA_components.iloc[:,:2])
    inertias.append(model.inertia_)

plt.plot(ks, inertias, '-o', color='black')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

同样，看起来最佳簇数是4。我们可以用4个簇来计算此模型的轮廓分数：

model = KMeans(n_clusters=4)
model.fit(PCA_components.iloc[:,:2])

# silhouette score
print(silhouette_score(PCA_components.iloc[:,:2], model.labels_, metric='euclidean'))

这个模型的轮廓分数是0.42，这比我们之前创建的模型要好。
我们可以像前面一样可视化此模型：

model = KMeans(n_clusters=4)

clusters = model.fit_predict(PCA_components.iloc[:,:2])
newdf["label"] = clusters
 
fig = plt.figure(figsize=(21,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(newdf.Age[newdf.label == 0], newdf["Annual Income (k$)"][newdf.label == 0], newdf["Spending Score (1-100)"][newdf.label == 0], c='blue', s=60)
ax.scatter(newdf.Age[newdf.label == 1], newdf["Annual Income (k$)"][newdf.label == 1], newdf["Spending Score (1-100)"][newdf.label == 1], c='red', s=60)
ax.scatter(newdf.Age[newdf.label == 2], newdf["Annual Income (k$)"][newdf.label == 2], newdf["Spending Score (1-100)"][newdf.label == 2], c='green', s=60)

ax.scatter(newdf.Age[newdf.label == 3], newdf["Annual Income (k$)"][newdf.label == 3], newdf["Spending Score (1-100)"][newdf.label == 3], c='orange', s=60)

ax.view_init(30, 185)
plt.show()

模型1与模型2

让我们比较一下这个模型和第一个模型的聚类可分性：

第二个模型中的簇比第一个模型中的簇分离得好得多。此外，第二个模型的轮廓分数要高得多。基于这些原因，我们可以选择第二个模型进行分析。

聚类分析

首先，让我们将簇类映射回数据集，并查看数据帧。

df = pd.read_csv('Mall_Customers.csv')
df = df.drop(['CustomerID'],axis=1)

# map back clusters to dataframe

pred = model.predict(PCA_components.iloc[:,:2])
frame = pd.DataFrame(df)
frame['cluster'] = pred
frame.head()

数据帧中的每一行现在都分配给一个集群。要比较不同群集的属性，请查找每个群集上所有变量的平均值：

avg_df = df.groupby(['cluster'], as_index=False).mean()
avg_df.show()

如果我们将这些簇可视化，我们可以更容易地解释它们。运行以下代码以获得每个变量的不同可视化效果：

sns.barplot(x='cluster',y='Age',data=avg_df)
sns.barplot(x='cluster',y='Spending Score (1-100)',data=avg_df)
sns.barplot(x='cluster',y='Annual Income (k$)',data=avg_df)

性别分类

df2 = pd.DataFrame(df.groupby(['cluster','Gender'])['Gender'].count())
df2.head()

各细分市场的主要特点

簇类0:

年平均收入高，支出低。
平均年龄在40岁左右，性别以男性为主。

簇类1：

中低收入，平均消费能力。
平均年龄在50岁左右，性别以女性为主。

簇类2：

平均收入低，消费分数高。
平均年龄在25岁左右，性别以女性为主。

簇类3：

平均收入高，消费分数高。
平均年龄在30岁左右，性别以女性为主。

值得注意的是，计算年龄中位数将有助于更好地了解每个集群内的年龄分布。

而且，女性在整个数据集中的代表性更高，这就是为什么大多数集群中女性的数量比男性多。我们可以找到每个性别相对于整个数据集中的数字的百分比，以便更好地了解性别分布。

为每个簇类构建角色

作为一名数据科学家，能够用你的分析讲述一个故事是一项重要的技能，这将帮助你的客户或利益相关者更容易理解你的发现。下面是一个基于创建的簇类构建消费者角色的示例：

簇类0

这个角色由对金钱非常谨慎的中年人组成。尽管与所有其他群体中的个人相比，他们的平均收入最高，但花费最少。这可能是因为他们有经济责任——比如为孩子的高等教育存钱。

建议：促销、优惠券和折扣代码将吸引这一领域的个人，因为他们倾向于少花钱。

簇类1

这部分人包括一个年龄较大的群体。他们挣的少，花的少，而且可能正在为退休储蓄。

建议：针对这些人的营销可以向这一领域的人推广医疗保健相关产品。

簇类2

这一部分由较年轻的年龄组组成。这部分人最有可能是第一批求职者。与其他人相比，他们赚的钱最少。然而，这些人都是热情的年轻人，他们喜欢过上好的生活方式，而且往往超支消费。

建议：由于这些年轻人花费很多，给他们提供旅游优惠券或酒店折扣可能是个好主意。为他们提供折扣的顶级服装和化妆品品牌也将很好地为这一部分。

簇类2

这部分人是由中年人组成的。这些人努力工作，积累了大量财富。他们也花大量的钱来过好的生活。

建议：由于他们的消费能力和人口结构，这些人很可能会寻找房产购买或投资。

结论

在本文中，我已经详细的建立了一个用于客户细分的 K-Means 聚类模型。我们还探讨了聚类分析，并分析了每个聚类中个体的行为。最后，我们看了一些可以根据集群中每个人的属性提供的业务建议。

技术交流

欢迎转载、收藏本文，码字不易，有所收获点赞支持一下！

为方便进行学习交流，本号开通了技术交流群，添加方式如下：

直接添加小助手微信号：pythoner666，备注：CSDN+python，或者按照如下方式添加均可！

基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
python序列化任意结构到dict YoungHong1992 python 开发语言
defserialize(obj:Any)->Any:"""因为Param没有序列化的接口，无法直接转为dict或json，因此编写该函数,把Param转为dict"""ifisinstance(obj,np.ndarray):returnobj.tolist()#将numpy.ndarray转换为列表elifisinstance(obj,(int,float,str,bool)):#基本数据类型
Python包版本分析工具开发：从PyPI私有源快速提取元数据 YoungHong1992 python windows 开发语言
importsubprocessimportreimportosimportsysimporttempfileimportzipfilefromemail.parserimportParserfromtypingimportList,Dict,Optional,Anyfromjinja2importEnvironmentfrompackaging.versionimportparseasparse
AI 的出现，是否能替代 IT 从业者？敲代码的苦13 人工智能
在科技浪潮奔涌向前的时代，AI正以惊人的速度渗透进各个领域，IT行业首当其冲。当AI编写代码的效率不断提升，当智能算法能够快速完成系统故障诊断，当自动化工具可以处理大量数据运维工作，IT从业者们不禁心生疑虑：AI真的会成为“职业终结者”，将自己从岗位上彻底替代吗？这场关于AI与IT从业者未来的讨论，充满了争议与悬念，也关乎着无数人的职业命运。一、AI在IT领域的应用现状编程开发中的AIAI在编程开
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
【C语言】学习过程教训与经验杂谈：思想准备、知识回顾（五）
个人主页：艾莉丝努力练剑❄专栏传送门：《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题学习方向：C/C++方向⭐️人生格言：为天地立心，为生民立命，为往圣继绝学，为万世开太平前言：我们在学习过程中会碰到很多很多问题，本系列文章不会博主不会额外再创建一个新的专栏来收录，因为这一系列文章创作的初心主要是针对回顾知识点（遵循遗忘曲线并且根据自身的实际情况可以做出一些
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
Python项目如何读取nacos配置 Tizzy JJ 服务器 python pycharm
目录一、nacos配置示例二、python读取nacos配置一、nacos配置示例在Nacos中创建yaml格式配置（DataID:your-data-id）#Nacos配置文件(your-data-id.yaml)app:env:productionversion:1.2.3apis:deepseek:api_key:"sk-your-deepseek-key-here"timeout:30da
C++实现冒泡，选择，插入排序算法
1.冒泡排序1.主要思路过程总体思想是通过两层循环，逐个来确定当前最值，并通过交换，把最值逐渐移动到某一端，从而完成升序或者降序排序，这段代码采用的是升序，也就是逐个把当前的最大值挪向数组右边。2.代码实现过程冒泡排序中，选出了一个最大值，放在了某一端，下一轮就不会访问到这个上一轮的最大值了，而是从剩下的数中进行选择，这里通过while循环来控制“冒泡“的次数，length为数组长度，每一轮冒泡确
com本质论 pdf_如何使用PDF Arranger来对PDF文件进行编排和修改 weixin_39797780 com本质论 pdf creatprocess 操作文件 delphi fedora如何隐藏顶部状态栏 linux .bash_profile文件 linux c++编程 pdf
PDFArranger是一个十分简单的GUI应用程序，能够帮助您拆分或合并PDF文档，以及旋转，裁剪和重新编排页面。所有前面提到的任务都可以通过交互式和直观的图形界面轻松完成。Pdfarranger是pdfshuffler的fork以及pikepdf的前端。PDFArranger在许多流行的GNU/Linux操作系统和MicrosoftWindows上都能良好地运行。它是使用GTK+和Python
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
python----下载安装，配置环境 m0_73882020 python
1.下载老版本2.7.18参考链接：Python版本Python2.7.18|Python.org2.配置环境手动添加Python到PATH右键点击此电脑→属性→高级系统设置→环境变量；在系统变量中找到Path，点击编辑→新建，添加以下两条路径：D:\download\xz\python\D:\download\xz\python\Scripts\路径就是在你的安装Python保存后重启命令提示符
PDFArranger 1.12.0版本发布：专业PDF文档管理工具的新特性解析
PDFArranger1.12.0版本发布：专业PDF文档管理工具的新特性解析pdfarrangerSmallpython-gtkapplication,whichhelpstheusertomergeorsplitPDFdocumentsandrotate,cropandrearrangetheirpagesusinganinteractiveandintuitivegraphicalinter
解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- GPT源代码解析大模型与Agent智能体 A2A MCP DeepSeek A2A MCP Manus ADK
解密企业级大模型智能体AgenticAI关键技术：MCP、A2A、ReasoningLLMs-GPT源代码解析我们可以稍微看一下，这是我们GPT的基于它的源代码产生的可视化的内容。这边是model，我们在谈这个sampling的时候，本身首先就是说它这个probabilitydistribution，会有很多的参数对它进行影响。例如temperature，如果你是hightemperature的话
Flask 框架：深入浅出理解其工作原理与机制 chilavert318 熬之滴水穿石 flask python 后端
今天写不发相关连载了，而是将我近段时间接触到的内容做次分享。这几天，使用了开源的DashGO框架，了解到了这个开源的底层是Flask框架。所以花了点时间了解一下，现在Web开发领域，各种框架层出不穷，看了一下Flask的源码，作为一款轻量级的PythonWeb框架，还是凸显了简洁、灵活的特点。今天就深入浅出地将我理解的Flask讲解出来。一、Flask是什么简单来说，Flask是一个使用Pytho
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
【后端开发】Flask学习教程大雨淅淅后端开发 flask 学习 python 后端
目录一、Flask是什么？二、环境搭建，准备启航2.1安装Python2.2安装Flask库三、第一个Flask程序，初窥门径3.1导入Flask类3.2创建应用实例3.3定义路由和视图函数3.4运行应用四、深入理解Flask核心概念4.1路由系统详解4.2请求与响应处理4.3模板引擎Jinja2五、Flask扩展，增强战斗力5.1Flask-SQLAlchemy：数据库操作的得力助手5.2Fla
【后端开发】Django 大雨淅淅后端开发 sqlite 数据库后端 django
目录一、Django是什么，为何选择它？二、学习前的准备工作三、Django项目初体验四、深入Django核心概念（一）模型（Model）（二）视图（View）（三）模板（Template）（四）URL配置五、实战演练：打造一个简单博客（一）搭建博客基础框架（二）实现文章发布功能（三）展示文章列表和详情六、总结与展望一、Django是什么，为何选择它？在PythonWeb开发的广袤天地里，Djan
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
用python写一个hello world、把代码写下来_程序员如何利用Python写出hello world weixin_39699070 用python写一个hello world 把代码写下来
学习编程语言的第一步，让你的程序对这个世界说一声helloworld!这个程序是编程界经典中的经典，让无数编程恐惧症患者得以顺利写出第一个程序，从而走上大神的不归路！1.新建文本文档先让我们在桌面上新建一个文本文档(helloWorld.txt)2.键入代码现在我们在桌面上已经有了一个空白的文本文档helloWorld.txt，接下来我们打开helloWorld.txt键入下面这这行代码print
python基础训练day27
python基础训练day27小白打卡第27天！题目来源这里python基础训练day27第一题（循环）第二题（进制转换）第三题（又是循环）第四题（字符串连接）第一题（循环）#809*??=800*??+9*??其中??代表的两位数,809*??为四位数，8*??的结果为两位数，9*??的结果为3位数。求??代表的两位数，及809*??后的结果。经过条件判断，i在（1,13）之间变化，应用循环把它
python基础day08 树上的 python python 开发语言
1.闭包:闭包的使用场景:当函数调用完，函数内定义的变量都销毁了，但是我们有时候需要保存函数内的这个变量，每次在这个变量的基础上完成一系列的操作，比如:每次在这个变量的基础上和其它数字进行求和计算。闭包的定义:在函数嵌套的前提下，内部函数使用了外部函数的变量，并且外部函数返回了内部函数，我们把这个使用外部函数变量的内部函数称为闭包。闭包的作用:闭包可以保存函数内的变量，不会随着函数调用完而销毁。闭
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1