这一步就是天涯海角

[Python] 用K-means聚类算法进行客户分群

一、背景
- 1.项目描述
- 2.数据描述
二、相关模块
三、数据可视化
- 1.数据读取
- 2.数据可视化
- - 2.1 平行坐标图
  - 2.2 年龄/年收入/消费分数的分布
  - 2.3 年龄/年收入/消费分数的柱状图
  - 2.4 不同性别用户占比
  - 2.5 两两特征之间的关系
  - 2.6 两两特征之间的分布
四、K-means聚类分析
- 0.手肘法简介
- 1.基于年龄和消费分数的聚类
- 2.基于年收入和消费分数的聚类
- 3.基于年龄、收入和消费分数的聚类
五、小结

一、背景

1.项目描述

你拥有一个超市(Supermarket Mall)。通过会员卡，你用有一些关于你的客户的基本数据，如客户ID，年龄，性别，年收入和消费分数。
消费分数是根据客户行为和购买数据等定义的参数分配给客户的。
问题陈述：你拥有这个商场。想要了解怎么样的顾客可以很容易地聚集在一起(目标顾客)，以便可以给营销团队以灵感并相应地计划策略。

2.数据描述

字段名	描述
CustomerID	客户编号
Gender	性别
Age	年龄
Annual Income (k$)	年收入，单位为千美元
Spending Score (1-100)	消费分数，范围在1~100

二、相关模块

import numpy as np
import pandas as pd

from pandas import plotting
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objs as go
import plotly.offline as py

from sklearn.cluster import KMeans

import warnings
warnings.filterwarnings('ignore')

三、数据可视化

1.数据读取

io = '.../Mall_Customers.csv'
df = pd.DataFrame(pd.read_csv(io))
# 修改列名
df.rename(columns={'Annual Income (k$)': 'Annual Income', 'Spending Score (1-100)': 'Spending Score'}, inplace=True)
print(df.head())
print(df.describe())
print(df.shape)
print(df.count())
print(df.dtypes)

输出如下。

   CustomerID  Gender  Age  Annual Income  Spending Score
0           1    Male   19             15              39
1           2    Male   21             15              81
2           3  Female   20             16               6
3           4  Female   23             16              77
4           5  Female   31             17              40
-----------------------------------------------------------------
       CustomerID         Age  Annual Income  Spending Score
count  200.000000  200.000000     200.000000      200.000000
mean   100.500000   38.850000      60.560000       50.200000
std     57.879185   13.969007      26.264721       25.823522
min      1.000000   18.000000      15.000000        1.000000
25%     50.750000   28.750000      41.500000       34.750000
50%    100.500000   36.000000      61.500000       50.000000
75%    150.250000   49.000000      78.000000       73.000000
max    200.000000   70.000000     137.000000       99.000000
-----------------------------------------------------------------
(200, 5)
CustomerID        200
Gender            200
Age               200
Annual Income     200
Spending Score    200
dtype: int64
-----------------------------------------------------------------
CustomerID         int64
Gender            object
Age                int64
Annual Income      int64
Spending Score     int64
dtype: object

2.数据可视化

2.1 平行坐标图

平行坐标图(Parallel coordinates plot)用于多元数据的可视化，将高维数据的各个属性(变量)用一系列相互平行的坐标轴表示，纵向是属性值，横向是属性类别。
若在某个属性上相同颜色折线较为集中，不同颜色有一定的间距，则说明该属性对于预标签类别判定有较大的帮助。
若某个属性上线条混乱，颜色混杂，则可能该属性对于标签类别判定没有价值。

plotting.parallel_coordinates(df.drop('CustomerID', axis=1), 'Gender')
plt.title('平行坐标图', fontsize=12)
plt.grid(linestyle='-.')
plt.show()

2.2 年龄/年收入/消费分数的分布

这里用了直方图和核密度图。（注：核密度图看的是(x）

sns.set(palette="muted", color_codes=True) # seaborn样式 # 配置 plt.rcParams['axes.unicode_minus'] = False # 解决无法显示符号的问题 sns.set(font='SimHei', font_scale=0.8) # 解决Seaborn中文显示问题 # 绘图 plt.figure(1, figsize=(13, 6)) n = 0 for x in ['Age', 'Annual Income', 'Spending Score']: n += 1 plt.subplot(1, 3, n) plt.subplots_adjust(hspace=0.5, wspace=0.5) sns.distplot(df[x], bins=16, kde=True) # kde 密度曲线 plt.title('{}分布情况'.format(x)) plt.tight_layout() plt.show()

如下图。从左到右分别是年龄、年收入和消费能力的分布情况。发现：

年龄方面：[30，36]范围的客户是最多的另外，在[20，21]也不少，但是60岁以上的老年人是最不常来消费的。

年收入方面：大部分的客户集中在[53,83]范围里，在15以下和105以上的很少。

消费分数方面：消费分数在[40,55]的占了大多数，在[70,80]范围的次之。

2.3 年龄/年收入/消费分数的柱状图

这里使用的是柱状图，和直方图不同的是： $x$ 轴上的每一个刻度对应的是一个离散点，而不是一个区间。

plt.figure(1, figsize=(13, 6)) k = 0 for x in ['Age', 'Annual Income', 'Spending Score']: k += 1 plt.subplot(3, 1, k) plt.subplots_adjust(hspace=0.5, wspace=0.5) sns.countplot(df[x], palette='rainbow', alpha=0.8) plt.title('{}分布情况'.format(x)) plt.tight_layout() plt.show()

如下图。从上到下分别是年龄、年收入和消费能力的柱状图。发现：

年龄方面：[27,40]范围的客户居多。其中，32岁的客户是商城的常客，55,、56、64、69岁的用户却很少。总的来说，年龄较大的人群较少，年龄较少的人群较多。

年收入方面：年收入在54和78的频数是最多的。其他在各个收入的客户频数看起来相差不太大。

消费分数方面：消费分数在42的客户数是最多的，56次之。有的客户的分数甚至达到了99，而分数为1的客户也存在，没有分数为0的客户。

2.4 不同性别用户占比

df_gender_c = df['Gender'].value_counts() p_lables = ['Female', 'Male'] p_color = ['lightcoral', 'lightskyblue'] p_explode = [0, 0.05] # 绘图 plt.pie(df_gender_c, labels=p_lables, colors=p_color, explode=p_explode, shadow=True, autopct='%.2f%%') plt.axis('off') plt.legend() plt.show()

如下饼图。女性以56％的份额居于领先地位，而男性则占整体的44％。特别是当男性人口相对高于女性时，这是一个比较大的差距。

2.5 两两特征之间的关系

# df_a_a_s = df.drop(['CustomerID'], axis=1) sns.pairplot(df, vars=['Age', 'Annual Income', 'Spending Score'], hue='Gender', aspect=1.5, kind='reg') plt.show()

pairplot主要展现的是属性(变量)两两之间的关系（线性或非线性，有无较为明显的相关关系）。注意，我对男、女性的数据点进行了区分（但是感觉数据在性别上的差异不大呀？）。如下组图所示：

对角线上的图是各个属性的核密度分布图。

非对角线的图是两个不同属性之间的相关图。看得出年收入和消费能力之间有较为明显的相关关系。

将 kind 参数设置为 reg 会为非对角线上的散点图拟合出一条回归直线，更直观地显示变量之间的关系。

2.6 两两特征之间的分布

# 根据分类变量分组绘制一个纵向的增强箱型图 plt.rcParams['axes.unicode_minus'] = False # 解决无法显示符号的问题 sns.set(font='SimHei', font_scale=0.8) # 解决Seaborn中文显示问题 sns.boxenplot(df['Gender'], df['Spending Score'], palette='Blues') # x:设置分组统计字段，y:数据分布统计字段 sns.swarmplot(x=df['Gender'], y=df['Spending Score'], data=df, palette='dark', alpha=0.5, size=6) plt.title('男女性的消费能力比较', fontsize=12) plt.show()

如下图使用了增强箱图，可以通过绘制更多的分位数来提供数据分布的信息，适用于大数据。

男性的消费得分集中在[25，70]，而女性的消费得分集中在[35，75]，一定程度上说明了女性在购物方面表现得比男性好。

plt.rcParams['axes.unicode_minus'] = False # 解决无法显示符号的问题 sns.set(font='SimHei', font_scale=0.8) # 解决Seaborn中文显示问题 m = 0 for feature in ['Age', 'Annual Income', 'Spending Score']: m += 1 plt.subplot(1, 3, m) plt.subplots_adjust(hspace=0.3, wspace=0.3) sns.violinplot(x=feature, y='Gender', data=df, palette='Blues') sns.swarmplot(x=feature, y='Gender', data=df, palette='dark', alpha=0.5, size=4) plt.ylabel('性别' if m == 1 else '') plt.show()

其实，下面这一部分也包含了上面的信息。

年龄方面：男性分布较为均匀，20多岁的比较多；女性的年龄大部分集中在20+~30+这个范围，整体上较为年轻？

收入方面：男性略胜一筹

四、K-means聚类分析

0.手肘法简介

核心指标

误差平方和(sum of the squared errors，SSE)是所有样本的聚类误差反映了聚类效果的好坏，公式如下： $SSE=\sum_{i=1}^{k} {\sum_{p \in C_i}^{} {\mid p-m_i \mid}^2}$

$C_i$ 是第 $i$ 个簇

$p$ 是 $C_i$ 中的数据点

$m_i$ 是 $C_i$ 的质心

核心思想

随着聚类数 $k$ 的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么 $S S E$ 会逐渐变小。

当 $k$ 小于真实聚类数时，由于 $k$ 的增大会大幅增加每个簇的聚合程度，故 $S S E$ 的下降幅度会很大。

当k到达真实聚类数时，再增加 $k$ 所得到的聚合程度回报会迅速变小，所以 $S S E$ 的下降幅度会骤减。然后随着 $k$ 值的继续增大而趋于平缓，也就是说 $S S E$ 和 $k$ 的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。

详情请看： https://www.jianshu.com/p/335b376174d4

1.基于年龄和消费分数的聚类

所需要的数据有‘Age’和‘Spending Score’。

df_a_sc = df[['Age', 'Spending Score']].values # 存放每次聚类结果的误差平方和 inertia1 = []

使用手肘法确定最合适的 $k$ 值。

for n in range(1, 11): # 构造聚类器 km1 = (KMeans(n_clusters=n, # 要分成的簇数，int类型，默认值为8 init='k-means++', # 初始化质心，k-means++是一种生成初始质心的算法 n_init=10, # 设置选择质心种子次数，默认为10次。返回质心最好的一次结果（好是指计算时长短） max_iter=300, # 每次迭代的最大次数 tol=0.0001, # 容忍的最小误差，当误差小于tol就会退出迭代 random_state=111, # 随机生成器的种子，和初始化中心有关 algorithm='elkan')) # 'full'是传统的K-Means算法，'elkan'是采用elkan K-Means算法 # 用训练数据拟合聚类器模型 km1.fit(df_a_sc) # 获取聚类标签 inertia1.append(km1.inertia_)

绘图确定 $k$ 值，这里将 $k$ 确定为4。

plt.figure(1, figsize=(15, 6)) plt.plot(np.arange(1, 11), inertia1, 'o') plt.plot(np.arange(1, 11), inertia1, '-', alpha=0.7) plt.title('手肘法图', fontsize=12) plt.xlabel('聚类数'), plt.ylabel('SSE') plt.grid(linestyle='-.') plt.show()

通过如下图，确定 $k$ =4。

确定 $k$ =4后。重新构建 $k$ =4的K-means模型，并且绘制聚类图。

km1_result = (KMeans(n_clusters=4, init='k-means++', n_init=10, max_iter=300, tol=0.0001, random_state=111, algorithm='elkan')) # 先fit()再predict()，一次性得到聚类预测之后的标签 y1_means = km1_result.fit_predict(df_a_sc) # 绘制结果图 plt.scatter(df_a_sc[y1_means == 0][:, 0], df_a_sc[y1_means == 0][:, 1], s=70, c='blue', label='1', alpha=0.6) plt.scatter(df_a_sc[y1_means == 1][:, 0], df_a_sc[y1_means == 1][:, 1], s=70, c='orange', label='2', alpha=0.6) plt.scatter(df_a_sc[y1_means == 2][:, 0], df_a_sc[y1_means == 2][:, 1], s=70, c='pink', label='3', alpha=0.6) plt.scatter(df_a_sc[y1_means == 3][:, 0], df_a_sc[y1_means == 3][:, 1], s=70, c='purple', label='4', alpha=0.6) plt.scatter(km1_result.cluster_centers_[:, 0], km1_result.cluster_centers_[:, 1], s=260, c='gold', label='质心') plt.title('聚类图(K=4)', fontsize=12) plt.xlabel('年收入(k$)') plt.ylabel('消费分数(1-100)') plt.legend() plt.grid(linestyle='-.') plt.show()

效果如下，基于年龄和消费能力这两个参数，可以将用户划分成4类。

2.基于年收入和消费分数的聚类

所需要的数据

df_ai_sc = df[['Annual Income', 'Spending Score']].values # 存放每次聚类结果的误差平方和 inertia2 = []

同理，使用手肘法确定合适的 $k$ 值。

for n in range(1, 11): # 构造聚类器 km2 = (KMeans(n_clusters=n, init='k-means++', n_init=10, max_iter=300, tol=0.0001, random_state=111, algorithm='elkan')) # 用训练数据拟合聚类器模型 km2.fit(df_ai_sc) # 获取聚类标签 inertia2.append(km2.inertia_) # 绘制手肘图确定K值 plt.figure(1, figsize=(15, 6)) plt.plot(np.arange(1, 11), inertia1, 'o') plt.plot(np.arange(1, 11), inertia1, '-', alpha=0.7) plt.title('手肘法图', fontsize=12) plt.xlabel('聚类数'), plt.ylabel('SSE') plt.grid(linestyle='-.') plt.show()

通过如下图，确定 $k$ =5。

确定 $k$ =5后。重新构建 $k$ =5的K-means模型，并且绘制聚类图

km2_result = (KMeans(n_clusters=5, init='k-means++', n_init=10, max_iter=300, tol=0.0001, random_state=111, algorithm='elkan')) # 先fit()再predict()，一次性得到聚类预测之后的标签 y2_means = km2_result.fit_predict(df_ai_sc) # 绘制结果图 plt.scatter(df_ai_sc[y2_means == 0][:, 0], df_ai_sc[y2_means == 0][:, 1], s=70, c='blue', label='1', alpha=0.6) plt.scatter(df_ai_sc[y2_means == 1][:, 0], df_ai_sc[y2_means == 1][:, 1], s=70, c='orange', label='2', alpha=0.6) plt.scatter(df_ai_sc[y2_means == 2][:, 0], df_ai_sc[y2_means == 2][:, 1], s=70, c='pink', label='3', alpha=0.6) plt.scatter(df_ai_sc[y2_means == 3][:, 0], df_ai_sc[y2_means == 3][:, 1], s=70, c='purple', label='4', alpha=0.6) plt.scatter(df_ai_sc[y2_means == 4][:, 0], df_ai_sc[y2_means == 4][:, 1], s=70, c='green', label='5', alpha=0.6) plt.scatter(km2_result.cluster_centers_[:, 0], km2_result.cluster_centers_[:, 1], s=260, c='gold', label='质心') plt.title('聚类图(K=5)', fontsize=12) plt.xlabel('年收入(k$)') plt.ylabel('消费分数(1-100)') plt.legend() plt.grid(linestyle='-.') plt.show()

效果如下，基于年收入和消费能力这两个参数，可以将用户划分成如下5类：

群体1 $\Rightarrow$ 目标用户：这类客户年收入高，而且高消费。

群体2 $\Rightarrow$ 普通用户：年收入与消费得分中等水平。

群体3 $\Rightarrow$ 高消费用户：年收入水平较低，但是却有较强烈的消费意愿，舍得花钱。

群体4 $\Rightarrow$ 节俭用户：年收入高但是消费意愿不强烈。

群体5 $\Rightarrow$ 谨慎用户：年收入和消费意愿都较低。

3.基于年龄、收入和消费分数的聚类

所需要的数据

df_a_ai_sc = df[['Age', 'Annual Income', 'Spending Score']].values

聚类， $k$ =5。

km3 = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=0) km3.fit(df_a_ai_sc)

绘图。

df['labels'] = km3.labels_ # 绘制3D图 trace1 = go.Scatter3d( x=df['Age'], y=df['Spending Score'], z=df['Annual Income'], mode='markers', marker=dict( color=df['labels'], size=10, line=dict( color=df['labels'], width=12 ), opacity=0.8 ) ) df_3dfid = [trace1] layout = go.Layout( margin=dict( l=0, r=0, b=0, t=0 ), scene=dict( xaxis=dict(title='年龄'), yaxis=dict(title='消费分数(1-100)'), zaxis=dict(title='年收入(k$)') ) ) fig = go.Figure(data=df_3dfid, layout=layout) py.offline.plot(fig)

效果如下。

五、小结

主要是为了记录下K-means学习过程，而且之前也参与了一个项目用到了K-means算法。

如何进行特征旋是一个需要考虑的问题，我这里尝试了三种不同的方案。然后，确定 $k$ 值是另一个重要的问题。我这个用了“手肘法”，但是可以配合“轮廓系数”综合判断。

还有许多地方不够详细。另外，如果有考虑不严谨的地方，欢迎批评指正！

PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
DeprecationWarning: 无效的转义序列‘\/‘解决方案数据科学智慧 linux 运维服务器 Python
DeprecationWarning:无效的转义序列’/'解决方案在Python编程中，您可能会遇到"DeprecationWarning:无效的转义序列’/'"的警告消息。这个警告通常在您尝试使用无效的转义序列时出现，例如在正则表达式或字符串中。本文将为您提供解决方案，以解决这个问题。首先，让我们了解一下转义序列的概念。在Python中，某些字符前面带有反斜杠（\），以表示特殊含义，例如换行符（
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
动物识别系统代码python_动物识别系统代码 weixin_39862794 动物识别系统代码python
简易动物识别专家系统源代码（调试无错！）#includevoidbirds(){inta;printf("**************************************\n");printf("1.长腿，长脖子，黑色，不会飞。\n");printf("2.不会飞，会游泳，黑色.\n");printf("3.善飞\n");printf("4.无上述特征\n");printf("****
Python深浅拷贝 Karl_zhujt Python python
文章目录1概述2数据类型2.1可变类型2.2不可变类型3深浅拷贝3.1浅拷贝3.2深拷贝4深浅拷贝对数据类型的影响4.1对于不可变类型的影响4.2对于可变类型的影响4.3总结5实现机制5.1copy5.2id6示例6.1普通赋值6.2浅拷贝可变类型6.3浅拷贝不可变类型6.4深拷贝可变类型6.5深拷贝不可变类型7注意事项1概述在Python中，可变类型和不可变类型的拷贝行为有所不同。理解它们的区别
基于 EMA12 指标结合 iTick 外汇报价 API 、股票报价API、指数报价API的量化策略编写与回测
iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数据支持。本文将详细介绍如何使用Python结合EMA12指标和iTick的报价API来构建一个简单的量化交易策略，并对该策略进行回测。1.引言在量化交易领域，技术指标是构建交易策略的重要基础。iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数
python动物识别系统(仅有识别功能) OnlySecondS
''@Time:2022/03/298:39@Author:11863@File:AIS_main.py@software:PyCharm'''rules={}#以字典形式存储#读取文件defreadRules():rulesFile=open("rules.txt","r",encoding='utf-8')forlineinrulesFile:#按行读取line=line.replace('I
深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python-modbustcp通信-plc读写张凯的工作室 python python
Python-modbustcp通信-plc读写1，功能码说明读取：%m对应READ_COILS线圈寄存器数值0和1%mw存单字节%mf浮点数%md双字节对应READ_HOLDING_REGISTERS保持寄存器写入单个写入线圈寄存器WRITE_SINGLE_COIL%m单个写入保持寄存器WRITE_SINGLE_REGISTER写入多个保持寄存器WRITE_MULTIPLE_REGISTERS写
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
Python点名器代码及打包教程羽落惊鸿TQ python 开发语言
接下来再写一个功能性齐全稍微复杂一点的Python点名器程序，在原简易版的基础上增加历史记录功能、支持多种名单格式（CSV/Excel）、增加点名统计功能，并详细说明了将该程序打包成exe可执行文件的方法，以下是源代码，仅供学习参考：importtkinterastkfromtkinterimportttk, messagebox, filedialogimportrandomimportcsvi
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

[Python] 用K-means聚类算法进行客户分群

目录

一、背景

1.项目描述

2.数据描述

二、相关模块

三、数据可视化

1.数据读取

2.数据可视化

2.1 平行坐标图

2.2 年龄/年收入/消费分数的分布

2.3 年龄/年收入/消费分数的柱状图

2.4 不同性别用户占比

2.5 两两特征之间的关系

2.6 两两特征之间的分布

四、K-means聚类分析

0.手肘法简介

1.基于年龄和消费分数的聚类

2.基于年收入和消费分数的聚类

3.基于年龄、收入和消费分数的聚类

五、小结

你可能感兴趣的:(机器学习,python,聚类)