发现你走远了

【机器学习】05. 聚类分析（代码注释，思路推导）

资源下载

拿来即用，所见即所得。
项目仓库：https://gitee.com/miao-zehao/machine-learning/tree/master

1. KMeans实现聚类

题目：基于MATLAB或者Python机器学习库Sklearn，对数据集testSet.txt中包含80个样本的数据实现聚类。

分析：很常规的读取数据然后fit训练即可，只需要注意数据的格式符合要求即可。格式如下：

对于函数的详细参数介绍我们在第三节具体介绍，这里就简单的处理一下。

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from  sklearn.cluster import KMeans
#读取数据
DFdata=pd.read_csv("testSet.csv")
data=DFdata.values#dataframe数据类型转为列表
# print(data)
#设置 matplotlib rc配置文件
matplotlib.rcParams['font.sans-serif'] = [u'SimHei'] # 用来设置字体样式以正常显示中文标签
matplotlib.rcParams['axes.unicode_minus'] = False # 设置为 Fasle 来解决负号的乱码问题

k = 3  # 假设聚类为 3 类，默认分为 8 个 簇
# 构建算法模型
km = KMeans(n_clusters=k) # n_clusters参数表示分成几个簇（此处k=3）
km.fit(data)

# 获取聚类后样本所属簇的对应编号（label_pred）
label_pred = km.labels_  # labels_属性表示每个点的分簇号，会得到一个关于簇编号的数组
centroids = km.cluster_centers_  #cluster_center 属性用来获取簇的质心点，得到一个关于质心的二维数组，形如[[x1,y1],[x2,y2],[x3,x3]]

# 未聚类前的数据分布图
plt.subplot(121)
plt.scatter(data[:, 0], data[:, 1], s=50)
plt.xlabel('x')
plt.ylabel('y')
plt.title("未聚类之前")
# wspace 两个子图之间保留的空间宽度
plt.subplots_adjust(wspace=0.5) # subplots_adjust（）用于调整边距和子图间距
# 聚类后的分布图
plt.subplot(122)
# c：表示颜色和色彩序列，此处与 cmap 颜色映射一起使用（cool是颜色映射值）s表示散点的的大小，marker表示标记样式（散点样式）
plt.scatter(data[:, 0], data[:, 1], c=label_pred, s=50, cmap='cool')
# 绘制质心点
plt.scatter(centroids[:,0],centroids[:,1],c='red',marker='o',s=100)
plt.xlabel('x')
plt.ylabel('y')
plt.title("K-Means算法聚类结果")
plt.savefig("1.K-Means实现聚类.png")
plt.show()

K-Means实现聚类效果图

2.分析不同的距离算法带来的影响

题目：2.采用不同的距离算法（曼哈顿距离、欧氏距离、切比雪夫距离、余弦距离）对数据集testSet.txt中包含80个样本的数据实现聚类，设置K=4，同时设置初始的簇中心保持一致；可视化不同的聚类结果。

分析：这里遇到了困难，查阅了相关资料后发现因为KMeans方法默认使用欧氏距离，切不可修改，没有提供参数修改，所以我使用了AgglomerativeClustering层次聚类法，但是只有曼哈顿距离、欧氏距离、余弦距离而没有切比雪夫距离。

此外，4个距离的模型在分为4类时的效果训练可视化效果居然完全一致·······数据量还是太小，区别不出不同距离方法的区别，所以我后来就改为了分为8类，看到了不同距离方法的效果。

AgglomerativeClustering文档说明

核心函数： km=AgglomerativeClustering(affinity=affinity,compute_full_tree=“auto”,n_clusters=k,linkage=“average”)

affinity ，默认：“欧几里得”用于计算链接的度量。可以是“euclidean”, “l1”, “l2”, “manhattan”, “cosine”, or ‘precomputed’
样本点之间距离计算方式，可以是euclidean(欧式距离), l1、 l2、manhattan(曼哈顿距离)、cosine(余弦距离)、precomputed(可以预先设定好距离)，如果参数linkage选择“ward”的时候只能使用euclidean。
compute_full_tree bool 或 ‘auto’ (可选)在 n_clusters 处尽早停止树的构建。如果集群的数量与样本数量相比不小，这对于减少计算时间很有用。此选项仅在指定连接矩阵时有用。还要注意，当改变集群的数量并使用缓存时，计算完整的树可能是有利的。
n_clusters 参数表示分成几个簇整数，默认=2要查找的集群数。
linkage : {“ward”, “complete”, “average”}，可选，默认：“ward” 会导致 affinity只能是euclidean。使用哪个链接标准。链接标准确定在观察集之间使用哪个距离。该算法将合并使该标准最小化的集群对。
- ward 最小化被合并的集群的方差。
- average 平均值使用两组每个观测值的距离平均值。
- complete完整或最大链接使用两组所有观测值之间的最大距离。

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from  sklearn.cluster import AgglomerativeClustering
#读取数据
DFdata=pd.read_csv("testSet.csv")
data=DFdata.values#dataframe数据类型转为列表

#设置 matplotlib rc配置文件
matplotlib.rcParams['font.sans-serif'] = [u'SimHei'] # 用来设置字体样式以正常显示中文标签
matplotlib.rcParams['axes.unicode_minus'] = False # 设置为 Fasle 来解决负号的乱码问题

#affinity 距离算法参数
#name 距离算法名字
def myTest(affinity,name):
    k = 4  # 假设聚类为 4 类.
    k = 8  #4个距离的模型在分为4类时的效果训练可视化效果居然完全一致·······数据量还是太小，区别不出不同距离方法的区别，所以我后来就改为了分为8类，看到了不同距离方法的效果。
    # 构建算法模型
    km = AgglomerativeClustering(affinity=affinity,compute_full_tree="auto",n_clusters=k,linkage="average")

    #- affinity ，默认：“欧几里得”用于计算链接的度量。可以是“euclidean”, “l1”, “l2”, “manhattan”, “cosine”, or ‘precomputed’
    #样本点之间距离计算方式，可以是euclidean(欧式距离), l1、 l2、manhattan(曼哈顿距离)、cosine(余弦距离)、precomputed(可以预先设定好距离)，如果参数linkage选择“ward”的时候只能使用euclidean。
    #- compute_full_tree bool 或 'auto' (可选)在 n_clusters 处尽早停止树的构建。如果集群的数量与样本数量相比不小，这对于减少计算时间很有用。此选项仅在指定连接矩阵时有用。还要注意，当改变集群的数量并使用缓存时，计算完整的树可能是有利的。
    #- n_clusters 参数表示分成几个簇整数，默认=2要查找的集群数。
    #- linkage : {“ward”, “complete”, “average”}，可选，默认：“ward” 会导致 affinity只能是euclidean
      #使用哪个链接标准。链接标准确定在观察集之间使用哪个距离。该算法将合并使该标准最小化的集群对。
      #- ward 最小化被合并的集群的方差。
      #- average 平均值使用两组每个观测值的距离平均值。
      #- complete完整或最大链接使用两组所有观测值之间的最大距离。
    km.fit(data)

    # 获取聚类后样本所属簇的对应编号（label_pred）
    label_pred = km.labels_  # labels_属性表示每个点的分簇号，会得到一个关于簇编号的数组

    # 未聚类前的数据分布图
    plt.subplot(121)
    plt.scatter(data[:, 0], data[:, 1], s=50)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("未聚类之前")
    # wspace 两个子图之间保留的空间宽度
    plt.subplots_adjust(wspace=0.5) # subplots_adjust（）用于调整边距和子图间距
    # 聚类后的分布图
    plt.subplot(122)
    # c：表示颜色和色彩序列，此处与 cmap 颜色映射一起使用（cool是颜色映射值）s表示散点的的大小，marker表示标记样式（散点样式）
    plt.scatter(data[:, 0], data[:, 1], c=label_pred, s=50, cmap='cool')

    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("2.距离算法"+name)
    plt.savefig("2/2.距离算法"+name+".png")
    plt.show()
myTest("euclidean","欧式距离")
myTest("manhattan","曼哈顿距离")

#切比雪夫距离 没有内置的···用l1代替
myTest("l1","l1")

myTest("cosine","余弦距离")

分成4类的效果图

2.距离算法曼哈顿距离
2.距离算法欧式距离
2.距离算法余弦距离
2.距离算法l1

分成8类的效果图

2.距离算法曼哈顿距离
2.距离算法欧式距离
2.距离算法余弦距离
2.距离算法l1

3.分析不同的K值带来的影响

题目：3.设置初始的簇中心一致，采用不同的K值对数据集进行聚类分析，可视化聚类结果并查看不同的K值对聚类结果的影响。

KMeans文档说明

核心函数：km = KMeans(n_clusters=k,random_state=0)

n_clusters：int，可选，默认值：8 要形成的簇数以及要生成的质心数。
max_iter：整数，默认值：300 k - means 算法单次运行的最大迭代次数。
n_init：整数，默认值：10使用不同质心种子运行 k - means算法的次数。就惯性而言，最终结果将是n_init连续运行的最佳输出。
init: {‘k-means++’, ‘random’ or an ndarray}初始化方法，默认为’k-means++’ ：以智能方式为k - means聚类选择初始聚类中心以加速收敛。
random_state：整数或 numpy.RandomState，可选用于初始化中心的生成器。如果给出一个整数，它会修复种子。默认为全局 numpy 随机数生成器。详细：int，默认 0

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from  sklearn.cluster import KMeans
#读取数据
DFdata=pd.read_csv("testSet.csv")
data=DFdata.values#dataframe数据类型转为列表
# print(data)
#设置 matplotlib rc配置文件
matplotlib.rcParams['font.sans-serif'] = [u'SimHei'] # 用来设置字体样式以正常显示中文标签
matplotlib.rcParams['axes.unicode_minus'] = False # 设置为 Fasle 来解决负号的乱码问题

k = 3  # 假设聚类为 3 类，默认分为 8 个 簇

def myTest(k):
    # 构建算法模型
    km = KMeans(n_clusters=k,random_state=0) # n_clusters参数表示分成几个簇（此处k=3）
    #- n_clusters：int，可选，默认值：8 要形成的簇数以及要生成的质心数。
    #- max_iter：整数，默认值：300 k - means 算法单次运行的最大迭代次数。
    #- n_init：整数，默认值：10使用不同质心种子运行 k - means算法的次数。就惯性而言，最终结果将是n_init连续运行的最佳输出。
    #- init: {'k-means++', 'random' or an ndarray}初始化方法，默认为'k-means++' ：以智能方式为k - means聚类选择初始聚类中心以加速收敛。
    #- random_state：整数或 numpy.RandomState，可选用于初始化中心的生成器。如果给出一个整数，它会修复种子。默认为全局 numpy 随机数生成器。详细：int，默认 0

    km.fit(data)

    # 获取聚类后样本所属簇的对应编号（label_pred）
    label_pred = km.labels_  # labels_属性表示每个点的分簇号，会得到一个关于簇编号的数组
    centroids = km.cluster_centers_  #cluster_center 属性用来获取簇的质心点，得到一个关于质心的二维数组，形如[[x1,y1],[x2,y2],[x3,x3]]

    # 未聚类前的数据分布图
    plt.subplot(121)
    plt.scatter(data[:, 0], data[:, 1], s=50)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("未聚类之前")
    # wspace 两个子图之间保留的空间宽度
    plt.subplots_adjust(wspace=0.5) # subplots_adjust（）用于调整边距和子图间距
    # 聚类后的分布图
    plt.subplot(122)
    # c：表示颜色和色彩序列，此处与 cmap 颜色映射一起使用（cool是颜色映射值）s表示散点的的大小，marker表示标记样式（散点样式）
    plt.scatter(data[:, 0], data[:, 1], c=label_pred, s=50, cmap='cool')
    # 绘制质心点
    plt.scatter(centroids[:,0],centroids[:,1],c='red',marker='o',s=100)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("k={}  结果".format(k))
    plt.savefig("3/3.分析不同的K值带来的影响k={}.png".format(k))
    plt.show()
for k in range(4,9):
    myTest(k)

效果图

4.分析不同的初始簇中心带来的影响

题目：4.设置K=4，选取不同的初始簇中心进行5次对比实验，可视化每次的聚类结果，观察不同的初始值的选取对聚类效果的影响。

特别注意！ init=random random_state设置整数可以初始化中心

init: 设置为random结合random_state起到初始化中心的作用 {‘k-means++’, ‘random’ or an ndarray}初始化方法，默认为’k-means++’ ：以智能方式为k - means聚类选择初始聚类中心以加速收敛。

random_state：整数或 numpy.RandomState，可选用于初始化中心的生成器。如果给出一个整数，它会修复种子。默认为全局 numpy 随机数生成器。详细：int，默认 0

# @Time    : 2022/10/13 21:02
# @Author  : 南黎
# @FileName: 4.分析不同的初始簇中心带来的影响.py
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from  sklearn.cluster import KMeans
#读取数据
DFdata=pd.read_csv("testSet.csv")
data=DFdata.values#dataframe数据类型转为列表
# print(data)
#设置 matplotlib rc配置文件
matplotlib.rcParams['font.sans-serif'] = [u'SimHei'] # 用来设置字体样式以正常显示中文标签
matplotlib.rcParams['axes.unicode_minus'] = False # 设置为 Fasle 来解决负号的乱码问题

k = 8  # 假设聚类为 8 类，默认分为 8 个 簇

def myTest(random_state):
    # 构建算法模型
    km = KMeans(n_clusters=k,init="random",random_state=random_state) # n_clusters参数表示分成几个簇（此处k=3）
    # - n_clusters：int，可选，默认值：8 要形成的簇数以及要生成的质心数。
    # - max_iter：整数，默认值：300 k - means 算法单次运行的最大迭代次数。
    # - n_init：整数，默认值：10使用不同质心种子运行 k - means算法的次数。就惯性而言，最终结果将是n_init连续运行的最佳输出。
    # - init: 设置为random结合random_state起到初始化中心的作用 {'k-means++', 'random' or an ndarray}初始化方法，默认为'k-means++' ：以智能方式为k - means聚类选择初始聚类中心以加速收敛。
    # - random_state：整数或 numpy.RandomState，可选用于初始化中心的生成器。如果给出一个整数，它会修复种子。默认为全局 numpy 随机数生成器。详细：int，默认 0

    km.fit(data)

    # 获取聚类后样本所属簇的对应编号（label_pred）
    label_pred = km.labels_  # labels_属性表示每个点的分簇号，会得到一个关于簇编号的数组
    centroids = km.cluster_centers_  #cluster_center 属性用来获取簇的质心点，得到一个关于质心的二维数组，形如[[x1,y1],[x2,y2],[x3,x3]]

    # 未聚类前的数据分布图
    plt.subplot(121)
    plt.scatter(data[:, 0], data[:, 1], s=50)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("未聚类之前")
    # wspace 两个子图之间保留的空间宽度
    plt.subplots_adjust(wspace=0.5) # subplots_adjust（）用于调整边距和子图间距
    # 聚类后的分布图
    plt.subplot(122)
    # c：表示颜色和色彩序列，此处与 cmap 颜色映射一起使用（cool是颜色映射值）s表示散点的的大小，marker表示标记样式（散点样式）
    plt.scatter(data[:, 0], data[:, 1], c=label_pred, s=50, cmap='cool')
    # 绘制质心点
    plt.scatter(centroids[:,0],centroids[:,1],c='red',marker='o',s=100)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title("random_state={}  结果".format(random_state))
    plt.savefig("4/4.分析不同的初始簇中心带来的影响random_state={}.png".format(random_state))
    plt.show()
for random_state in range(1000,6000,1000):
    myTest(random_state)

分析图

可以很明显的发现质心点发生了明显的偏移变化。（注意，k=8时比较明显，k=4的话完全没有变化，是一模一样的效果）

优点
K-Means聚类算法的优点主要集中在:
1.算法快速、简单;
2.对大数据集有较高的效率并且是可伸缩性的;
3.时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目
缺点
① 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的
② 在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。
③ 从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围。

总结

大家喜欢的话，给个，点个关注！给大家分享更多有趣好玩的python机器学习知识！

发现你走远了@mzh原创作品，转载必须标注原文链接

Crated：2022-9-23

欢迎关注『机器学习』系列，持续更新中
欢迎关注『机器学习』系列，持续更新中
【机器学习】01. 波士顿房价为例子学习线性回归
【机器学习】02. 使用sklearn库牛顿化、正则化的逻辑回归
【机器学习】03. 支持向量机SVM库进行可视化分类
【更多内容敬请期待】

python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟