我是疯子喽

机器学习--聚类算法（无监督学习）--K-Menas/BIRCH/CURE/DBSCAN/MDCA算法理论

一聚类算法概述

1 聚类的概念

2 聚类算法的评价指标

1）轮廓系数（无需目标属性的评价指标）

二基于划分的聚类算法（K-Means）

1 K-Means算法

1）算法流程

2）算法的优缺点

2 K-Means算法的优化算法

1）K-Medioms（K-中值聚类，用于解决异常数据敏感问题）

2）二分K-Means（弱化初始化簇心的问题，但是依然随机选择簇心）

3）K-Means++算法（弱化初始簇心且不再随机选择簇心，但是簇心之间产生内在有序性）

4）K-Means||（弱化初始簇心且簇心不在具有内在有序性，具有很好的扩展性）

5）Canopy算法（是一种粗粒度的聚类算法，能选择出k个聚簇中心）

3 Mini-Batch K-Means算法

1）算法流程

2）算法效果

三基于层次的聚类算法

1 算法概念

2 传统的基于层次的聚类算法（不适合大规模数据集，算法效率低，不推荐使用）

1）凝聚的层次聚类算法（AGNES算法，采用自底向上的策略）

2）分裂的层次聚类算法（DIANA算法，采用自顶而下的策略）

3 传统基于层次的聚类算法的优化算法

1）聚类特征树（Cluster-Feature Tree，不推荐使用）

2）平衡迭代削减聚类算法（BIRCH算法，推荐使用）

3）使用代表点的聚类算法（CURE算法，本质上就是AGNES算法，不推荐使用）

四基于密度的聚类算法

1 算法概念

2 密度相连点的最大集和聚类算法（DBSCAN，推荐使用）

1）相关概念

2）算法流程

3 密度最大值的聚类算法（MDCA，不推荐使用）

1）算法相关概念

2）算法流程

五基于谱图的聚类算法（不推荐使用）

六高斯混合聚类（GMM）

一聚类算法概述

1 聚类的概念

给定数据集（仅有特征属性，无目标属性），依据样本之间的特征属性，将样本聚类为不同聚簇（簇），从而实现簇内样本相异度低，簇间样本相异度高

2 聚类算法的评价指标

1）轮廓系数（无需目标属性的评价指标）

第一步：簇内不相似度（ $a_{i}$ ）

计算当前簇中样本i到簇内所有样本的平均距离 $a_{i}$ ， $a_{i}$ 越大代表样本i与当前簇的不相似度越高

第二步：簇间不相似度（ $b_{i}$ ）

计算当前簇中样本i到其他簇所有样本的平均距离，并确定最小平均距离 $b_{i}=min\left \{ b_{i1},b_{i2},...,b_{ik}\right \}$

第三步： $s_{i}$

$s_{i}=\frac{b_{i}-a_{i}}{max\left \{ a_{i},b_{i} \right \}}\Rightarrow \left\{\begin{matrix} 1-\frac{a_{i}}{b_{i}},a_{i}<b_{i}\\ 0,a_{i}=b_{i} \\\frac{a_{i}}{b_{i}}-1 ,a_{i}>b_{i} \end{matrix}\right.$

第四步：轮廓系数（假定样本为m个）

$s=\frac{1}{m}\sum_{i=1}^{m}s_{i}$

注意：

第一点：轮廓系数 $s\subseteq [-1,1]$
第二点：轮廓系数越接近1，表示聚簇越合理，轮廓系数越接近-1，表示聚簇越不合理，轮廓系数越接近0，表示应该在聚簇边界

二基于划分的聚类算法（K-Means）

1 K-Means算法

1）算法流程

第一步：初始化k个簇心

初始化k个簇心（ $a_{1},a_{2},...,a_{k}$ ），每个聚簇的样本数量，记作 $N_{1},N_{2},...,N_{k}$

第二步：目标函数（相异度度量采用欧式距离）

$J(a_{1},a_{2},...,a_{k})=\frac{1}{2}\sum_{j=1}^{k}\sum_{i=1}^{N_{j}}(x^{(i)}-a_{j})^{2}$

第三步：更新簇心（簇内样本的平均值）

$\frac{\partial J(a_{1},a_{2},...,a_{k})}{\partial a_{j}}=\sum _{i=1}^{N_{j}}(a_{i}-x^{(i)})=0\Rightarrow a_{i}=\frac{1}{N_{j}}\sum _{i=1}^{N_{j}}x^{(i)}$

第四步：计算样本 $X=\left \{ x^{(i)}|i=1,2,...,m \right \}$ 到K个簇心的距离，划分到最小距离的簇心聚簇中

第五步：迭代进行更新簇心与重新划分聚簇样本，直到满足中止条件

注意：中止条件

第一点：达到最大迭代次数
第二点：簇心变化收敛： $a_{j}^{m}-a_{j}^{m-1}\overset{k}{\rightarrow }0$
第三点：簇心数量

2）算法的优缺点

第一点：优点

理解简单，聚类效果不错
处理大数据集的时候，该算法保证较好的伸缩性和高效率
当簇近似凸状簇（高斯簇）的时候，聚类效果很不错

第二点：缺点

k值需要事先给定，不同的k值导致不同的聚类效果
簇心是初始化随机给定的，不同的初始化簇心会导致不同的聚类效果
对异常数据敏感
对于非凸型簇，聚类效果不好

2 K-Means算法的优化算法

1）K-Medioms（K-中值聚类，用于解决异常数据敏感问题）

算法流程同K-Means，但是簇心更新采用中值，而非均值

2）二分K-Means（弱化初始化簇心的问题，但是依然随机选择簇心）

第一步：将所有样本作为一个簇，放入队列中

第二步：从队列中选择（距离误差和）最大的簇，使用K-Means算法划分为两个子簇，并添加队列中

$SSE=\sum_{i=1}^{N_{j}}(x^{(i)}-a_{j})^{2}$

第三步：迭代进行第二步，直到满足中止条件

3）K-Means++算法（弱化初始簇心且不再随机选择簇心，但是簇心之间产生内在有序性）

第一步：从数据集中任选一个样本作为簇心

第二步：计算每个样本到所有簇心的距离和，基于采用线性概率选择出下一个簇心

注意：基于采用线性概率

选择出前m个最大距离和，进行等概率随机选择，多数都为较大距离和的，而非最大距离，会导致当前簇心选择依赖前面的簇心选择

第三步：迭代进行第二步，直到找到K个聚类中心

4）K-Means||（弱化初始簇心且簇心不在具有内在有序性，具有很好的扩展性）

第一步：从数据中一次抽取k个样本

第二步：重复采样次（一般5次即可）

第三步：对个样本，进行K-Means算法，得到K个簇心

第四步：将K个簇心作为初始化簇心，对这个数据集进行K-Means算法

5）Canopy算法（是一种粗粒度的聚类算法，能选择出k个聚簇中心）

第一步：给定样本列表 $L=\left \{ x^{(1)},x^{(2)},...,x^{(m)}\right \}$ ,以及先验值 $r_{1},r_{2}(r_{1}>r_{2})$

第二步：从样本列表中获取一个节点，并计算节点到所有的簇心的距离，选择最小簇心距离 $D(p,a_{j})$

如果没有簇心，把作为新的簇心,，同时删除点，并重复该步骤

第三步：比较簇心距离 $D(p,a_{j})$ 与先验值 $r_{1},r_{2}$

第一点： $D(p,a_{j})>r_{1}$

形成一个新的聚簇中心，同时删除点

第二点： $r_{2}<D(p,a_{j})<r_{1}$

属于该聚簇，添加到该聚簇列表中（不删除点）

第三点： $D(p,a_{j})<r_{2}$

不仅属于该聚簇，而且距离簇心点非常近，平均值法更新簇心，同时删除点

第四步：迭代进行上述步骤，直到达到列表元素不在变化或者列表元素为0的时候

3 Mini-Batch K-Means算法

1）算法流程

第一步：抽取训练集部分数据（训练集小规模子集），使用K-Means算法构建具有k个聚簇中心的模型

第二步：继续抽取训练集部分数据，并添加到距离最近的簇心聚簇中

第四步，采用平均值法更新簇心

第五步：迭代进行第二步、第三步操作，直到满足中止条件（最大迭代次数，簇心变化收敛）

2）算法效果

采用小规模数据子集，使K-Means算法在大数据集上的训练时间减少，同时试图优化目标函数，其效果仅略差于K-Means算法

三基于层次的聚类算法

1 算法概念

依据样本的特征进行层次的分解，聚类为不同的聚簇，以实现簇内样本相异度低，簇间样本相异度高

2 传统的基于层次的聚类算法（不适合大规模数据集，算法效率低，不推荐使用）

1）凝聚的层次聚类算法（AGNES算法，采用自底向上的策略）

第一步：将每个样本当作一个簇心

第二步：依据某种准则两两合并簇心，得到一个新簇

第一点：采用簇间最小距离（SL距离）

两个聚簇中最近距离的两个样本距离

第二点：采用簇间最大距离（CL距离）

两个聚簇中最远距离的两个样本距离

第三点：采用簇间平均距离（AL距离）

两个聚簇中所有样本的平均距离或者中位值

第三步：反复进行两两合并操作，直到满足中止条件

2）分裂的层次聚类算法（DIANA算法，采用自顶而下的策略）

第一步：将所有样本当作一个聚簇

第二步：依据某种准则细分为更小的聚簇

欧式距离度量

第三步：反复进行细分操作，直到满足中止条件

3 传统基于层次的聚类算法的优化算法

1）聚类特征树（Cluster-Feature Tree，不推荐使用）

第一：重要概念

第一点：每个节点都是采用聚类特征表示，聚类特征采用三元组表示

N：每个节点的样本数量

LS：每个节点中样本对应特征维度上的累计加和

SS：每个节点中样本对应特征维度的平方累计加和

第二点：父节点的聚类特征CF一定等于其所有子结点的聚类特征CF之和
第三点：重要超参：

L：内部节点中聚类特征CF最大数量

B：叶子节点中聚类特征CF最大数量（一般认为L=B）

T：聚类特征以簇心中心的最大距离

第二：树的构建

第一步：初始状态，CF-Tree为Null，无任何样本
第二步：内部节点创建多个CF

读入第一个样本，记作CF1，并用三元组表示

读入第二个样本，判断其到CF1的簇心距离，小于T，划分到该聚簇特征CF1中并更新三元组，大于T，生成一个新的聚类特征CF2，用三元组表示

一直读入样本，直到满足分裂内部节点为止

第三步：分裂内部节点

读入新样本，距离所有聚类特征簇心距离都大于T，且聚类特征数量达到最大数量L，需要进行分裂该节点

计算该节点所有聚类特征CF的之间距离，选择最大距离，分裂两个子结点，分别放入这两个最大距离聚类特征

对于剩余聚类特征CF，放入距离最近的聚类特征CF的子结点中

第四步：继续读入新数据，迭代进行第一步和第二步操作，直到所有样本读入，停止构建聚类特征树
第五步：生成的聚类特征树，每个叶子节点表示一个聚簇

2）平衡迭代削减聚类算法（BIRCH算法，推荐使用）

第一点：将聚类特征树的三个超参，改成两个超参

使用分枝因子，取代内部节点或者叶子节点中最大聚类特征数（）
使用簇直径，取代簇心最大距离（）

注意：从而构建出具有两个参数的聚类特征树

第二点：算法流程同聚类特征数一样

第三点：优势与劣势

优势是适合大规模数据集，具有线性效率
劣势是不适合非凸型数据

3）使用代表点的聚类算法（CURE算法，本质上就是AGNES算法，不推荐使用）

第一步：将每个样本当作一个簇心

第二步：依据某种准则两两合并簇心，得到一个新簇

距离依然采用AGNES算法中SL/CL/AL距离，但是不计算所有样本，而是从簇中抽取固定数量且分布较好（靠近中心点）的样本点，并将其乘上收缩因子，使其更加靠近中心点，在采用AGNES算法中SL/CL/AL距离计算

第三步：反复进行两两合并操作，直到满足中止条件

注意：执行效率高，不仅可以处理凸型数据，还可以处理非凸型数据

四基于密度的聚类算法

1 算法概念

依据样本的特征进行密度大小判定，聚类为不同的聚簇，从而实现簇内相异度低，簇间相异度高

注意：其优势在于可以发现非凸型数据，可以克服噪音数据影响，但是 $\varepsilon$ 邻域度量依赖距离（高维度特征距离已经不重要），执行效率低

2 密度相连点的最大集和聚类算法（DBSCAN，推荐使用）

1）相关概念

第一点：核心原理

用一个点 $\varepsilon$ 邻域内样本数量衡量该点所在空间的密度，可以找出任意形状的数据，不受噪音数据影响

第二点：数学符号含义

的 $\varepsilon$ 邻域 $N_{\epsilon }(x)$

$N_{\epsilon }(x)=\left \{ x|y\subseteq X,dist(x,y)\leq \epsilon \right \}$ ，采用欧式距离

密度

$p(x)=|N_{\epsilon }(x)|$

阈值

定义核心点使用

核心点

点的 $p(x)\geq M$ ，记作点x为核心点；其中所有核心点的集合，记作 $X_{c}$

非核心点（边界点或者噪音点）

点的，记作点x为非核心点；其中所有非核心点的集合，记作 $X_{nc}$

边界点

点为非核心点，但是其 $\varepsilon$ 邻域存在核心点，记作点为边界点；其中所有的边界点的集合，记作 $X_{bd}$

噪音点：

点既不是核心点，也不是边界点，就是噪音点，记作是噪音点；其中所有的噪音点的集合，记作 $X_{noi}$

直接密度可达

点是核心点，点在点的 $\varepsilon$ 邻域内，称从点到点是直接密度可达的

密度可达

存在一个对象链 $p_{1},p_{2},...,p_{m}$ ，满足从 $p_{i-1}$ 到 $p_{i}$ 是直接密度可达的（ $p_{i-1}$ 一定是核心点），我们称从 $p_{1}$ 到 $p_{m}$ 密度可达

密度相连

存在一个对象，从到是密度可达的，且从到是密度可达的，称是密度相连的

或者从点到点是直接密度可达（密度可达），称是密度相连的

簇C

密度最大：所有满足密度相连的点

密度相连：同一个簇中，所有点都是密度相连的

2）算法流程

第一步：随机抽取样本，出现点的 $\varepsilon$ 邻域密度大于给定阈值，创建以点为核心的聚簇

第二步：寻找并合并点密度可达对象，直到没有新点满足条件

第三步：对剩余样本随机抽取，迭代进行第一步和第二步操作

第四步：抽取完所有样本，算法结束

注意：

不在簇内的样本或者样本过少的簇内样本，可以认为是噪音

仅有两个超参（ $\epsilon$ 邻域，M阈值）需要事先给定

3 密度最大值的聚类算法（MDCA，不推荐使用）

1）算法相关概念

第一点：核心概念

寻找最大密度对象所在的稠密区域

第二点：数学符号含义

密度（同DBSCAN算法的密度定义）

$p(x)=|N_{\epsilon }(x)|=|\left \{ x|y\sqsubseteq X,dist(x,y)\leq \epsilon \right \}|$

密度阈值 $density_{0}$ （超参）

点的密度大于等于 $density_{0}$ 时，认为属于一个比较固定的簇

点的密度小于等于 $density_{0}$ 时，暂时认为该点为噪音点

最大密度点： $p_{max}(x)$

$p_{max}(x)=\left \{ x|x\subseteq X,\forall y\subseteq X,density(x)\geq density(y) \right \}$

有序序列 $S_{p_{max}}(x)$ （从小到大排列）

$S_{p_{max}(x)}=\left \{ x_{1},x_{2},...,x_{m}|dist(x_{max},x_{1})\leq dist(x_{max},x_{2})\leq ...\leq dist(x_{max},x_{m})\right \}$

簇间距离：采用两个簇中最近样本的距离

$dist(C_{1},C_{2})=min\left \{ dist(p,q) \right \},p\subseteq C_{1},q\subseteq C_{2}$

簇间距离阈值： $dist_{0}$ （超参）

当两个簇的簇间距离小于给定簇间距离阈值时，两个簇进行合并操作

阈值：M（超参）

基本簇中最大样本数量

2）算法流程

第一步：划分基本簇

对于数据集而言：

第一点：计算出最大密度点（大于给定密度阈值），形成以最大密度点为核心的簇 $C_{i}$

第二点：根据距离公式得到有序序列 $S_{p_{max}(x)}$ ，对有序序列 $S_{p_{max}(x)}$ 中前M个节点，判断节点密度与密度阈值 $density_{0}$ 的大小节点密度大于密度阈值，则将该节点添加到簇 $C_{i}$ 中

对于剩下数据集（大于给定密度阈值）而言：

第一点：计算出最大密度点，形成以最大密度点为核心的簇 $C_{i+1}$

第二点：根据距离公式得到有序序列 $S_{p_{max}(x)}$ ，对有序序列 $S_{p_{max}(x)}$ 中前M个节点，判断节点密度与密度阈值 $density_{0}$ 的大小

节点密度大于密度阈值，则将该节点添加到簇 $C_{i+1}$ 中

迭代处理剩下数据集，直到数据集中最大密度点小于给定密度阈值，停止迭代

第二步：使用凝聚的层次聚类思想，合并较近的基本簇，得到最终簇

第一点：计算所有基本簇的簇间距离，两个簇的簇间距离小于等于给定簇间距离阈值 $dist_{0}$ ，合并两个簇
第二点：再次计算此时所有新簇的簇间距离，两个簇的簇间距离小于等于给定簇间距离阈值 $dist_{0}$ ，合并两个簇
第三点：迭代进行上述操作，直到所有簇的簇间距离均大于给定的簇间距离阈值 $dist_{0}$ ，结束迭代

第三步：处理剩下为被划分到基本簇的节点，划分到最近的簇中

常用的方式，计算剩下的样本点距离所有簇的距离，添加到最近距离的簇中

注意：该算法需要给定四个超参（ $\epsilon$ 邻域，密度阈值 $density_{0}$ ，簇间距离阈值 $dist_{0}$ ，基本簇最大样本数量）

五基于谱图的聚类算法（不推荐使用）

有时间便更新

六高斯混合模型的聚类算法（GMM）

该算法需要使用EM算法思想，接下来博客将单独介绍

Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
Java实现生日悖论的算法，计算至少有两个人生日相同的概率 YiWait java 算法
importjava.util.Random;publicclassBirthdayParadox{publicstaticvoidmain(String[]args){intn=23;//邀请的人数inttrials=1000000;//实验次数intcount=0;//至少有两个人生日相同的实验次数Randomrand=newRandom();for(inti=0;i
算法竞赛备赛——【数论】高精度 Aurora_wmroy 算法竞赛备赛算法 c++数据结构蓝桥杯
高精度高精度计算，也被称作大整数计算，运用了一些算法结构来支持更大整数间的运算（数字大小超过语言内建整型）。加法P1601A+BProblem（高精）-洛谷#includeusingnamespacestd;constintN=10100;inta[N],b[N],c[N];intinit(intx[]){//读入数返回位数strings;cin>>s;intl=s.size();for(inti
算法竞赛备赛——【数据结构】链表 Aurora_wmroy 算法竞赛备赛数据结构算法链表 c++蓝桥杯
链表原地逆置206.反转链表-力扣（LeetCode）classSolution{public:ListNode*reverseList(ListNode*head){//链表无头节点原地逆置ListNode*pre=head;ListNode*cur=NULL;ListNode*t=NULL;//t=head->next若head指向空链表会报错非法访问其他空间while(pre!=NULL){
啸叫抑制（AFS）从算法仿真到工程源码实现-第一节-效果演示 aflyingwolf_pomelo 语音信号处理算法人工智能
一、概述啸叫抑制算法也叫声反馈抑制，本专题我们讨论啸叫抑制算法的平台搭建，算法仿真和设备端的工程落地实现。完整记录一个扩声系统的搭建。更多资料和代码可以进入https://t.zsxq.com/qgmoN，同时欢迎大家提出宝贵的建议，以共同探讨学习。二、啸叫抑制算法视频演示啸叫抑制算法演示视频三、语谱图3.1产生啸叫效果3.2去啸叫后的效果四、总结这一节我们主要记录了啸叫抑制（去啸叫）算法的效果演
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

机器学习--聚类算法（无监督学习）--K-Menas/BIRCH/CURE/DBSCAN/MDCA算法理论

一 聚类算法概述

1 聚类的概念

2 聚类算法的评价指标

1）轮廓系数（无需目标属性的评价指标）

二 基于划分的聚类算法（K-Means）

1 K-Means算法

1）算法流程

2）算法的优缺点

2 K-Means算法的优化算法

1）K-Medioms（K-中值聚类，用于解决异常数据敏感问题）

2）二分K-Means（弱化初始化簇心的问题，但是依然随机选择簇心）

3）K-Means++算法（弱化初始簇心且不再随机选择簇心，但是簇心之间产生内在有序性）

4）K-Means||（弱化初始簇心且簇心不在具有内在有序性，具有很好的扩展性）

5）Canopy算法（是一种粗粒度的聚类算法，能选择出k个聚簇中心）

3 Mini-Batch K-Means算法

1）算法流程

2）算法效果

三 基于层次的聚类算法

1 算法概念

2 传统的基于层次的聚类算法（不适合大规模数据集，算法效率低，不推荐使用）

1）凝聚的层次聚类算法（AGNES算法，采用自底向上的策略）

2）分裂的层次聚类算法（DIANA算法，采用自顶而下的策略）

3 传统基于层次的聚类算法的优化算法

1）聚类特征树（Cluster-Feature Tree，不推荐使用）

2）平衡迭代削减聚类算法（BIRCH算法，推荐使用）

3）使用代表点的聚类算法（CURE算法，本质上就是AGNES算法，不推荐使用）

四 基于密度的聚类算法

1 算法概念

2 密度相连点的最大集和聚类算法（DBSCAN，推荐使用）

1）相关概念

2）算法流程

3 密度最大值的聚类算法（MDCA，不推荐使用）

1）算法相关概念

2）算法流程

五 基于谱图的聚类算法（不推荐使用）

六 高斯混合模型的聚类算法（GMM）

你可能感兴趣的:(机器学习,聚类,python,kmeans算法,数据挖掘)

一聚类算法概述

二基于划分的聚类算法（K-Means）

三基于层次的聚类算法

四基于密度的聚类算法

五基于谱图的聚类算法（不推荐使用）

六高斯混合模型的聚类算法（GMM）