dynmi

常见的简单的无监督学习算法总结

　　本文仅对常见的无监督学习算法进行了简单讲述，其他的如自动编码器，受限玻尔兹曼机用于无监督学习，神经网络用于无监督学习等未包括。同时虽然整体上分为了聚类和降维两大类，但实际上这两类并非完全正交，很多地方可以相互转化，还有一些变种的算法既有聚类功能又有降维功能，一些新出现的和尚在开发创造中的无监督学习算法正在打破聚类和降维的类别划分。另外因时间原因，可能有个别小错误，如有发现还望指出。

一.聚类(clustering)

1.k-均值聚类(k-means)

　　这是机器学习领域除了线性回归最简单的算法了。该算法用来对n维空间内的点根据欧式距离远近程度进行分类。

　　INPUT：

　　　　K(number of clusters)

　　　　Training set{x1,x2,x3,....xn} (xi belongs to R^n)

　　OUTPUT：

　　　　K个聚类中心

　　算法工作原理摘要：

自己手写的python实现K—means：

#簇数为k
#数据空间维度为n
#训练集元素数为m
def K_means_demo(k,n,m):
    clusters=np.random.randint(0,40,size=[k,n]) #随机生成聚类中心
    tr_set=np.random.randint(0,40,size=[m,n]) #因为是模拟，所以自己随机生成的数据集for iter in range(0,5):
            clu_asist=np.zeros(shape=[k,n],dtype=int)
            for i in range(0,m):  #遍历训练集内每个样本
                min=9999999
                owner=0
                for j in range(0,k): #遍历所有聚心找到最近的聚心owner
                    dis=0
                    for p in range(0,n):
                        abso =tr_set[i][p] - clusters[j][p]
                        dis+=abso*abso  #dis为第i个元素和第j个聚心的欧式距离的平方
                    if dis-min < 0:
                        min=dis
                        owner=j
                for p in range(0,n):    #渐进更新均值   
                    clu_asist[owner][p]+=(tr_set[i][p]-clu_asist[owner][p])//(p+1)
            clusters=clu_asist
　　return clusters

在上面的代码中我手动设定了迭代更新次数为5，因为我做的demo规模比较小，迭代几次便收敛了，而在实际使用中一般用( 迭代次数 || EarlyStop )作为迭代终止条件。

　　动画演示：

通读本算法，可以发现k-means对聚心初始值非常敏感，如果初始情况不好会震荡的。这里可以采取一些措施预判聚心大致要在哪个位置，然后直接将其初始化。

另外，关于收敛的判断，可以采取多种方法。比如使用代价函数，或者F-Measure和信息熵方法。

K-means优缺点分析：

- 优点：算法简单易实现；

- 缺点：需要用户事先指定类簇个数；聚类结果对初始类簇中心的选取较为敏感；容易陷入局部最优；只能发现球形类簇。

2.层次聚类(Hierarchical Clustering)

　　顾名思义，层次聚类就是一层一层地进行聚类。既可以由下向上对小的类别进行聚合（凝聚法），也可以由上向下对大的类别进行分割（分裂法）。在应用中，使用较多的是凝聚法。

　　INPUT：training_set D，聚类数目或者某个条件(一般是样本距离的阈值)

　　OUTPUT：聚类结果

　　凝聚法：

　　跟竞赛中经常出现的并查集问题略相似，凝聚法指的是先将每个样本当做一个类簇，然后依据某种规则合并这些初始的类簇，直到达到某种条件或者减少到设定的簇数。

　　在算法迭代中每次均选取类簇距离最小的两个类簇进行合并。关于类簇距离的计算表示方法主要有以下几种：

　　（1）取两个类中距离最小的两个样本的距离作为两个集合的距离

　　（2）取两个类中距离最大的两个样本的距离作为两个集合的距离

　　（3）计算两个集合中每两两点的距离并取平均值，这种方法要略费时

　　（4）比（3）轻松一些，取这些两两点距的中位数

　　（5）求每个集合中心点，然后以中心点代表集合来计算集合距离

　　（6）......

　　迭代会在簇数减少到设定数量时结束，当然，如果设定了阈值f，那么当存在两个距离小于f的集合时则会继续迭代直到不存在这样的两个集合。

　　分裂法：

　　首先将所有样本归类到一个簇，然后依据某种规则逐渐分裂，直到达到某种条件或者增加到设定的簇数。

　　（手写再拍照真不容易QAQ）

层次聚类和K-means作比较：

　　（1）K-means时间复杂度为O(N)，而层次聚类时间复杂度为O(N^2)，所以分层聚类不能很好地处理大批量数据，而k-means可以。

　　（2）K-means不允许嘈杂数据，而层次聚类可以直接使用嘈杂数据集进行聚类

　　（3）当聚类形状为超球形（如2D圆形，3D球形）时，k-means聚类效果更好。

3.基于密度聚类Mean Shift

　　mean shift这种基于核函数估计的爬山算法不仅可以用于聚类，也可用于图像分割与目标跟踪等。这个概念早在1975年就被Fukunaga等人提出，而后1998年Bradski将其用于人脸跟踪则使得其优势大大体现出来。我们这里只谈论作为聚类算法的mean shift。

　　　　什么是漂移向量？

　　给定n维空间内数据点集X与中心点x，并以D表示数据集中与中心点x距离小于半径h的点的集合，则漂移向量M_h表示为： M_h=E_xi_∈D[x_i-x] 。

　　　　什么是漂移操作？

　　计算得到漂移向量后将中心位置更新一下，使得中心位置始终处于力的平衡位置。更新公式为： x ← x + M_{h 。}

　　另外，mean shift用于聚类时一般不使用核函数，如果用了核函数，权重改变，就不是“均值”漂移了。

　　均值飘移算法实现过程：

　　　　1.在未被标记的点中随机选取一个点作为起始中心点center；

　　　　2.找出以center为中心半径为h的空间内所有的点，记作集合D，认为这些点归属于类簇c。同时将这些点属于这个类的概率加1，这个参数将用于最后步骤的分类；

　　　　3.计算D内数据点与中心点center的漂移向量M_h ；

　　　　4.进行漂移操作x ← x + M_h ；

　　　　5.重复步骤2.3.4直到迭代收敛，记下此时的center位置。在这一过程中遇到的点都归类到簇c；

　　　　6.如果收敛时当前簇c的center与其它已存在的簇c‘中心的距离小于阈值，则合并c和c'。否则，把c作为新的聚类，增加1类；

　　　　7.重复步骤1-6直到所有的数据点都被标记访问；

　　　　8.分类：根据每个类对每个点的访问频率，取频率最大的类作为当前点集的所属类。

　　shift mean跟k-means作比较，两者都用集合内点的均值进行中心点移动，不同的是shift mean可以自行决定类簇数。

4.基于密度聚类DBSCAN

　　DBSCAN：“深度学习的神经网络，比你们用了几十年的k-means不知道高到哪里去了，我跟他谈笑风生。” （手动滑稽）DBSCAN可能是聚类领域最迷的算法了，它可以发现任何形状的簇，而且实现简单易懂。至于是谁首先提出的我也不晓得了，就不给各位普及历史了emmm，以下是一段抄来的介绍：DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

　　INPUT：Training_set D，半径Eps，密度阈值MinPts

　　OUTPUT：类簇clusters

　　DBSCAN需要两个参数即扫描半径Eps与最小包含点数MinPts。扫描半径是最难选定的了，会对结果有较大影响。可以用k距离做大量试验来观察，找到突变点。一般很难一次性选准，还是要做大量实验。MinPts可以理解为标题中的“密度”，一般这个值都是偏小一些，然后进行多次尝试。根据这两个参数可将样本中的点分为三类：

　　　　<1>核点（core point）若样本的 $\varepsilon$ 邻域内至少包含了MinPts个样本，即 $N_{\varepsilon }(X_i)\geq MinPts$ ，则称样本点为核心点。

　　　　<2>边界点（Border point）若样本的 $\varepsilon$ 邻域内包含的样本数目小于MinPts，但是它在其他核心点的邻域内，则称样本点为边界点。

　　　　<3>噪音点（Noise）。既不是核心点也不是边界点的点。

　　伪代码：

（这一段copy自他人博客）
(1) 首先将数据集D中的所有对象标记为未处理状态  
(2) for（数据集D中每个对象p） do  
(3)    if （p已经归入某个簇或标记为噪声） then  
(4)         continue;  
(5)    else  
(6)         检查对象p的Eps邻域 NEps(p) ；  
(7)         if (NEps(p)包含的对象数小于MinPts) then  
(8)                  标记对象p为边界点或噪声点；  
(9)         else  
(10)                 标记对象p为核心点，并建立新簇C, 并将p邻域内所有点加入C  
(11)                 for (NEps(p)中所有尚未被处理的对象q)  do  
(12)                       检查其Eps邻域NEps(q)，若NEps(q)包含至少MinPts个对象，则将NEps(q)中未归入任何一个簇的对象加入C；  
(13)                 end for  
(14)        end if  
(15)    end if  
(16) end for

　　动画演示：

5.高斯混合模型(GMM)与EM

　　针对GMM，一般采用EM算法进行聚类。这里的“高斯”在二维时便是正态分布，高斯混合模型是对高斯模型进行简单的扩展，GMM使用多个高斯分布的组合来刻画数据分布。因为GMM含有隐变量a_k,所以要采用含有隐变量模型参数的极大似然估计法即EM算法。EM比前面所讲算法均要复杂。

　　直接求解极大似然函数极值对应的参数比较困难，因此采用迭代逐步近似极大似然函数。首先要获得似然函数L(θ)的一个下限，然后逐步极大化这个下限便可近似获得极大似然函数的极值以及对应的参数。

　　似然函数，其中Z是隐变量

　　根据Jensen不等式L(θ)⩾B(θ,θi) ，获得L(θ)

　　可见，每次迭代时最大化B(θ,θi)即可逐渐逼近似然函数极大值，进一步化简，极大化B(θ,θi)也就是极大化Q(θ,θi)

　　这里的Q函数便是整个EM算法的核心。其意义是logP(Y,Z|θ)

　　　　E-step：计算Q函数

　　　　M-step：求Q函数最大值，并得到相应参数θ

　　为防止落入局部最优，需要多次迭代。

　　算法流程：

　　因为没怎么用过这个算法，只是有所了解，所以抱歉没法给出更具体详细的实现与改进历史。有兴趣的话可以自行google

6.基于图论聚类

（没学这个，学完再给补上）

二.降维(demensionality reduction)

1.主成分分析(PCA)

　　它算是出现最多的降维算法了吧。goodfellow的《深度学习》中对PCA讲解太笼统了，可能很多人看不明白，下面我会尽量直白地说。

　　PCA在1901年由pearson提出，1933年hotelling对PCA做了改进推广。指的是将n维特征映射到k维上（k

　　下图是一个f：3D->2D的PCA演示

　　INPUT：原始维度n，目标维度k，无标签训练集D

　　OUTPUT：转换矩阵M

　　具体操作时可以采用特征值分解和奇异值分解两种手段，这里选取了特征值分解，奇异值分解下一个算法会讲到。

　　操作步骤：

　　<1>数据中心化处理。求D中所有样本的均值x_{average ，}并将D中每个样本减去x_average 得到数据集A

　　<2>求得A的协方差矩阵C

　　<3>求取矩阵C的特征值以及对应的特征向量

　　<4>对特征值按照由大到小顺序排列，选取其中前k大的，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵E

　　<5>将样本点投影到目标空间上，Target=E^T * A ；E^T便是要求的转换矩阵

　　关于为什么PCA要这样操作，为什么这样操作有效，可以参考以下三个理论：最大方差理论、最小错误理论和坐标轴相关度理论。

　　讨论与总结：

　　PCA技术一大优点与特色是：它完全没有参数限制。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关。

　　PCA可以用来进行数据压缩，例如100维的向量最后可以用10维来表示，那么压缩率为90%。另外图像处理领域的KL变换使用PCA做图像压缩，人脸检测和匹配。有一个基于PCA实现的特征人脸分析算法，感兴趣的朋友可以查查看。

2.独立成分分析(ICA)

　　独立成分分析并不算严格意义上的降维算法，但它和PCA有着千丝万缕的联系，所以将它放在了PCA后面简单介绍一下。

　　首先看一个经典的鸡尾酒宴会问题（cocktail party problem）。假设在party中有n个人，他们可以同时说话，我们也在房间中一些角落里共放置了n个microphone用来记录声音。宴会过后，我们从n个麦克风中得到了一组数据，i表示采样的时间顺序，也就是说共采集到了m组n维的样本。我们的目标是单单从这m组采样数据中分辨出每个人说话的信号。

　　细化一下，有n个信号源，，每一维都是一个人的声音信号，每个人发出的声音信号独立。A是一个未知的混合矩阵（mixing matrix），用来组合叠加信号s，那么，其中x 和s均是矩阵而非向量。表示成图就是：

　　的每个分量都由的分量线性表示。A和s都是未知的，x是已知的，我们要根据x来推出s。也就是进行盲信号分离。

　　令，那么

　　将W表示成

　　其中，其实就是将写成行向量形式。那么得到：

　　迭代求出W，便可得到来还原出原始信号。

　下面是一个实例：

　　　　信号还原结果：

3.奇异值分解(SVD)

　　关于奇异值分解还是有点感想，国内的大学教育是真的烂。二本野鸡学校就不说了，只说双一流院校。相当一部分数量的大学老师不知道是有意识的水课还是真的水平达不到。讲的东西肤浅，关于本质丝毫不涉及。关于这个东西怎么来的，谁提出的，这个人怎么得到这样的思路的，大多数老师根本不会给你讲，（这些我的一些好的高中老师都会给学生讲，庆幸遇到了几位这样的老师，真是万分感激），抑或形而上学，放卫星乱吹来消耗时间混过这节课。这个现象不仅出现在理工科，文科似乎更严重。当然不否认还是有一批认真负责的老师，但绝对是少数了。大一上学期学过线性代数这门课，课堂上对于线性代数很多理论的由来与应用只字不提，搞得我TM对这门课一头雾水，碍于学分还是去了几次。虽然知道线性代数很重要，但我确实不喜欢这种课堂，难道为了拿那可怜的绩点就要忍受这种对高等教育的亵渎吗？还记得钱老临终前握着温总理的手问“为什么我们的学校总是培养不出杰出的人才？”，在这个汇聚了社会最优资源的地方尚且如此，更别提其他的了。

4.t-分布领域嵌入式算法(t-SNE)

　　第一次见到是在斯坦福cs231的课上，当时那位前辈语速奇快，跟《社交网络》里扎克伯格语速有得一拼。。。。

　　t-SNE的前身是2002年提出的SNE算法，2008年Laurens van der Maaten 和 Geoffrey Hinton在SNE基础上又提出t-SNE算法。作为一种非线性降维算法，非常适用于高维数据降到2-3维，进行可视化。日常工作中，涉及到数据可视化的时候一般都会想到去使用这个工具，因此在图像领域应用较多。另外在NLP，基因组数据和语音处理领域也应用广泛。 t-SNE太强了QAQ（再次手动滑稽）。时间复杂度为O(N^2)。

　　t-SNE首先将距离转换为条件概率来表达点与点之间的相似度，距离通过欧式距离算得，S( , )表示求之间的欧式距离。计算高维原始数据与降维后数据的公式如下：

　　计算完X数据之间的的概率P( )和Z数据之间的概率Q( | )之后，接下来就是我们的目的就是P和Q连个分布尽可能的接近，也就是要是如下公式的KL散度尽可能小：

　　t-SNE和PCA的简单比较：（以下摘自gaotihong的文章）

from sklearn.manifold import TSNE
from sklearn.datasets import load_iris,load_digits
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import os
 
digits = load_digits()
X_tsne = TSNE(n_components=2,random_state=33).fit_transform(digits.data)
X_pca = PCA(n_components=2).fit_transform(digits.data)
 
ckpt_dir="images"
if not os.path.exists(ckpt_dir):
    os.makedirs(ckpt_dir)
 
plt.figure(figsize=(10, 5))
plt.subplot(121)
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=digits.target,label="t-SNE")
plt.legend()
plt.subplot(122)
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=digits.target,label="PCA")
plt.legend()
plt.savefig('images/digits_tsne-pca.png', dpi=120)
plt.show()

　　实验结果：

　　若想进一步研究t-SNE，可参考：

　　（1）http://www.datakit.cn/blog/2017/02/05/t_sne_full.html#11%E5%9F%BA%E6%9C%AC%E5%8E%9F%E7%90%86

　　（2）Visualizing data using t-SNE， by Van Der Maaten L,Hinton G

数据操作与事务：确保数据一致性的关键 qcidyu 软件开发数据库规则
title:数据操作与事务：确保数据一致性的关键date:2025/2/11updated:2025/2/11author:cmdragonexcerpt:在现代数据管理中，事务处理是确保数据完整性和一致性的重要机制。本文将深入探讨事务的ACID特性、锁机制及其种类（行级锁与表级锁）以及事务隔离级别（READUNCOMMITTED、READCOMMITTED、REPEATABLEREAD、SERI
Java WebSocket与项目页面（通常是HTML + JavaScript）之间建立连接并传输数据 hh_fine java websocket html
JavaWebSocket与项目页面（通常是HTML+JavaScript）之间建立连接并传输数据1.创建JavaWebSocket服务器：使用JavaWebSocketAPI创建一个WebSocket服务器端点。2.在HTML页面中使用JavaScript连接WebSocket：通过JavaScript的WebSocketAPI与JavaWebSocket服务器建立连接。3.双向数据传输：实现服
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
SGM61230 同步降压转换器技术文档慎独yfs 电子元器件单片机嵌入式硬件
第一章概述SGM61230是一款宽输入电压范围（4.5V至28V）的同步降压转换器，可提供高达3A的输出电流。该器件集成功率开关和峰值电流模式控制补偿电路，采用6引脚TSOT-23封装，内置5ms软启动功能以抑制浪涌电流。关键特性：-**智能保护机制**：逐周期峰值电流限制、输出过压保护（OVP）、带自动恢复的热关断-**高效模式切换**：轻载时进入脉冲跳过模式（PSM），重载时自动切换至PWM模
深入解析 MySQL 数据库：隔离级别的选择幽兰的天空 MYSQL数据库数据库 mysql oracle
在数据库中，创建事务一般包含几个简单的步骤。以下是如何在MySQL中创建事务的基本指南，包括相关的SQL语句和操作流程：1.启动事务在MySQL中，你可以使用STARTTRANSACTION或BEGIN语句来启动一个新的事务。这表示你将开始执行一系列操作，这些操作要么全部成功（提交），要么全部失败（回滚）。STARTTRANSACTION;--或者使用BEGIN;2.执行操作在事务被启动后，你可以
2003-2022年上市公司-企业海外业务收入数据-社科数据泡芙萝莉酱大数据社科数据大数据人工智能数据分析深度学习数据挖掘数据统计毕业论文
上市公司-企业海外业务收入数据（2003-2022年）-社科数据https://download.csdn.net/download/paofuluolijiang/90027750https://download.csdn.net/download/paofuluolijiang/90027750上市公司海外业务收入是指企业通过在海外市场开展业务所获得的收入，包括出口产品或服务、在海外设立子公司
C++11智能指针 Peter_chq c++开发语言
一、指针管理的困境资源释放了，但指针没有置空（野指针、指针悬挂、踩内存）没有释放资源，产生内存泄漏问题；重复释放资源，引发coredump二、智能指针
【C语言】交换函数 Peter_chq c语言开发语言算法
一、利用第三个变量交换1.错误的交换函数及原因voidswap1(intx,inty){intz=0;z=x;x=y;y=z;}inta=10;intb=20;printf("交换前：a=%d,b=%d\n",a,b);swap1(a,b);printf("swap1交换后：a=%d,b=%d\n",a,b);原因：传值调用函数，不可以改变实参的值。形参是实参的一份临时调用。调用swap1（a，b
Ts学习笔记初学者7. 学习笔记 typescript
一、Ts与Js区别TsJsJavaScript的超集，用于解决大型项目的代码复杂性一种脚本语言，用于创建动态网页。强类型，支持静态和动态类型动态弱类型语言可以在编译期间发现并纠正错误只能在运行时发现错误不允许改变变量的数据类型变量可以被赋予不同类型的值二、Ts基础类型：boolean,number,string,undefined,null,any,unknown,void，neverany,un
Lodash源码分析-every,some,size,includes 初学者7. Loadsh源码分析 javascript 前端
collection相关的函数，collection指的是一组用于处理集合（如数组或对象）的工具函数。lodash源码研读之every,some,size,includes一、源码地址GitHub地址:GitHub-lodash/lodash:AmodernJavaScriptutilitylibrarydeliveringmodularity,performance,&extras.官方文档地址
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
使用bat批量获取WORD中包含对应字符的段落，段落使用回车换行宇宙无敌花心大萝卜批处理文档处理 word 开发语言 bat 批处理 VBS
get_word_paragraphs.vbs'获取命令行参数IfWScript.Arguments.Count=0ThenWScript.Quit1EndIf'获取Word文档路径docPath=WScript.Arguments(0)'创建Word应用程序对象SetobjWord=CreateObject("Word.Application")objWord.Visible=False'打开W
Django系列教程（13）——Cookie和Session应用场景及案例 l软件定制开发工作室 Django教程 django
目录什么是cookie，cookie的应用场景及缺点Django中如何使用cookieCookie使用示例什么是session及session的工作原理Django中如何使用会话sessionSession使用示例小结HTTP协议本身是”无状态”的，在一次请求和下一次请求之间没有任何状态保持，服务器无法识别来自同一用户的连续请求。有了cookie和session，服务器就可以利用它们记录客户端的访
AI编程的心得体会猜测7 AI编程 chatgpt
最近使用了三款AI软件进行编程，真的是一款比一款好用，很大程度提高了写代码的效率，真的非常方便。首先是豆包的插件Marscode，我知道它B站首页曾经见到一个推荐，标题大意是不写一行代码开发出一个打砖块的游戏。我对着视频试了一遍，在VSCode中可以直接搜索安装Marscode，用的phython写的小游戏，结果发现其实最核心的架构玩法其实都在它clonegithub那步，就是把已经能运行的游戏拿
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
推荐一个开源的高效头像生成工具，支持API调用计算机小手经验分享开源软件
一、简介集成多种头像生成方案，包括：ugly-avatar、multiavatar、jdenticon、facesjs、dicebear等支持docker部署，支持API调用项目开源地址：GitHub-luler/hello_avatar:轻松搭建生成简易头像的api服务二、安装准备好docker、docker-compose环境新建docker-compose.yml，配置内容如下:versio
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
保姆级 STM32 HAL 库外部中断教学 CircuitWizard 单片机 stm32 单片机嵌入式硬件
1.外部中断概述为什么用外部中断？当按键按下时，CPU无需轮询检测引脚状态，而是通过中断机制立即响应，提高效率，适用于实时性要求高的场景。关键概念EXTI(ExternalInterrupt/EventController)：STM32的外设，负责管理外部中断/事件。NVIC(NestedVectoredInterruptController)：管理中断优先级和使能。GPIO与EXTI的映射：每个
前端开发：Webpack的使用总结三掌柜666 web前端知识汇总 webpack 前端 javascript
前言在前端开发过程中，尤其是现在前端框架的频繁使用的当下，作为前端开发者想必对于Webpack并不陌生，尤其是在使用Vue框架做前端开发的时候，打包时候必用Webpack。还有就是在前端求职面试的时候，Webpack相关的知识点也是面试官必定考察的，那么本篇博文就来分享一下关于Webpack使用相关的知识点，记录下来，方便后期查阅使用。Webpack概念Webpack其实是一个前端资源加载/打包工
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
泛目录程序：2025快云站群程序的SEO优化功能云惠科技大数据泛目录
快云站群程序的SEO优化功能围绕搜索引擎算法设计，具体包含以下核心模块：1.关键词智能布局密度检测与优化：自动分析内容关键词密度，建议合理区间（2%-8%），避免堆砌或遗漏；多词策略支持：可针对单篇内容设置主关键词+长尾词组合，覆盖更多搜索场景；标题/摘要自动生成：根据关键词智能生成高点击率的标题和Meta描述，提升搜索展示效果。2.内链自动化系统内容关联推荐：基于语义分析，自动在文章中插入相关内
如何使用C# 读写西门子PLC A_nanda 西门子
在C#WPF应用程序中，与西门子S7系列PLC进行通信是一个常见的需求，尤其是在工业自动化领域。以下是三种实现WPF上位机与西门子S7系列PLC通信同步的方式，每种方式都提供了代码实例、优缺点和使用场景。1.使用S7.Net库代码示例：//创建PLC连接varplc=newS7.Net.Plc(CpuType.S71500,"192.168.1.10",0,1);plc.Open();//读取PL
《壹起航：15 年助力中国工厂海外获客，开启全球化新篇》 yiqijianzhan 人工智能大数据
在全球化的汹涌浪潮中，无数中国工厂渴望在海外市场一展宏图。然而，一系列棘手的问题摆在他们面前：怎样成功塑造品牌形象？怎样稳定获取询盘？怎样合理控制营销成本？壹起航，凭借15年深厚的行业积累，整合外贸建站、搜索引擎优化（SEO）以及海外短视频营销等多元服务，为中国工厂开辟出一条轻松拓展海外市场、赢得更多精准订单的便捷之路。一、外贸独立站——企业出海的关键起点在海外市场这片广阔天地里，企业官网不仅是展
大小仅54K，可是效果很棒海斗星河 python 电脑智能手机
大家在使用公众号编辑器时，都遇到过图片数量限制的问题。一旦达到50张或100张，编辑器就满了，只能手动删除。每次删这么多张图片，手都点麻了。为了提高效率，我之前一直用寒星鼠标连点器，它确实挺好用的。今天，我要给大家介绍一款更强大的鼠标连点器，功能比寒星更出色，有需要的小伙伴一定要及时收藏！软件介绍今天给大家介绍的这款软件叫**鼠标录制器**，它的体积非常小巧，只有54K，是一款绿色单文件版的鼠标连
Spring使用@Async出现循环依赖原因以及解决方案 2401_89793006 java spring python java
场景复现1、首先项目需要打开spring的异步开关，在application主类上加@EnableAsync2、创建一个包含了@Async方法的异步类MessageService：@ServicepublicclassMessageService{@ResourceprivateTaskServicetaskService;@Asyncpublicvoidsend(){taskService.sh
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
主流区块链平台对 EVM 的依赖情况分类说明倒霉男孩区块链知识区块链
文章目录概要1.EVM兼容链BinanceSmartChain(BSC)Polygon(PoS链)AvalancheC-ChainFantomOptimism/Arbitrum2.非EVM链3.混合型链AvalanchePolygonSupernetsBNBChain概要1.EVM兼容链这些链直接支持以太坊虚拟机，开发者可用Solidity编写合约，并复用以太坊工具链：BinanceSmartCh
变频器干扰诊断三步法：排查、定位、抑制详解集思广益的灰太狼变频器干扰解决方案单片机嵌入式硬件
前言众所周知变频器（VFD-VariableFrequencyDrive）在工业控制领域应用非常的广泛，它通过调节电机的频率和电压来精确控制电机的转速和扭矩，来实现节能和精准控制。然而，变频器在工作过程中会产生各种电磁干扰（EMI-ElectromagneticInterference），这些干扰可能导致控制系统误动作、通信中断、测量仪表失准等一系列问题。今天我们将系统性地介绍变频器干扰的"三步诊
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

常见的简单的无监督学习算法总结

一.聚类(clustering)

1.k-均值聚类(k-means)

2.层次聚类(Hierarchical Clustering)

凝聚法：

分裂法：

3.基于密度聚类Mean Shift

4.基于密度聚类DBSCAN

5.高斯混合模型(GMM)与EM

6.基于图论聚类

二.降维(demensionality reduction)

1.主成分分析(PCA)

2.独立成分分析(ICA)

3.奇异值分解(SVD)

4.t-分布领域嵌入式算法(t-SNE)

你可能感兴趣的:(常见的简单的无监督学习算法总结)

　　凝聚法：

　　分裂法：