weixin_39618275

数据挖掘层次聚类python实现_数据挖掘——层次聚类（Hierarchical clustering）学习及python实现...

文章目录

一、前言

二、自底向上的层次算法

三、 python实现层次聚类

四、使用Sklearn中的层次聚类

五、使用Scipy库中的层次聚类

(1). linkage(y, method=’single’, metric=’euclidean’)

(2).fcluster(Z, t, criterion=’inconsistent’, depth=2, R=None, monocrit=None)

六、层次聚类的优缺点

参考资料：

一、前言

层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。层次聚类算法相比划分聚类算法的优点之一是可以在不同的尺度上(层次)展示数据集的聚类情况。

根据创建聚类树有的两种方式：自下而上合并和自上而下。基于层次的聚类算法可以分为：凝聚的(Agglomerative)或者分裂的(Divisive)。

自下而上法就是一开始每个个体(object)都是一个类，然后根据linkage寻找同类，最后形成一个“类”。

自上而下法就是反过来，一开始所有个体都属于一个“类”，然后根据linkage排除异己，最后每个个体都成为一个“类”。

这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中)。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。

层次聚类方法中比较新的算法有BIRCH(Balanced Iterative Reducingand Clustering Using Hierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用，而且数据类型是numerical。首先利用树的结构对对象集进行划分，然后再利用其它聚类方法对这些聚类进行优化；ROCK(A Hierarchical ClusteringAlgorithm for Categorical Attributes)主要用在categorical的数据类型上；Chameleon(A Hierarchical Clustering AlgorithmUsing Dynamic Modeling)里用到的linkage是kNN(k-nearest-neighbor)算法，并以此构建一个graph，Chameleon的聚类效果被认为非常强大，比BIRCH好用，但运算复杂度很高，O(n^2)。

二、自底向上的层次算法

层次聚类的合并算法通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个数据点或类别进行组合，生成聚类树。

绝大多数层次聚类属于凝聚型层次聚类，它的算法流程如下：

(1) 将每个对象看作一类，计算两两之间的距离；

(2) 将距离最小的两个类合并成一个新类；

(3) 重新计算新类与所有类之间的距离；

(4) 重复(2)、(3)，直到所有类最后合并成一类。

整个过程就是建立一棵树，在建立的过程中，可以在步骤四设置所需分类的类别个数，作为迭代的终止条件，毕竟都归为一类并不实际。

相似度的计算

层次聚类使用欧式距离来计算不同类别数据点间的距离(相似度)。

D = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 D = \sqrt {(x_{1}-x_{2})^{2}+(y_{1}-y_{2})^{2} }D=(x1−x2)2+(y1−y2)2

实例：数据点如下

分别计算欧式距离值(矩阵)

将数据点B与数据点C进行组合后，重新计算各类别数据点间的距离矩阵。数据点间的距离计算方式与之前的方法一样。这里需要说明的是组合数据点(B,C)与其他数据点间的计算方法。当我们计算(B,C)到A的距离时，需要分别计算B到A和C到A的距离均值。

D = ( B − A ) 2 + ( C − A ) 2 2 = 21.6 + 22.6 2 \mathbf {D=\frac {\sqrt {(B-A)^{2}} + \sqrt {(C-A)^{2}}}{2}=\frac {21.6 +22.6} {2}}D=2(B−A)2+(C−A)2=221.6+22.6

经过计算数据点D到数据点E的距离在所有的距离值中最小，为1.20。这表示在当前的所有数据点中(包含组合数据点)，D和E的相似度最高。因此我们将数据点D和数据点E进行组合。并再次计算其他数据点间的距离。

后面的工作就是不断的重复计算数据点与数据点，数据点与组合数据点间的距离。这个步骤应该由程序来完成。这里由于数据量较小，我们手工计算并列出每一步的距离计算和数据点组合的结果。

聚类之间(两个组合数据点间)的相似度

计算两个组合数据点间距离的方法有三种，分别为Single Linkage，Complete Linkage 和 Average Linkage。在开始计算之前，我们先来介绍下这三种计算方法以及各自的优缺点。

Single Linkage(单连接)：方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离。这种方法容易受到极端值的影响。两个很相似的组合数据点可能由于其中的某个极端的数据点距离较近而组合在一起。

Complete Linkage(全连接)：Complete Linkage的计算方法与Single Linkage相反，将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离。Complete Linkage的问题也与Single Linkage相反，两个不相似的组合数据点可能由于其中的极端值距离较远而无法组合在一起。

Average Linkage(平均连接)：Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大，但结果比前两种方法更合理。

我们使用Average Linkage计算组合数据点间的距离。下面是计算组合数据点(A,F)到(B,C)的距离，这里分别计算了(A,F)和(B,C)两两间距离的均值。

D = ( A − B ) 2 + ( A − C ) 2 + ( F − B ) 2 + ( F − C ) 2 4 \mathbf {D=\frac {\sqrt {(A-B)^{2}} + \sqrt {(A-C)^{2}}+\sqrt {(F-B)^{2}} + \sqrt {(F-C)^{2}}}{4}}D=4(A−B)2+(A−C)2+(F−B)2+(F−C)2

三、 python实现层次聚类

import math

import numpy as np

import sklearn

from sklearn.datasets import load_iris

def euler_distance(point1: np.ndarray, point2: list) -> float:

"""

计算两点之间的欧式距离，支持多维

"""

distance = 0.0

for a, b in zip(point1, point2):

distance += math.pow(a - b, 2)

return math.sqrt(distance)

class ClusterNode(object):

def __init__(self, vec, left=None, right=None, distance=-1, id=None, count=1):

"""

:param vec: 保存两个数据聚类后形成新的中心

:param left: 左节点

:param right: 右节点

:param distance: 两个节点的距离

:param id: 用来标记哪些节点是计算过的

:param count: 这个节点的叶子节点个数

"""

self.vec = vec

self.left = left

self.right = right

self.distance = distance

self.id = id

self.count = count

class Hierarchical(object):

def __init__(self, k = 1):

assert k > 0

self.k = k

self.labels = None

def fit(self, x):

nodes = [ClusterNode(vec=v, id=i) for i,v in enumerate(x)]

distances = {}

point_num, future_num = np.shape(x) # 特征的维度

self.labels = [ -1 ] * point_num

currentclustid = -1

while len(nodes) > self.k:

min_dist = math.inf

nodes_len = len(nodes)

closest_part = None # 表示最相似的两个聚类

for i in range(nodes_len - 1):

for j in range(i + 1, nodes_len):

# 为了不重复计算距离，保存在字典内

d_key = (nodes[i].id, nodes[j].id)

if d_key not in distances:

distances[d_key] = euler_distance(nodes[i].vec, nodes[j].vec)

d = distances[d_key]

if d < min_dist:

min_dist = d

closest_part = (i, j)

# 合并两个聚类

part1, part2 = closest_part

node1, node2 = nodes[part1], nodes[part2]

new_vec = [ (node1.vec[i] * node1.count + node2.vec[i] * node2.count ) / (node1.count + node2.count)

for i in range(future_num)] ##??

new_node = ClusterNode(vec=new_vec,

left=node1,

right=node2,

distance=min_dist,

id=currentclustid,

count=node1.count + node2.count)

currentclustid -= 1

del nodes[part2], nodes[part1] # 一定要先del索引较大的

nodes.append(new_node)

self.nodes = nodes

self.calc_label()

def calc_label(self):

"""

调取聚类的结果

"""

for i, node in enumerate(self.nodes):

# 将节点的所有叶子节点都分类

self.leaf_traversal(node, i)

def leaf_traversal(self, node: ClusterNode, label):

"""

递归遍历叶子节点

"""

if node.left == None and node.right == None:

self.labels[node.id] = label

if node.left:

self.leaf_traversal(node.left, label)

if node.right:

self.leaf_traversal(node.right, label)

if __name__ == '__main__':

# iris = load_iris()

# my = Hierarchical(4)

# my.fit(iris.data)

# print(np.array(my.labels))

data = [[16.9,0],[38.5,0],[39.5,0],[80.8,0],[82,0],[834.6,0],[116.1,0]]

my = Hierarchical(4)

my.fit(data)

print(np.array(my.labels))

运行结果如下：

四、使用Sklearn中的层次聚类

klearn库下的层次聚类是在sklearn.cluster的 AgglomerativeClustering中：

AgglomerativeClustering (

affinity=‘euclidean’,

compute_full_tree=‘auto’,

connectivity=None,

linkage=‘ward’,

memory=None,

n_clusters=2,

pooling_func=)

AgglomerativeClustering类的构造函数的参数有：n_clusters，linkage，affinity三个重要参数。下面就这三个参数进行描述。

n_clusters：(簇的个数)是需要用户指定的，按照常理来说，凝聚层次聚类是不需要指定簇的个数的，但是sklearn的这个类需要指定簇的个数。算法会根据簇的个数判断最终的合并依据，这个参数会影响聚类质量。

linkage：(连接方法)指的是衡量簇与簇之间的远近程度的方法。具体说来包括最小距离，最大距离和平均距离三种方式。对应于簇融合的方法，即簇间观测点之间的最小距离作为簇的距离，簇间观测点之间的最大距离作为簇的距离，以及簇间观测点之间的平均距离作为簇的距离。一般说来，平均距离是一种折中的方法。

affinity：(连接度量选项)是一个簇间距离的计算方法，包括各种欧式空间的距离计算方法以及非欧式空间的距离计算方法。此外，该参数还可以设置为precomputed，即用户输入计算好的距离矩阵。距离矩阵的生成方法：假设用户有n个观测点，那么先依次构造这n个点两两间的距离列表，即长度为n*(n-1)/2的距离列表，然后通过scipy.spatial.distance的dist库的squareform函数就可以构造距离矩阵了。这种方式的好处是用户可以使用自己定义的方法计算任意两个观测点的距离，然后再进行聚类。。

if __name__ == '__main__':

data = [[16.9,0],[38.5,0],[39.5,0],[80.8,0],[82,0],[834.6,0],[116.1,0]]

from sklearn.cluster import AgglomerativeClustering

clustering = AgglomerativeClustering(n_clusters=4).fit(data)

print(clustering.labels_)

print(clustering.children_)

打印出的clustering.labels_为：

打印出的 clustering.children_为：

简单解释下：

data一共有7个样本，那么在进行层次聚类是，这5个样本各自一类，类别名称是0、1、2、3、4、5、6

第一行：[1, 2]意思是类别1和类别2距离最近，首先聚成一类，并自动定义类别为7(=7-1+1)

第二行：[3, 4]意思是类别3和类别4距离最近，3、4聚成一类，类别为8(=7-1+2)

第三行：[0, 7]意思是类别0、类别7距离最近，聚成一类，类别为9(=7-1+3)

。。。。。。

五、使用Scipy库中的层次聚类

linkage方法用于计算两个聚类簇s和t之间的距离d(s,t)，这个方法的使用在层次聚类之前。当s和t形成一个新的聚类簇u时，s和t从森林(已经形成的聚类簇群)中移除，而用新的聚类簇u来代替。当森林中只有一个聚类簇时算法停止。而这个聚类簇就成了聚类树的根。距离矩阵在每次迭代中都将被保存，d[i,j]对应于第i个聚类簇与第j个聚类簇之间的距离。每次迭代必须更新新形成的聚类簇之间的距离矩阵。

(1). linkage(y, method=’single’, metric=’euclidean’)

共包含3个参数:

y：是距离矩阵,可以是1维压缩向量(距离向量)，也可以是2维观测向量(坐标矩阵)。若y是1维压缩向量，则y必须是n个初始观测值的组合，n是坐标矩阵中成对的观测值。

method：是指计算类间距离的方法,比较常用的有3种:

(1)single:最近邻,把类与类间距离最近的作为类间距

(2)complete:最远邻,把类与类间距离最远的作为类间距

(3)average:平均距离,类与类间所有pairs距离的平均其他的method还有如weighted,centroid等等

返回值： (n-1)*4的矩阵Z(后面会仔细的讲解返回值各个字段的含义)

(2).fcluster(Z, t, criterion=’inconsistent’, depth=2, R=None, monocrit=None)

Z：是linkage得到的矩阵,记录了层次聚类的层次信息;

t：是一个聚类的阈值-“The threshold to apply when forming flat clusters”,在实际中,感觉这个阈值的选取还是蛮重要的.

其他参数说明可以参考：https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.fcluster.html#scipy.cluster.hierarchy.fcluster

###cluster.py

#导入相应的包

import scipy

import scipy.cluster.hierarchy as sch

from scipy.cluster.vq import vq,kmeans,whiten

import numpy as np

import matplotlib.pylab as plt

#生成待聚类的数据点,这里生成了20个点,每个点4维:

data = [[16.9,0],[38.5,0],[39.5,0],[80.8,0],[82,0],[834.6,0],[116.1,0]]

#加一个标签进行区分

A=[]

for i in range(len(data)):

a=chr(i+ord('A'))

A.append(a)

#1. 层次聚类

#生成点与点之间的距离矩阵,这里用的欧氏距离:

disMat = sch.distance.pdist(data,'euclidean')

#进行层次聚类:

Z=sch.linkage(disMat,method='average')

#将层级聚类结果以树状图表示出来并保存为plot_dendrogram.png

fig = plt.figure()

P = sch.dendrogram(Z, labels=A)

plt.show()

print(Z)

运行结果如下：

打印出的Z值为;

Z共有四列，

第一、二列：聚类簇的编号，在初始距离前每个初始值被从0-n-1进行标识，每生成一个新的聚类簇就在此基础上增加一对新的聚类簇进行标识，

第三个列表示前两个聚类簇之间的距离；

第四个列表示新生成聚类簇所包含的元素的个数。

if __name__ == '__main__':

data = [[16.9,0],[38.5,0],[39.5,0],[80.8,0],[82,0],[834.6,0],[116.1,0]]

import scipy

import scipy.cluster.hierarchy as sch

from scipy.cluster.vq import vq, kmeans, whiten

import matplotlib.pyplot as plt

A = []

for i in range(7):

a = chr(i+ord('A'))

A.append(a)

Z = sch.linkage(data, 'ward')

f = sch.fcluster(Z, t=30, criterion='distance') # 聚类，这里t阈值的选择很重要

print(f) #打印类标签

fig = plt.figure(figsize=(5,3))

dn = sch.dendrogram(Z,labels=A)

plt.show()

当 t=30 时，运行结果

当 t=10 时，运行结果如下

六、层次聚类的优缺点

优点：

1，距离和规则的相似度容易定义，限制少；

2，不需要预先制定聚类数；

3，可以发现类的层次关系；

4，可以聚类成其它形状

缺点：

1，计算复杂度太高；

2，奇异值也能产生很大影响；

3，算法很可能聚类成链状

参考资料：

机器学习–聚类系列–层次聚类：https://www.cnblogs.com/zongfa/p/9344769.html

聚类算法之层次聚类(Python实现)：https://zhuanlan.zhihu.com/p/32438294

聚类算法(4)–Hierarchical clustering层次聚类https://blog.csdn.net/Andy_shenzl/article/details/83783469

你可能感兴趣的:(数据挖掘层次聚类python实现_数据挖掘——层次聚类（Hierarchical clustering）学习及python实现...)

对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 chatgpt llama 数据分析论文阅读
摘要摘要是文章的精华，通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家，编写摘要需要言简意赅，直接概括论文的核心，为读者提供快速了解的窗口。下面我们使用DeepSeek、ChatGPT4以及Kimi辅助编写摘要。提示词：你现在是一名[计算机理论专家]，研究方向集中在[人工智能、大模型、数据挖掘等计算机相关方向]。我现在需要撰写一篇围绕[人工智能在
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
无重复字符的最长子串不停留 150道经典算法面试习题 javascript 开发语言 ecmascript
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionlengthOfLongestSubstring(s){//用于存储字符及其在字符串中最新出现的索引constcharIndexMap=newMap();//记录最长无重复字符子串的长度letmaxLength=0;//滑动窗口的起始位置letstart=0;//遍历字符串，end作为滑动窗口的结束
长度最小的子数组不停留 150道经典算法面试习题 javascript 数据结构算法
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionminSubArrayLen(target,nums){constn=nums.length;//初始化最小子数组长度为一个较大的值，用于后续比较更新letminLength=Infinity;//初始化当前子数组的起始位置letstart=0;//初始化当前子数组的元素总和letsum=0;//遍
算法-三数之和不停留 150道经典算法面试习题算法 javascript 数据结构
hello大家好！今天开写一个新章节，每一天一道算法题。让我们一起来学习算法思维吧！functionthreeSum(nums){//用于存储最终结果的数组constresult=[];//首先对数组进行排序，方便后续操作nums.sort((a,b)=>a-b);constn=nums.length;//遍历数组，将当前元素作为三元组的第一个元素for(leti=0;i0&&nums[i]===
Rust中奖励函数的实现与应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域，特别是在强化学习（ReinforcementLearning,RL）中，奖励函数（RewardFunction）扮演着至关重要的角色。它定义了智能体（Agent）在执行任务时
Python中Pickle库 SteveKenny Python python 开发语言后端
文章目录简介函数dumpsloadsdumpload简介Python中有个序列化过程叫作pickle，它能够实现任意对象与文本之间的相互转化，也可以实现任意对象与二进制之间的相互转化。也就是说，pickle可以实现Python对象的存储及恢复。pickle模块的应用很简单，只有四个方法dumps()：将Python中的对象序列化成二进制对象，并返回loads()：读取给定的二进制对象数据，并将其转
Feign介绍及使用阿柒爱吃鱼笔记 java spring cloud
菜单Feign介绍Feign基本使用1.导入依赖2.启用Feign3.编写StoreClient接口4.调用FeignClientFeign自定义配置配置文件中配置java代码中配置Feign配置超时重试配置超时时间重试机制Feigh切换Client使用OkHttp配置超时重试1.引入okhttp依赖2.OkHttp配置类3.开启okhttpFeign介绍Feign是一个声明式的Web服务客户端，
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
Haproxy入门学习 mikelv01 运维
HAProxy从零开始到掌握HAProxy原理和基本概念haproxy安装配置(笔记一)一.HAProxy是什么HAProxy是一个免费的负载均衡软件。HAProxy提供了L4(TCP)和L7(HTTP)两种负载均衡能力。二.安装和运行2.1创建用户为Haproxy创建用户和用户组，此例用户和用户组都是“ha”。如果想让Haproxy监听1024以下的端口，则需要以root用户来启动。我没有按照网
Docker常用知识点问题晚风-夏不凉 docker
1.dockerfile基础命令及作用—copy和add区别—为什么要指定workdir—expose作用，能不能不用，不用会导致什么情况？—env，不用怎么打镜像—from2.dockerfile编写规范—jdk版本—依赖问题—shell指令引用—字体和时区配置3.多阶段构建优点4.构建过程—-t，-rm参数意思—构建文件（dockerfile）可以自定义名吗5.执行过程—不做端口映射会有什么情
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
Haproxy入门学习二 DawnEillen 学习运维
一、Haproxy的算法1.haproxy通过固定参数balance指明对后端服务器的调度算法，其中balance参数可以配置在listen或backend选项中2.haproxy的调度算法分为静态和动态调度算法，其中有些算法可以根据参数在静态和动态算法中相互转换3.静态算法：按照事先定义好的规则轮询公平调度不关心后端服务器的当前负载、连接数和响应速度等并且不可以实时修改权重，只能靠重启hapro
ambari-2.8源码编译 SmartManWind ambari hadoop 大数据
参考博客Ambari(二)----Ambari2.6.0源码编译安装及遇到的问题解决(超详细文档)_ambari2.6.0编译-CSDN博客注意
揭秘排行榜系统：如何在高并发场景下实现高效更新！软件求生 #工作建议算法排序算法数据结构哈希算法 java
大家好，我是你们的技术分享伙伴小米！今天我们来聊聊一个非常有趣的话题——如何设计一个排行榜。在这个互联网时代，无论是游戏、学习平台，还是各种社交应用，排行榜都是用户互动和竞争的核心功能之一。而如何设计一个高效、实时更新的排行榜，是一个充满挑战性的问题。今天，我们就一起来探讨一下如何在个人实战中设计出一个既高效又实用的排行榜系统！需求分析在设计排行榜之前，我们需要明确以下需求：个人总得分和总排名实时
家居 EDI：Haverty‘s EDI 需求分析知行EDI 零售行业EDI 知行edi EDI电子数据交换知行软件需求分析 EDI 知行EDI 知行之桥
Haverty's成立于1885年，是一家历史悠久的美国家具零售商。公司致力于为客户提供高品质的家具和家居饰品，其产品线涵盖客厅、卧室、餐厅及办公家具等多个领域。电子数据交换（EDI）是一种通过标准化电子格式在商业伙伴之间进行数据交换的技术，可以显著提升企业的运营效率。通过EDI系统，Haverty's能够实现订单、发票和库存信息的自动化处理，从而减少人为错误并降低运营成本。EDI需求分析与Hav
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
理解随机森林算法菌菌的快乐生活算法随机森林机器学习
基本概念随机森林（RandomForest）是一种集成学习算法，它属于机器学习中的监督学习算法。简单来说，它就像是一群“专家”（决策树）在一起讨论并做出决策。想象你要判断一个水果是苹果还是橙子，你可以通过观察水果的颜色、形状、大小等特征。随机森林算法就是利用很多棵决策树来对这个水果进行判断。每一棵决策树就像一个小专家，它们根据自己对这些特征的判断来给出一个答案（是苹果还是橙子），最后综合这些小专家
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
mysql var目录很快_删除/var/lib/mysql目录的解决办法逆铭 mysql var目录很快
在学习阶段偶尔会删除/var/lib/mysql/*目录来达到清除数据库管理员账户和密码的目的。but，对于新手来说经常会不小心删除/var/lib/mysql目录，导致重启mysql时找不到/var/lib/mysql。解决方法如下：mkdir/var/lib/mysqchownmysql:mysql/var/lib/mysqlsystemctlstartmysql此时如果还是失败，并产生如下提
性能优化案例：通过合理设置spark.shuffle.memoryFraction参数的值来优化PySpark程序的性能 weixin_30777913 python spark 大数据
在PySpark中，合理调整spark.shuffle.memoryFraction参数可以有效优化Shuffle阶段的性能，尤其是在存在大量磁盘溢出的场景下。通过合理设置spark.shuffle.memoryFraction并结合其他优化手段，可显著减少Shuffle阶段的磁盘I/O，提升PySpark作业的整体性能。以下是优化案例的总结及分步说明：优化背景问题现象：PySpark作业在Shu
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Selenium 结合 Requests 爬取网易云音乐“我喜欢的”及评论数API分析 dreadp selenium python 前端 web安全网络协议爬虫
前言基于selenium和requests，在网易云音乐网页上爬取前1000首“我喜欢的音乐”以供后续数据分析。重点讲解了__init__.py文件的重要性、Cookie的添加和检查方式、Selenium选择器的使用技巧，特别是的处理方法。同时，也分享了我对网易云评论数API接口的探索。提供完整的脚本。项目地址:Github链接文件相对路径:NeteaseCloudMusicGaze/src/AP
Go语言关于defer,recover函数实例梓潇涵枫 go go
遇到这样一种情况：funcf(nint)(rint){deferfunc(){r+=nrecover()}()varffunc()deferf()f=func(){r+=2}returnn+1}funcmain(){fmt.Println(f(3))}输出：7跟预想的完全不一样呀，颠覆了之前对defer()的认知为了查看具体的过程及运行顺序原理，加了些日志：funcf(nint)(rint){de
疯狂的 Web 应用开源项目一个生命 Web 开发 Cookie web 开源项目应用
原文作者：陈皓原文链接：http://coolshell.cn/articles/5132.html#more-5132文章来源：Best“mustknow”opensourcestobuildthenewWeb。个人感觉这个收集贴收集成相当的全。学习HTML5编程和设计★HTML5Rocks:MajorFeatureGroups的学习HTML5的资源(HTML5演示,教程).源码很不错的HTML
Python实现YOLO目标检测我专门写bug PYTHON python YOLO 目标检测
#-*-coding:utf-8-*-#载入所需库importcv2importnumpyasnpimportosimporttimedefyolo_detect(pathIn='',pathOut=None,confidence_thre=0.5,nms_thre=0.3,jpg_quality=80):#pathIn：原始图片的路径#pathOut：结果图片的路径#label_path：类别标
我的笔记管理体系(Typora+PicGo+坚果云+阿里云oss) 黄暄笔记阿里云云计算编辑器
我的笔记管理体系(Typora+PicGo+坚果云+阿里云oss)前言现在是2024年7月28号，我快要上大二了，在上大学之前，我和几乎所有的高中生一样，有着各种各样的笔记本，三年下来也积累了不少的笔记。然而在上了大学以后，就很少就笔记了，原因大家都懂的哈哈，大一一次偶然的机会，我接触到了markdown语法，我才第一次认识到原来程序员都是那样记笔记的，我去，太tm帅啦，于是乎我便开始学习mark
03Spring底层架构核心概念解析奔向sj 工作学习记录架构 java 数据库
为了感谢罕哥对我工作的帮助，特此记录下学习过程，期待成为和罕哥一样优秀的人时间：2024.7.13内容：spring源码课程3学习记录一、BeanDefinitionBeanDefinition表示Bean的定义，BeanDefinition中存在很多属性用来描述一个Bean的特点class：表示Bean类型scope：表示Bean的作用域（单例/原型）lazyInit：表示Bean是否是懒加载i
MongoDB中常用的几种高可用技术方案及优缺点 yuanpan mongodb 数据库
MongoDB的高可用性方案主要依赖于其内置的副本集(ReplicaSet)和Sharding机制。下面是一些常见的高可用性技术方案：1.副本集(ReplicaSet)副本集是MongoDB提供的主要高可用性解决方案，确保数据在多个节点之间的冗余存储和自动故障恢复。副本集包含以下关键组件：主节点(Primary)：只有一个主节点，负责处理所有的写操作。从节点(Secondary)：从节点同步主节点
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb