jgq1466693

计算机视觉学习第六章——图像聚类

引言

一、K-means聚类

1.1 Scipy聚类包

1.2 图像聚类

1.3 在主成分上可视化图像

1.4 像素聚类

二、层次聚类

2.1 图像聚类

三、谱聚类

引言

在这个章节将学习几种聚类方法，并利用这些方法对图像进行聚类，从而寻找相似的图像组。聚类可以用于识别、划分图像数据集，组织和导航，同时还会对聚类的图像进行相似性可视化。

一、K-means聚类

K-means是一种将输入数据划分位k个簇的简单的聚类算法。K-means反复提炼初始评估的类中心，具体步骤：

1、以随机或猜测的方式初始化类中心 $u_{i},i=1,2...k$

2、将每个数据点归并到离它距离最近的类中心所属的类 $c_{i}$

3、对所有属于该类的数据点求平均，将平均值作为新的类中心

4、重复步骤2和步骤3知道收敛

K-means试图使类内总方差最小：

$V=\sum_{i=1}^{k}\sum_{x_{j}\epsilon c_{i}}^{}(x_{j}-\mu _{i})^{2}$

$x_{j}$ 是输入数据，并且是矢量。该算法是启发式提炼算法，虽然可以在多数情形下使用，但并不能保证得到最优的结果。通常为了避免出现没选好类中心处置而出现误差的情形，该算法通常会初始化不同的类中心进行多次运算，选择方差V最小的结果。

算法的优缺点：

缺陷：必须设定好聚类数k，如果选择不恰当就会导致结果很差。

优点：易于实现。

1.1 Scipy聚类包

可以通过Scipy矢量量化包scipy.cluster.vq实现K-means算法。

下面为利用K-means对二维数据进行聚类的示例：

from scipy.cluster.vq import *
from pylab import *
from numpy import *
class1 = 1.5 * random.randn(100, 2)
class2 = random.randn(100, 2) + array([5, 5])
features = vstack((class1, class2))
centroids, variance = kmeans(features, 2)
code, distance = vq(features, centroids)
figure()
ndx = where(code == 0)[0]
plot(features[ndx, 0], features[ndx, 1], '*')
ndx = where(code == 1)[0]
plot(features[ndx, 0], features[ndx, 1], 'r.')
plot(centroids[:, 0], centroids[:, 1], 'go')
axis('off')
show()

分析：

在该算法中，首先生成两类二维正态分布数据，并用k=2对这些数据进行聚类，由于K-means算法会计算若干次，并选择方差最小的结果。接着使用矢量量化函数对每个数据点进行归类。函数where会给出每个类的索引点。

输出结果如上图所示，类中心就为两个类的中心绿色的点，其周围的蓝色和红色点就是预测出来的类。

1.2 图像聚类

使用了书中推荐的selectedfontimages.zip中的字体数据集图像进行聚类，可以在Python计算机视觉编程页面中下载实验所需要的压缩包。

import pickle
from PIL import Image
from pylab import *
from numpy import *
from scipy.cluster.vq import *
from PCV.tools import imtools



# 获取seleced-fontimages文件下图像文件名，并保存在列表中
imlist = imtools.get_imlist('D:\\picture\selected_thumbs\\')
imnbr = len(imlist)

# 载入模型文件
with open('a_pca_modes.pkl', 'rb') as f:
    immean = pickle.load(f)
    V = pickle.load(f)

# 创建矩阵，存储所有拉成一组形式后的图像
immartix = array([array(Image.open(im)).flatten() for im in imlist], 'f')

# 投影到前40个主成分上
immean = immean.flatten()
projected = array([dot(V[:40], immartix[i] - immean) for i in range(imnbr)])

# 进行K-means聚类
projected = whiten(projected)
centroids, distortion = kmeans(projected, 4)
code, distance = vq(projected, centroids)

# 绘制聚类簇
for k in range(4):
    ind = where(code == k)[0]
    figure()
    gray()
    for i in range(minimum(len(ind), 40)):
        subplot(4, 10, i+1)
        imshow(immartix[ind[i]].reshape((25, 25)))
        axis('off')
show()

通过之前计算过的前40个主成分进行投影，用投影系数作为每幅的向量描述符，code变量中包含的是每幅图像属于哪个簇，设定聚类数k=4，并用whiten()函数对数据进行”白化“处理，以及归一化处理，使得每个特征具有单位方差。

当将主成分数目改为30，聚类数改成3时可视化聚类结果就为;

1.3 在主成分上可视化图像

利用PIL中的ImageDraw模块进行可视化，观察如何利用主成分进行聚类，可以在一对主成分方向的坐标上可视化这些图像，可以将projected改为：

projected = array([dot(V[[0,2]], immartix[i] - immean) for i in range(imnbr)])

import pickle
from PIL import Image, ImageDraw
from matplotlib.image import thumbnail

from numpy import *
from PCV.tools import imtools


h,w = 1200,1200
# 创建一幅白色背景图
# 获取seleced-fontimages文件下图像文件名，并保存在列表中
imlist = imtools.get_imlist('D:\\picture\selected_thumbs\\')
imnbr = len(imlist)

# 载入模型文件
with open('a_pca_modes.pkl', 'rb') as f:
    immean = pickle.load(f)
    V = pickle.load(f)

# 创建矩阵，存储所有拉成一组形式后的图像
immartix = array([array(Image.open(im)).flatten() for im in imlist], 'f')

# 投影到前40个主成分上
immean = immean.flatten()
projected = array([dot(V[[0,2]], immartix[i] - immean) for i in range(imnbr)])
img = Image.new('RGB', (w,h),(255, 255, 255))
draw = ImageDraw.Draw(img)
# 绘制坐标轴
draw.line((0, h/2, w, h/2), fill=(255, 0, 0))
draw.line((w/2, 0, w/2, h), fill=(255, 0, 0))
# 缩放以适应坐标系
scale = abs(projected).max(0)
scaled = floor(array([(p/scale)*(w/2-20,h/2-20)+(w/2,h/2) for p in projected])).astype(int)
for i in range(imnbr):
    nodeim = Image.open(imlist[i])
    nodeim.thumbnail((25, 25))
    ns = nodeim.size
    box = (scaled[i][0] - ns[0] // 2, scaled[i][1] - ns[1] // 2,
           scaled[i][0] + ns[0] // 2 + 1, scaled[i][1] + ns[1] // 2 + 1)
    img.paste(nodeim,box)
img.save('pca_font.jpg')

根据书中给出的源代码运行时，给出了

这里是由于paste处理的应当是整数而非浮点数，需要将：

scaled = floor(array([(p/scale)*(w/2-20,h/2-20)+(w/2,h/2) for p in projected]))

改为：

scaled = floor(array([(p/scale)*(w/2-20,h/2-20)+(w/2,h/2) for p in projected])).astype(int)

这时运行成功，在项目文件夹里就会出现pca_font.jpg，打开就会显示为

这类图像说明了这些字体图像在40维里的分布情况，对于选择一个好的描述子具有很好的帮助，从图中我们可以看到相似的字体挨得比较近。

1.4 像素聚类

这里进行对一个单幅图像中的像素而非全部图像中的像素而非全部图像进行聚类的例子，除了在一些简单的图像上，单纯在像素水平上应用K-means是无意义的，要产生有意义的结果往往就需要更复杂的类模型。

下面就是用一个步长为steps的方形网格在图像中滑动，每滑一次对网格中图像区域像素求平均值，将其作为新生的低分辨率图像对应位置处的像素值，并用K-means进行聚类:

from scipy.cluster.vq import *
from PIL import Image
from pylab import *

steps = 50  # 图像被划分为steps*steps的区域
im = array(Image.open('D:\picture\\test_img0\\tem1.jpg'))
dx = im.shape[0]//steps
dy = im.shape[1]//steps
# 计算每个区域的颜色特征
features = []
for x in range(steps):
    for y in range(steps):
        R = mean(im[x * dx:(x + 1) * dx, y * dy:(y + 1) * dy, 0])
        G = mean(im[x * dx:(x + 1) * dx, y * dy:(y + 1) * dy, 1])
        B = mean(im[x * dx:(x + 1) * dx, y * dy:(y + 1) * dy, 2])
        features.append([R, G, B])
features = array(features, 'f')  # 变成数组
# 聚类
centroids, variance = kmeans(features, 3)
code, distance = vq(features, centroids)
# 用聚类标记创建图像
codeim = code.reshape(steps,steps)

subplot(121)
imshow(im),axis('off')
subplot(122)
imshow(codeim),axis('off')
show()

二、层次聚类

这是另一种简单有效的聚类算法，其思想是基于样本间成对距离建立一个简相似性树，首先将特征向量距离最近的两个样本归并为一组，并在树中创建一个平均节点，将两个距离最近的样本作为该“平均”节点下的子节点，然后再剩下的包含任意平均节点节点的样本中寻找下一个最近的对，重复进行前面的操作。在每一个节点处保存了两个子节点之间的距离。遍历整个树，通过设置的阈值，遍历过程可以在比阈值大的节点位置终止从而提取出聚类簇。

层次聚类的优缺点：

优点：利用树结构可以可视化数据间的关系，并显示这些簇是如何关联的。对于给定的不同的阈值，可以直接利用原来的树，无需重新计算。

缺点：对于实际需要的聚类簇，需要选择一个合适的阈值。

算法体现：

class ClusterNode(object):
    def __init__(self,vec,left,right,distance=0.0,count=1):
        self.left = left
        self.right = right
        self.vec = vec
        self.distance = distance
        self.count = count # 只用于加权平均

    def extract_clusters(self,dist):
        """ 从层次聚类树中提取距离小于dist的子树簇群列表 """
        if self.distance < dist:
            return [self]
        return self.left.extract_clusters(dist) + self.right.extract_clusters(dist)

    def get_cluster_elements(self):
        """ 在聚类子树中返回元素的id """
        return self.left.get_cluster_elements() + self.right.get_cluster_elements()

    def get_height(self):
        """ 返回节点的高度，高度是各分支的和 """
        return self.left.get_height() + self.right.get_height()

    def get_depth(self):
        """ 返回节点的深度，深度是每个子节点取最大再加上它的自身距离 """
        return max(self.left.get_depth(), self.right.get_depth()) + self.distance
    

class ClusterLeafNode(object):
    def __init__(self,vec,id):
        self.vec = vec
        self.id = id

    def extract_clusters(self,dist):
        return [self] 

    def get_cluster_elements(self):
        return [self.id]

    def get_height(self):
        return 1

    def get_depth(self):
        return 0

def L2dist(v1,v2):
    return sqrt(sum((v1-v2)**2))

    
def L1dist(v1,v2):
    return sum(abs(v1-v2))


def hcluster(features,distfcn=L2dist):
    """ 用层次聚类对行特征进行聚类 """
    
    # 用于保存计算出的距离
    distances = {}
    
    # 每行初始化为一个簇 
    node = [ClusterLeafNode(array(f),id=i) for i,f in enumerate(features)]
    
    while len(node)>1:
        closest = float('Inf')
        
        # 遍历每对，寻找最小距离
        for ni,nj in combinations(node,2):
            if (ni,nj) not in distances: 
                distances[ni,nj] = distfcn(ni.vec,nj.vec)
                
            d = distances[ni,nj]
            if d

 
          为树节点创建两个类，即ClusterNode和ClusterLeafNode，这两个类用于创建聚类树，函数hcluster()用于创建树。  
          距离度量的选择依赖于实际的特征向量，是欧式距离，通过创建任意距离度量，并将其作为参数传递给hcluster()，每个子树，计算其所有节点特征向量的平均值，作为新的特征向量来表示该子树，并将每个子树视为一个对象。 
          下面就观察该聚类的过程。首先创建一些二维数据点： 
  from PCV.clustering import hcluster
from numpy import *
class1 = 1.5 * random.randn(100,2)
class2 = random.randn(100,2) + array([5,5])
features = vstack((class1,class2))
tree = hcluster.hcluster(features)
clusters = tree.extract_clusters(5)
print('number of clusters', len(clusters))
for c in clusters:
    print(c.get_cluster_elements()) 
  这里设置阈值为5，并从列表中提取这些聚类簇，并于控制台中打印出来。  
   
  2.1 图像聚类 
          使用了sunset.zip中包含的图像集，可以在上面给的链接下载的文件包里获得。这里可以通过颜色直方图作为每幅图像的特征向量。 
  实验如下： 
  将R,G,B三个颜色通道作为特征向量，将其传递到Numpy的histogramdd()函数中计算多维直方图，并在每个颜色通道中使用8个小区间进行量化，将量化后的小区间拉成一行后用512维的特征向量描述每幅图像。为了可视化聚类树，就需要画出树状图： 
  from PIL import Image,ImageDraw
 
def draw_dendrogram(node,imlist,filename='clusters.jpg'):
    """ 绘制聚类树状图，并保存到文件里 """
    
    # 高和宽
    rows = node.get_height()*20
    cols = 1200
    
    # 距离缩放因子
    s = float(cols-150)/node.get_depth()
    
    # 创建图像并绘制对象
    im = Image.new('RGB',(cols,rows),(255,255,255))
    draw = ImageDraw.Draw(im)
    
    # 初始化开始的线条
    draw.line((0,rows/2,20,rows/2),fill=(0,0,0))    
    
    # 递归地画出节点
    node.draw(draw,20,(rows/2),s,imlist,im)
    im.save(filename)
    im.show() 
  同时在绘制树状图时还使用了draw()方法： 
      def draw(self,draw,x,y,s,imlist,im):
        """ 使用图像缩略图递归绘制叶节点 """
    
        h1 = int(self.left.get_height()*20 / 2)
        h2 = int(self.right.get_height()*20 /2)
        top = y-(h1+h2)
        bottom = y+(h1+h2)

        draw.line((x,top+h1,x,bottom-h2),fill=(0,0,0))    

        ll = self.distance*s
        draw.line((x,top+h1,x+ll,top+h1),fill=(0,0,0))    
        draw.line((x,bottom-h2,x+ll,bottom-h2),fill=(0,0,0))        

        self.left.draw(draw,x+ll,top+h1,s,imlist,im)
        self.right.draw(draw,x+ll,bottom-h2,s,imlist,im) 
  实际图像缩略图中，叶节点有自己的方法： 
      def draw(self,draw,x,y,s,imlist,im):
        nodeim = Image.open(imlist[self.id])
        nodeim.thumbnail([20,20])
        ns = nodeim.size
        im.paste(nodeim,[int(x),int(y-ns[1]//2),int(x+ns[0]),int(y+ns[1]-ns[1]//2)]) 
  主函数： 
  from PIL import Image
from pylab import *
from numpy import *
import os
from PCV.clustering import hcluster

# 创建图像列表
path = 'D:\\BaiduNetdiskDownload\\PCV-book-data\\data\sunsets\\flickr-sunsets-small'
imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg')]
# 提取特征向量，每个颜色通道量化成8个小区间
features = zeros([len(imlist),512])
for i,f in enumerate(imlist):
    im = array(Image.open(f))
    # 多维直方图
    h,edges = histogramdd(im.reshape(-1,3),8,normed=True,
                          range=[(0,255),(0,255),(0,255)])
    features[i] = h.flatten()
tree = hcluster.hcluster(features)
# 保存树状图
hcluster.draw_dendrogram(tree,imlist,filename='sunset.pdf')
# 设置一些阈值，得到可视化聚类簇
clusters = tree.extract_clusters(0.23*tree.distance)
# 绘制聚类簇中元素超过3个的图像
for c in clusters:
    elements = c.get_cluster_elements()
    nbr_elements = len(elements)
    if nbr_elements>3:
        figure()
        for p in range(minimum(nbr_elements, 20)):
            subplot(4, 5, p+1)
            im = array(Image.open(imlist[elements[p]]))
            imshow(im)
            axis('off')
show() 
  可以得到结果：  
   
   
          树状图的高和子部分由距离决定，这些需要经过调整来适应选择的图像分辨率，随着坐标向下传递到下一级，并递归绘制出这些节点。这里使用get_height()和get_depth()两个辅助函数获得树的高和宽。  
          在上图中就可以看到颜色相近的图像在树中的距离就比较近。 
  三、 谱聚类 
          谱聚类与K-means以及层次聚类方法完全不同。对于n个元素，相似矩阵是一个n*n的矩阵，矩阵的每个元素表示两两之间的相似性分数。谱聚类是由相似性矩阵构建谱矩阵而得名。 
          谱聚类的优点是仅需输入相似矩阵，并且可以采用你所想到的任意的度量方式构建该相似矩阵，对比K-means和层次聚类需要计算特征向量求平均，可这样就会将特征或描述子限制为向量，谱聚类就没有这类限制。 
          谱聚类的过程： 
          给定n*n的相似矩阵S，为相似性分数，创建矩阵，称为拉普拉斯矩阵： 
   
  I为单位矩阵，D为对角矩阵，对角线上的元素是S对应行元素之和,分别为： 
   
  为： 
   
  对于相似性矩阵中的元素，使用较小的值并且要求大于等于0。 
          计算L的特征向量，并使用K个最大特征值对应的k个特征向量，构建出一个特征向量集从而找到聚类簇，创建一个矩阵，这个矩阵就是有求出的k个特征向量构成的每一行都可以看成是一个新的特征向量，长度为k，本质上谱聚类算法是将原始空间中的数据转换成更容易聚类的新的特征向量。 
  下面为谱聚类算法的实验： 
  from scipy.cluster.vq import *

import pickle
from PIL import Image
from pylab import *
from numpy import *
from PCV.tools import imtools


imlist = imtools.get_imlist('D:\\picture\selected_thumbs\\')
imnbr = len(imlist)

# 载入模型文件
with open('a_pca_modes.pkl', 'rb') as f:
    immean = pickle.load(f)
    V = pickle.load(f)

# 创建矩阵，存储所有拉成一组形式后的图像
immartix = array([array(Image.open(im)).flatten() for im in imlist], 'f')

# 投影到前40个主成分上
immean = immean.flatten()
projected = array([dot(V[[0,2]], immartix[i] - immean) for i in range(imnbr)])

n = len(projected)
# 计算距离矩阵
S = array([[sqrt(sum((projected[i]-projected[j])**2)) for i in range(n)] for j in range(n)], 'f')

# 创建拉普拉斯矩阵
rowsum = sum(S, axis=0)
D = diag(1 / sqrt(rowsum))
I = identity(n)
L = I - dot(D, dot(S, D))
# 计算矩阵L的特征向量
U, sigma, V = linalg.svd(L)
k = 5
# 从矩阵L的前k个特征向量中创建特征向量
# 叠加特征向量作为数组的列
features = array(V[:k]).T
# k-means聚类
features = whiten(features)
centroids, distortion = kmeans(features, k)
code, distance = vq(features, centroids)

# 绘制聚类簇
for c in range(k):
    ind = where(code == c)[0]
    figure()
    for i in range(minimum(len(ind), 39)):
        im = Image.open(imlist[ind[i]])
        subplot(4, 10, i+1)
        imshow(array(im))
        axis('equal')
        axis('off')
show()
 
   
  这里使用两两间的欧式距离创建矩阵S，并对k个特征向量进行常规K-means进行聚类k=5，V包含的是对特征值进行排序后的特征向量并绘制出这些聚类簇。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
AI问答之手机相机专业拍照模式的主要几个参数解释 piaopiaolanghua 拍摄曝光时间 ISO感光度
一、背景近期突然想了解下手机的专业拍照模式，了解如何拍出拖尾效果，譬如拍摄运动的车辆，长曝光拍摄星空，甚至能够拍到卫星（再来个漂亮的拖尾），因此想到先了解下手机相机专业模式的参数再说，通过AI问答，学习了下，也就有了本文。二、主要参数详细解释截图显示了在“专业”模式下设置的典型核心参数。这些参数共同决定了照片的曝光、清晰度、色彩和焦点。下面逐一解释每个参数及其典型用法：1、ISO640解释：ISO
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

计算机视觉学习第六章——图像聚类

引言

一、K-means聚类

1.1 Scipy聚类包

1.2 图像聚类

1.3 在主成分上可视化图像

1.4 像素聚类

二、层次聚类

2.1 图像聚类

三、 谱聚类

你可能感兴趣的:(聚类,计算机视觉,学习)

三、谱聚类