Glen_Zou

YOLOv3：K-means聚类和K-means++聚类anchor box理论以及源代码

文章目录

- 引言
- K-means
- K-means++

引言

最近在做YOLOv3的项目，想了想有哪些方面可以优化的，其中一个想法就是聚类算法了。
YOLOv3本身是用K-means聚类出锚框的，但K-means算法本身具有一定的局限性，聚类结果容易受初始值选取影响。K-means算法具体步骤可以参考我这篇博客：看得懂的K-means

K-means

K-means源码来源：YOLOv3_TensorFlow
首先我们来看一眼YOLOv3训练集的数据格式

第一部分：图片索引
第二部分：图片路径
第三部分：图片宽和高(w，h)
第四~七部分：每个部分都是一个边界框，上图中就是有5张图，每张图有4个框
对于每个框说明如下：以 0，634,583,717,667举例
0：标签索引
634,583：框左上角坐标
717,667：框右下角坐标
具体的也可以看GitHub上的train部分

YOLOv3的K-means算法有个不同就是距离计算，都是图像怎么计算距离呢？标准K-means算法使用的是欧氏距离，而我们聚类的目的是让anchor box和ground truth越接近越好，所以定义一个新的距离公式：

这样就保证，交并比越大，距离越小，距离越小就越可能属于同一类

源代码
如果看了我那篇K-means算法的博客的话，这段代码我相信很好理解。方便起见我还是注释了下，也保留原作者的注释
（顺便一提，GitHub源码中的translate_boxes函数对于K-means算法没有任何作用，我这直接删掉了）

# coding: utf-8
# This script is modified from https://github.com/lars76/kmeans-anchor-boxes

from __future__ import division, print_function

import numpy as np

def iou(box, clusters):
    """
    Calculates the Intersection over Union (IoU) between a box and k clusters.
    param:
        box: tuple or array, shifted to the origin (i. e. width and height)
        clusters: numpy array of shape (k, 2) where k is the number of clusters
    return:
        numpy array of shape (k, 0) where k is the number of clusters
    """
    x = np.minimum(clusters[:, 0], box[0])
    y = np.minimum(clusters[:, 1], box[1])
    if np.count_nonzero(x == 0) > 0 or np.count_nonzero(y == 0) > 0:
        raise ValueError("Box has no area")

    intersection = x * y	# 相交面积
    box_area = box[0] * box[1]
    cluster_area = clusters[:, 0] * clusters[:, 1]

    iou_ = np.true_divide(intersection, box_area + cluster_area - intersection + 1e-10)	# 交并比 = 相交面积 / 两个框面积相加并减去相交面积
    # iou_ = intersection / (box_area + cluster_area - intersection + 1e-10)

    return iou_


def avg_iou(boxes, clusters):
    """
    Calculates the average Intersection over Union (IoU) between a numpy array of boxes and k clusters.
    param:
        boxes: numpy array of shape (r, 2), where r is the number of rows
        clusters: numpy array of shape (k, 2) where k is the number of clusters
    return:
        average IoU as a single float
    """
    return np.mean([np.max(iou(boxes[i], clusters)) for i in range(boxes.shape[0])])	# 查看训练集框和anchor box的交并比
    

def kmeans(boxes, k, dist=np.mean):
    """
    Calculates k-means clustering with the Intersection over Union (IoU) metric.
    param:
        boxes: numpy array of shape (r, 2), where r is the number of rows
        k: number of clusters
        dist: distance function
    return:
        numpy array of shape (k, 2)
    """
    rows = boxes.shape[0]		# boxes就是result，看看有多少个框

    distances = np.empty((rows, k))		# 存放每个点与中心点的距离
    last_clusters = np.zeros((rows,))	# 存放上一次的距离，用于结束循环

    np.random.seed()

    # the Forgy method will fail if the whole array contains the same rows
    clusters = boxes[np.random.choice(rows, k, replace=False)]		# 随机选取k个中心点，默认是9个

    while True:
        for row in range(rows):
            distances[row] = 1 - iou(boxes[row], clusters)		# 上述的距离公式，用1减去每个框和中心点的交并比，得到每个框到中心点的距离

        nearest_clusters = np.argmin(distances, axis=1)		# 得到每个框距离哪个中心点距离最小

        if (last_clusters == nearest_clusters).all():		# 如果上一次距离和这次距离一样，跳出循环，结束（距离一样，聚类结果肯定一样）
            break

        for cluster in range(k):
            clusters[cluster] = dist(boxes[nearest_clusters == cluster], axis=0)	# 更新中心点
            '''
            利用与第几个点距离最小的框求均值得到聚类结果，如现在求第一个anchor box，
            那么就取出nearest_clusters == 0的box，因为这些box是与第一个中心点距离最近的(nearest_clusters)=0
            然后利用均值，求出新的中心点
            '''

        last_clusters = nearest_clusters

    return clusters


def parse_anno(annotation_path, target_size=None):
    anno = open(annotation_path, 'r')	# 读入训练集
    result = []
    for line in anno:
        s = line.strip().split(' ')		# 以空格分割（回头再看一眼训练集格式）
        img_w = int(s[2])
        img_h = int(s[3])
        s = s[4:]		# 高（h）后面的数据都是框的数据
        box_cnt = len(s) // 5		# 每5个数据为1个框，看看有多少个框
        for i in range(box_cnt):
            x_min, y_min, x_max, y_max = float(s[i*5+1]), float(s[i*5+2]), float(s[i*5+3]), float(s[i*5+4])		# 取出每个框的左上角坐标和右下角坐标
            width = x_max - x_min	# 计算框的宽
            height = y_max - y_min	# 计算框的高
            assert width > 0
            assert height > 0
            # use letterbox resize, i.e. keep the original aspect ratio
            # get k-means anchors on the resized target image size
            if target_size is not None:
                resize_ratio = min(target_size[0] / img_w, target_size[1] / img_h)	# 计算图像放缩比例
                width *= resize_ratio
                height *= resize_ratio		# 将框的尺寸同比例放缩
                result.append([width, height])		# 将框的结果放入result中
            # get k-means anchors on the original image size
            else:
                result.append([width, height])
    result = np.asarray(result)		# 变成numpy数组比较好操作
    return result		# 此时result中存放的是训练集所有框经过放缩后的尺寸


def get_kmeans(anno, cluster_num=9):

    anchors = kmeans(anno, cluster_num)
    ave_iou = avg_iou(anno, anchors)

    anchors = anchors.astype('int').tolist()

    anchors = sorted(anchors, key=lambda x: x[0] * x[1])

    return anchors, ave_iou


if __name__ == '__main__':
    # target resize format: [width, height]
    # if target_resize is speficied, the anchors are on the resized image scale
    # if target_resize is set to None, the anchors are on the original image scale
    target_size = [416, 416]	# 由于YOLOv3默认输入为416*416，所以需要将图像都放缩到这个尺寸，anchor同时也需要放缩
    annotation_path = "train.txt"	# 训练集路径
    anno_result = parse_anno(annotation_path, target_size=target_size)
    anchors, ave_iou = get_kmeans(anno_result, 9)		# 对result中的结果进行聚类，聚类出9个框

	# 格式化输出anchors格式
    anchor_string = ''
    for anchor in anchors:
        anchor_string += '{},{}, '.format(anchor[0], anchor[1])
    anchor_string = anchor_string[:-2]

    print('anchors are:')
    print(anchor_string)
    print('the average iou is:')
    print(ave_iou)

到此K-means就结束了，其实K-means++和K-means差不多，如果理解了K-means那么K-means++就很好理解了。

K-means++

上文说过K-means存在受初始值选取影响大的问题，那么怎么降低初始值选取的影响呢？
那我们可以慢慢来嘛，一个一个选，不要一次性选K个
关于K-means++可以参考我这篇博客K-means++

源代码
代码和K-means的非常像，唯一区别就是，这段代码计算IOU的时候，K-means++我是一个一个中心点输入计算的，所以单独有个iou_kpp为K-means++用

from __future__ import division, print_function

import numpy as np
import random
import math


def iou(box, clusters):
    x = np.minimum(clusters[:, 0], box[0])
    y = np.minimum(clusters[:, 1], box[1])
    if np.count_nonzero(x == 0) > 0 or np.count_nonzero(y == 0) > 0:
        raise ValueError("Box has no area")

    intersection = x * y
    box_area = box[0] * box[1]
    cluster_area = clusters[:, 0] * clusters[:, 1]

    iou_ = np.true_divide(intersection, box_area + cluster_area - intersection + 1e-10)
    # iou_ = intersection / (box_area + cluster_area - intersection + 1e-10)

    return iou_

def iou_kpp(box, clusters):
    x = np.minimum(clusters[0], box[0])
    y = np.minimum(clusters[1], box[1])
    if np.count_nonzero(x == 0) > 0 or np.count_nonzero(y == 0) > 0:
        raise ValueError("Box has no area")

    intersection = x * y
    box_area = box[0] * box[1]
    cluster_area = clusters[0] * clusters[1]

    iou_ = np.true_divide(intersection, box_area + cluster_area - intersection + 1e-10)
    # iou_ = intersection / (box_area + cluster_area - intersection + 1e-10)

    return iou_


def avg_iou(boxes, clusters):
    return np.mean([np.max(iou(boxes[i], clusters)) for i in range(boxes.shape[0])])


def get_closest_dist(point, centroids):
    min_dist = math.inf  # 初始设为无穷大
    print(centroids)
    for i, centroid in enumerate(centroids):
        print(centroids)
        dist = 1 - iou_kpp(point, centroid)		# 点和当前每个中心点进行计算距离
        if dist < min_dist:
            min_dist = dist		# 注意我K-means++博客中的这句“指该点离中心点这一数组中所有中心点距离中的最短距离”
    return min_dist


def kpp_centers(data_set: list, k: int) -> list:
    """
    从数据集中返回 k 个对象可作为质心
    """
    cluster_centers = []
    cluster_centers.append(random.choice(data_set))
    d = [0 for _ in range(len(data_set))]
    #print(d)
    for _ in range(1, k):
        total = 0.0
        for i, point in enumerate(data_set):
            d[i] = get_closest_dist(point, cluster_centers) # 与最近一个聚类中心的距离
            total += d[i]
        total *= random.random()
        for i, di in enumerate(d): # 轮盘法选出下一个聚类中心；
            total -= di
            if total > 0:
                continue
            cluster_centers.append(data_set[i])
            break
    return cluster_centers



def kmeans(boxes, k, dist=np.median):
    rows = boxes.shape[0]

    distances = np.empty((rows, k))
    last_clusters = np.zeros((rows,))

    np.random.seed()

    # the Forgy method will fail if the whole array contains the same rows
    clusters = kpp_centers(boxes, k)
    clusters = np.array(clusters)
    #clusters = boxes[np.random.choice(rows, k, replace=False)] 这是K-means的，两个切换注释下就行了

    while True:
        for row in range(rows):
            distances[row] = 1 - iou(boxes[row], clusters)  # iou很大则距离很小
        # 对每个标注框选择与其距离最接近的集群中心的标号作为所属类别的编号。
        nearest_clusters = np.argmin(distances, axis=1)     # axis=1表示沿着列的方向水平延伸

        if (last_clusters == nearest_clusters).all():
            break

        for cluster in range(k):
            clusters[cluster] = dist(boxes[nearest_clusters == cluster], axis=0)    # 给每类算均值新中心点

        last_clusters = nearest_clusters
        print(last_clusters)

    return clusters


def parse_anno(annotation_path, target_size=None):
    anno = open(annotation_path, 'r')
    result = []
    # 对每一个标记图片
    for line in anno:
        s = line.strip().split(' ')
        img_w = int(s[2])
        img_h = int(s[3])
        s = s[4:]
        box_cnt = len(s) // 5
        # 分别处理每一个标记框的信息，并提取标记框的高度和宽度，存入result 列表
        for i in range(box_cnt):
            x_min, y_min, x_max, y_max = float(s[i*5+1]), float(s[i*5+2]), float(s[i*5+3]), float(s[i*5+4])
            width = x_max - x_min
            height = y_max - y_min
            # assert width > 0
            # assert height > 0
            # use letterbox resize, i.e. keep the original aspect ratio
            # get k-means anchors on the resized target image size
            if target_size is not None:
                resize_ratio = min(target_size[0] / img_w, target_size[1] / img_h)
                width *= resize_ratio
                height *= resize_ratio
                result.append([width, height])
            # get k-means anchors on the original image size
            else:
                result.append([width, height])
    result = np.asarray(result)
    return result


def get_kmeans(anno, cluster_num=9):
    # 使用kmeans算法计算需要的anchors
    anchors = kmeans(anno, cluster_num)

    ave_iou = avg_iou(anno, anchors)
    # 格式化为int类型
    anchors = anchors.astype('int').tolist()
    # 按照面积大小排序，
    anchors = sorted(anchors, key=lambda x: x[0] * x[1])

    return anchors, ave_iou


if __name__ == '__main__':

    target_size = [416, 416]
    annotation_path = "train.txt"
    anno_result = parse_anno(annotation_path, target_size=target_size)
    anchors, ave_iou = get_kmeans(anno_result, 9)

    # 格式化输出anchors数据
    anchor_string = ''
    for anchor in anchors:
        anchor_string += '{},{}, '.format(anchor[0], anchor[1])
    anchor_string = anchor_string[:-2]

    print('anchors are:')
    print(anchor_string)
    print('the average iou is:')
    print(ave_iou)

打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
PostgreSQL vs MySQL——哪种关系数据库更好? 全能资料库 postgresql mysql 数据库
PostgreSQL和MySQL是世界上最流行的两种关系数据库管理系统(RDMS)。包括商业企业和开源基金会在内的所有市场人口都在使用它们。它们的共同点是强大的网络容错能力和对数据聚类的支持。这篇文章的主题是将它们区分开来。RDMS起源和历史1973年,加州大学伯克利分校启动了一个名为“Ingres”的项目,为关系数据库管理系统制定新标准。该项目是用C编写的,并根据开源许可证向公众发布。根据[Wi
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
【sklearn 05】sklearn功能模块 @金色海岸 sklearn 人工智能 python
sklearn功能模块分类：识别某个对象属于那个类别回归：预测与对象相关联的连续值属性聚类：将相似对象自动分组降维：减少要考虑的随机变量的数量模型选择：比较、验证、选择参数和模型预处理：特征提取和归一化
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
文本挖掘+情感分析+主题建模+K-Meas聚类+词频统计+词云（景区游客评论情感分析）请为小H留灯聚类机器学习支持向量机人工智能深度学习
本文通过情感分析技术对景区游客评论进行深入挖掘，结合数据预处理、情感分类和文本挖掘，分析游客评价与情感倾向。利用朴素贝叶斯和SVM等模型进行情感预测，探讨满意度与情感的关系。通过KMeans聚类和LDA主题分析，提取游客关心的话题，提供优化建议，为未来研究提供方向。1.引言1.1背景与目的1.2旅游业发展与游客评论的重要性2.数据处理与分析2.1数据加载与预处理2.2游客评分与点赞量分析3.评论内
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
从零开始：基于LLM大模型构建智能应用程序的完整指南 AI天才研究院 ChatGPT 人工智能
目录从零开始：基于LLM大模型构建智能应用程序的完整指南什么是LLM大模型如何利用LLM大模型构建智能应用程序1.收集和准备数据2.构建LLM大模型3.集成和部署4.监测和维护使用特定于私有领域的数据增强LLM检索增强生成(RAG)数据预处理、分块和检索技术零射击与少量射击提示和指导LLM大模型使用LLM进行推荐和聚类任务改善组织内的搜索体验考虑以上所有解锁的利基应用程序参考最近，围绕大型语言模型
C++ 实现 ROS 2 点云欧几里得聚类 c++
C++实现ROS2点云欧几里得聚类在LivoxMid-360采集的sensor_msgs::msg::PointCloud2点云数据上进行欧几里得聚类（EuclideanClusterExtraction），具体流程如下：✅1.订阅PointCloud2并转换为pcl::PointCloud解释：sensor_msgs::msg::PointCloud2是ROS2点云消息格式，PCL不能直接处理。
YOLO系列模型从v1到v10的演进剑走偏锋o.O YOLO 目标跟踪人工智能
文章目录引言YOLOv1:开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化YOLOv4:引入注意力机制与优化模块发布时间与背景核心创新模型架构训练策略与优化YOLOv5:工程优化与实际应用的结合发布时间与背景核心创新模型架构训
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
图像识别技术与应用课后总结（18）一元钱面包人工智能
·YOLO-V3RetinaNet系列，YOLO-V3在不同变体（如YOLOV3-320、YOLOV3-416等）下，在推理时间和精度上有不同的表现，展示了其在速度和准确性上的平衡。YOLO-V3的改进点网络结构：相比之前版本，YOLO-V3的网络结构进行了优化，使其更适合小目标检测。特征处理：对特征的处理更加细致，通过融入多持续特征图信息来预测不同规格的物体。先验框：先验框更加丰富，有3种sca
KMeans实战——聚类和轮廓系数评估啤酒数据集巷955 机器学习人工智能
原理：在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（SilhouetteScore）来评估聚类结果的质量。1.数据准备首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一
【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力东临碣石82 人工智能语言模型深度学习
摘要：大型语言模型在各种自然语言处理任务中取得了显著成功，然而其在推理过程中的高计算成本仍然是一个主要瓶颈。本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。受大型语言模型中隐藏状态和激活值的聚类模式启发，SEAP识别出特定于任务的专家激活模式，并在保持任务性能和提高计算效率的同时对模型进行修剪。实验结果表明，SEAP在保持竞争
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
机器学习中的谱方法（Spectral Methods）与核方法（Kernel Methods） Cachel wood python机器学习和数据挖掘机器学习人工智能 django sklearn python 开发语言
文章目录机器学习中的谱方法（SpectralMethods）与核方法（KernelMethods）1.谱方法（SpectralMethods）核心思想关键技术示例：谱聚类2.核方法（KernelMethods）核心思想关键技术示例：核SVM3.谱方法与核方法的对比4.核心联系5.如何选择？6.总结机器学习中的谱方法（SpectralMethods）与核方法（KernelMethods）谱方法和核方
【时间序列聚类】从数据中发现隐藏的模式 T-I-M 机器学习人工智能时间序列
在大数据时代，时间序列数据无处不在。无论是股票市场的价格波动、天气的变化趋势，还是用户的点击行为，这些数据都随着时间推移而产生。然而，面对海量的时间序列数据，我们如何从中提取有价值的信息？答案之一就是时间序列聚类。本文将以通俗易懂的方式，带你了解时间序列聚类的基本概念、应用场景以及实现思路，并希望能为你提供一些启发。什么是时间序列聚类？简单来说，时间序列聚类是一种将相似的时间序列归为一类的技术。它
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

YOLOv3：K-means聚类和K-means++聚类anchor box理论以及源代码

文章目录

引言

K-means

K-means++

你可能感兴趣的:(YOLOv3,聚类算法,聚类)