00000cj

PaDiM 原理与代码解析

paper：PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization

code1：https://github.com/xiahaifeng1995/PaDiM-Anomaly-Detection-Localization-master

code2：https://github.com/openvinotoolkit/anomalib

背景

异常检测是一个区分正常类别与异常类别的二分类问题，但实际应用中我们经常缺乏异常样本，并且异常可能会有意想不到的模式，所以训练一个全监督的模型是不切实际的。因此，异常检测模型通常以单类别学习的模式，即训练集中只包含正常样本，在测试阶段，与正常类别不同的样本被归类为异常样本。

论文的出发点

目前的单类别学习模式的异常检测模型要么需要训练深度神经网络，非常麻烦。要么测试阶段在整个训练集上使用K最近邻算法，KNN算法线性复杂度的特点导致随着训练集的增大，其时间和空间复杂度也随之增大。这两类问题可能会阻碍异常检测算法在工业环境中的部署。针对上述两个问题，本文提出了一个新的异常检测和定位方法PaDiM（Patch Distribution Modeling）。

论文的创新点

PaDiM利用预训练好的CNN进行embedding提取，并且具有以下两个特点：（1）每个patch位置都用一个多元高斯分布来描述。（2）PaDiM考虑到了CNN不同语义level之间的关联。此外，在测试阶段，它的时间和空间复杂度都比较小，且独立于训练集的大小，这非常有利于工业部署应用。对于异常检测和定位任务，在MVTec AD和ShanghaiTec Campus两个数据集上，PaDiM超越了现有SOTA方法（2020年本文提出时）。

实现细节

这里以在ImageNet数据集上预训练的resnet18为例讲解下具体实现过程，数据采用mvtec中的bottle类别，共有209张训练图片。

A. Embedding extraction

如上图中间所示，将预训练模型中三个不同层的feature map对应位置进行拼接得到embedding vector，这里分别取resnet18中layer1、layer2、layer3的最后一层，模型输入大小为224x224，这三层对应输出维度分别为(209,64,56,56)、(209,128,28,28)、(209,256,14,14)，这里实现1中是通过将小特征图每个位置复制多份得到与大特征图同样的spatial size，然后再进行拼接。比如28x28的特征图中一个1x1的patch与56x56的特征图中对应位置的2x2的patch相对应，将该1x1的patch复制4份得到2x2大小patch后再与56x56对应位置的2x2 patch进行拼接，下面的代码是通过F.unfold实现的，F.unfold的具体用法见 torch.nn.functional.unfold 用法解读_00000cj的博客-CSDN博客

def embedding_concat(x, y):
    B, C1, H1, W1 = x.size()  # (209,64,56,56)
    _, C2, H2, W2 = y.size()  # (209,128,28,28)
    s = int(H1 / H2)  # 2
    x = F.unfold(x, kernel_size=s, dilation=1, stride=s)  # (209,256,784)
    x = x.view(B, C1, -1, H2, W2)  # (209,64,4,28,28)
    z = torch.zeros(B, C1 + C2, x.size(2), H2, W2)  # (209,192,4,28,28)
    for i in range(x.size(2)):
        z[:, :, i, :, :] = torch.cat((x[:, :, i, :, :], y), 1)
    z = z.view(B, -1, H2 * W2)  # (209,768,784)
    z = F.fold(z, kernel_size=s, output_size=(H1, W1), stride=s)  # (209,192,56,56)

    return z

实现2中则是通过插值的方法，通过最近邻插值算法将小特征图进行上采样后再与大特征图进行拼接，如下所示，其中因为实现2的输入大小是256x256，因此最大特征图size为64x64

embeddings = features[self.layers[0]]
for layer in self.layers[1:]:
    layer_embedding = features[layer]
    layer_embedding = F.interpolate(layer_embedding, size=embeddings.shape[-2:], mode="nearest")
    embeddings = torch.cat((embeddings, layer_embedding), 1)  # torch.Size([32, 448, 64, 64])

将三个不同语义层的特征图进行拼接后得到(209, 448, 56, 56)大小的patch嵌入向量可能带有冗余信息，因此作者对其进行了降维，作者发现随机挑选某些维度的特征比PCA更有效，在保持sota性能的前提下降低了训练和测试的复杂度，文中维度选择100，因此输出为(209, 100, 56, 56)。

B. Learning of nomality

为了学习正常图像在位置 \((i,j)\) 处的特征，我们首先计算 \(N\) 张正常训练图片在位置 \((i,j)\) 处的嵌入向量集和 \(X_{ij}=\left \{ x_{ij}^{k},k\in\left [ 1,N \right ] \right \} \)，为了整合这个set的信息假设 \(X_{ij}\) 是通过多元高斯分布 \(\mathcal N(\mu_{ij},{\textstyle \sum_{ij}^{}} )\) 得到的，其中 \(\mu_{ij}\) 是 \(X_{ij}\) 的样本均值，样本协方差 \({\textstyle \sum_{ij}^{}} \) 通过下式估计得到

其中正则项 \(\epsilon I\) 保证协方差矩阵时满秩且可逆的，如上图右所示，图像中每个位置都通过高斯参数矩阵与一个多元高斯分别相关联。

实现1是通过numpy中的np.conv函数直接计算协方差矩阵的，代码如下

# randomly select d dimension
embedding_vectors = torch.index_select(embedding_vectors, 1, idx)  # (209,448,56,56) -> (209,100,56,56)
# calculate multivariate Gaussian distribution
B, C, H, W = embedding_vectors.size()
embedding_vectors = embedding_vectors.view(B, C, H * W)  # (209,100,3136)
mean = torch.mean(embedding_vectors, dim=0).numpy()  # (100,3136)
cov = torch.zeros(C, C, H * W).numpy()  # (100,100,3136)
I = np.identity(C)
for i in range(H * W):
    cov[:, :, i] = np.cov(embedding_vectors[:, :, i].numpy(), rowvar=False) + 0.01 * I
# save learned distribution
train_outputs = [mean, cov]
with open(train_feature_filepath, 'wb') as f:
    pickle.dump(train_outputs, f)

实现2则是按式(1)一步步计算得到的协方差矩阵

class MultiVariateGaussian(nn.Module):
    """Multi Variate Gaussian Distribution."""

    def __init__(self, n_features, n_patches):
        super().__init__()

        self.register_buffer("mean", torch.zeros(n_features, n_patches))
        self.register_buffer("inv_covariance", torch.eye(n_features).unsqueeze(0).repeat(n_patches, 1, 1))

        self.mean: Tensor
        self.inv_covariance: Tensor

    @staticmethod
    def _cov(
        observations: Tensor,  # (batch_size, 100), (209,100)
        rowvar: bool = False,
        bias: bool = False,
        ddof: Optional[int] = None,
        aweights: Tensor = None,
    ) -> Tensor:
        """Estimates covariance matrix like numpy.cov.

        Args:
            observations (Tensor): A 1-D or 2-D array containing multiple variables and observations.
                 Each row of `m` represents a variable, and each column a single
                 observation of all those variables. Also see `rowvar` below.
            rowvar (bool): If `rowvar` is True (default), then each row represents a
                variable, with observations in the columns. Otherwise, the relationship
                is transposed: each column represents a variable, while the rows
                contain observations. Defaults to False.
            bias (bool): Default normalization (False) is by ``(N - 1)``, where ``N`` is the
                number of observations given (unbiased estimate). If `bias` is True,
                then normalization is by ``N``. These values can be overridden by using
                the keyword ``ddof`` in numpy versions >= 1.5. Defaults to False
            ddof (Optional, int): If not ``None`` the default value implied by `bias` is overridden.
                Note that ``ddof=1`` will return the unbiased estimate, even if both
                `fweights` and `aweights` are specified, and ``ddof=0`` will return
                the simple average. See the notes for the details. The default value
                is ``None``.
            aweights (Tensor): 1-D array of observation vector weights. These relative weights are
                typically large for observations considered "important" and smaller for
                observations considered less "important". If ``ddof=0`` the array of
                weights can be used to assign probabilities to observation vectors. (Default value = None)


        Returns:
          The covariance matrix of the variables.
        """
        # ensure at least 2D
        if observations.dim() == 1:
            observations = observations.view(-1, 1)

        # treat each column as a data point, each row as a variable
        if rowvar and observations.shape[0] != 1:
            observations = observations.t()

        if ddof is None:
            if bias == 0:
                ddof = 1
            else:
                ddof = 0

        weights = aweights
        weights_sum: Any

        if weights is not None:
            if not torch.is_tensor(weights):
                weights = torch.tensor(weights, dtype=torch.float)  # pylint: disable=not-callable
            weights_sum = torch.sum(weights)
            avg = torch.sum(observations * (weights / weights_sum)[:, None], 0)
        else:
            avg = torch.mean(observations, 0)  # torch.Size([100])

        # Determine the normalization
        if weights is None:
            fact = observations.shape[0] - ddof  # batch_size-1 (209-1)
        elif ddof == 0:
            fact = weights_sum
        elif aweights is None:
            fact = weights_sum - ddof
        else:
            fact = weights_sum - ddof * torch.sum(weights * weights) / weights_sum

        observations_m = observations.sub(avg.expand_as(observations))  # (209,100)

        if weights is None:
            x_transposed = observations_m.t()  # (100,209)
        else:
            x_transposed = torch.mm(torch.diag(weights), observations_m).t()
        covariance = torch.mm(x_transposed, observations_m)  # (100, 100)
        covariance = covariance / fact

        return covariance.squeeze()

    def forward(self, embedding: Tensor) -> List[Tensor]:
        """Calculate multivariate Gaussian distribution.

        Args:
          embedding (Tensor): CNN features whose dimensionality is reduced via either random sampling or PCA.

        Returns:
          mean and inverse covariance of the multi-variate gaussian distribution that fits the features.
        """
        device = embedding.device

        batch, channel, height, width = embedding.size()
        # 训练时batch_size=32,每10个epoch测试一次，因此这里的batch应该是320,但训练集总共只有209张图片，因此这里batch=209
        embedding_vectors = embedding.view(batch, channel, height * width)
        self.mean = torch.mean(embedding_vectors, dim=0)  # (100, 4096)
        covariance = torch.zeros(size=(channel, channel, height * width), device=device)
        identity = torch.eye(channel).to(device)
        for i in range(height * width):
            covariance[:, :, i] = self._cov(embedding_vectors[:, :, i], rowvar=False) + 0.01 * identity

        # calculate inverse covariance as we need only the inverse
        self.inv_covariance = torch.linalg.inv(covariance.permute(2, 0, 1))

        return [self.mean, self.inv_covariance]

    def fit(self, embedding: Tensor) -> List[Tensor]:
        """Fit multi-variate gaussian distribution to the input embedding.

        Args:
            embedding (Tensor): Embedding vector extracted from CNN.

        Returns:
            Mean and the covariance of the embedding.
        """
        return self.forward(embedding)

C. Inference: computation of the anomaly map

文中使用马氏距离 \(M(x_{ij})\) 来计算测试图片在位置 \((i,j)\) 处的异常分数，\(M(x_{ij})\) 表示测试图片的嵌入向量 \(x_{ij}\) 和学习到的分布 \(\mathcal N(\mu_{ij},{\textstyle \sum_{ij}^{}} )\) 之间的距离，计算方式如下

实现1中直接调用scipy库中的mahalanobis函数来计算马氏距离，代码如下

from scipy.spatial.distance import mahalanobis
# randomly select d dimension
embedding_vectors = torch.index_select(embedding_vectors, 1, idx)

# calculate distance matrix
B, C, H, W = embedding_vectors.size()  # (83,100,56,56)
embedding_vectors = embedding_vectors.view(B, C, H * W).numpy()  # (83,100,3136)
dist_list = []
for i in range(H * W):
    mean = train_outputs[0][:, i]  # (100,)
    conv_inv = np.linalg.inv(train_outputs[1][:, :, i])  # (100,100)
    dist = [mahalanobis(sample[:, i], mean, conv_inv) for sample in embedding_vectors]
    dist_list.append(dist)

测试集一共83张图片，在得到每个像素点的马氏距离后，进行上采样、高斯滤波、归一化的后处理后，就得到了最终的输出，大小和输入相同，维度为 (83, 224, 224)，其中每个位置的值为该像素点为异常类的得分。

from scipy.ndimage import gaussian_filter
dist_list = np.array(dist_list).transpose(1, 0).reshape(B, H, W)  # (3136,83)->(83,3136)->(83,56,56)

# upsample
dist_list = torch.tensor(dist_list)
score_map = F.interpolate(dist_list.unsqueeze(1), size=x.size(2), mode='bilinear',
                          align_corners=False).squeeze().numpy()  # (83,224,224)

# apply gaussian smoothing on the score map
for i in range(score_map.shape[0]):
    score_map[i] = gaussian_filter(score_map[i], sigma=4)

# Normalization
max_score = score_map.max()
min_score = score_map.min()
scores = (score_map - min_score) / (max_score - min_score)  # (83,224,224)

实验

消融实验

Inter-layer correlation

高斯分布和马氏距离在之前已经被用于缺陷检测中了，但没有像PaDiM一样考虑到CNN中不同语义层级之间的关联，作者通过实验对比了单独采用layer1、2、3，将单独采用单层特征的三个模型相加进行模型融合，以及本文的方法。通过上表可以看出，模型融合比采用单层特征的单个模型效果更好，但这并没有考虑到三层之间的关联，PaDiM考虑到了这点并获得了最优的结果。

Dimensionality reduction

作者对比了PCA和随机挑选两种降维方法，通过上表可以看出，无论降到100维还是200维，随机挑选的效果都比PCA好，这可能是因为PCA挑选的是那些方差最大的维度，但这些维度可能不是最有助于区分正常和异常类的维度。另外随机挑选的方法从448维将到200维再降到100维，精度损失都不大，但却大大降低了模型复杂度。

Comparison with the state-of-the-art

PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
《CPython Internals》阅读笔记：p250-p284 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-("out")+pandere("tospread")spawn原来的意思是“spreadingoutoffish
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
Gary Marcus 2025年AI预测：AGI仍在路上，务实发展才是王道前端
人工智能领域发展日新月异，各种预测层出不穷。知名人工智能专家GaryMarcus近期发布了对2025年AI发展趋势的25项预测，其中最引人注目的是：AGI（通用人工智能）不会在2025年出现。这与一些过于乐观甚至盲目乐观的预测形成了鲜明对比。本文将深入解读Marcus的预测，探讨其背后的逻辑，并结合当前AI技术发展现状进行分析。Marcus的预测整体基调是谨慎乐观，他既肯定了AI在特定领域的进步，
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
人类为何追求AGI？一个AI代码生成工具的思考前端
近年来，“AI写代码工具”的出现，无疑为软件开发领域带来了革命性的变化。而我们今天要探讨的，是关于人类对通用人工智能（AGI）的追求，以及这与AI辅助开发工具之间微妙的联系。文章开头就抛出了一个尖锐的问题：人类为何如此痴迷于AGI，而非将更多精力放在改善人类生活本身？文章作者表达了对AGI发展方向的担忧。他认为，目前对AGI的追求，更多地体现在创造能够取代人类的超级智能上，例如“少数派报告式”的行
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
零售业的AI赋能与前端开发效率革命：ScriptEcho 的助力前端
零售业正经历着前所未有的数字化转型，但同时也面临着巨大的挑战。库存管理混乱、个性化客户体验不足等问题，严重制约着零售企业的盈利能力。而人工智能（AI）的兴起，为解决这些问题提供了新的思路。通过AI驱动的实时库存管理和客户行为分析，零售企业可以显著提升运营效率和客户满意度。然而，构建这些AI赋能的零售应用，需要强大的前端开发能力，这正是AI代码生成器ScriptEcho能够发挥关键作用的地方。AI赋
AI赋能：2024年，如何用AI提升效率，我的15个实用技巧及2025年展望前端
2024年，人工智能技术突飞猛进，深刻地改变了我们的工作方式。作为一名科技领域的作者，我亲身体验了AI带来的效率提升。过去一年，我探索了各种AI工具，并将其应用于我的日常工作中，显著缩短了工作流程，节省了大量时间。本文将分享我在2024年使用AI提升生产力的15个实用技巧，并展望2025年AI可能带来的更多可能性。AI赋能下的高效创作：从代码到图像，全方位提升首先，AI极大地辅助了我的编程工作。对
AI时代的前端开发：技能提升与职业发展之路前端
在瞬息万变的科技时代，个人职业发展的重要性日益凸显。提升技能，不断学习，已经不再是锦上添花，而是立足之本，是我们在竞争激烈的职场中脱颖而出的关键。而人工智能（AI）技术的快速发展，为我们提供了前所未有的机遇，特别是对于前端开发领域，AI正以前所未有的速度改变着我们的工作方式和学习方式。AI赋能前端开发：个性化学习路径前端开发领域的技术栈庞大而复杂，涵盖HTML、CSS、JavaScript、各种框
AI赋能：加速产品开发，提升公司竞争力前端
在当今快节奏的商业环境中，产品开发效率直接关系到公司的生存和发展。然而，许多公司面临着产品开发周期长、成本高、市场响应速度慢等诸多挑战。这些挑战不仅延缓了产品上市时间，也增加了市场竞争的风险。因此，提高产品开发效率，成为企业提升核心竞争力的关键。而人工智能技术的应用，为我们提供了解决这些问题的有效途径。加速产品迭代，快速响应市场需求传统的软件开发流程往往冗长复杂，从需求分析、设计、编码到测试和上线
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
AI赋能人力资源：效率提升新路径前端
引言人工智能(AI)正以前所未有的速度改变着各行各业，从自动驾驶到医疗诊断，AI的应用日益广泛。而人力资源领域，作为企业运营的核心环节，也正经历着AI带来的深刻变革。传统的人力资源管理面临诸多挑战，例如招聘效率低、候选人筛选精准度不足、员工培训成本高昂以及数据分析能力有限等。这些问题不仅影响企业的招聘速度和效率，也制约了企业的发展。为了应对这些挑战，越来越多的企业开始探索AI技术在人力资源领域的应
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
mindspore编译报错小乐快乐深度学习神经网络
1、重新创建个工程后无法正常运行，2、使用代码为：华为提供的机器学习监督学习中的代码[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=1364937&ptid=165780][color=#999999]回复：HS12发表于2021-10-3018:16[/color][/url][/size]报错信息
2025 年 JeecgBoot AI 低代码平台白皮书
引言随着人工智能技术的快速发展和数字化转型的深入推进，企业对AI应用的需求日益旺盛。然而，传统AI开发模式存在技术门槛高、开发周期长、成本高昂等问题，难以满足企业快速迭代和敏捷开发的需求。JeecgBoot作为一款优秀的开源低代码开发平台，拥有庞大的用户群体和丰富的功能模块。为了顺应技术发展趋势，满足用户需求，JeecgBoot计划向AI低代码平台转型，打造一款集低代码开发和AI能力于一体的新一代
AI大模型学习路线 liuhenghui5201 AI python AI 大模型
阶段1Python编程基础主要内容掌握的核心能力·Python基础语法·Python数据处理·函数·文件读写·异常处理·模块和包1、掌握Python开发环境基本配置；2、掌握运算符、表达式、流程控制语句、数组等的使用；3、掌握字符串的基本操作；4、初步建立面向对象的编程思维；5、熟悉异常捕获的基本流程及使用方式；6、掌握类和对象的基本使用方式。可解决的现实问题：熟练掌握人工智能Python语言，建
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
C++中的基本IO流 ITSOK_U C++c++
IO流1.基本IO流1.1IO对象无拷贝无赋值1.2IO对象的条件状态1.3IO与缓冲2.文件IO流2.1使用ifstream读取文件内容2.1使用ofstream写文件3.stringIO类在C++中时不直接处理输入输出的，我们使用的是标准IO库来处理IO，这些库支持从文件、控制台窗口等读写数据，当然在C++中还有一些特殊的类型允许内存IO。比如我们就可以通过string进行读写数据。下面我们先
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
Android 右键后无Java class创建不吃凉粉 android java 开发语言
Androidstudio创建javaclass：最近几个月用Androidstudio开发，因为电脑设置了一个新的用户使用，原来的androidstudio,打开之前的正常的项目总是报一些奇奇怪怪的错误，就重新安装了最新的版本问题描述但是新的androidstudio右键后没有javaclass,本来我就不怎么用java和androidstudio,又赶时间，不想花时间用更不了解的kotlin解
【NOIP普及组】三连击我就是南山 C++题目 #NOIP普及组算法
题目描述将1,2,…,91,2,…,9共99个数分成33组，分别组成33个三位数，且使这33个三位数构成1:2:31:2:3的比例，试求出所有满足条件的33个三位数。输入格式无输出格式若干行，每行33个数字。按照每行第11个数字升序排列。输入输出样例输入无输出192384576***...***（剩余部分不予展示）上代码代码#includeusingnamespacestd;intmain(){f
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地