玉堃

Segmentation：HRnetv2+OCR 个人总结

HRNetV2+OCR

前言
1. 创新点
2. HRNetV2
- 2.1 网络结构
- 2.2 多尺度组卷积
- 2.3 多尺度卷积
- 2.4 HRNet的输出层
3 OCR（目标上下文表示）
- 3.1 OCR的网络框架
- 3.2 Object region representations
- 3.3 Object contextual representations
- 3.4 Augmented representations
4 基于MMsegmentation代码
- OCR部分
- 目标领域表示
- 目标上下文表示和最终像素增强表示
总结

前言

本篇文章仅是个人经过阅读原文和相关博客后的简单总结，其中的理解可能有误，望各位大佬批评指导。
本文分为两个部分分别是HRNetV2（High-resolution Represents net）和OCR(Object-Contextual Represent)部分。

参考资料如下：

论文：
High-Resolution Representations for Labeling Pixels and Regions
作者：Ke Sun
中国科学技术大学，亚洲微软研究院 2019

论文：
Object-Contextual Representations for Semantic Segmentation
作者：Yuhui Yuan
中国科学院计算所，亚洲微软研究院 2020

博客：HRNet网络简介
作者：太阳花的小绿豆

博客：HRNet详解
作者：gdtop818

博客：HRNet-OCR笔记
作者：vincent

1. 创新点

1.HRNetv2创新点（其实也是HRNetV1的创新点。相对于V1而言，V2是最后输出使用了全部的多尺度特征，而V1只使用高分辨率特征）
1.1 多尺度并行组卷积（ multi-resolution group convolution）：多尺度并行组卷积可以始终维持高分辨率表示，而不是串行卷积那样从高分辨率到低分辨率的方式进行卷积，这样做可以减少尺度特征的损失。
1.2 多尺度卷积（multi-resolution convolution）：对多个尺度的特征图进行融合，使得融合后的特征图具有更强的特征表示。

2.OCR创新点
学习每个像素和全部类别区域的相互关系，从而强化每个像素对于所属类别区域的表达能力，其思想类似于自注意力机制。

2. HRNetV2

2.1 网络结构

可以明显看出，该网络由4个模块组成。除了第一个模块只包含多尺度组卷积外，剩下3个模块都包含多尺度组卷积和多尺度卷积，其中多尺度组卷积是并行卷积，每个尺度相互独立。多尺度卷积则是不同尺度特征图相互融合。

经过第一个模块后输出尺度为4倍下采样特征图，8倍下采样特征图；
经过第二个模块后输出尺度为4倍下采样特征图，8倍下采样特征图，16倍下采样特征图；
经过第三个模块后输出尺度为4倍下采样特征图，8倍下采样特征图，16倍下采样特征图，32倍下采样特征图；
经过第四个模块后输出尺度为4倍下采样特征图，8倍下采样特征图，16倍下采样特征图，32倍下采样特征图。

以512x512x3的特征图为例，整体网络的数据流程图如下图所示：

Bottleneck

Basic Block

2.2 多尺度组卷积

多尺度组卷积以并行的方式对多个不同尺度的特征图分别进行卷积，从而构成高分辨率到低分辨率的子网，而不是像大多数现有解决方案那样串行连接。因此，该方法能够保持高分辨率，而不是通过一个以低分辨率到高分辨率的方式恢复特征图分辨率，进而可以有效保持特征图在空间上的精确率。

HRNetV2除了第一个模块中的多尺度组卷积使用的是Bottleneck结构外，剩下的三个模块使用的是BasicBlock结构。

2.3 多尺度卷积

多尺度卷积是一种类似于全连接方式的多尺度融合方法。类似于图c，输入和输出都划分为多个尺度不一样的特征子集，然后输入和输出的特征子集以全连接的方式进行融合，其中每个输出的特征子集都是所有输入特征子集经过或上采样或下采样后的结果之和。相比于串行连接中的跳接方式（Unet系列的跳接方式），这样做可以在保持原有尺度的特征信息下，融合不同尺度的特征信息，从而加强该尺度下的特征表示能力。

参考下图可以很好理解：
例如，一张512x512x3的图像在经过HRNet第三个模块后进行多尺度融合时的网络内容。
其中：
① 上采样是通过bilinear (nearest neighbor) upsampling方式来将图片上采样的。
② 下采样是通过kernel=3，stride=2，padding=1的卷积实现的。
③ 融合方式为特征图相加的形式。

源码中的上采样和下采样的方式，以stage2为例。

上图表示的就是下图红框的内容。

值得注意的是16x16x384的特征图在代码中其实就是32x32x192的2倍下采样，并没有融合其他尺度的信息。源码debug可以看出（源码来自于MMSegmentation框架下的HRNet网络代码）：

2.4 HRNet的输出层

从上图可以看出，HRNetV1仅仅只是利用了高分辨率的特征图，而其他低分辨率的特征图没有很好的利用。因此，作者提出两种融合其他尺度特征图的方式。
①针对语义分割和人脸识别任务而言，作者在HRNetV1的基础上将其他尺度的特征图进行上采样（依然是双线性插值），并拼接到一起，之后通过1x1的卷积来生成语义分割图或者热点图。该模型简记为HRNetV2。
②针对目标检测任务，作者在HRNetV1的基础上将其他尺度的特征图进行上采样（依然是双线性插值），并拼接到一起，之后通过average pooling来生成多尺度表示。该模型简记为HRNetV2p。

作者在后续的实验中也论证了经过简单的聚合多尺度特征图后，HRNetV2得到很大的提升。

3 OCR（目标上下文表示）

一个位置的上下文通常都指围绕该位置的一组位置的集合。例如，一个像素周边的像素集合。而早期的研究就是针对语义空间范围的上下文信息。例如，ASPP中的空洞卷积就是通过设置不同的膨胀率来获取不同空间范围的上下文信息。

OCR的特点其实就是通过计算像素和多个目标区域之间的相互关系，来强化该像素的特征表示,
此想法的启发是分配给一个像素的类标签是该像素所属对象的类别，那么只要学习该像素和所有类别区域的关系，就可以提高像素对所属类别区域的表达能力。该方法的思想类似于自注意力机制，如果对自注意力机制无法理解的，可以参考我的另一篇博客Transformer：注意力机制（attention）和自注意力机制（self-attention）的学习总结。

下面就是OCR和ASPP的区别，可以看出空洞卷积学习的是周边像素的关系，而OCR学习的是像素和类别区域之间的关系。

OCR的效果作者已经进行了实验。

3.1 OCR的网络框架

主要有三个模块，对应图中三个框：
粉色框：①将上下文像素划分为一组软目标区域，每个通道对应一个类别分割的结果。此处软目标区域是一个语义分割的输出结果，该分割结果不直接用于最终结果，而是作为一种粗分类结果用于计算后续的目标区域的特征表示。
紫色框：②通过聚合相应目标区域中像素的特征表示，来获取目标区域的特征表示。
黄色框：③最后，用目标上下文表示来增强每个像素的特征表示。

整体网络数据流程图如下：

3.2 Object region representations

获取目标区域特征表示。如下图公式所示，K是类别总数，k $\in$ K，p_i指的是图片上第i个像素。x_i是像素p_i对应的特征表示。 $\widetilde{m}$ _ki则是p_i像素对应的第k个类别领域的正则化值。

生成目标区域表示的数据流程。
720 $\times$ 128 $\times$ 256是channel $\times$ height $\times$ width。其中720是HRNetV2-W48中输出的4个特征维度（48, 96, 192, 384）拼接出来的结果。f_k就是最终的目标区域表示。

3.3 Object contextual representations

接下来是计算目标领域上下文的表示。
下面这副图可以明显的看到是一个softmax函数，这种形式等同于自注意力机制的softmax（Q $\cdot$ K^T），即第i个像素和每一个目标区域计算相似度，来寻找和该像素匹配度最高的特征表示形式。

k(x, f)的形式如下图英文描述的那样，是一个由1 $\times$ 1 conv+BN+Relu的转换模块，目的是更好的学习特征之间的相关性。
计算得出目标上下文表示。

为了方便理解，这两个公式中 $\phi$ (x_i)可以看作自注意力机制的Querry， $\psi$ (f_k)可以看作自注意力机制的Key，可以将w_ik可以看作为Softmax(Query ·Key)， $\delta$ (f_k)则可以看作为Value，y_i可以看作自注意力机制的最终结果y_i=Softmax( $\frac{(Query ·Key)}{\sqrt[]{d}}$ )·Vaule

目标上下文表示的数据流程图如下：

3.4 Augmented representations

最后的输出结果是由两部分组成，第一部分是x_i的原始像素表示，第二部分是目标上下文表示y_i。
最后的输出则是将上述两个部分拼接而成并使用1 $\times$ 1 conv+BN+Relu进行降维到所需的输出维度。

像素的增强表示数据流程图如下：

4 基于MMsegmentation代码

OCR部分

class OCRHead(BaseCascadeDecodeHead):
    """Object-Contextual Representations for Semantic Segmentation.

    This head is the implementation of `OCRNet
    `_.

    Args:
        ocr_channels (int): The intermediate channels of OCR block.
        scale (int): The scale of probability map in SpatialGatherModule in
            Default: 1.
    """

    def __init__(self, ocr_channels, scale=1, **kwargs):
        super(OCRHead, self).__init__(**kwargs)
        self.ocr_channels = ocr_channels
        self.scale = scale
        self.object_context_block = ObjectAttentionBlock(
            self.channels,
            self.ocr_channels,
            self.scale,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)
        self.spatial_gather_module = SpatialGatherModule(self.scale)

        self.bottleneck = ConvModule(
            self.in_channels,
            self.channels,
            3,
            padding=1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)

    def forward(self, inputs, prev_output):              
    #inputs是HRNetV2-w48的输出->list(48x128x256, 96x128x256, 192x128x256, 384x128x256), 注意w48指的是头一个特征图的维度。
    #pre_outout是HRNetV2-w48经过一个FCN_Head后的结果为batch x num_class x 128 x 256
 
        """Forward function."""
        x = self._transform_inputs(inputs) # 将4个特征图上采样并拼接在一起生成720x128x256
        feats = self.bottleneck(x) # 将结果720x128x256 降维到512x128x256，这就是上面公式讲的Xi
        context = self.spatial_gather_module(feats, prev_output) # 获取目标领域表示， batch x num_class X  dims
        object_context = self.object_context_block(feats, context)# 获得像素增强表示， 输出为batch x 512 x 128 x 256
        output = self.cls_seg(object_context)# 进行语义分割，输出为batch x num_class x 128 x 256

        return output

目标领域表示

class SpatialGatherModule(nn.Module):
    """Aggregate the context features according to the initial predicted
    probability distribution.

    Employ the soft-weighted method to aggregate the context.
    """

    def __init__(self, scale):
        super(SpatialGatherModule, self).__init__()
        self.scale = scale

    def forward(self, feats, probs):
    # feat： xi，维数512 x 128 x 256
    # probs：预测输出 num_classes x 128 x 256
        """Forward function."""
        batch_size, num_classes, height, width = probs.size()
        channels = feats.size(1)
        probs = probs.view(batch_size, num_classes, -1) # probs：batch_size x num_classes x 32768
        feats = feats.view(batch_size, channels, -1)# feats：batch_size x 512 x 32768
        # [batch_size, height*width, num_classes]
        feats = feats.permute(0, 2, 1)
        # [batch_size, channels, height*width]
        probs = F.softmax(self.scale * probs, dim=2)
        # [batch_size, channels, num_classes]
        ocr_context = torch.matmul(probs, feats) # ocr_context：batch_size x num_classes x 512
        ocr_context = ocr_context.permute(0, 2, 1).contiguous().unsqueeze(3)# ocr_context：batch_size x 512 x num_classes x 1
        return ocr_context

目标上下文表示和最终像素增强表示


class SelfAttentionBlock(nn.Module):
    """General self-attention block/non-local block.

    Please refer to https://arxiv.org/abs/1706.03762 for details about key,
    query and value.

    Args:
        key_in_channels (int): Input channels of key feature.
        query_in_channels (int): Input channels of query feature.
        channels (int): Output channels of key/query transform.
        out_channels (int): Output channels.
        share_key_query (bool): Whether share projection weight between key
            and query projection.
        query_downsample (nn.Module): Query downsample module.
        key_downsample (nn.Module): Key downsample module.
        key_query_num_convs (int): Number of convs for key/query projection.
        value_num_convs (int): Number of convs for value projection.
        matmul_norm (bool): Whether normalize attention map with sqrt of
            channels
        with_out (bool): Whether use out projection.
        conv_cfg (dict|None): Config of conv layers.
        norm_cfg (dict|None): Config of norm layers.
        act_cfg (dict|None): Config of activation layers.
    """

    def __init__(self, key_in_channels, query_in_channels, channels,
                 out_channels, share_key_query, query_downsample,
                 key_downsample, key_query_num_convs, value_out_num_convs,
                 key_query_norm, value_out_norm, matmul_norm, with_out,
                 conv_cfg, norm_cfg, act_cfg):
        super(SelfAttentionBlock, self).__init__()
        #................略.......................
    def init_weights(self):
        """Initialize weight of later layer."""
     #................略.......................
    def build_project(self, in_channels, channels, num_convs, use_conv_module,
                      conv_cfg, norm_cfg, act_cfg):
        """Build projection layer for key/query/value/out."""
      #................略.......................

    def forward(self, query_feats, key_feats):
    # query_feats:batch x 512 x 128 x 256
    # key_feats:  batch x 512 x num_classes x 1
        """Forward function."""
        batch_size = query_feats.size(0)
        query = self.query_project(query_feats)# query:batch x 256 x 128 x 256
        if self.query_downsample is not None:
            query = self.query_downsample(query)
        query = query.reshape(*query.shape[:2], -1)# query:batch x 256 x 32768
        query = query.permute(0, 2, 1).contiguous()# query:batch x 32768 x 256

        key = self.key_project(key_feats)# key:batch x 256 x num_classes
        value = self.value_project(key_feats)# key:batch x num_classes x 256
        if self.key_downsample is not None:
            key = self.key_downsample(key)
            value = self.key_downsample(value)
        key = key.reshape(*key.shape[:2], -1)
        value = value.reshape(*value.shape[:2], -1)
        value = value.permute(0, 2, 1).contiguous()

        sim_map = torch.matmul(query, key)
        if self.matmul_norm:
            sim_map = (self.channels**-.5) * sim_map
        sim_map = F.softmax(sim_map, dim=-1)

        context = torch.matmul(sim_map, value)
        context = context.permute(0, 2, 1).contiguous()
        context = context.reshape(batch_size, -1, *query_feats.shape[2:])
        if self.out_project is not None:
            context = self.out_project(context)
        return context

总结

OCRmodule，本质上是针对HRNet的输出进行自注意力机制。每个像素针对不同的目标类别都做相似度匹配。这是像素和目标领域之间的，并不是像素和像素之间的。
OCR有两个loss，在mmseg上都用的交叉熵函数。这两个loss分别是针对软目标领域【HRnet+FCN后得到的分类结果。】，该loss的目的是使用于自注意力机制的粗分类结果，应该在GT的监督下。另一个loss是总在最后的分类结果上，目的是为了优化网络。用于软分类监督的权重为0.4，用于最终分类损失的权重为1。

未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
C语言教学大变革！DeepSeek如何改变高职院校编程课堂？武汉唯众智创 c语言开发语言程序设计 Deepseek
一、引言在当今数字化转型的浪潮中，程序设计与分析能力已成为高职教育中不可或缺的核心竞争力。作为编程语言的基础，C语言不仅训练学生的计算思维，还培养其算法实现能力。然而，当前高职院校的C语言教学面临诸多挑战，如实践环节薄弱、学生创新能力不足等。DeepSeek等新一代智能编码支持系统的出现，为这一现状带来了转机。该系统融合了深度神经网络与语义解析技术，能够智能生成代码、优化缺陷检测、解构程序逻辑，并
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
c++基于BP神经网络的手写数字识别鱼弦机器学习设计类系统开发语言人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于BP（Backpropagation）神经网络的手写数字识别是一种常见的机器学习应用。下面我将为您提供原理的详细解释、使用场景的解释以及一些相关的文献材料链接。原理详细解释
pytorch底层原理学习--Libtorch
libtorchlibtorch是PyTorch的C++实现版本，可以认为所有的pytorch底层都是由c++实现，而pytorch的所有C++实现就叫libtorch，也就是我们在pytorch官网getstart页面下载的c++pytorch版本。我们用python写的pytorch神经网络代码都会通过pybind11将python转换为libtorch的C++代码。[官方文档](PyTorc
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓