阿里云大数据AI技术

基于EasyCV复现DETR和DAB-DETR，Object Query的正确打开方式

DETR 是最近几年最新的目标检测框架，第一个真正意义上的端到端检测算法，省去了繁琐的 RPN、anchor 和 NMS 等操作，直接输入图片输出检测框。DETR 的成功主要归功于 Transformer 强大的建模能力，还有匈牙利匹配算法解决了如何通过学习的方式 one-to-one 的匹配检测框和目标框。

虽然 DETR 可以达到跟 Mask R-CNN 相当的精度，但是训练 500 个 epoch、收敛速度慢，小目标精度低的问题都饱受诟病。后续一系列的工作都围绕着这几个问题展开，其中最精彩的要属 Deformable DETR，也是如今检测的刷榜必备，Deformable DETR 的贡献不单单只是将 Deformable Conv 推广到了 Transformer 上，更重要的是提供了很多训练好 DETR 检测框架的技巧，比如模仿 Mask R-CNN 框架的 two-stage 做法，如何将 query embed 拆分成 content 和 reference points 两部分组成，如何将 DETR 拓展到多尺度训练，还有通过 look forward once 进行 boxes 预测等技巧，在 Deformable DETR 之后，大家似乎找到了如何打开 DETR 框架的正确方式。其中对 object query 代表什么含义，以及如何更好的利用 object query 做检测，产生了许多有价值的工作，比如 Anchor DETR、Conditional DETR 等等，其中 DAB-DETR 做的尤为彻底。DAB-DETR 将 object query 看成是 content 和 reference points 两个部分，其中 reference points 显示的表示成 xywh 四维向量，然后通过 decoder 预测 xywh 的残差对检测框迭代更新，另外还通过 xywh 向量引入位置注意力，帮助 DETR 加快收敛速度，本文将基于 EasyCV 复现的 DETR 和 DAB-DETR 算法详细介绍一下如何正确的使用 object query 来提升 DETR 检测框架的性能。

DETR

DETR 使用 set loss function 作为监督信号来进行端到端训练，然后同时预测所有目标，其中 set loss function 使用 bipartite matching 算法将 pred 目标和 gt 目标匹配起来。直接将目标检测任务看成 set prediction 问题，使训练过程变的简洁，并且避免了 anchor、NMS 等复杂处理。

DETR 主要贡献有两个部分：architecture 和 set prediction loss。

1.Architecture

DETR 先用 CNN 将输入图像 embedding 成一个二维表征，然后将二维表征转换成一维表征并结合 positional encoding 一起送入 encoder，decoder 将少量固定数量的已学习的 object queries(可以理解为 positional embeddings)和 encoder 的输出作为输入。最后将 decoder 得到的每个 output embdding 传递到一个共享的前馈网络(FFN)，该网络可以预测一个检测结果(包括类和边框)或着“没有目标”的类。

1.1 Transformer

1.1.1 Encoder

将 Backbone 输出的 feature map 转换成一维表征，得到特征图，然后结合 positional encoding 作为 Encoder 的输入。每个 Encoder 都由 Multi-Head Self-Attention 和 FFN 组成。和 Transformer Encoder 不同的是，因为 Encoder 具有位置不变性，DETR 将 positional encoding 添加到每一个 Multi-Head Self-Attention 中，来保证目标检测的位置敏感性。

# 一层encoder代码如下
class TransformerEncoderLayer(nn.Module):

    def __init__(self,
                 d_model,
                 nhead,
                 dim_feedforward=2048,
                 dropout=0.1,
                 activation='relu',
                 normalize_before=False):
        super().__init__()
        self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout)
        # Implementation of Feedforward model
        self.linear1 = nn.Linear(d_model, dim_feedforward)
        self.dropout = nn.Dropout(dropout)
        self.linear2 = nn.Linear(dim_feedforward, d_model)

        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)
        self.dropout2 = nn.Dropout(dropout)

        self.activation = _get_activation_fn(activation)
        self.normalize_before = normalize_before

    def with_pos_embed(self, tensor, pos: Optional[Tensor]):
        return tensor if pos is None else tensor + pos

    def forward(self,
                src,
                src_mask: Optional[Tensor] = None,
                src_key_padding_mask: Optional[Tensor] = None,
                pos: Optional[Tensor] = None):
        q = k = self.with_pos_embed(src, pos)
        src2 = self.self_attn(
            q,
            k,
            value=src,
            attn_mask=src_mask,
            key_padding_mask=src_key_padding_mask)[0]
        src = src + self.dropout1(src2)
        src = self.norm1(src)
        src2 = self.linear2(self.dropout(self.activation(self.linear1(src))))
        src = src + self.dropout2(src2)
        src = self.norm2(src)
        return src

1.1.2 Decoder

因为 Decoder 也具有位置不变性，Decoder 的个 object query(可以理解为学习不同 object 的 positional embedding)必须是不同，以便生成不同 object 的 embedding，并且同时把它们添加到每一个 Multi-Head Attention 中。个 object queries 通过 Decoder 转换成一个 output embedding，然后 output embedding 通过 FFN 独立解码出个预测结果，包含 box 和 class。对输入 embedding 同时使用 Self-Attention 和 Encoder-Decoder Attention，模型可以利用目标的相互关系来进行全局推理。和 Transformer Decoder 不同的是，DETR 的每个 Decoder 并行输出个对象，Transformer Decoder 使用的是自回归模型，串行输出个对象，每次只能预测一个输出序列的一个元素。

# 一层decoder代码如下
class TransformerDecoderLayer(nn.Module):

    def __init__(self,
                 d_model,
                 nhead,
                 dim_feedforward=2048,
                 dropout=0.1,
                 activation='relu',
                 normalize_before=False):
        super().__init__()
        self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout)
        self.multihead_attn = nn.MultiheadAttention(
            d_model, nhead, dropout=dropout)
        # Implementation of Feedforward model
        self.linear1 = nn.Linear(d_model, dim_feedforward)
        self.dropout = nn.Dropout(dropout)
        self.linear2 = nn.Linear(dim_feedforward, d_model)

        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)
        self.dropout2 = nn.Dropout(dropout)
        self.dropout3 = nn.Dropout(dropout)

        self.activation = _get_activation_fn(activation)
        self.normalize_before = normalize_before

    def with_pos_embed(self, tensor, pos: Optional[Tensor]):
        return tensor if pos is None else tensor + pos

    def forward(self,
                 tgt,
                 memory,
                 tgt_mask: Optional[Tensor] = None,
                 memory_mask: Optional[Tensor] = None,
                 tgt_key_padding_mask: Optional[Tensor] = None,
                 memory_key_padding_mask: Optional[Tensor] = None,
                 pos: Optional[Tensor] = None,
                 query_pos: Optional[Tensor] = None):
        q = k = self.with_pos_embed(tgt, query_pos)
        tgt2 = self.self_attn(
            q,
            k,
            value=tgt,
            attn_mask=tgt_mask,
            key_padding_mask=tgt_key_padding_mask)[0]
        tgt = tgt + self.dropout1(tgt2)
        tgt = self.norm1(tgt)
        tgt2 = self.multihead_attn(
            query=self.with_pos_embed(tgt, query_pos),
            key=self.with_pos_embed(memory, pos),
            value=memory,
            attn_mask=memory_mask,
            key_padding_mask=memory_key_padding_mask)[0]
        tgt = tgt + self.dropout2(tgt2)
        tgt = self.norm2(tgt)
        tgt2 = self.linear2(self.dropout(self.activation(self.linear1(tgt))))
        tgt = tgt + self.dropout3(tgt2)
        tgt = self.norm3(tgt)
        return tgt

1.1.3 FFNFFN

由 3 层 perceptron 和一层 linear projection 组成。FFN 预测出 box 的归一化中心坐标、长、宽和 class。DETR 预测的是固定数量的个 box 的集合，并且通常比实际目标数要大的(其中 DETR 默认设置为 100 个，而 DAB-DETR 设置为 300 个)，并且使用一个额外的空类来表示预测得到的 box 不存在目标。

class MLP(nn.Module):
    """ Very simple multi-layer perceptron (also called FFN)"""

    def __init__(self, input_dim, hidden_dim, output_dim, num_layers):
        super().__init__()
        self.num_layers = num_layers
        h = [hidden_dim] * (num_layers - 1)
        self.layers = nn.ModuleList(
            nn.Linear(n, k) for n, k in zip([input_dim] + h, h + [output_dim]))

    def forward(self, x):
        for i, layer in enumerate(self.layers):
            x = F.relu(layer(x)) if i < self.num_layers - 1 else layer(x)
        return x

2.Set prediction loss

DETR 模型训练的主要困难是如何根据 gt 衡量预测结果(类别、位置、数量)。DETR 提出的 loss 函数可以产生 pred 和 gt 的最优双边匹配(确定 pred 和 gt 的一对一关系)，然后优化 loss。将表示为 gt 的集合，表示为个预测结果的集合。假设N大于图片目标数，可以认为是用空类(无目标)填充的大小为的集合。搜索两个集合个元素

的不同排列顺序，使得 loss 尽可能的小的排列顺序即为二分图最大匹配(Bipartite Matching)，公式如下：

其中

表示 pred 和 gt 关于 $\sigma(i)$ 元素i的匹配 loss。其中二分图匹配通过匈牙利算法(Hungarian algorithm)得到。匹配loss同时考虑了pred class和pred box的准确性。每个gt的元素iii可以看成 $y_{i}=(c_{i},b_{i})$ ， $c_{i}$ 表示class label(可能是空类) $b_{i}$ 表示gt box，将元素二分图匹配指定的pred class表示为

pred box 表示为

第一步先找到一对一匹配的 pred 和 gt，第二步再计算 hungarian loss。hungarian loss 公式如下：

其中结合了 L1 loss 和 generalized IoU loss，公式如下：

# HungarianMatcher通过计算出cost_bbox,cost_class,cost_giou来一对一匹配预测框和gt框，然后返回匹配的索引对，最后通过索引对计算出loss值

# Final cost matrix
C = self.cost_bbox * cost_bbox + self.cost_class * cost_class + self.cost_giou * cost_giou
C = C.view(bs, num_queries, -1).cpu()

sizes = [len(v['boxes']) for v in targets]
indices = [
    linear_sum_assignment(c[i])
    for i, c in enumerate(C.split(sizes, -1))
]
return [(torch.as_tensor(i, dtype=torch.int64),
         torch.as_tensor(j, dtype=torch.int64)) for i, j in indices]
复制代码

DAB-DETR

DAB-DETR 将 object query 看成是 content 和 reference points 两个部分，其中 reference points 显示的表示成 xywh 四维向量，然后通过 decoder 预测 xywh 的残差对检测框迭代更新，另外还通过 xywh 向量引入位置注意力，帮助 DETR 加快收敛速度。

在 DAB-DETR 之前，有许多工作对如何设置 reference points 进行过深入的探索：Conditional DETR 通过 256 维的可学习向量学习得到 xy 参考点，然后将位置信息引入 transformer decoder 中；Anchor DETR 参考点看成是 xy，然后通过学习的方式得到 256 维的向量，将位置信息引入 transformer decoder 中，并且通过逐级迭代得到检测框的 xy；Defomable DETR 则是通过 256 维可学习向量得到 xywh 参考 anchor，通过逐级迭代得到检测框；DAB-DETR 则更为彻底，吸百家之长，通过 xywh 学习 256 维的向量，将位置信息引入 transformer decoder 中，并且通过逐级迭代得到检测框。至此，reference points 的使用方式逐渐明朗起来，显示的表示为 xywh，然后学习成 256 维向量，引入位置信息，每层 transformer decoder 学习 xywh 的残差，逐级叠加得到最后的检测框。

# DAB-DETR将object query显示的拆分为content和pos两种属性

# 将query_embed显示的表示为xywh，表示pos属性，通过MLP学习成256维的pos特征
self.query_embed = nn.Embedding(num_queries, query_dim)
# get sine embedding for the query vector
reference_points = self.query_embed.sigmoid()
obj_center = reference_points[..., :2]
query_sine_embed = gen_sineembed_for_position(obj_center)
query_pos = self.ref_point_head(query_sine_embed)

# content_embed初始化为全0的256维特征
tgt = torch.zeros(
                    self.num_queries,
                    bs,
                    self.embed_dims,
                    device=query_embed.device)

另外，DAB-DETR 为了更充分的利用 xywh 这种更为显示的 reference points 表示方式，进一步的引入了 Width & Height-Modulated Multi-Head Cross-Attention，其实简单来讲就是在 cross-attention 中引入位置 xywh 得到的位置注意力，这一点改进可以极大的加快 decoder 的收敛速度，因为原始的 DETR 相当于是在全图学习到位置注意力，DAB-DETR 可以直接关注到关键位置，这也是 Deformable DETR 为啥能加快收敛的原因，本质就是更关键的稀疏位置采样可以加快 decoder 收敛速度。

# 通过MLP的学习，调整query_sine_embed的attn位置，进一步加快收敛速度

# modulated HW attentions
if self.modulate_hw_attn:
    refHW_cond = self.ref_anchor_head(
        output).sigmoid()  # nq, bs, 2
    query_sine_embed[..., self.d_model //
                     2:] *= (refHW_cond[..., 0] /
                             obj_center[..., 2]).unsqueeze(-1)
    query_sine_embed[..., :self.d_model //
                     2] *= (refHW_cond[..., 1] /
                            obj_center[..., 3]).unsqueeze(-1)

复现结果

Tutorial

接下来，我们将通过一个实际的例子介绍如何基于 EasyCV 进行 DAB-DETR 算法的训练，也可以在该链接查看详细步骤。

一、安装依赖包

如果是在本地开发环境运行，可以参考该链接安装环境。若使用 PAI-DSW 进行实验则无需安装相关依赖，在 PAI-DSW docker 中已内置相关环境。二、数据准备

你可以下载COCO2017数据，也可以使用我们提供了示例 COCO 数据

wget http://pai-vision-data-hz.oss-cn-zhangjiakou.aliyuncs.com/data/small_coco_demo/small_coco_demo.tar.gz && tar -zxf small_coco_demo.tar.gz

mkdir -p data/  && mv small_coco_demo data/coco

data/coco 格式如下：

data/coco/
├── annotations
│   ├── instances_train2017.json
│   └── instances_val2017.json
├── train2017
│   ├── 000000005802.jpg
│   ├── 000000060623.jpg
│   ├── 000000086408.jpg
│   ├── 000000118113.jpg
│   ├── 000000184613.jpg
│   ├── 000000193271.jpg
│   ├── 000000222564.jpg
│       ...
│   └── 000000574769.jpg
└── val2017
    ├── 000000006818.jpg
    ├── 000000017627.jpg
    ├── 000000037777.jpg
    ├── 000000087038.jpg
    ├── 000000174482.jpg
    ├── 000000181666.jpg
    ├── 000000184791.jpg
    ├── 000000252219.jpg
         ...
    └── 000000522713.jpg

二、模型训练和评估

以 vitdet-base 为示例。在 EasyCV 中，使用配置文件的形式来实现对模型参数、数据输入及增广方式、训练策略的配置，仅通过修改配置文件中的参数设置，就可以完成实验配置进行训练。可以直接下载示例配置文件。

查看 easycv 安装位置

# 查看easycv安装位置
import easycv
print(easycv.__file__)

export PYTHONPATH=$PYTHONPATH:root/EasyCV

执行训练命令

单机8卡：
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m 
torch.distributed.launch --
nproc_per_node=8 --
master_port=29500 tools/train.py 
configs/detection/dab-
detr/dab_detr_r50_8x2_50e_coco.p
y --work_dir easycv/dab_detr --
launcher pytorch

执行评估命令

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5
,6,7 python -m 
torch.distributed.launch --
nproc_per_node=8 --
master_port=29500 tools/eval.py 
configs/detection/dab-
detr/dab_detr_r50_8x2_50e_coco.p
y easycv/dab_detr/epoch_50.pth -
-launcher pytorch --eval

Reference

代码实现：

DETR https://github.com/alibaba/EasyCV/tree/master/easycv/models/detection/detectors/detr

DAB-DETR
https://github.com/alibaba/EasyCV/tree/master/easycv/models/detection/detectors/dab_detr

EasyCV 往期分享

基于EasyCV复现ViTDet：单层特征超越FPN

MAE 自监督算法介绍和基于DETR是最近几年最新的目标检测框架，第一个真正意义上的端到端检测算法，省去了繁琐的RPN、anchor和NMS等操作，直接输入图片输出检测框。DETR的成功主要归功于Transformer强大的建模能力，还有匈牙利匹配算法解决了如何通过学习的方式one-to-one的匹配检测框和目标框。MAE 自监督算法介绍和基于

EasyCV 开源｜开箱即用的视觉自监督+Transformer 算法库

如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
深度学习中常见激活函数总结向左转,　向右走ˉ 深度学习人工智能 pytorch python
以下是一份深度学习激活函数的系统总结，涵盖定义、类型、作用、应用及选择影响，便于你快速掌握核心知识：一、激活函数的定义在神经网络中，激活函数（ActivationFunction）是神经元计算输出的非线性变换函数，作用于加权输入和偏置之和：输出=f(加权和+偏置)核心价值：引入非线性，使神经网络能够拟合任意复杂函数（无激活函数的深度网络等价于单层线性模型）。二、常见激活函数类型1.线性函数（Lin
AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr