杀生丸学AI

【目标检测】Grounding DINO：开集目标检测器(CVPR2023)

文章目录

前言
1.摘要
2.背景
- 2.1相对于GLIP优势：
- 2.2 本文贡献
- 2.3 Open-Set 目标检测
3.算法
- 3.1Feature Extraction and Enhancer
- 3.2. Language-Guided Query Selection
- 3.3. Cross-Modality Decoder
- 3.4. Sub-Sentence Level Text Feature
- 3.5. Loss Function
4.实验
代码
- 1 文本token化
- 2.图像编码
- 3.融合阶段

前言

文章来自清华大学和IDEA（International Digital Economy Academy）

论文：《Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection》
github： https://github.com/IDEA-Research/GroundingDINO

1.摘要

Grounding DINO，一种开集目标检测方案，将基于Transformer的检测器DINO与真值预训练相结合。开集检测关键是引入自然语言至闭集检测器，用于open world的检测。可实现对新颖类别进行检测，特定属性目标识别。在COCO数据集上零样本检测达到52.5AP，在COCO数据集finetune后达到63AP。

2.背景

大多开集检测器都是通过将闭集检测器扩展到具有语言信息的开集场景 来开发的。如下图所示，一个封闭集检测器通常有三个重要的模块，一个用于特征提取的主干，一个用于特征增强的颈部，以及一个用于区域细化（或box预测）的头部。通过学习语言感知区域嵌入，可以将闭集检测器推广到检测新对象，使每个区域在语言感知语义空间中被划分为新的类别。
实现这一目标的关键是：在颈部（和/或头部）输出的语言特征和区域输出 之间使用对比损失。为对齐跨模态信息（上图显示了特征融合的三个阶段：颈部（阶段A）、查询初始化（阶段B）和头部（阶段C））GLIP 在颈部模块中执行早期融合（阶段A），而OV-DETR 使用语言感知查询作为头部输入（阶段B）。我们认为，在pepline 中进行更多的特征融合，可以使模型表现得更好。

2.1相对于GLIP优势：

GLIP：常用的视觉语言模型，用于统一CV与NLP

1、基于Transformer结构与语言模型接近，易于处理跨模态特征；
2、基于Transformer的检测器有利用大规模数据集的能力；
3、DINO可以端到端优化，无需精细设计模块，比如：NMS

2.2 本文贡献

提出Grounding DINO，在多个阶段执行视觉-语言模态融合，扩展了封闭的DINO检测器：包括一个特征增强器（feature enhancer)、一个**语言引导的查询选择模块(language-guided query selection)**和一个 跨模态解码器(cross-modality decoder)。这种深度融合策略有效地提高了开集目标的检测能力。
我们建议将开放集目标检测的评估扩展到REC数据集。它有助于使用自由形式的文本输入来评估模型的性能。
在COCO、LVIS、ODinW和RefCOCO/+/g数据集上的实验证明了接地DINO在开集目标检测任务上的有效性

2.3 Open-Set 目标检测

开放集对象检测使用现有的边界框注释进行训练，旨在利用语言泛化检测任意类。OV-DETR 使用由CLIP模型编码的图像和文本嵌入作为查询来解码DETR框架中的类别指定的框。ViLD将知识从CLIP教师模型中提取为R-CNN类检测器，以便学习到的区域嵌入包含语言的语义。GLIP将目标检测定义为一个grounding问题，并利用额外的grounding数据来帮助学习在短语和区域级别上的对齐语义，可以在完全监督的检测基准上实现更强的性能。DetCLIP涉及到大规模的图像字幕数据集，并使用生成的伪标签来扩展知识库。所生成的伪标签有效地扩展了检测器的泛化能力。

以往的工作只在部分阶段融合多模态信息，这可能导致语言泛化能力的次优（GLIP只在特征增强A阶段融合，OV-DETR只在解码器输入B阶段注入语言信息）此外，REC任务在评估中通常被忽略，这是开放集检测的一个重要场景。

3.算法

如下图，对于图片、文本对，Grounding DINO可以输出多对目标框及对应名词短语。
Grounding DINO采用双编码器，单解码器结构。图像backbone 用于提取图像特征，文本backbone用于提取文本特征，特征增强用于融合图像及文本特征，语言引导的query选择模块用于query初始化，跨模态解码器用于框精细化。
流程如下：
1、图像及文本backbone分别提取原始图像及文本特征；
2、特征强化模块用于跨模态特征融合；
3、通过语言引导查询选择模块从图像特征中选择与文本对应的跨模态query；
4、跨模态解码器从跨模态query中提取需要特征，更新query；
5、输出query用于预测目标框及提取对应短语。

3.1Feature Extraction and Enhancer

给定一个（图像，文本）对，用 Swin Transformer用于提取图像特征，BERT用于提取文本特征，特征强化层如图3中block2，利用Deformable self-attention强化图像特征，原始的self-attention强化文本特征，受GLIP影响，增加图像到文本跨模态以及文本到图像跨模态，帮助对齐不同模态特征。

3.2. Language-Guided Query Selection

为引导文本进行目标检测，作者设计语言引导的query选择机制选择与文本更相关的特征作为解码器的query。算法下图所示。输出num_query索引，据此初始化query。每个decoder query包括两部分：content及position。位置部分公式化为dynamic anchor boxes，使用编码器输出进行初始化；内容部分训练中可学习，查询数量，在实现中被设置为900。

3.3. Cross-Modality Decoder

跨模态解码器结合图像及文本模态信息，跨模态query经过self-attention层，image cross-attention层与图像特征结合，text cross-attention层与文本特征结合，以及FFN层。与DINO相比，每个解码器都有一个额外的文本cross-attention层，引入文本信息，便于对齐模态。

3.4. Sub-Sentence Level Text Feature

之前工作中探究了两种文本prompt，句子层级表征将整个句子编码为一个特征，移除了单词间影响；单词级表征能够编码多个类别，但引入不必要依赖关系；为避免不相关单词相互作用，作者引入attention mask，此为sub-sentence级表征，既保留每个单词特征，又消除不相关单词间相互作用。

3.5. Loss Function

类似DETR，作者使用L1损失及GIOU损失用于框回归；沿用GLIP，对预测目标是否匹配文本使用对比损失约束。具体来说，我们将每个查询点积来预测每个文本标记的对数，然后计算每个logit的 focal loss。盒子回归和分类成本首先用于预测和GT之间的两两匹配。然后，我们计算GT和与相同损失成分匹配的预测之间的最终损失。在类似detr的模型之后，我们在每个解码器层之后和编码器输出之后添加辅助损耗。

4.实验

数据集：COCO、 LVIS、ODinW Benchmark。

表2，coco数据集zero-shot测试Grounding-DINO-T超越DINO，达到46.2AP，更换大backbone及使用更多数据预训练，达到60.7AP，在COCO数据集finetune后在COCO test数据集达到63AP

代码

1 文本token化

1.tokenizer

tokenized = self.tokenizer(captions, padding="longest", return_tensors="pt").to( samples.device )

结果如下图所示，最终的prompt词对应其中1012 这个数
2.bert（10层bertlayer+pooler），用于提取文本特征

bert_output = self.bert(**tokenized_for_encoder)  # hedden：（bs, 4, 768）pooler-output（bs, 1， 768）

bert网络结构：

2.图像编码

实用swin transformer提取图像特征，得到3个特征图

features, poss = self.backbone(samples)   # feat:[(bs,256,W/8,H/8) (bs,512,W/16,H/16)  (bs,1024,W/32,H/32)] poss:positionEmbeddingSineHW

srcs = []
masks = []
for l, feat in enumerate(features):
    src, mask = feat.decompose()          # (bs,256,W/8,H/8) mask:(bs,W/8,H/8)*[False]
    srcs.append(self.input_proj[l](src))  # 特征维度 都映射到256
    masks.append(mask)
    assert mask is not None
    if self.num_feature_levels > len(srcs):
        _len_srcs = len(srcs)                 # 3
        for l in range(_len_srcs, self.num_feature_levels):
            if l == _len_srcs:
                src = self.input_proj[l](features[-1].tensors)     # (b,1024,23,42) -> (b,256,12,21)
            else:
               src = self.input_proj[l](srcs[-1])
           m = samples.mask                                       # (b,H,W)*[False]
           mask = F.interpolate(m[None].float(), size=src.shape[-2:]).to(torch.bool)[0]      # (b,12,21) 12=w/64
           pos_l = self.backbone[1](NestedTensor(src, mask)).to(src.dtype)                   # positionEmbeddingSineHW:(b,256,12,21)
           srcs.append(src)  
           masks.append(mask)
           poss.append(pos_l)

3.融合阶段

整体代码为：

input_query_bbox = input_query_label = attn_mask = dn_meta = None
hs, reference, hs_enc, ref_enc, init_box_proposal = self.transformer(
    srcs, masks, input_query_bbox, poss, input_query_label, attn_mask, text_dict)

展开 self.transformer：

src_flatten = []
mask_flatten = []
lvl_pos_embed_flatten = []
spatial_shapes = []
for lvl, (src, mask, pos_embed) in enumerate(zip(srcs, masks, pos_embeds)):
    bs, c, h, w = src.shape           # (b,256,91,167)
    spatial_shape = (h, w)
    spatial_shapes.append(spatial_shape)

    src = src.flatten(2).transpose(1, 2)  # bs, hw, c
    mask = mask.flatten(1)  # bs, hw
    pos_embed = pos_embed.flatten(2).transpose(1, 2)  # bs, hw, c
    if self.num_feature_levels > 1 and self.level_embed is not None:
                lvl_pos_embed = pos_embed + self.level_embed[lvl].view(1, 1, -1)       # 相对位置编码+绝对（4，256） ->(b,15197,256)

memory, memory_text = self.encoder(
        src_flatten,                                # （b，20279，256）
        pos=lvl_pos_embed_flatten,
        level_start_index=level_start_index,
        spatial_shapes=spatial_shapes,
        valid_ratios=valid_ratios,
        key_padding_mask=mask_flatten,
        memory_text=text_dict["encoded_text"],     # （b，4，256）
        text_attention_mask=~text_dict["text_token_mask"],
            # we ~ the mask . False means use the token; True means pad the token
        position_ids=text_dict["position_ids"],
        text_self_attention_masks=text_dict["text_self_attention_masks"],
    )                                          # (b,20279,256)(b,4,256)

进入主函数self.encoder：
1.获得anchor，文本位置编码

reference_points = self.get_reference_points( spatial_shapes, valid_ratios, device=src.device )                                                        
# (b,20279,4,2):0-1之间的密集anchor点（每个点xy坐标重复4遍）

pos_text = get_sine_pos_embed(  position_ids[..., None], num_pos_feats=256, exchange_xy=False )

对文本的正余弦位置编码：
2.首次融合 self.fusion_layers

output, memory_text = checkpoint.checkpoint(  self.fusion_layers[layer_id],
                        output, memory_text, key_padding_mask, text_attention_mask,)

v = self.layer_norm_v(v)            # (b,20279,256)  前后不变
l = self.layer_norm_l(l)            # (b,4,256)      前后不变
delta_v, delta_l = self.attn(v, l, attention_mask_v=attention_mask_v, attention_mask_l=attention_mask_l)       # mask 维度跟v 、l一样，都是False   delta_v:(b,20279,256)  delta_l:(b,4,256)
        
v = v + self.drop_path(self.gamma_v * delta_v)
l = l + self.drop_path(self.gamma_l * delta_l)
return v, l



self.attn：

query_states = s
elf.v_proj(v) * self.scale                    # 0.0625  -> (b,20279,1024)
key_states = self._shape(self.l_proj(l), -1, bsz)             # (b,4,1024) reshape-> (b,4,4,256)
value_v_states = self._shape(self.values_v_proj(v), -1, bsz)  # (b,4,20279,256)
value_l_states = self._shape(self.values_l_proj(l), -1, bsz)  # (b,4,4,256)

proj_shape = (bsz * self.num_heads, -1, self.head_dim)        # (4*b, -1, 256)
query_states = self._shape(query_states, tgt_len, bsz).view(*proj_shape)    # (4*b,20279,256)
key_states = key_states.view(*proj_shape)                                   # (4*b,4,256)
value_v_states = value_v_states.view(*proj_shape)               # (4*b,20279,256)
value_l_states = value_l_states.view(*proj_shape)               # (4*b,4,256)

src_len = key_states.size(1)
attn_weights = torch.bmm(query_states, key_states.transpose(1, 2))  # bs*nhead, nimg, ntxt  # (4*b,20279,4)

if self.stable_softmax_2d:
    attn_weights = attn_weights - attn_weights.max()


attn_weights_T = attn_weights.transpose(1, 2)
attn_weights_l = attn_weights_T - torch.max(attn_weights_T, dim=-1, keepdim=True)[0]

attn_weights_l = attn_weights_l.softmax(dim=-1)           # (4b,20279,4)
attn_weights_v = attn_weights.softmax(dim=-1)             # (4b,20279,4)

attn_output_v = torch.bmm(attn_probs_v, value_l_states)          # (4b,20279,256)
attn_output_l = torch.bmm(attn_probs_l, value_v_states)          # (4b,4,256)

attn_output_v = self.out_v_proj(attn_output_v)         # (b,20279,1024) -> (b,20279,256)
attn_output_l = self.out_l_proj(attn_output_l)         # (b,4,1024)  ->     (b,4,256)

3.文本编码：

self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout)

q = k = self.with_pos_embed(src, pos)    # src+pos
src2 = self.self_attn(q, k, value=src, attn_mask=src_mask)[0]

src = src + self.dropout1(src2)
src = self.norm1(src)
src2 = self.linear2(self.dropout(self.activation(self.linear1(src))))
src = src + self.dropout2(src2)
src = self.norm2(src)

4.图像编码：deformable transformer

sampling_offsets = self.sampling_offsets(query).view(
bs, num_query, self.num_heads, self.num_levels, self.num_points, 2  )                                                          # (b,20279,256) -> conv-> (b,20279,8,4,4,2)
attention_weights = self.attention_weights(query).view(
bs, num_query, self.num_heads, self.num_levels * self.num_points  )                                                          # (b,20279,256) -> conv-> (b,20279,8,16)
attention_weights = attention_weights.softmax(-1)          # (b,20279,8,16)
attention_weights = attention_weights.view(
            bs,
            num_query,
            self.num_heads,
            self.num_levels,
            self.num_points,
        )

output_memory, output_proposals = gen_encoder_output_proposals(memory, mask_flatten, spatial_shapes )

# 三层线性层。用于将256维映射到4维
enc_outputs_coord_unselected = (   self.enc_out_bbox_embed(output_memory) + output_proposals ) 

enc_outputs_class_unselected = self.enc_out_class_embed(output_memory, text_dict)
        y = text_dict["encoded_text"]    
        res = x @ y.transpose(-1, -2)             # (b,20279,4)
topk_logits = enc_outputs_class_unselected.max(-1)[0]                 # (b,20279)
topk_proposals = torch.topk(topk_logits, topk, dim=1)[1]  # bs, 900

refpoint_embed_undetach = torch.gather( enc_outputs_coord_unselected, 1, topk_proposals.unsqueeze(-1).repeat(1, 1, 4)   )  # unsigmoid
init_box_proposal = torch.gather( output_proposals, 1,k_proposals.unsqueeze(-1).repeat(1, 1, 4) ).sigmoid()  # sigmoid
tgt_undetach = torch.gather( output_memory, 1, topk_proposals.unsqueeze(-1).repeat(1, 1, self.d_model) )   # 找到900个特征  

tgt_ = ( self.tgt_embed.weight[:, None, :].repeat(1, bs, 1).transpose(0, 1) )  # nq=900, bs, 256 预先设置的可学习参数

4.解码器：包含6层重复的结构，如下图

hs, references = self.decoder(
    tgt=tgt.transpose(0, 1),
    memory=memory.transpose(0, 1),
    memory_key_padding_mask=mask_flatten,
    pos=lvl_pos_embed_flatten.transpose(0, 1),
    refpoints_unsigmoid=refpoint_embed.transpose(0, 1),
    level_start_index=level_start_index,
    spatial_shapes=spatial_shapes,
    valid_ratios=valid_ratios,
    tgt_mask=attn_mask,
    memory_text=text_dict["encoded_text"],
    text_attention_mask=~text_dict["text_token_mask"],

DeformableTransformer：
高度封装的一种轻量化DETR，用于做局部注意力查询。感兴趣可以看论文。

output = MultiScaleDeformableAttnFunction.apply(
                value,                             # （b，20279，8，32）
                spatial_shapes,
                level_start_index,
                sampling_locations,                # （b，900，8，4，4，2）
                attention_weights,                 # （b，900，8，4，4）
                self.im2col_step,                  #  64
            )                                      # out：（b，900，256）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23