潇湘_AQ

论文笔记 You Only Look Once: Unified, Real-Time Object Detection

今天注意到同组小伙伴写的YOLO的笔记，十分详细，内容丰富，特地和他说了后转载，留着自己也学习一下。相比我之前介绍的YOLO笔记，他的介绍更适合仔细学习，而我原来的适合整体了解。同时，许多训练时的情况的加入，也便于大家的交流学习。

原博客地址：http://blog.csdn.net/u010167269/article/details/52457723 欢迎大家和他或者和我交流~

Preface

今天详细的看一下 CVPR 2016 年这篇：You Only Look Once: Unified, Real-Time Object Detection。另外，这篇的作者也有 Ross B. Girshick。

这篇 Paper 的项目主页在这里：http://pjreddie.com/darknet/yolo/

Abstract

这篇文章提出了一个新的物体检测的方法：You Only Look Once（YOLO）。

之前的物体检测方法通常都转变为了一个分类问题，如 R-CNN、Fast R-CNN 等等。另外，关于对 R-CNN、Fast R-CNN、Faster R-CNN 这一系列方法，知乎上有个特别好的帖子：如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法？

而这篇文章将检测变为一个 regression problem，YOLO 从输入的图像，仅仅经过一个 neural network，直接得到 bounding boxes 以及每个 bounding box 所属类别的概率。正因为整个的检测过程仅仅有一个网络，所以它可以直接 end-to-end 的优化。

YOLO 结构十分的快，标准的 YOLO 版本每秒可以实时地处理 45 帧图像。一个较小版本：Fast YOLO，可以每秒处理 155 帧图像，它的 mAP（mean Average Precision）依然可以达到其他实时检测算法的两倍。

同时相比较于其他的 state-of-art detection systems。尽管 YOLO 的定位更容易出错，这里的定位出错，即是指 coordinate errors。

但是 YOLO 有更少的 false-positive，文章这里提到了一个词：background errors，背景误差。这里所谓的背景误差即是指 False Positive。在这篇 Paper 的 Assigned Reviewer 里，有 Reviewer 提到了这个问题：

On overall, the paper reads well, even if some terms such as IOU (I guess it’s the abbreviation of intersection over union but it would be better to say it as it’s not a standard abbreviation) or “background errors” (I’m not really sure of the meaning of this expression. Are they False Positive? If yes, it should be better to use False Positive instead).

最后，YOLO 可以学习到物体的更加泛化的特征，在将 YOLO 用到其他领域的图像时（如 artwork 的图像上），其检测效果要优于 DPM、R-CNN 这类方法。

Introduction

现在的 detection systems 将物体检测问题，最后会转变成一个分类问题。在检测中，detection systems 采用一个 classifier 去评估一张图像中，各个位置一定区域的 window 或 bounding box 内，是否包含一个物体？包含了哪种物体？

一些 detection systems，如 Deformable Parts Models（DPM），采用的是 sliding window 的方式去检测。

最近的 R-CNN、Fast R-CNN 则采用的是 region proposals 的方法，先生成一些可能包含待检测物体的 potential bounding box，再通过一个 classifier 去判断每个 bounding box 里是否包含有物体，以及物体所属类别的 probability 或者 confidence。这种方法的 pipeline 需要经过好几个独立的部分，所以检测速度很慢，也难以去优化，因为每个独立的部分都需要单独训练。

本文将 object detection 的框架设计为一个 regression problem。直接从图像像素到 bounding box 以及 probabilities。这个 YOLO 系统如图看了一眼图像就能 predict 是否存在物体，他们在哪个位置，所以也才叫 You Only Look Once。

YOLO 的 idea 十分简单，如 Figure 1：
将图像输入单独的一个 CNN 网络，就会 predict 出 bounding boxes，以及这些 bounding boxes 所属类别的概率。YOLO 用一整幅图像来训练，同时可以直接优化 detection performance。

这样的统一的架构，对比之前如 R-CNN、 Fast R-CNN 的 pipeline，有以下几点好处：

（1）YOLO 检测系统非常非常的快。受益于将 detection 架构设计成一个 regression problem，以及简单的 pipeline。在 Titan X 上，不需要经过批处理，标准版本的 YOLO 系统可以每秒处理 45 张图像；YOLO 的极速版本可以处理 150 帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟的处理速度，实时地处理视频。同时，YOLO 实时检测的 mean Average Precision（mAP）是其他实时检测系统的两倍。YOLO 实时检测的 demo 在项目主页：http://pjreddie.com/darknet/yolo/

（2）YOLO 在做 predict 的时候，YOLO 使用的是全局图像。与 sliding window 和 region proposals 这类方法不同，YOLO 一次“看”一整张图像，所以它可以将物体的整体（contextual）的 class information 以及 appearance information 进行 encoding。目前最快最好的 Fast R-CNN ，较容易误将图像中的 background patches 看成是物体，因为它看的范围比较小。YOLO 的 background errors 比 Fast R-CNN 少一半多。

（3）YOLO 学到物体更泛化的特征表示。当在自然场景图像上训练 YOLO，再在 artwork 图像上去测试 YOLO 时，YOLO 的表现甩 DPM、R-CNN 好几条街。YOLO 模型更能适应新的 domain。

Unified Detection

YOLO 检测系统，先将输入图像分成 S×S 个 grid（栅格），如果一个物体的中心掉落在一个 grid cell 内，那么这个 grid cell 就负责检测这个物体。

每一个 grid cell 预测 B 个 bounding boxes，以及这些 bounding boxes 的得分：score。这个 score 反应了模型对于这个 grid cell 中预测是否含有物体，以及是这个物体的可能性是多少。正式的公式： Pr(Object)∗IOUtruthpred 。如果这个 cell 中不存在一个 object，则 score 应该为 0 ；否则的话，score 则为 predicted box 与 ground truth 之间的 IoU（intersection over union）。

本文中的每一个 bounding box 包含了 5 个 predictions： x,y,w,h,confidence ，坐标 (x,y) 代表了 bounding box 的中心与 grid cell 边界的相对值。width、height 则是相对于整幅图像的预测值。confidence 就是 IoU 值。

每一个 grid cell 还要预测 C 个 conditional class probability（条件类别概率）： Pr(Classi|Object) 。这个 C 基于 gird cell 包含了哪个物体（所以为 conditional probabilities）。不管 grid cell 中包含的 boxes 有多少 B ，每个 grid cell 只 predict 每个类别的 conditional probabilities。

在测试阶段，将每个 grid cell 的 conditional class probabilities 与每个 bounding box 的 confidence 相乘：

P r (C l a s s i | O b j e c t) * P r (O b j e c t) * I O U t r u t h p r e d = P r (C l a s s i) * I O U t r u t h p r e d

上面得到每个 bounding box 的具体类别的 confidence score。这样就把 bounding box 中预测的 class 的 probability，以及 bounding box 与 object 契合的有多好，都进行了 encoding。

将 YOLO 用于 PASCAL VOC 数据集时：

本文使用的 S=7 ，即将一张图像分为 7×7=49 个 grid cells
每一个 grid cell 预测 B=2 个 boxes（每个 box 是 (x,y,w,h,confidence) ， 5 个数值）
同时，PASCAL 数据集中有 20 个类别，则，上面的 C=20

因此，最后的 prediction 是 7×7×30 的 tensor

Network Design

YOLO 仍是 CNN 的经典形式，开始是 convolutional layers 提取特征，再是 fully connected layers 进行 predict 结果：probabilities 以及 coordinates。

YOLO 的 CNN 结构取自两篇论文：GoogLeNet、Network in Network. YOLO 有 24 个卷积层，随后就是全连接层。不像 GoogLeNet 中使用的 inception modules，YOLO 采用了 Network in Network 中的结构，在 3×3 卷积层之后，跟着一个 1×1 的层。如下图 Figure 3 所示：

网络结构，更详细的如下表所示：

Layers	Parameters
Input Data	Images Size: 448×448
Convolution	num_filters: 64 , kernel size: 7×7 , stride: 2
Max Pooling	kernel size: 2×2 , stride: 2
Convolution	num_filters: 192 , kernel size: 3×3 , stride: 1
Max Pooling	kernel size: 2×2 , stride: 2
Convolution	num_filters: 128 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 256 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 256 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 512 , kernel size: 3×3 , stride: 1
Max Pooling	kernel size: 2×2 , stride: 2
Convolution	num_filters: 256 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 512 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 256 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 512 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 256 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 512 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 256 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 512 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 512 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Max Pooling	kernel size: 2×2 , stride: 2
Convolution	num_filters: 512 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 512 , kernel size: 1×1 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 2
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Convolution	num_filters: 1024 , kernel size: 3×3 , stride: 1
Fully Connected Layer	Input Number: 1024 , Output Number: 4096
Fully Connected Layer	Input Number: 4096 , Output Number: 7×7×30

这个 YOLO 先在 ImageNet classification 任务上进行预训练（以一半的图像尺寸： 224×224 ），然后再将图像尺寸变为 448×448 ，用于 detection 任务。

之前说过，文本还有一个 Fast YOLO 版本。Fast YOLO 的网络结构中，只有 9 个卷积层，filters 也更少。

最后输出的 Tensor 为 7×7×30 ， 7×7 对应了 49 个 grid cells，30 对应了预测值。其中，8 维是回归的 box 坐标，2 维是 bounding box 的 confidence，最后还有 20 维是类别。

Training

YOLO 在 ImageNet 1000-class 的分类任务数据集上进行 pretraining。预训练的网络是 Figure 3 中网络的前 20 层卷积层，加上一个 average-pooling layer，最后是一个 fully connected layer。

这个预训练的网络，本文训练了大约一个星期，在 ImageNet 2012 的 validation dataset 上的 top-5 精度为 88% ，本文的 training 以及 inference 都是用 Darknet 卷积网络框架完成的。

之后就把预训练的 model 用于 detection，Ren et al., Object Detection Networks on Convolutional Feature Maps 指出了在预训练的 model 上增加 convolution layer 以及 connected layer 可以增加 model 的 performance。因此，在预训练的 model 上，本文增加了 4 个 convolutional layers 以及 2 个 connected layers，这新加的层的参数是随机初始化的。因为要用于 detection，本文在 detection 的 fine-grained 阶段，将图像的输入分辨率从 224×224 调整至 448×448 。

最后输出的为 class probabilities 以及 bounding box coordinates。但在输出时，根据图像的 width、height 将 bounding box 的 width、height 进行归一化，将值归一化到 0~1 的区间。同样将 bounding box 中的坐标 (x,y) 通过 grid cells 的 offset 归一化到 0~1 之间。

模型的最后一层，本文使用一个线性激活函数，其余的层则使用的是 leaky rectified linear activation：

ϕ (x) = {x, 0.1 x, if x > 0 otherwise

本文使用的是 sum-squared error 来作为优化目标。虽然 sum-squared error 较容易去优化，但是对于本问题，直接使用 sum-squared error 却不是那么合适。

因为将 localization error 以及 classification error 在优化求解中，相等的去衡量优化，本身就不合理。另外，每一张图像中，很多 grid cells 并没不包含物体，使得这些 cells 的 confidence 置为 0，这些不包含物体的 grid cells 的梯度更新，将会以压倒性的优势，覆盖掉包含物体的 grid cells 进行的梯度更新。这些问题会使得模型不稳定，甚至造成网络的发散。

为了避免上述的问题，本文将 localization error 以及 classification error 的 loss 重新用权重衡量。以平衡上述的失衡问题。简单的说，就是增加 bounding box coordinate 的 loss，减少不包含物体 grid cells 的 confidence 的 loss。通过设置两个参数： λcoord=5 以及 λnoobj=0.5 。

Sum-squared error loss 中还将 large box 与 small box 的 loss 同等对待。因为相比较于大的 box 与 groundtruth 的偏离，小的 box 的偏离一点，结果差别就很大，而大的 box 偏离大一点，对结果的影响较小。为了解决这个问题，用了一个很巧妙的 trick，即最后并不是直接输出 bounding box 的 width、height，而是 width、height 的 square root，平方根。

如下图所示，当 bounding box 的 width、height 越小时，发生偏移后，其反应在 Y 轴上的变化越大。这样就正确反映了 large box 与 small box 对于偏移的敏感性不同。

在 YOLO 中，每个 grid cell 预测多个 bounding box，但在网络模型的训练中，每一个物体，只想要一个 bounding box predictor 来负责预测。因此，当前哪一个 predictor 预测的 prediction 与 groundtruth 的 IoU 最大，这个 predictor 就负责 predict object。这会使得每个 predictor 可以专门的负责特定的物体检测。随着训练的进行，每一个 predictor 对特定的物体尺寸，长宽比，物体的类别的预测会越来越好。

训练时，需要优化的目标函数（loss function）如下：

λ c o o r d \sum i = 0 S 2 \sum j = 0 B 1 o b j i j [(x i - x ̂ i) 2 + (y i - y ̂ i) 2] + λ c o o r d \sum i = 0 S 2 \sum j = 0 B 1 o b j i j [(w i ‾ ‾ ‾ \sqrt - w ̂ i ‾ ‾ ‾ \sqrt) 2 + (h i ‾ ‾ \sqrt - h ̂ \sqrt i) 2] ＋ \sum i = 0 S 2 \sum j = 0 B 1 o b j i j (C i - C ̂ i) 2 + λ n o o b j \sum j = 0 B 1 n o o b j i j (C i - C ̂ i) 2 + \sum i = 0 S 2 1 o b j i \sum c \in c l a s s e s (p i (c) - p ̂ i (c)) 2

其中：

1obji 表示 object 是否出现在 grid cell i 中。
1objij 表示 grid cell i 中的第 j 个负责 prediction 的 predictor。

注意：

上式中 loss function 在只有当一个 grid cell 中存在 object 时，才会对 classification error 进行惩罚。
上式中 loss function 也只有在当 box predictor 对 groundtruth box 负责的时候，才会对 bounding box coordinate error 进行惩罚。

训练中，总共进行了 135 轮 epoches，训练、验证集来自 PASCAL 2012、2007。当在 VOC 2012 数据集上测试时，训练集包括了 VOC 2007 的测试集。训练中，bacthsize 为 64，momentum 为 0.9，decay 为 0.0005.

Learning rate 的设置：
（1）在第一轮 epoch 中，learning rate 逐渐从 10−3 增加到 10−2 。如果训练时从一个较大的 learning rate 开始，通常因为不稳定的梯度，而使得模型发散。
（2）之后，保持 learning rate 为 10−2 直到 epoch = 75；
（3）再接下的 30 轮 epoch，learning rate 为 10−3 ；
（4）最后 30 轮 epoch，learning rate 为 10−4 。

在训练中，为了避免 overfitting，使用了 dropout 技术，在第一层全连接层后面增加了一个 dropout layer，随机置零的 rate=0.5 。
为了防止 overfitting，也使用了 data augmentation 技术。

Inference

在训练好 YOLO 网络模型后，在 PASCAL VOC 数据集上进行 inference，每一张图像得到 98 个 bounding boxes，以及每个 bounding box 的所属类别概率。

当图像中的物体较大，或者处于 grid cells 边界的物体，可能在多个 cells 中被定位出来。可以用 Non-Maximal Suppression（NMS，非极大值抑制）进行去除重复检测的物体，可以使最终的 mAP 提高 2−3% ，相比较于 NMS 对于 DPM、R-CNN 的提高，不算大。

Limitations of YOLO

因为每个 grid cell 中只能预测两个 boxes，以及有一个类别。这种太强的空间约束，限制了 YOLO 对于相邻物体的检测能力，一旦相邻的物体数量过多，YOLO 就检测不好了。如对于一群鸟儿，这种相邻数量很多，而且又太小的物体，YOLO 难以进行很好的检测。

对于图像中，同一类物体出现新的、不常见的长宽比时，YOLO 的泛化能力较弱。

最后，loss functions 中对于 small bounding boxes，以及 large bounding boxes 的误差，均等对待。尽管正如前面提到的，大尺寸 bounding box 的 error 与小尺寸 bounding box 的 error，其影响是不同的。即使用了平方根的技巧优化了这个问题，但是这个问题还得得到更好的解决。

YOLO 中最主要的误差仍是定位不准造成的误差。

面试踩坑笔记之Object与性能优化向上_50358291 面试笔记性能优化
1、两个Object对象用equals相比较，是否相等？//Object类使用equals()方法//创建两个对象Objectobj1=newObject();Objectobj2=newObject();//判断obj1与obj2是否相等//不同对象，内存地址不同，不相等，返回falseSystem.out.println(obj1.equals(obj2));//false2、Object.e
DeepSeek 公开新的模型权重数据分析能量站机器学习人工智能
DeepSeek-V3是一款开源大语言模型，在关键基准测试中超越了Llama3.1405B和GPT-4o，尤其在编码和数学任务中成绩优异。除特定受限应用（军事、伤害未成年人、生成虚假信息等）外，模型权重开源，可在线下载。工作原理混合专家架构（MoE）：DeepSeek-V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama3.1405B，训练时间大幅缩
深度探索 DeepSeek-R1：国产大模型的AGI雏形与创新进展微凉的衣柜科技头条 agi 人工智能
随着人工智能技术的飞速发展，国内外企业纷纷发布了一系列创新的大模型，推动了AGI（通用人工智能）领域的探索。近期，DeepSeek-R1这一模型的发布引起了广泛关注，它不仅标志着国产大模型在智能化上的一次重大突破，还提出了全新的训练方法，解决了过去依赖大量人类数据的问题。本篇文章将详细介绍DeepSeek-R1的核心优势、技术创新以及实际应用案例，揭示它在AGI领域的潜力。1.DeepSeek-R
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争 xidianjiapei001 AI-人工智能与大模型人工智能 AI DeepSeek 大模型
这家公司打造出了一款成本更低且颇具竞争力的聊天机器人，其使用的高端计算机芯片数量少于谷歌和OpenAI等美国巨头企业，这凸显出芯片出口管制的局限性。圣诞节次日，一家名为DeepSeek的中国小型初创公司推出了一款新的人工智能系统，其性能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。仅此一点就堪称一个里程碑。但这个名为DeepSeek-V3系统的研发团队称，他们迈出了更大的一步。在一篇解释该技
tensorlow中tensorboard可视化展示训练过程张登杰踩 tensorflow tensorboard tensorflow mnist 神经网络
importtensorflowastffromtensorflow.examples.tutorials.mnistimportinput_datamax_steps=1000#训练步数learning_rate=0.001#设置学习率dropout=0.9#神经元保留比例data_dir='./MNIST_data'#数据存放路径#minist数据集下载链接:https://pan.baidu
java枚举转json 软件老王枚举 json
1、背景java后端的枚举类型，要展示到前端，提供给用户进行下拉选择，java后端需要封装enum为json字符串提供给前端，需要首先将枚举类型转为list，然后再转为json字符串。2、方案方案也很简单，使用EnumSet.allOf(TestEnum.class)，将数据获取到再塞到list中就可以了。代码如下：importcom.alibaba.fastjson.JSONObject;imp
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI人工智能代理工作流 AI Agent WorkFlow：在金融领域中的应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在金融领域中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgentWorkFlow,金融风险管理,自动化投资决策,数据驱动策略生成,量化交易系统1.背景介绍1.1问题的由来随着金融市场全球化和技术的飞速发展，金融机构面临着日益复杂的业务挑战。从风险管理和投资决策到客户关系管理
基于 WPF 平台使用纯 C# 实现动态处理 json 字符串 code_shenbing WPF wpf c#json
一、引言在当今的软件开发领域，数据的交换与存储变得愈发频繁，JSON（JavaScriptObjectNotation）作为一种轻量级的数据交换格式，以其简洁、易读、便于解析和生成的特点，被广泛应用于各种应用程序中。在WPF（WindowsPresentationFoundation）平台开发的桌面应用里，我们常常需要与各种数据源交互，动态处理JSON字符串就成为了一项必备技能。本文将深入探讨如何
8.2 从看图识字到智能解读：GPT-4 with Vision 开启多模态 AI 新纪元少林码僧 AI大模型应用实战专栏人工智能 chatgpt
从看图识字到智能解读：GPT-4withVision开启多模态AI新纪元引言：AI的多模态跃迁随着人工智能技术的快速发展，我们正迈入一个新的智能交互时代。传统的AI模型主要聚焦于文本处理，而多模态AI模型如GPT-4withVision（GPT-4V）则能够同时处理图像和文本。GPT-4V是OpenAI推出的多模态版本，它不仅能理解图片，还能结合文字对图片内容进行深入分析。这项技术为教育、创意、医
6. 马科维茨资产组合模型+政策意图AI金融智能体(DeepSeek-V3)增强方案（理论+Python实战） AI量金术师金融资产组合模型进化论人工智能金融 python 机器学习算法大数据数学建模
目录0.承前1.幻方量化&DeepSeek1.1Whatis幻方量化1.2WhatisDeepSeek2.重写AI金融智能体函数3.汇总代码4.反思4.1不足之处4.2提升思路5.启后0.承前本篇博文是对上一篇文章，链接:5.马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案（理论+Python实战）的AI金融智能体更改为幻方量化DeepSeek-V3的尝试。唯一区别之处在于
Video-P2P：通过控制 cross-attention 编辑视频 ScienceLi1125 3D视觉视频编辑
Paper:LiuS,ZhangY,LiW,etal.Video-p2p:Videoeditingwithcross-attentioncontrol[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2024:8599-8608.Introduction:https://video-p2p.gi
Manim中的三大核心对象：Scene、Mobject和Animation HP-Succinum Python python Manim 科研绘图
目录Manim中的三大核心对象1.Scene：场景的管理者作用常用方法示例代码2.Mobject：所有可视化对象的基类作用常用子类常用方法示例代码3.Animation：控制对象变化的工具作用常用动画类常用方法示例代码总结：三大对象的关系Manim是一个强大的数学动画制作工具，它使得我们能够通过编程的方式创作复杂的数学动画。对于使用Manim的开发者来说，理解它的核心概念是非常重要的。Manim中
map转换成JSON的方法 web18296061989 java java 后端
第一种alibabafalstjson：1.Map转JSONMapmap=newHashMap();map.put("a","a");map.put("b","123");JSONObjectjson=newJSONObject(map);2.map转stringMapmap=newHashMapmap=(Map)json;5.String转JSONStringstr="{"username":"
取对象的指定属性组成一个新的对象；变更对象的key值组成新的属性值柠檬花开_ object 取字段值组成新的对象
//原始对象constoriginalObject={id:1,name:'Alice',age:30,city:'NewYork'};//提取原始对象的指定属性并重命名，key值保持原有的const{name,id}=originalObject;//组成新对象constnewObject={displayName,id};console.log(newObject);-->{"name":"A
Pandas简单介绍 NN今天敲代码了吗 python python
Pandashastwoworkhorsedatastructures:SeriesandDataFrame.SeriesASeriesisaone-dimensionalarray-likeobjectcontaininganarrayofdata(ofanyNumPydatatype)andanassociatedarrayofdatalabels,calleditsindex.#1.crea
threejs学习笔记：CSS2DObject 2d文字渲染九段刀客 threejs 学习 javascript 开发语言
import{CSS2DRenderer,CSS2DObject}from"three/examples/jsm/renderers/CSS2DRenderer.js";//2d文字渲染function_createBox1Label(object
WiseAD：基于视觉-语言模型的知识增强型端到端自动驾驶硅谷秋水计算机视觉大模型自动驾驶语言模型自动驾驶人工智能机器学习
24年12月来自新加坡国立和浙大的论文“WiseAD:KnowledgeAugmentedEnd-to-EndAutonomousDrivingwithVision-LanguageModel”。随着视觉语言模型(VLM)的快速发展，人类通用知识和令人印象深刻的逻辑推理能力的出现，推动人们对将VLM应用于高级自动驾驶任务（如场景理解和决策）的兴趣日益浓厚。然而，深入研究知识熟练程度（尤其是基本驾驶
02~信息安全标准与规范 jnprlxc 安全学习方法网络安全系统安全安全架构改行学it 职场和发展
一、常见的信息安全标准1、美国标准：TCSEC（TrustedComputerSystemEvaluationCriteria，可信计算机系统评价标准。）1970年由美国国防科学委员会提出，1985年12月由美国国防部公布。是计算机系统安全评估的第一个正式标准。TCSEC最初只是军用标准，后来延至民用领域。将计算机系统的安全划分为4个等级、7个级别。四个大类（由低到高）：D（最小保护）、C（自主保
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
如何将json格式转换为dataframe格式若木胡 json
介绍欢迎关注我的公众号《若木的解忧杂货铺》json格式JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，它基于JavaScript语言的一个子集，但同时独立于任何编程语言。JSON格式易于人类阅读和编写，同时也易于机器解析和生成，这使得它成为理想的数据交换语言。JSON的基本格式JSON格式主要包括数值、字符串、数组、对象、对象数组和数组对象这几种类型。以下是
C#WinFrom读取Excel文件到DataTable djk8888 winform 大数据
usingSystem.Data.OleDb;privatevoidbtnUpload_Click(objectsender,EventArgse){DataTabledt=ReadExcelToTable();this.dataGridView1.DataSource=dt;//数据都有了,就可以for循环写到数据库里去了,不再赘述...}//读取EXCEL文件内容publicstaticDat
千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
元戎启行周光：智能驾驶的竞争，靠VLA模型决出胜负量子位
智能驾驶行业，有黑马杀出。据中国电动汽车百人会最新数据统计，自2024年9月至2024年12月，短短4个月时间，元戎启行凭借两款量产车，冲击行业第一梯队，在城区高阶智能驾驶供应商市场中拿下近10%的市场份额。对元戎启行来说，10%，只是一个开始。2025年1月22日，在第17届日本国际汽车工业技术展上，元戎启行再次亮出技术杀手锏——VLA模型（VisionLanguageActionModel，视
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
Objective-C语言的安全开发萧澄华包罗万象 golang 开发语言后端
Objective-C语言的安全开发引言在当今的信息技术时代，软件的安全性已成为开发者必须重视的重点。随着移动互联网的蓬勃发展，iOS作为重要的移动操作系统，受到越来越多开发者的关注。而Objective-C作为iOS应用开发的主要语言之一，其安全性问题也应引起重视。本文将探讨在Objective-C语言中进行安全开发的最佳实践，帮助开发者在应用编程过程中减少安全隐患，提高应用的安全性。一、了解O
SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain 于初见月 paper 计算机视觉
AbstractWiththeemergenceofGaussianSplats,recenteffortshavefocusedonlarge-scalescenegeometricreconstruction.However,mostoftheseeffortseitherconcentrateonmemoryreductionorspatialspacedivision,neglecting
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin