架构师小秘圈

计算机视觉中的自监督学习与注意力建模

分享嘉宾：胡瀚博士 MSRA 研究员

编辑整理：朱玉石

出品平台：DataFunTalk

导读：自从深度学习提出以来，AI得到了快速的发展，每年都会有很多成果涌现，2020年也是丰收的一年，在各个AI领域都有很多里程碑的成果，在计算机视觉领域，也有很多技术上的重要突破性进展，今天给大家分享的就是其中两个重要进展，一个是计算机视觉中的自监督学习，另一个是计算机视觉的Transformer注意力建模，同时介绍讲者所在的微软亚洲研究院研究小组在这方面所做的相关工作。

下面分三个部分来介绍具体的内容：

2020年计算机视觉研究的三大突破
计算机视觉中的自监督学习
计算机视觉的Transformer注意力建模

2020年计算机视觉研究的三大突破

首先介绍2020年的计算机视觉领域有哪些突破性的进展。

1. 自监督学习

第一个突破是在自监督学习领域，2020年自监督学习首次超越了有监督预训练，这是一个里程碑。标志性的工作有何恺明等人的MoCo（参见论文《Momentum Contrast for Unsupervised Visual Representation Learning》），以及Hinton等人的SimCLR（参见论文《A Simple Framework for Contrastive Learning of Visual Representations》）。这两个工作在不到一年的时间里面已经收获了450和550个引用，对自监督学习是一个极大的促进。

2. Transformer注意力建模

第二个重要的突破是Transformer成功应用于主流视觉问题，代表工作有DETR（参见论文《End-to-End Object Detection with Transformers》）和ViT（参见论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》），它首次将transform成功地应用于主流的视觉问题，具体来说是分别应用在目标检测和图像分类上。这两项工作对将CV和NLP统一在同一种模型下，并开辟了一个新的研究潮流。也正因为如此，2020年的下半年涌现了很多transform相关的CV方向论文。

3. 用于视图合成的神经辐射场

第三个重要突破是NeRF（参见论文《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》），它对于低层视觉来说是一个里程碑的进展。

视觉中的自监督学习

1. 自监督学习的重要性- Yann LeCun的蛋糕

Yann LeCun在他图灵奖颁奖典礼演讲中有一个著名蛋糕类比，即用一块蛋糕来类比各种学习方式，其中包括强化学习、有监督学习，以及自监督学习等。Yann LeCun把强化学习比作蛋糕中的樱桃，认为它虽然耀眼，但不是根本的；又把有监督学习比作蛋糕中的冰激凌，虽然好吃但也不是根本；Yann LeCun把自监督学习比作蛋糕本身，认为它才是实现人类智能最根本的东西。

自监督学习为什么这么重要？

Yann LeCun认为人类婴儿就是通过自监督学习来认识这个世界的。婴儿出生后并不能与成人做直接交流和学习，所以他的学习不是有监督学习。婴儿与环境的交互有一些，但不够充分，因此他的学习主要也不是强化学习。事实上，婴儿大部分的学习是通过观察周围环境，从观察中蕴含的自监督任务来进行学习的，也就是说自监督学习才是人类通向智能最本质的一条道路。

关于婴儿是如何进行学习的，IBM的Linda Smith和Michael Gasser在2005年发表的《The Development of Embodied Cognition: Six Lessons from Babies》主题报告中有一些很好的阐述，有意者可以阅读参考。

2. “有监督预训练+下游任务微调”范式

2012年AlexNet横空出世，在当年的ImageNet比赛中，将错误率空前地降低了约40%，从此人工智能步入深度学习时代，以后所发表的计算机视觉论文中越来越多的出现了“deep”一词，而在2014年开始“deep”一词出现的次数又有了明显的激增。

而导致激增一部分原因在于2014年在学术界验证了一个很重要的范式（另一原因可能在于开源深度学习框架开始涌现），即“有监督预训练+下游任务微调”范式。

众所周知，深度学习训练需要大量的数据，然而我们在实际的下游任务训练中并没有很多的标注样本数据，通常只有几千甚至几百个数据，但是依然能训练出效果很好的模型，原因就是我们使用了“有监督预训练+下游任务微调”这样的范式。

以ImageNet为例，模型首先是在有120万标注数据的ImageNet分类数据集进行预训练，得到预训练模型，此后，下游任务则是基于预训练模型进行微调，通常的下游任务包括语义分割、目标检测、细粒度识别等等。相比不使用预训练模型，使用预训练模型的下游任务在模型性能上有很大的提升。

3. “自监督预训练+下游任务微调”

上面讲述了“自监督学习”和“有监督预训练+下游任务微调”，在2019年，这两件事情走到了一起，即“自监督预训练+下游任务微调”。这得益于一个里程碑的工作，就是何恺明等人提出的“MoCo”，即在2019年CVPR上发表的论文：“Momentum Contrast for Unsupervised Visual Representation Learning”。

MoCo在7个下游任务中，利用自监督预训练首次超越了有监督预训练的效果。这很可能意味着人工智能自监督或无监督时代的到来，这不但让我们可以利用几乎无限的训练数据而无需标注，更重要的是，从认知的角度看，“自监督预训练+下游任务微调”这样的训练范式也与人类的学习方式更加接近。

4. 自监督学习的发展历程

自监督训练是如何一步一步发展过来的呢？下面的图片中展示了过去十几年中出现的各种自监督学习方法。

方法各种各样，值得注意的是最近的突破性进展主要发展自2014年的“Exemplar networks”，其特点是把每个样本图片都作为一个类别，例如ImageNet有120万张样本图片，那么就认为有120万个类别。这个任务其实蛮反直觉的，因为我们学习的目标通常是希望更多抽象，因此接着这个思路做的人最初并不多。终于在2018年中的“Memory bank”将这一思路推到了一个引人关注的程度，2018年底的“Deep metric transfer”证明了这一思路在半监督学习中的重要价值，以及2019年底的MoCo取得了里程碑的结果，即在多个重要下游任务中超越有监督学习。从MoCo开始，自监督学习领域开始迅速发展，2020年2月份，谷歌提出了SimCLR，2020年6月份我们研究小组提出了PIC和PixPro，Deepmind和FAIR分别提出了BYOL和SwAV。2020年11月份，我们研究小组进一步提出PixPro，将自监督学习从图像级引入到像素级，显著地提升了物体检测和分割等下游任务的效果。

5. PIC：单分支无监督特征学习算法

Memory bank 、MoCo、SimCLR等都是两分支算法，即对每个输入的图像都生成两个增强的视图，两个增强视图经过卷积网络提取其的特征，利用“将同一个图像两个视图的特征拉近，将不同图像生成的视图的特征推远的”原则，对网络进行训练。

PIC不是两分支网络，而是一个单分支网络，即对每个输入的图像生成一个增强视图，同样使用卷积网络提取特征，但在卷积后接了一个分类器用于图像的分类。相比两分支算法，PIC更简洁，并具有同样好的效果。

6. PixPro：像素级自监督学习算法

过去一年，自监督学习在ImageNet的1000类线性分类评测上的性能有着明显的提升，从MoCo到CLSA有15.6%的绝对性能提升。

但是在一些依赖稠密预测的下游任务的效果上并没有多少提升，以Pascal VOC目标检测为例，从MoCo到InfoMin只有1.7%的绝对性能提升，而PixPro相比InfoMin将Pascal VOC目标检测任务的性能提升了2.6%。

PixPro在其他下游任务中也有性能上的提升：

相比于其他的自监督训练算法，PixPro的关键思想是将基于图像的预训练任务转变为基于像素的预训练任务。在下游任务中，很多都是基于像素的任务，例如图像分割、目标检测等。如果预训练是基于像素进行的训，那么其与下游的任务将更加契合，从而有可能带来更好的表现。

我们首先提出了一个区分每个像素的预训练任务，对于一个输入的图像，我们和此前的图像级方法一样，对其进行视图增强，得到两个增强的视图图像，然后使用“拉近两个视图中相近像素的特征，推远两个视图中距离较远的像素的特征”的任务来对网络进行训练，从而将基于图像的预训练推广到基于像素的预训练。我们将这种方法称为“区分像素”的预训练任务，简称PixContrast

在此基础上，我们提出了PixPro，它是对PixContrast的一个改进，具体有两点改动：

像素平滑：视图1特征提取保持不变，视图2的特征做平滑处理，即使用周围的像素对目标像素进行平滑。
去掉推远分支

我们称改进后的方法为PixPro，即“像素-传播的一致性”的预训练任务。

改进前的“区分像素”训练任务主要是进行像素对比，增强模型的空间敏感性；改进后的训练任务由于加入了像素平滑，增强了模型的空间光滑性。由于下游任务像素之间是有相关性的，所以增加模型的空间光滑性可以增强下游任务的训练效果。

PixPro的结构图如下：

像素级别的自监督训练优点还在于：可以让预训练模型和下游任务训练模型采用相同的网络结构，例如可以把FPN引入到预训练模型中。

7. 非静态图片的自监督预训练

除了上诉基于静态图片的自监督预训练之外，过去一年中“基于视频的预训练”和“多模态特征预训练”也有一定进展。“基于视频的预训练”的代表性研究员和研究小组有牛津大学的Andrew Zisserman、谢伟迪，以及加州大学伯克利分校的Alexei Efros和王小龙等人。“多模态特征预训练”是将图像与声音、语言等多种输入信息相结合来进行自监督训练，这种方式与人的学习很像。

视觉中的Transformer注意力建模

1. 人工智能的大统一故事

大统一理论是物理学的圣杯，无数人致力于将四种相互作用力统一起来。在人工智能领域也有这样一个目标，而且事实上深度学习的浪潮已经让我们在大一统上前进了很大一步，例如我们的学习机制基本已经统一：数据标注和基于误差反向传播的训练方法。

但是人工智能的不同领域的主流建模方法还是不尽相同的。

自从Yann LeCun提出LeNet到现在，CV领域最基础模型一直是卷积网络。

而在NLP或者序列建模领域，其模型则经历了一个变迁的过程，直到2017年Transformer提出之后才稳定下来，如今Transformer成为了NLP的主流建模方法。NLP或者序列建模领域的模型的主要变迁如下图所示：

而2020年Transformer在计算机视觉领域的应用改变了CV和NLP两大领域模型结构不一样的局面，对视觉和自然语言处理两大领域的模型统一起到了极大的促进作用。我们对在视觉中使用Transformer已有了多年的探索，我们探索的出发点是“自然语音处理与计算机视觉的统一建模”，这一方面是为了实现自然语音处理与计算机视觉模型数学形式上的统一，另一方面是希望两个领域将来能更好的互通和相互促进。在2020年，学术界在这个方向上已经迈了很大一步。

2. CV与NLP统一建模

① 卷积在NLP中的应用

在NLP领域，人们曾尝试将卷积应用在NLP领域，也切实地提出了一些不错的方法，例如2017年FAIR提出的ConvSeq2Seq、2019年FAIR提出的Dynamic Convolution以及微软亚洲研究院提出的Deformable Convolution等等都取得了一定效果，但离Transformer的性能都有些差距。特别是在GPT、BERT等预训练模型提出之后，Transformer的地位更加稳固了。

② Transformer/注意力机制在CV中的应用

同样在CV领域，人们也在尝试使用Transformer进行建模，并且在2020年的几项工作使得Transformer在CV的应用得到了突破性的进展。首先得到广泛关注的是FAIR的“DeTR”，将Transformer整体成功应用于物体检测中，随后微软亚洲研究院提出了RelationNet++，用Transformer解码器来解决融合不同物体表达方法的问题，在10月份谷歌又提出了Vision Transformer，用Transformer来作为backbone网络进行图像分类。

下面对这些工作一一进行介绍。

3. 将Transformer应用在CV领域的一些工作

① DETR

DETR是将Transformer应用到物体检测任务上，其特点是将Transformer在NLP上的应用方法照搬到CV领域，直接对图像特征进行编解码，并且实现了端到端的训练。但是它依然使用了CNN进行了特征提取，并没有完全摆脱CNN的使用。

② RelationNet++

在RelationNet++工作中，我们使用Transformer的解码器去拟合物体检测中不同物体的表示。目前表示物体的方法有多种，例如用物体的中心点、或者anchor框，或者Bounding Box，或者物体框的对角位置等等，这些表示方法各有优点，但是我们一种物体检测模型中一般只使用一种表示方法，但是利用Transformer解码器就可以把各种表示方法统一起来，将各种表示方法的优点结合起来，这样在CoCo上单模型可以取得52.7%的mAP。

③ Vision Transformers

Vision Transformers是将Transformers应用到了图像分类任务上，其实际速度和精度均超越了ResNet。它的方法是将原图分割成多个尺寸是16*16的子图，对于RGB图像，每个子图就是一个768（16*16*3）维的向量，然后将其输入到Transformers编码器中。虽然这个方法简单，但是其效果和实际运行速度都是不错的。

4. 注意力机制在CV上的应用

在Transformers应用在CV领域之前，人们就已经将Transformers中的注意力机制应用在了CV领域上，例如FAIR在2017年提出了NLNet，我们的研究小组从2017年至2020年分别提出了RelationNet、LRF和LR-Net。也应注意到这期间出现了大量利用注意力机制来解决视觉中各种问题的工作，由于时间关系，本次演讲中涉及就少。

注意力机制用于基本视觉单元间的关系建模

我们在视觉的建模中都会涉及到两个层次的概念，一个是“像素”，一个是“物体”。而视觉的建模就是“像素和像素”之间或“物体和像素”之间或“物体和物体”之间的关系建模。针对“像素和像素”目前主流方法是用卷积进行关系建模，针对“物体和像素”目前主流的方法是利用RoIAlign等方法建立关系，而“物体和物体”的关系建模以前涉及较少。事实上，这些不同的关系建模其实都可以用注意力方法来代替。

5. 注意力机制的物体-物体关系建模

在将注意力机制引入CV领域之前，并没有考虑物体与物体之间的关系建模，引入注意力之后就可以考虑物体与物体之间的相互关系了，我们有很多工作都使用了注意力机制进行物体之间的关系建模，例如物体检测模型RelationNet [CVPR’2018]、多目标跟踪模型Spatial-Temporal Relation Network [ICCV’2019]、视频物体检测MEGA [CVPR’2020]等。

① 物体检测器

我们首次使用注意力机制实现了端到端的物体检测，参见发表在CVPR’2018上的论文《Relation Networks for Object Detection》。

该方法的关键是使用注意力机制代替了NMS模块，这样整个过程就都可以使用反向传播进行训练，使去重模块也可以学习。

② 多目标跟踪模型

我们在目标跟踪任务上也使用了注意力机制，可参见发表在ICCV’2019上的论文《Spatial-Temporal Relation Networks for Multi-Object Tracking》

③ 视频物体检测

我们在CVPR’2020上发表的论文《Memory Enhanced Global-Local Aggregation for Video Object Detection》则是注意力机制在视频物体检测任务上的应用。目前效果最好的视频物体检测方法大多都使用了注意力建模。

6. 注意力机制的物体-像素关系建模

在使用注意力机制之前，基本上都是用RoIAlign等方法在feature map中截取目标物体的区域特征，在使用注意力之后，就可以自适应的去获取目标物体的区域特征。

我们在ECCV’2018发表的论文《Learning Region Features for Object Detection》就使用注意力机制自动学习了区域特征的提取。

7. 注意力机制的像素-像素关系建模

在注意力机制之前，图像像素与像素的关系是使用卷积进行建模，在像素与像素之间关系建模引入注意力机制之后，注意力机制可以与卷积进行互补，甚至注意力机制完全代替卷积。

① 注意力机制与卷积互补

由于卷积自身的结构特性，用卷积进行像素与像素间关系建模会有区域的局部限制，如果用注意力机制进行补充，则可以获取全局的信息。王小龙和何凯明等人在CVPR’2018提出的非局部网络（NL-Net）在卷积网络中插入一种使用注意力实现的全局模块，这样可以提升很多任务的性能。

但是上面的方法会出现退化现象，即不同的查询像素，其实受到了一组Key像素的影响，我们将这个研究发表在了TPAMI’2020上。

针对非局部网络的退化问题，我们在ECCV’2020发表的《Disentangled Non-Local Neural Networks》论文中给出了一种解耦非局部网络的方法，使模型能够学到更有意义的物理关系。

② 用注意力机制替换卷积

相比注意力机制与卷积配合，更进一步的是使用注意力机制完全代替卷积，我们在ICCV’2019发表的论文《Local Relation Networks for Visual Recognition》中提出了一种用注意力代替卷积的方法，即将ResNet中的卷积单元换成注意力单元，模型在相同FLOPs情况下取得了更高的精度。

总结

计算机视觉已经开始进入自监督或无监督训练的时代
Transformer和注意力模型：目前最有可能统一视觉和自然语言的建模方法

分享嘉宾：

胡瀚博士

微软亚洲研究院 | 研究员

演讲者简介：Han Hu is currently a principal researcher in Visual Computing Group at Microsoft Research Asia (MSRA). He received the Ph.D degree in 2014 and the B.S. degree in 2008 from Tsinghua University. His Ph.D dissertation was awarded Excellent Doctoral Dissertation Award of CAAI at 2016. He was a visiting student in University of Pennsylvania from October, 2012 to April, 2013. Before he joined MSRA in Dec. 2016, he worked at Institute of Deep Learning (IDL), Baidu Research, His research interest include visual representation learning, joint visual-linguistic representation learning and object recognition. He will serve as an area chair of CVPR2021.

Homepage:

https://ancientmooner.github.io/

使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
Nginx 接入 Keepalived 实现高可用，让你的网站稳如泰山！ OutOfMemory~~ nginx 服务器前端
一、往期内容回顾前面提到nginx可以实现后端服务的负载均衡，来使得后端的服务能力得到水平的扩展。但是怎么保证nginx的高可用呢，如果nginx挂了，还怎么持续提供服务呢？今天我们就来讲一讲Keepalived实现高可用的方案。二、什么是高可用？Keepalived高可用架构是什么？简单来说，高可用就是让你的网站服务时刻在线，即使出现硬件故障、网络波动等问题，也能快速恢复，保证用户访问不受影响。
事务回滚核心技术 KBkongbaiKB java
一、事务回滚的数学本质与核心挑战1.1事务状态机模型操作执行持久化完成系统故障事务回滚ActivePartiallyCommittedCommittedFailedAborted1.2核心技术挑战矩阵问题维度单机事务分布式事务原子性保证存储引擎WAL日志二阶段提交协议隔离性实现MVCC多版本控制全局锁调度机制可见性管理事务ID版本链向量时钟同步回滚触发条件SQL执行异常/死锁网络分区/节点故障二、
rabbitmq笔记 java
消息可靠性rabbitmq向消费者投递消息后，有可能会丢失，有可能会重复投递。比如：投递过程网络故障消费者收到消息后宕机消费者接收到消息后处理不当导致异常...rabbitmq需要做的事：机制消费者确认机制消费者处理成功后需要通知发幂等性幂等性指同一个业务，执行一次或多次对业务状态的影响是一致的例如唯一消息id业务状态判断但是数据的更新往往不是幂等的，所以需要确保幂等性确保幂等性方法有两种方案唯一
前端开发：这就是终点吗？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读让我们重新回到2021年后远程办公风潮兴起的日子，那时候，程序员岗位炙手可热。机会遍地都是，你甚至只需参加少量培训，通过面试后便能轻松收获年薪超15万的工作，还有余暇拍摄一段《程序员的一天》上传网络。经过短短一年左右的培训，你便踏上了年薪六位数的职业道路——那时候，当程序员似乎是一个人人羡慕的理想职业。然而
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
【网络】数据流（Data Workflow）Routes（路由）、Controllers（控制器）、Models（模型）和 Middleware（中间件）一袋米扛几楼98 网络工程/安全中间件
在图片中，数据流（DataWorkflow）描述了应用程序中数据的流动过程，涉及Routes（路由）、Controllers（控制器）、Models（模型）和Middleware（中间件）。作为初学者，理解这些组件及其联系是掌握Web应用程序开发的关键。以下是对每个技术点的详细解释，以及它们如何相互关联的分析。1.Routes（路由）定义：路由定义了应用程序的URL端点（Endpoints）以及服
SpringBoot接口防抖(防重复提交)，接口幂等性，轻松搞定 web18285482512 面试学习路线阿里巴巴 spring boot 后端 java
啥是防抖？所谓防抖，一是防用户手抖，二是防网络抖动。在Web系统中，表单提交是一个非常常见的功能，如果不加控制，容易因为用户的误操作或网络延迟导致同一请求被发送多次，进而生成重复的数据记录。要针对用户的误操作，前端通常会实现按钮的loading状态，阻止用户进行多次点击。而对于网络波动造成的请求重发问题，仅靠前端是不行的。为此，后端也应实施相应的防抖逻辑，确保在网络波动的情况下不会接收并处理同一请
Win11网络连接不可用？这些解决方案助你快速恢复网络畅通 nntxthml 网络智能路由器 windows
Win11网络连接不可用？这些解决方案助你快速恢复网络畅通在使用Windows11系统的过程中，网络连接不可用的问题时常困扰着我们。无论是无法访问互联网、共享文件还是使用网络应用程序，这一问题都会对我们的工作和生活造成诸多不便。网络连接不可用的情况可能由多种原因导致，例如网络连接未开启、硬件设备故障等。为了帮助大家快速解决这一问题，本文将详细介绍几种实用的解决方案。一、检查并启用网络连接在Wind
笔记本Win7系统无线网名称显示乱码解决方案 mmoo_python windows
笔记本Win7系统无线网名称显示乱码解决方案在使用Windows7操作系统的笔记本电脑时，用户可能会遇到无线网络名称显示乱码的问题。这一问题不仅影响了用户识别无线网络的便利性，还可能阻碍正常的网络连接。本文将详细介绍解决这一问题的方法，帮助用户恢复无线网名称的正常显示。具体解决方法1.打开控制面板首先，我们需要进入Windows7的控制面板。可以通过点击开始菜单，然后在搜索框中输入“控制面板”来快
Win11显示不出WiFi列表？全面解决方案来了 mmoo_python windows
Win11显示不出WiFi列表？全面解决方案来了在使用Windows11操作系统时，连接WiFi网络无疑是日常工作中最基本也是最关键的需求之一。然而，不少用户却遇到了一个棘手的问题：WiFi列表无法显示，导致无法找到并连接可用的WiFi网络。这一问题不仅影响了用户的正常使用体验，还可能对工作和学习造成不小的困扰。本文将深入分析这一问题的可能原因，并提供多种有效的解决方法，帮助你轻松应对Win11显
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
生成对抗网络（GAN）的高级变体及在图像生成领域的创新实践算法探索者生成对抗网络计算机视觉人工智能
摘要生成对抗网络（GAN）自提出以来，在诸多领域取得了显著进展，尤其是在图像生成方面展现出强大的潜力。本文深入探讨了GAN的多种高级变体，如CycleGAN、StyleGAN等，详细分析它们在结构设计、训练机制上的创新之处，阐述其在生成高分辨率、多样化图像时具备的独特优势，并结合丰富的实际案例，展示这些变体在图像生成领域的卓越应用成果，为相关研究与应用提供全面且深入的参考。一、引言生成对抗网络（G
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
使用 libevent 构建高性能网络应用 ScilogyHunter 常见软件库 libevent 事件驱动软件库
使用libevent构建高性能网络应用在现代网络编程中，高性能和可扩展性是开发者追求的核心目标。为了实现这一目标，许多开发者选择使用事件驱动库来管理I/O操作和事件处理。libevent是一个轻量级、高性能的事件通知库，广泛应用于网络服务器、代理、缓存等场景。本文将详细介绍libevent的核心概念、使用方法以及如何利用它构建高性能的网络应用。1.什么是libevent？libevent是一个用C
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
《代码拯救世界》可问可问春风重生之我来csdn写小说网络计算机小说网络安全
《代码拯救世界》第一章：神秘的黑客组织“全球多个银行系统遭受黑客攻击，资金被大量转移，损失高达数十亿美元……”新闻播报员的声音在办公室里回荡，小陈的手心已经捏出了汗。作为一名网络安全工程师，他知道这次攻击的严重性远超普通黑客行为。“老李，你看这个。”小陈把一份报告递给同事，“攻击手法非常专业，利用了多个零日漏洞（未被公开的漏洞），而且目标明确，显然是早有预谋。”老李推了推眼镜，眉头紧锁：“这不像普
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
Linux内核网络设备注册与地址族协同机制深度解析 109702008 #C语言编程网络网络人工智能 c语言
在Linux网络子系统中，网络设备注册与地址族（AddressFamily）的协同工作机制是构建高性能网络应用的核心基础。本文将以IPoIB（InfiniBandoverIP）驱动为例，深入解析register_netdev函数在设备注册中的作用，地址族的选择对网络通信的影响，以及如何通过自定义协议实现灵活的网络控制。一、网络设备注册机制解析1.1register_netdev的核心作用regis
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
麒麟服务器操作系统Redis部署手册太极淘麒麟操作系统管理工具服务器 redis 运维
软件简介Redis****介绍REmoteDIctionaryServer(Redis)是一个由SalvatoreSanfilippo写的key-value存储系统，是跨平台的非关系型数据库。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API。Redis通常被称为数据结构服务器，因为
【区块链】跨链技术详解还没入门的大菜狗区块链
跨链技术详解：打通区块链孤岛一、跨链技术概述1.定义与必要性跨链技术是指实现不同区块链网络之间价值和信息互操作的解决方案。随着区块链生态系统的扩张，解决"区块链孤岛"问题变得至关重要。跨链技术解决的核心问题：不同区块链间的资产流动跨链数据和状态共享多链智能合约调用统一的用户体验2.跨链技术的基本挑战一致性保障：确保跨链交易的原子性验证复杂性：如何在一条链上验证另一条链的状态安全保证：防止双花攻击和
Docker配置代理 docker
使用背景最近在国内网络下，pullultralytics镜像一直失败:dockerpullultralytics/ultralytics:latest-conda，尝试使用代理下载镜像配置步骤1.创建或编辑Docker配置文件1.1创建配置文件mkdir-p/etc/systemd/system/docker.service.dvim/etc/systemd/system/docker.servi
网络安全威胁与防护措施（下）冬冬小圆帽 web安全网络 php
8.恶意软件（Malware）**恶意软件（Malware，MaliciousSoftware）**是指旨在通过破坏、破坏或未经授权访问计算机系统、网络或设备的程序或代码。恶意软件通常用于窃取敏感信息、破坏系统、窃取资源、干扰正常操作，或者获取非法控制。恶意软件种类繁多，攻击手段不断发展，可能对个人用户、企业和政府构成严重威胁。恶意软件的主要类型：病毒（Virus）：定义：病毒是能够自我复制并将自
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

计算机视觉中的自监督学习与注意力建模

你可能感兴趣的:(卷积,网络,计算机视觉,神经网络,机器学习)