山水之间2018

《Qua Vadis, Action Recognition? A New Model and the Kinetics Dataset》论文解读之Two-Stream I3D

本文是CVPR 2017的一篇文章

Paper:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

github: kenetics-i3d

在一个规模更大的新video数据集Kinetics上，重新评估了当下state-of-the-art的模型结构，并和在小数据集上训练的结构进行比较
提出一个新模型I3D，在Kinetics上预训练后，在HMDB-51数据集上取得了80.2%的准确率，在UCF-101上取得了97.9%的准确率

图片来自电影'Quo Vadis'(拉丁语, 何去何从)(1951)。

在发生什么? 这些演员正要亲吻对方，还是已经这样做了？

《你往何处去？Quo Vadis?》, 这部完成于一八九六年的著作，史诗般的重现了使徒时期罗马皇帝尼禄残害基督徒，基督教经过殉道后而兴起的历史。大师显克维奇也因此书在历史小说中的卓越贡献，1905年力挫大文豪托尔斯泰获得诺贝尔文学奖。

本文的idea*：

根据之前3D-ConvNets的缺点(1. 参数多；2. 无法利用在ImageNet上预训练过的2D网络)，提出一种benefit from ImageNet 2D ConvNet design and their learned parameters的方法，并探究了在时间维度上的感受野要如何设置
吸收了之前state-of-the-art的模型，把双流的思想加到3D-ConvNet当中来，取得优异的效果（作者认为既然现在有了大数据集，那么3D ConvNet原先因为参数多而难训练的缺陷可以被大幅度改进。因此作者使用了3D ConvNet，同时双流这个思想还是很有用，因此这个新模型使用双流+3D ConvNet）
验证了视频模型的迁移学习同样有效，即在Kinetics上进行预训练能够提升模型效果

Abstract

在一个规模更大的新video数据集Kinetics Human Action Video dataset(包含大量数据，有400个动作分类，每个分类有超过400个实例，来源于YouTube，更有挑战性)上，重新评估了当下state-of-the-art的模型结构，并在该数据集上预训练后查看在小数据集上训练的结果提升
提出一个新的模型Two-Stream Inflated 3D ConvNet (I3D)。该模型在Kinetics上预训练后，在HMDB-51数据集上取得了80.2%的准确率，在UCF-101上取得了97.9%的准确率

Introduction

有大量成功的事实证明：在ImageNet上训练过的架构可以有效地用在其他地方（即迁移学习）。但在视频领域，不知道是否在一个量较大的数据集上进行训练也可以有助于提升性能
本篇论文就是基于这个目的，重新实现了各种代表性的模型，并发现在大数据集上进行预训练确实能够提升性能，但提升幅度取决于具体模型类型
基于上述发现，提出一个新模型I3D，能够充分发挥预训练的效果。它是基于当下最先进的图像分类模型，但把其中的卷积核以及pooling核都扩张成3D的形式
一个基于Inception v1的I3D模型效果远超之前最好的方法
本文没有把传统方法一起纳入比较，如bag-of-visual-words

Action Classification Architectures

目前针对于video的模型架构还不明确，主要集中于以下几个问题

卷积核是2D还是3D
输入网络的是原始RGB视频还是预计算得到的光流
对于2D的ConvNets来说，不同帧之间的信息是使用LSTM还是feature aggregation
比较的范围有三类对象

2D ConvNets with LSTM on top
Two-stream networks
3D ConvNets
下列是本文重新实现的5种代表性模型结构

之前由于缺乏数据，所使用的3D ConvNets模型都比较浅，最多只有8层。本文使用了如VGG、Inception等非常深的网络，并导入这些预训练网络的参数（除了C3D，因为没法导入，卷积核之类的都少一维），将这些网络扩展成时空特征描述子。同时，作者发现，这样的情况下，双流(two-stream)依然有用
本文使用的CNN结构是Inception v1加上BN

ConvNet + LSTM

由于图像分类网络效果特别好，因此人们总想尽可能原封不动地把模型应用到视频上，如Karpathy做的那篇early/late/slow fusion的文章，但这样就会导致模型忽视了时序结构（如不能分辨开门与关门）
因此，可以在模型后面加上LSTM来处理时序问题
模型细节：把LSTM和BN加在Inception v1的最后一个average pooling层后面（即分类器之前），有512个节点。在模型最顶部加一个全连接层用于分类；The model is trained using cross-entropy losses on the outputs at all time steps. During testing we consider only the output on the last frame；输入帧是在25帧/s的视频流中每5帧取1帧，根据表1给出的信息，作者应该是从数据集的video中选取了5s的视频片段，所以总共是5s * 25帧/s * 1/5 = 25张rgb图像

3D ConvNet

3D ConvNet看上去是一种很自然的方法，能够直接对于时空数据创建高层表征
但这个模型有两个问题：

相比于2D，参数更多，也就更难训练（因为数据量不足），所以之前3D ConvNet用的都是浅层的架构
由于都是三维的核，无法直接用在ImageNet上预训练过的网络，因此只能在video数据集上train from scratch。由于之前的数据集量都太小，因此效果不是太有竞争力。但这种方法可能会比较适用于大数据集
模型细节：是原论文中C3D的变种。8层卷积、5层pooling、2层全连接。与C3D的区别在于这里的卷积和全连接层后面加BN；且在第一个pooling层使用stride=2，这样使得batch_size可以更大。输入是16帧，每帧112*112。

Two-Stream Networks

LSTM缺点：能model高层变化却不能捕捉低层运动(因为在低层，每个帧都是独立地被CNN提取特征)，有些低层运动可能是重要的；训练很昂贵
Two-Stream Networks: 将单独的一张RGB图片和一叠计算得到的光流帧分别送入在ImageNet上预训练的ConvNet中，再把两个通道的score取平均

这种方法在现在的数据集上效果很好
训练和测试都十分经济
一个改进(Fused Two-Stream): 在最后一层卷积层之后，使用3D ConvNet把空间流和时间流融合（相比于传统双流是在softmax后才做fusion，把softmax输出的score进行平均）

在HMDB数据集上提升了效果，测试时间也更短
模型细节：输入是每隔10帧取连续的5帧以及相应的光流。在Inception v1之后，是一个3*3*3的3D卷积层，输出是512个channel，随后是一个3*3*3的3D max-pooling层以及全连接层。这个新的网络是用高斯随机初始化
对于双流网络有两种实现，一种实现是训练时把两个流分开训练，测试的时候在最后把两个流的预测结果做平均；第二种是直接端到端进行训练。在c)和d)的实现中使用的是端到端；而在e)的实现中使用了第一种实现

New*: Two-Stream Inflated 3D ConvNets

结论：3D ConvNets可以受益于在ImageNet上训练过的2D ConvNet模型，并有选择性的使用相应的预训练参数；虽然3D ConvNets可以直接从RGB流中学习到时序信息，但是使用光流还是可以提升效率
区别于之前的几种双流，光流数是RGB帧数的2L倍，这里光流和RGB帧都使用了64帧

Inflating 2D ConvNets into 3D

把一些很成功的2D模型转移成3D，通过把所有卷积核以及pooling核增加时间的一维

Bootstrapping 3D filters from 2D filters

想要利用在ImageNet上预训练好的2D模型的参数：
Idea*: 若是把ImageNet中的同一张图片反复复制生成一个序列，那么这个序列就可以当作是一个video来训练3D模型了

具体实现：把2D模型中的核参数在时间维上不断复制，形成3D核的参数，同时除以N，保证输出和2D上一样；别的非线性层结构都与原来的2D模型一样

Pacing receptive field growth in space, time and network depth (在时间维度上的感受野要如何变化，即conv和pooling的stride怎么选)

在Image模型中，对待水平和垂直两个空间维度往往是一致的，也就是两个维度上pooling核大小以及stride都一样
在时间维度上这样的对称对待未必是最优的(也就是时间维度上的pooling核大小选与空间上的一致是不可取的)，因为这取决于帧率和图像大小之间的相对值
具体实现：在Inception v1中，涉及到感受野变化的就是第一个卷积核(stride=2)以及后续4个max-pooling(stride=2)，还有最后的一个7*7的average-pooling层。在本文的实验中，作者发现：在前两个max-pooling层上，时间维度上的stride取1；而在别的max-pooling层上使用对称的stride(即时间维度上的stride和空间上的一致)；最后的average pooling使用2*7*7的核

Two 3D Streams

作者发现双流还是有价值的，可能因为3D ConvNet只有纯前馈计算，而光流提供了迭代的思想在里面
训练时，分别训练这两个网络，测试的时候在最后把两个流的预测结果做平均

Implementation Details

见原文
注：在训练时都是从原始video采样的，而test的时候是把全部的帧都送入网络。实现细节也可以看代码

The Kinetics Human Action Video Dataset

数据集细节参见另一篇提出这个数据集的文章 The Kinetics Human Action Video Dataset

Experimental Comparison of Architectures (模型本身的比较)

在UCF-101和HMDB-51上，I3D取得的效果也要好于之前的。这十分有趣，因为UCF-101和HMDB-51数据集本身比较小，而I3D模型参数非常多，按道理来说训练效果应该不会太好。这说明在ImageNet上预训练的效果可以扩展到3D
在UCF-101上效果最好，miniKinetics次之，HMDB-51最差，这和数据本身的难度、数据量大小都有关系
LSTM和3D-ConvNet在miniKinetics上表现的更有竞争力，这是因为这两种方法对数据量的需求比较大
在miniKinetics上，光流要比RGB流效果差，而在其他两个数据集上则相反，这是由于miniKinetics数据集本身有许多相机抖动
相比于其他模型，I3D模型似乎从光流中获益最大，这有可能是因为I3D的时间长度更大(有64帧)

Experimental Evaluation of Features (用在迁移学习中，即把各种模型先在Kinetics数据集上做预训练，预训练得到的网络作为特征提取器，再去别的数据集上训练与测试)

固定预训练的参数，在新数据集上只重新训练一个分类器
整个网络在新数据集上fine-tuning

固定预训练的参数，在新数据集上只重新训练一个分类器的做法在I3D和3D ConvNet上也有不少提升，但在其他几种方法上几乎没有变化
整个网络在新数据集上fine-tuning的结果都得到大幅提升，尤其是I3D和3D ConvNet
迁移学习对于I3D影响最大，这也可能是因为I3D的时间长度更大，在大数据集上预训练就可以学到更好的时间结构
而迁移学习对于没有使用3D ConvNet结构的影响不大，这可能是因为那些方法的输入都是离散的帧而不是连续的帧，而那些2D方法都用了ImageNet预训练的参数，这些独立的帧其实更像是image而不是video，所以已经在image的数据集上预训练过的结构在video的大数据上进一步pre-train不一定有明显提升

实验与结论

4.1 单一数据集

作者最后对比了前述5个模型在不同数据集上进行训练和测试的结果。

上图中展示了只利用UCF-101，HMDB-51和Kinetics其中一个数据集进行训练和测试的结果。从中我们可以得出以下结论：

1、I3D模型在所有数据集上都比其他模型更好，不管是RGB流，光流或者RGB流+光流的版本。这个结论很有意思，因为I3D模型有大量的参数，而UCF-101和HMDB-51的数据量都比较小。这说明了利用ImageNet预训练得到的参数可以扩展应用到3D卷积网络中。

2、UCF-101数据集上所有模型的表现都优于Kinetics，这说明两个数据集难度不同。而Kinetics数据集上所有模型的表现又基本上都优于HMDB-51，这一方面是由于HMDB-51数据量比较小，另一方面是因为HMDB-51刻意增加了难度，例如在相同的场景中“拔剑”被标记为“击剑”和“练剑”两种不同的动作。

3、第二点中的排序在所有模型上基本是一致的。

4、双输入流I3D模型在所有数据集上都取得了最好的效果，但RGB流和光流两个单独版本则在Kinetics和其他数据集上的表现有很大不同。在UCF-101上，光流略好于RGB流；在HMDB-51上，光流远好于RGB流；在Kinetics上，光流远低于RGB流。观察发现Kinetics中有很多的相机运动，导致光流难以得到好的结果。I3D模型好像可以更好的利用光流提供的信息，这可能和采用了更长的时域感受野和更整体性的时域特征有关。我们人眼很难从Kinetics数据集上的光流图像中分辨出动作，所以看起来RGB流中含有更多的可供分辨的信息，然而事实上并不是这样。也许将来的研究可以向上述框架中添加一些运动稳定处理

上图中显示的是利用Kinetics数据集，从零训练和利用ImageNet预训练的差距。从中可以看出预训练基本在所有情况下都有更好的效果，尤其是在RGB流上。

4.2 利用Kinetics预训练

这部分研究了利用Kinetics数据集训练得到的参数的泛化能力。主要有两种考察方式：

1、固定Kinetics训练得到的特征网络参数，并用它产生UCF-101和HMDB-51上的特征，再用后面两个数据集完成最后的分类训练。

2、使用Kinetics训练得到的特征网络参数进行初始化，然后利用UCF-101和HMDB-51进行fine-tune以及分类训练。

此外还对比了只用Kinetics预训练和使用ImageNet+Kinetics预训练的区别。

从上图中可以看出，所有模型都能从预训练中收益，但I3D和3D模型从中收益最大。甚至只训练最后的分类网络也能为I3D模型带来显著提升。

对于I3D模型强大的迁移能力，一个可能的解释是采用了64帧视频片段（25帧每秒）进行训练，并在测试时使用所有帧。这使得模型可以更好的捕捉到细粒度的时域特征。换句话说，输入帧数少的模型从Kinetics预训练中收益更少，因为这些视频和ImageNet中的图像没什么区别。I3D优于C3D模型的原因可以解释为更深同时参数更少，使用ImageNet初始化，使用4倍长的视频，使用2倍的分辨率。

双输入流的I3D模型即使从头开始训练也能达到很好的效果，这可能是由于光流输入效果好，更难过拟合。同时，还可以观察到Kinetics预训练比ImageNet效果好。

4.3 与目前最好的模型对比

大多数模型都得到差不多的结果，最好的是ResNet-50 RGB流+光流的模型。

使用平均准确率MAP衡量，单输入流I3D已经比其他所有结果都更好。双输入流扩大了领先优势。

使用Kinetics预训练的I3D比之前的C3D模型明显效果好，即使C3D使用了更大的Sports-1M数据集训练再加上IDT。

4.4 讨论

对于开头提到的问题：视频邻域的预训练是否有用？显然，使用Kinetics进行预训练会带来显著的好处，就像使用ImageNet对卷积网络进行初始化一样。这表明对于相似任务的数据集是有效的。然而，使用Kinetics预训练是否对视频分割，视频物体检测或者光流计算是否有用仍然需要验证。

附：行为识别 Dataset

The HMDB-51 dataset(2011)
Brown university 大学发布的 HMDB51, 视频多数来源于电影，还有一部分来自公共数据库以及YouTube等网络视频库.数据库包含有6849段样本，分为51类，每类至少包含有101段样本。

UCF-101(2012)
来源为YouTube视频，共计101类动作，13320段视频。共有5个大类的动作：
1)人-物交互；2)肢体运动；3)人-人交互；4)弹奏乐器；5)运动.

[Sport-1M(2014)] (https://cs.stanford.edu/people/karpathy/deepvideo/)

Sports1M 包含487类各项运动, 约110万个视频. 此外，Sports1M 的视频长度平均超过 5 分钟，而标签预测的动作可能仅在整个视频的很小一部分时间中发生。 Sports1M 的标注通过分析和 youtube视频相关的文本元数据自动地生成，因此是不准确的。

行为识别Dataset
The HMDB-51 dataset(2011)
Brown university 大学发布的 HMDB51, 视频多数来源于电影，还有一部分来自公共数据库以及YouTube等网络视频库.数据库包含有6849段样本，分为51类，每类至少包含有101段样本。

UCF-101(2012)
来源为YouTube视频，共计101类动作，13320段视频。共有5个大类的动作：
1)人-物交互；2)肢体运动；3)人-人交互；4)弹奏乐器；5)运动.

[Sport-1M(2014)] (https://cs.stanford.edu/people/karpathy/deepvideo/)

Kinetics-600 (2017)

Kinetics-600是一个大规模，高质量的YouTube视频网址数据集，其中包括各种人的行动。

该数据集由大约50万个视频剪辑组成，涵盖600个人类行为类，每个行为类至少有600个视频剪辑。每个剪辑持续约10秒钟，并标记一个类。所有剪辑都经过了多轮人工注释，每个剪辑都来自单独的YouTube视频。这些行为涵盖了广泛的类别，包括人与物体的互动，如演奏乐器，以及人与人之间的互动，如握手和拥抱。

参考文献：

1.https://dmortem.github.io/2018/03/07/Qua-Vadis-Action-Recognition-A-New-Model-and-the-Kinetics-Dataset/

2.https://www.cnblogs.com/nowgood/p/actionrecognition.html

3.https://www.jianshu.com/p/43327efcf805

4.https://www.jianshu.com/p/f02baee5e7fb

事务注解可能失效的几种可能原因 ℡余晖^ 黑马点评项目相关问题和笔记 java jvm 开发语言
在黑马点评项目的学习过程中，我遇到了事务失效的问题，其中提到了事务失效的可能原因，本文就来简单了解一下事务实现的可能原因是什么。Spring事务的生效机制、自调用失效原因及常见失效场景，可从以下维度详细解析：一、Spring如何确保事务生效？Spring事务的核心实现依赖AOP（面向切面编程）和动态代理，其核心流程如下：1.代理对象的生成Spring通过@Transactional注解标记需要事务
Articles in Newspapers，Magazines and Journals 2 梁梦婷
在你搜索到文章并阅读后，你一定要关注“给作者的信”这部分中，读者反应等后续问题。大多数报纸和杂志中，“给作者信”这部分，往往是提供“知识读者”支持或挑战文章观点的反应。在每周杂志中，文章后的回应中，通常出现两个问题；在双周刊或月刊中，后面会出现一个问题。
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
python分布式事务_分布式事务系列（2.1）分布式事务的概念
#1系列目录#2X/OpenDTPDTP全称是DistributedTransactionProcess，即分布式事务模型。之前我们接触的事务都是针对单个数据库的操作，如果涉及多个数据库的操作，还想保证原子性，这就需要使用分布式事务了。而X/OpenDTP就是一种分布式事务处理模型。##2.1X/OpenDTP模型X/Open是一个组织，维基百科上这样说明：X/Open是1984年由多个公司联合创
WPF常用TriggerAction用法 (一) weixin_34418883
Microsoft.Expression.Interactivity常用TriggerAction->CallMethodActionChangePropertyActionControlStoryboardActionGoToStateAction1，CallMethodAction用于调用后台和DataContext中公用，无参数，无返回值的方法.这里扩展了一个CallMethodTrigge
从PRISM开始学WPF（九）交互Interaction？ weixin_34204057 测试 shell
原文:从PRISM开始学WPF（九）交互Interaction？0x07交互这是这个系列的最后一篇了，主要介绍了Prism中为我们提供几种弹窗交互的方式。Notification通知式Prism通过InteractionRequest来实现弹窗交互，它是一个泛型接口，不同的类型对应不同类型的弹窗方式。在使用InteractionRequest的时候需要在，xaml中需要注册一个Trigger：In
【三维感知目标检测论文阅读】《Point RCNN: An Angle-Free Framework for Rotated Object Detection》
今天给大家带来的论文是2019年的《PointRCNN:AnAngle-FreeFrameworkforRotatedObjectDetection》。尽管这是一篇较早的纯点云检测论文，但我把它放在了最后来讲。因为在了解了各类主流方法后，再回过头来阅读它会有更深的理解。PointRCNN采用自底向上的方式直接从点云生成高质量的3D候选框，其对于旋转框的无角度（Angle-Free）处理方式，对于理
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
云原生周刊：K8s 中的后量子密码学 KubeSphere 云原生云原生 kubernetes 密码学
开源项目推荐KanisterKanister是一个由CNCF托管的开源框架，最初由VeeamKasten团队创建，旨在简化Kubernetes上的应用程序级别数据操作管理。它通过定义Blueprint、ActionSet和Profile等CRD（自定义资源）及其相关组件，为专家提供一种模板化的方式，将复杂的数据库或分布式系统备份／恢复逻辑封装在可重用、可共享的蓝图中。Kanister支持异步或同步
#感恩手记#16／365 斯黛拉世界
#PhotoReading超速阅读课#PR学习的最后一天，完成了一个不可思议的学习，一天阅读4本书。你相信吗？我真的相信，看到自己画出的思维导图更加确信自己真真正正的看完4本书并找到自己读这4本书的目的和答案。三天前的我还抱着一个怀疑的态度，现在的我是全然相信自己已经拥有这个不可思议的阅读能力。我相信这个阅读能力对我未来的规划发展起到一个重要的作用。谢谢这三天以来石森老师的教导，张銘老师接地气的翻
全面解析阿里巴巴 Seata：微服务架构下的分布式事务解决方案(AT模式) 要阿尔卑斯吗. 架构微服务分布式
在微服务架构盛行的今天，系统被拆解成多个独立服务，每个服务对应独立的数据库。这种“服务自治”的设计虽然提高了系统可维护性和扩展性，却带来了新的难题——分布式事务一致性问题。为了保障跨服务、跨库操作的原子性，阿里巴巴开源了一个优秀的解决方案：Seata（SimpleExtensibleAutonomousTransactionArchitecture）。本文将从背景动因、整体架构、核心原理、事务模型
2021.6.27 想喝咖啡陪孩子走过小学六年
今天终于插听了几本英语：ABCreadingD级2本，感觉这一次积极性更高；一本科一，听了2遍，第二遍把自己不明白意思的单词抄写下来，没时间查询，依然不解其意，但最起码是一个开始；轻松英语小学版《爱丽丝梦游仙境》Chapter-1，循环音频半小时，然后他在梦中听。看了一集科教频道的纪录片《螃蟹的征程》。吃饭时，大宝说想喝咖啡！可时间又挺晚了，爸爸亲手操作的话时间可不够，最后美团点外卖，一杯卡布奇诺
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类此星光明 gee土地分类专栏前端 gee 机器学习土地分类随机森林 Landsat 土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
框架技术SpringBoot ---SpringBoot集成Mybatis 码农C风 JAVAweb java spring java-ee 数据库
SpringBoot框架内容管理ORM操作MySQLSpringBoot集成Mybaits步骤第一种方式：@Mapper注解第二种方式：@MapperScandao和xml文件分开---yml中配置事务txSpringBoot使用事务业务方法加入@Transactional；同时主启动类加上@TransactionManagerSpringBoot框架整合持久层框架，Mybatis前面已经分享了S
Django `transaction.atomic()` 完整使用指南言之。 python django 数据库 python
目录#概述#基本用法#事务一致性保障机制#破坏一致性的常见场景#高级用法#最佳实践#诊断与调试#附录概述transaction.atomic()是Django提供的数据库事务管理工具，用于确保一系列数据库操作要么全部成功提交，要么全部回滚，维护数据的一致性。基本用法1.作为上下文管理器fromdjango.dbimporttransactiondefview_func(request):witht
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
学习下区块链技术基础知识编程狂魔
区块链技术（“blockchain”）的兴起是一种类似于互联网崛起的范式转换事件。本文概述了区块链技术的优势和机遇。我们认为区块链技术有一天会促进世界上大多数的信息交换（“交易transactions”）。区块链不应被视为比特币的同义词。比特币代表了一种基于区块链的解决方案，适用于许多信息交换问题之一。虽然比特币是第一个基于区块链的数字货币，引起了媒体的广泛关注，但区块链的影响已经超越了比特币。在
JavaScript的介绍及嵌入方式紫罗兰丶
JavaScript介绍JavaScript是运行在浏览器端的脚步语言，JavaScript主要解决的是前端与用户交互的问题，包括使用交互与数据交互。JavaScript是浏览器解释执行的，前端脚本语言还有JScript（微软，IE独有），ActionScript(Adobe公司，需要插件)等。JavaScript嵌入页面的方式1.页面script标签嵌入vara="你好!"2.外部引用
Android高级技能(一)：CI/CD与自动化构建半夜偷你家裤衩子 Android android ci/cd 自动化
摘要当应用开发进入成熟阶段，手动进行构建、测试和发布将变得效率低下且容易出错。持续集成(CI)和持续部署(CD)是现代化软件开发的标准实践，能极大地提升开发效率和应用质量。本文将深入探讨如何在Android项目中实施CI/CD流程，内容涵盖Git工作流、Gradle高级自动化以及如何利用Jenkins或GitHubActions搭建自动化流水线。目录CI/CD核心理念什么是持续集成(Continu
日常英语口语积累｜第一轮 Ivy_IBFE
【口语练习资料】1.新闻编辑室（快）2.老友记3.摩登家庭4.CommencementspeechTips：1.readingandconsuminginformation2.nottomemorize3.nottoprematurelyapproachanativespeaker4.buildingyourinventoryofwordsandexpressions5.watchingTVors
python线程嵌套线程_Python中的嵌套并行性 weixin_39923262 python线程嵌套线程
1)WhatamImissinghere;whyshouldn’taPoolbesharedbetweenprocesses?并不是所有的对象/实例都是可挑选的/可序列化的,在这种情况下,池使用的是不可挑剔的thread.lock：>>>importthreading,pickle>>>pickle.dumps(threading.Lock())Traceback(mostrecentcallla
python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
手把手一步一步教你使用Java开发一个大型街机动作闯关类游戏09之sprite动画 __豆约翰__
项目源码项目源码sprite动画上一节，我们可以控制sprite移动了，但sprite的移动就是平移，比较呆板；这一节我们给sprite添加动画效果。Animation类继承Transform，这样就具备了平移和缩放的能力。主要思想是：1.包含一个图片的列表（动画的本质就是多张图片的连续播放）2.内部有个定时器，不断更换图片。@OverridepublicvoidactionPerformed(A
ABP VNext + GitHub Actions：CI/CD 全流程自动化 Kookoos Abp vNext .net github ci/cd 自动化 ABP vNext
ABPVNext+GitHubActions：CI/CD全流程自动化目录ABPVNext+GitHubActions：CI/CD全流程自动化TL;DR全局流程概览1️⃣准备工作与项目结构1.1️工具链与Secrets1.2项目目录示例2️⃣Build&Test（并行编译与单测）子流程图3️⃣️StaticAnalysis（SonarCloud&CodeQL）子流程图4️⃣Package&Publi
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
别再死记硬背了！来扒一扒Java动态代理与CGLIB nextera-void java 代理模式 springboot 动态代理
嘿，各位Javaer！关于动态代理。你可能每天都在用它，但又不完全知道它是什么。比如，当你潇洒地在Service方法上写下@Transactional时，有没有想过，这个注解是如何像魔法一样，自动帮你开启和提交事务的？这背后的大功臣，就是我们今天要聊的动态代理。在Java世界里，实现动态代理主要有两大门派：JDK动态代理和CGLIB。它们就像是武林中的“南拳”和“北腿”，各有千秋，共同撑起了AOP
手把手教会你使用Unity新版输入系统
Unity新版输入系统详解(2025)一、新版输入系统概述Unity的新版输入系统(InputSystem)是一个现代化、灵活且高效的输入处理框架，相比旧版输入系统(InputManager)有以下优势：跨平台一致性：统一处理各种输入设备（键盘、鼠标、手柄、触摸屏等）事件驱动：基于事件的输入处理，减少不必要的轮询可配置性：通过InputActions灵活配置输入映射更好的性能：优化的底层架构减少C
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息