风间琉璃•

Pytorch之MobileViT图像分类

文章目录

前言
一、Transformer存在的问题
二、MobileViT
- 1.MobileViT网络结构
- - Vision Transformer结构
  - MobileViT结构
- 2.MV2(MobileNet v2 block)
- 3.MobileViT block
- - Local representations
  - Transformers as Convolutions (global representations)
  - Fusion
- 4.模型配置
- 5.MobileViT优势
结束语

个人主页:风间琉璃

版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主

如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦

前言

MobileViT是一种基于ViT（Vision Transformer）架构的轻量级视觉模型，旨在适用于移动设备和嵌入式系统。ViT是一种非常成功的深度学习模型，用于图像分类和其他计算机视觉任务，但通常需要大量的计算资源和参数。MobileViT的目标是在保持高性能的同时，减少模型的大小和计算需求，以便在移动设备上运行，据作者介绍，这是第一次基于轻量级CNN网络性能的轻量级ViT工作，性能SOTA。性能优于MobileNetV3、CrossviT等网络。

一、Transformer存在的问题

MobileVitV1是苹果公司2021年发表的一篇轻量型主干网络，它是CNN与Transfomrer的混合架构模型(CNN的轻量和高效+Transformer的自注意力机制和全局视野)，这样的架构模型也是现在很多研究者们青睐的架构之一。

自Vision Transformer出现之后，人们发现Transfomrer也可以应用在计算机视觉领域，并且效果还是非常不错的。但是基于Transformer的网络模型存在着以下问题：

✨参数多，算力要求高
Transformer模型通常具有数十亿或数百亿个参数，这使得它们的模型文件非常大，不仅占用大量存储空间，而且在训练和部署过程中也需要更多的计算资源。

✨缺少空间归纳偏置
即纯Transformer对空间位置信息不敏感，但是，我们在进行视觉应用的时位置信息又比较重要，为了解决这个问题就引入了位置编码。

归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎，Induction & Deduction)，指从一些例子中寻找共性、泛化，形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好，以下展示了 4 种解释：

$\bullet$ 通俗理解：归纳偏置可以理解为，从现实生活中观察到的现象中归纳出一定的规则 (heuristics)，然后对模型做一定的约束，从而可以起到 “模型选择” 的作用，类似贝叶斯学习中的 “先验”。
$\bullet$ 西瓜书解释：机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或 “价值观”。
$\bullet$ 维基百科解释：如果学习器需要去预测 “其未遇到过的输入” 的结果时，则需要一些假设来帮助它做出选择。
$\bullet$ 广义解释：归纳偏置会促使学习算法优先考虑具有某些属性的解。

深度神经网络偏好性地认为，层次化处理信息有更好效果；卷积神经网络认为信息具有空间局部性，可用滑动卷积共享权重的方式降低参数空间；循环神经网络则将时序信息纳入考虑，强调顺序重要性；图网络则认为中心节点与邻居节点的相似性会更好地引导信息流动。通常，模型容量 (capacity) 很大但 Inductive Bias 匮乏则容易过拟合 (overfitting)，如 Transformer。

CNN的空间归纳偏差内容如下：

CNN 的 归纳偏置（Inductive Bias） 是 局部性 (Locality) 和 空间不变性 (Spatial Invariance) / 平移等效性 (Translation Equivariance)，即空间位置上的元素 (Grid Elements) 的联系/相关性近大远小，以及空间平移的不变性 (Kernel 权重共享)。

$\star$ locality：CNN是以滑动窗口的形式一点一点地在图片上进行卷积的，所以假设图片上相邻的区域会有相邻的特征，靠得越近的东西相关性越强；

$\star$ translation equivariance（平移等变性或平移同变性）：用公式表示为f(g(x))=g(f(x))，不论是先经过g映射，还是先经过f映射，其结果是不变的；其中f代表卷积操作，g代表平移操作。因为在卷积神经网络中，卷积核相当于是一个模板，不论图片中同样的物体移动到哪里，只要是相同的输入，经过相同的卷积核，其输出是不变的。

一旦网络(CNN)模型有了这两个归纳偏置，它就拥有很多的先验信息，所以只需要相对较少的数据就可以学习一个相对比较好的模型。但是对于transformer来说，它没有这些先验信息，所以它对视觉的感知全部需要从这些数据中自己学习。

因此transformer结构的网络模型需要大量的数据才能得到不错的效果，如果使用少量数据进行训练，那么会掉点很明显。这是因为Transformer缺少空间归纳偏置，空间归纳偏置允许CNN在不同的视觉任务中学习较少参数的表示。

虽然Transformer缺少空间归纳偏置，必须要大量数据来进行学习数据中的某种特性，从而导致无法很好的应用在这样的边缘设备。但是CNN也有缺点：CNN在空间上获取的信息是局部的，因此一定程度上会制约着CNN网络结构的性能，而Transformer的自注意力机制能够获取全局信息。

✨模型迁移困难

这个问题核心是引入的位置编码导致的。 Transformer 网络需要先对原始的图像进行切片处理，一般来说训练好的 ViT 网络原始的输入图像大小 224×224，patch 大小为 16×16，那么得到的 patch个数也就固定了。由于 Transformer 网络缺少空间归纳偏置，在计算某一个 token 时其他 token 位置顺序发生变化并不会影响到最终的实验结果，也即输出与位置信息无关。而我们知道对于图像来说，空间信息是非常重要且具有实际意义的，因此，Transformer 通过加上位置偏置（ViT使用绝对位置偏置，Swin T引入相对位置偏置）来解决位置信息的丢失问题。

但是，当输入图像的尺寸或者 patch 大小发生变化时，训练好的模型就会因为位置信息不准确而失效。目前常见的处理方法是将位置偏置信息进行插值，插值到所需要的序列长度从而匹配到图像的尺寸。这种方式需要对训练好的模型进行微调才能保证性能不出现大幅损失，每次改变输入图像的尺寸或者 patch 的尺寸均需要对位置编码进行插值和对网络进行微调，这提高了网络迁移的难度。

Swin T网络使用了相对位置偏置，理论上来说序列的长度只与窗 windows 的大小有关而与输入图像的尺寸无关。但是，windows的大小一般被设定与输入尺寸匹配，当输入尺寸变大时，window 的大小也应该相应的增大，那么所使用的相对位置偏置序列也应该增大，这也会导致上述问题。这些问题将导致 Transformer 网络迁移时比 CNN 网络迁移得更加困难和繁琐。

✨模型训练困难

根据现有的一些经验，Transformer相比CNN要更难训练。Transformer需要更多的训练数据，需要迭代更多的epoch，需要更大的正则项(L2正则)，需要更多的数据增强(且对数据增强很敏感)。

针对以上问题，采用CNN与Transformer的混合架构，CNN能够提供空间归纳偏置所以可以解决位置偏置，而且加入CNN后能够加速网络的收敛，使网络训练过程更加的稳定。

二、MobileViT

1.MobileViT网络结构

Vision Transformer结构

下图是MobileViT论文中绘制的Standard visual Transformer。首先将输入的图片划分成N个Patch，然后通过线性变化将每个Patch映射到一维向量中（Token），接着加上位置偏置信息（可学习参数），再通过一系列Transformer Block，最后通过一个全连接层得到最终预测输出。

首先将C,H,W的图片进行Patch处理成N个向量，然后经过线性层进行降低向量维度，再经过位置编码，然后再经过N个Transformer块，在通过class token来进行分类。

这个Standard visual Transformer和前面文章中ViT有一点不同，这里没有class token，class token只是针对分类才加上去的，上面这个网络才是最标准的视觉ViT网络。

由于VIT忽略了空间归纳偏差，所以它们需要更多的参数来学习视觉表征。此外，与CNN相比，VIT及其多种变体的优化性能不佳，这些模型对L2正则化很敏感，需要大量的数据增强以防止过拟合。

MobileViT结构

上面展示是标准视觉ViT模型，下面来看下本次介绍的重点：Mobile-ViT网路结构，如下图所示：
通过上图可以看到MobileViT主要由普通卷积，MV2（MobiletNetV2中的Inverted Residual block），MobileViT block，全局池化以及全连接层共同组成。

其中，MobileViT块中的Convn × n表示一个标准的n × n卷积，MV2指的是MobileNetv2块，执行下采样的块用↓2标记。

2.MV2(MobileNet v2 block)

MV2 块指MobileNet v2 block，是一个Inverted Residual Block(倒残差结构)。在倒残差结构中，即特征图的维度是先升后降，据相关论文中描述说，更高的维度经过激活函数后，它损失的信息就会少一些。（注意倒残差结构中基本使用的都是ReLU6激活函数，但是最后一个1x1的卷积层使用的是线性激活函数）。具体网络结构如下图所示。

MobileViT结构图中标有向下箭头的MV2结构代表stride等于2的情况，即需要进行下采样。

Residual Block(残差结构):
①1x1卷积降维
②3x3卷积
③1x1卷积升维
Inverted Residual Block(倒残差结构)
①1x1卷积升维
②3x3卷积DW
③1x1卷积降维

3.MobileViT block

MV2来源于mobilenetv2，所以Mobile-ViT的核心是MobileViT block模块。MobileViT block的结构如下图所示：

MobileViT Block旨在用更少的参数对输入张量中的局部和全局信息进行建模。由上图可知MobileViT Block 整体由三部分组成分别为：Local representations、Transformers as Convolutions (global representations)、Fusion。

大致流程：首先将特征图通过一个卷积核大小为nxn（代码中是3x3）的卷积层进行局部的特征建模，然后通过一个卷积核大小为1x1的卷积层调整通道数。接着通过Unfold -> Transformer -> Fold结构进行全局的特征建模，然后再通过一个卷积核大小为1x1的卷积层将通道数调整回原始大小。接着通过shortcut分支（在V2版本中将该捷径分支取消了）与原始输入特征图进行Concat拼接（沿通道channel方向拼接），最后再通过一个卷积核大小为nxn（代码中是3x3）的卷积层做特征融合得到输出。

Global representations它的具体计算过程如下图所示，

首先对特征图划分Patch（忽略了通道channels），图中的Patch大小为2x2，即每个Patch由4个Pixel组成。

在进行Self-Attention计算的时候，每个Token（图中的每个Pixel或者说每个小颜色块）只和颜色相同的Token进行Attention，可以减少参数计算量。对于原始的Self-Attention计算每个Token是需要和所有的Token进行Self-Attention。

假设特征图的高宽和通道数分别为H, W, C，在输入到Transformer中，在Self-Attention的时候，每个图中的每个像素和其他的像素进行计算，这样计算量就是：
$P_1 = W*H*C$

在MobileViT中的是先对输入的特征图划分成多个的patch，但是在计算Self-Attention的时候只对相同位置的像素计算，即图中展示的颜色相同的位置，这样就可以相对的减少计算量，这个时候的计算量为：
$P_2 = \frac{W*H*C}{4}$ 即理论上的计算成本仅为原始的 $\frac{1}{4}$ 。

在本次的自注意力机制中，只选择了位置相同的像素点进行点积操作。这样做的原因大概就是因为和所有的像素点都进行自注意力操作会带来信息冗余，毕竟不是所有的像素含有有用的信息。对于图像数据本身就存在大量的数据冗余，一张图像的每个像素点的周围的像素值都差不多，并且分辨率越高相差越小，所以这样做并不会损失太多的信息。而且MobileViT在做全局表征之前已经做了一次局部表征(Local representations)，进行全局建模时可以忽略一些信息。

Global representations中的Unfold和Fold只是为了将数据给reshape成计算Self-Attention时所需的数据格式。unfold就是将颜色相同的部分拼成一个序列输入到Transformer进行建模,最后再通过fold是调整为原始大小，如下图所示：

下面来简单的看下patch size对模型性能的影响，patch如果划分的比较大的话是可以减少计算量的，但是划分的太大的话又会忽略更多的语义信息，影响模型的性能。

下图从左到右对语义信息的要求逐渐递增。其中配置A的patch大小为{2, 2, 2}，配置B的patch大小为{8, 4, 2}，这三个数字分别对应下采样倍率为8，16，32的特征图所采用的patch大小。通过对比可以发现，在图像分类和目标检测任务中（对语义细节要求不高的场景），配置A和配置B在Acc和mAP上没太大区别，但配置B要更快。但在语义分割任务中（对语义细节要求较高的场景）配置A的效果要更好。

Local representations

Local representations 表示输入信息的局部表达。在这个部分，输入MobileViT Block 的数据会经过一个 $\times n$ 的卷积块和一个 $\times 1$ 的卷积块。

从上文所述的CNN的空间归纳偏差就可以得知：经过 $\times n$ (n=3)的卷积块的输出获取到了输入模型的局部信息表达（因为卷积块是对一个整体块进行操作，但是这个卷积核的n是远远小于数据规模的，所以是局部信息表达，而不是全局信息表达）。另外， $\times 1$ 的卷积块是为了线性投影，将数据投影至高维空间。例如：对于 $9\times 9$ 的数据，使用 $3\times 3$ 的卷积层，获取到的每个数据都是对 $9\times 9$ 数据的局部表达。

Transformers as Convolutions (global representations)

Transformers as Convolutions (global representations) 表示输入信息的全局表示。在Transformers as Convolutions 中首先通过Unfold 对数据进行转换，转化为 Transformer 可以接受的 1D 数据。然后将数据输入到Transformer 块中。最后通过Fold再将数据变换成原有的样子。

Fusion

在Fusion中，经过Transformers as Convolutions得到的信息与原始输入信息 $(\mathrm{A} \in \mathrm{R^{\mathrm{H \times W \times C}}})$ 进行合并，然后使用另一个 $n\times n$ 卷积层来融合这些连接的特征。这里，得到的信息指：全局表征 $\mathrm{X_F} \in \mathrm{R^{\mathrm{H \times W \times d}}}$ 经过逐点卷积（ $1\times 1$ 卷积）得到的输出 $\mathrm{X_{Fu}} \in \mathrm{R^{\mathrm{H \times W \times d}}}$ ，并通过Concat操作与 $\mathrm{X}$ 组合。

4.模型配置

论文中总共给出了三组模型配置，即MobileViT-S(small)、MobileViT-XS(extra small)、MobileViT-XXS(extra extra small)，三种配置是越来越轻量化，三者的主要区别在于特征图的通道数不同。

下图为MobileViT的整体框架，主要看下图中的标出的Layer1~5，这里是根据源码中的配置信息划分的：

对于MobileViT-XXS，Layer1~5的详细配置信息如下：

对于MobileViT-XS，Layer1~5的详细配置信息如下：

对于MobileViT-S，Layer1~5的详细配置信息如下：

参数说明：
$\star$ out_channels表示该模块输出的通道数
$\star$ mv2_exp表示Inverted Residual Block中的expansion ratio
$\star$ transformer_channels表示Transformer模块输入Token的序列长度（特征图通道数）
$\star$ num_heads表示多头自注意力机制中的head数
$\star$ ffn_dim表示FFN中间层Token的序列长度
$\star$ patch_h表示每个patch的高度
$\star$ patch_w表示每个patch的宽度

5.MobileViT优势

更好的性能：对于给定的参数预算，MobileViT 在不同的移动视觉任务（图像分类、物体检测、语义分割）中取得了比现有的轻量级 CNN 更好的性能。

更好的泛化能力：泛化能力是指训练和评价指标之间的差距。对于具有相似训练指标的2个模型，具有更好评价指标的模型更具有通用性，因为它可以更好地预测未知数据集。与CNN相比，即使有广泛的数据增强，其泛化能力也很差，MobileViT显示出更好的泛化能力。

更好的鲁棒性：一个好的模型应该对超参数具有鲁棒性，因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同，MobileViT模型使用基本增强训练，对L2正则化不太敏感。

总之，MobileViT使用CNN和Transformer相融合的方案，在减少模型复杂度的同时，提高了模型的精度和鲁棒性。

$\star$ 对于一个模型，如果全都使用 CNN 结构。模型只能获取到数据的局部信息而获取不到全局信息
$\star$ 对于一个模型，如果全部使用 Transformer 结构。模型可以获取到全局信息。但是，Transformer 结构会带来较大的复杂度，存在训练时间上升，模型容易过拟合等等问题。

因此，基于上述问题。作者先使用CNN获取局部信息，然后使用 Transformer 结构获取全局信息。通过上述的理解可以发现：在MobileViT 中的Transformer 结构中，复杂度相比于 ViT 结构中复杂度降低了很多，因为输入数据复杂度的降低。最终实验结果同时表明：MobileViT 精度更高且鲁棒性更好。

结束语

感谢阅读吾之文章，今已至此次旅程之终站。

吾望斯文献能供尔以宝贵之信息与知识也。

学习者之途，若藏于天际之星辰，吾等皆当努力熠熠生辉，持续前行。

然而，如若斯文献有益于尔，何不以三连为礼？点赞、留言、收藏 - 此等皆以证尔对作者之支持与鼓励也。

你可能感兴趣的:(Pytorch,pytorch,分类,人工智能)

Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
财政业务知识库目录分类实践 alankuo 人工智能
财政业务知识库的目录分类是实现知识有序管理、高效检索和精准应用的核心环节，需结合财政业务的专业性、系统性和动态性，兼顾业务逻辑、用户需求和管理实践。以下从分类原则、核心框架、实践要点三个方面，结合财政业务特点展开具体实践说明。一、财政业务知识库目录分类的核心原则在实践中，目录分类需遵循以下原则，确保分类逻辑清晰、实用高效：业务关联性：以财政核心业务流程和管理领域为基础，确保分类与实际工作场景紧密贴
微信小程序开发：从漫画阅读到商业变现永远的12
本文还有配套的精品资源，点击获取简介：微信小程序作为一种轻量级应用平台，在无需下载安装的情况下提供便捷服务，尤其在漫画阅读领域得到广泛应用。本文介绍了微信小程序的基础开发框架，包括WXML、WXSS和JavaScript的使用，以及漫画小程序的核心功能设计，如漫画分类、搜索、详情展示、阅读模式等。同时，探讨了在小程序中加入广告ID以实现商业变现，包括广告组件的集成和广告政策的遵守。最后，强调了漫画
【一文了解】C#基础-集合
目录集合1.集合分类1.1.非泛型集合1.2.泛型集合1）列表（List）2）字典（Dictionary）3）队列（Queue）4）栈（Stack）5）哈希集合（HashSet）2.集合的常见操作3.区分泛型集合与非泛型集合3.1.非泛型集合1）优点2）缺点3.2.泛型集合1）优点2）缺点总结本篇文章来学习一下集合，C#集合主要分为非泛型集合与泛型集合。集合集合（Collection）是一种用于存
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
C#集合：从基础到进阶的全面解析阿蒙Armon C#继续学习 c#windows linux
C#集合：从基础到进阶的全面解析在C#编程中，集合是处理数据集合的核心工具。无论是存储一组对象、实现缓存机制，还是处理复杂的数据结构，都离不开集合的灵活运用。本文将全面深入地探讨C#集合体系，从基础概念到高级技巧，帮助开发者掌握集合的精髓，写出更高效、更优雅的代码。一、集合概述与分类C#集合框架是.NET类库的重要组成部分，它提供了一系列用于存储和操作数据的类和接口。与数组相比，集合具有动态扩容、
短剧小程序开发全攻略：从0到1打造爆款内容平台 weixin_lynhgworld 小程序短剧
核心内容：行业趋势分析：短剧市场年增长率超300%，用户规模突破5亿，抖音、快手等平台加速布局。小程序成为短剧分发核心渠道：轻量化、低成本、社交裂变优势显著。开发核心功能模块：内容管理：支持多格式上传、分集管理、标签分类。播放体验优化：弹幕互动、倍速播放、清晰度切换、离线缓存。付费系统：单集付费、会员订阅、广告解锁等多元化盈利模式。社交裂变：分享奖励、邀请排行榜、拼团观影功能。技术实现难点：视频流
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
一文读懂HarmonyOS知识地图，开启鸿蒙开发新征程大雨淅淅 #HarmonyOS开发 harmonyos 华为
目录一、HarmonyOS知识地图是什么？二、HarmonyOS基础概念速览（一）起源与发展（二）核心特性（三）技术架构剖析1.内核层2.系统服务层3.框架层4.应用层三、HarmonyOS知识地图板块解读（一）开发基础知识1.应用程序包2.应用配置文件3.资源分类与访问4.ArkTS语言基础（二）UI开发知识1.方舟开发框架（ArkUI）2.布局与组件3.动画与交互（三）应用模型与能力1.Abi
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
华为L1-L6流程体系核心框架 jmoych 华为大数据数据库
最近项目上讨论流程体系比较多，结合前面笔者发布的关于流程的文章，今天将华为的L1-L6流程体系简单分享一下，该体系是企业级流程管理的核心框架，通过分层设计实现战略到执行的垂直贯通。想获取完整资料的朋友，可加入知识星球，会员可无限制下载所有资料。流程分类框架体系设计应该梳理到L5还是L6?面向离散制造企业复杂业务，流程体系建设覆盖从L1到L5/L6的全层级框架？以下从架构设计、功能定位、层级关系三个
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
全网最全100道C语言高频经典面试题及答案解析：C语言程序员面试题库分类总结猿享天开学懂C语言-C语言从入门到精通 c语言 c++面试
前言在计算科学领域，C语言犹如一座横跨硬件与软件的桥梁——其简洁的语法背后，承载着操作系统、数据库、嵌入式系统等基础软件的运行命脉。当开发者面对大厂面试中"用户态与内核态切换的开销量化"或"自旋锁在NUMA架构下的性能陷阱"等深度问题时，仅凭教科书知识往往难以应对。本文正是为解决这一痛点而生。我们摒弃传统面试题集的简单罗列模式，精选100个直指系统编程本质的问题，每个案例均包含：工业级场景还原：基
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
SQL 索引与日志知识点详解及练习题
索引和日志在数据库的高效运行和数据安全中扮演着重要角色。下面我们详细梳理索引和日志的相关知识，并通过练习题加深理解。一、知识点梳理（一）索引基本概念：索引是为了加速查询的数据结构，其数据结构为B+树。B代表Balance（平衡），数据保存在叶子结点中。分类主键索引：唯一标识一行，不允许为空，一张表只能有一个主键。唯一索引：标识一行，允许为空，一张表可以有多个唯一索引。普通索引：允许重复和空值。联合
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
android mvvm官方demo,Android mvvm架构demo(DataBinding+LiveData+ViewModel+ Repository)
1.实现效果实现页面加载Bing每日一图的功能2.项目结构image(忽略没有按分类创建).png3.实现过程1.注入依赖//ViewModel与LiveDataimplementation"android.arch.lifecycle:extensions:1.1.1"//图片加载implementation'com.github.bumptech.glide:glide:4.9.0'//网络请
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
机器视觉在OCR（字符识别）检测中的应用
目前，对印刷品的检测工作一般采用人工方法进行质量检测，然后再由工作人员将成品和次品进行分类堆放。这样一来，不仅增加了工作人员的劳动强度，而且检测质量也难以得到保障。其次，则是效率低下，浪费时间成本。印品质量自动检测系统满足印刷企业对于产品质量控制的需求。系统采用自主研发的表面缺陷检测、色彩测量、快速建模等核心算法，广泛适用于包装印刷、标签印刷、商业印刷质量在线检测和印后终检。机器视觉用于印刷、包装
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&