Amusi（CVer）

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：集智书童

When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations

论文：https://arxiv.org/abs/2106.01548

本文证明了在没有大规模预训练或强数据增广的情况下，在ImageNet上从头开始训练时，所得ViT的性能优于类似大小和吞吐量的ResNet！而且还拥有更敏锐的注意力图。

作者单位：谷歌, UCLA

1简介

Vision Transformers(ViTs)和MLPs标志着在用通用神经架构替换手动特征或归纳偏置方面的进一步努力。现有工作通过大量数据为模型赋能，例如大规模预训练和/或重复的强数据增广，并且还报告了与优化相关的问题（例如，对初始化和学习率的敏感性）。

因此，本文从损失几何的角度研究了ViTs和MLP-Mixer，旨在提高模型在训练和推理时的泛化效率。可视化和Hessian揭示了收敛模型极其敏感的局部最小值。

同时通过使用最近提出的锐度感知优化器提高平滑度，进而大大提高了ViT和MLP-Mixer在跨越监督、对抗、对比和迁移学习（例如，+5.3% 和 +11.0%）的各种任务上的准确性和鲁棒性使用简单的Inception进行预处理，ViT-B/16和Mixer-B/16在ImageNet上的准确率分别为Top-1）。

作者研究表明，改进的平滑度归因于前几层中较稀疏的活动神经元。在没有大规模预训练或强数据增强的情况下，在ImageNet上从头开始训练时，所得 ViT的性能优于类似大小和吞吐量的ResNet。同时还拥有更敏锐的注意力图。

2Background和Related Work

最近的研究发现，ViT中的self-attention对性能并不是至关重要的，因此出现了一些专门基于mlp的架构。这里作者以MLP-Mixer为例。MLP-Mixer与ViT共享相同的输入层;也就是说，它将一个图像分割成一系列不重叠的Patches/Toekns。然后，它在torkn mlp和channel mlp之间交替使用，其中前者允许来自不同空间位置的特征融合。

3ViTs和MLP-Mixers收敛到锐局部极小值

目前的ViTs、mlp-mixer和相关的无卷积架构的训练方法很大程度上依赖于大量的预训练或强数据增强。它对数据和计算有很高的要求，并导致许多超参数需要调整。

现有的研究表明，当在ImageNet上从头开始训练时，如果不结合那些先进的数据增强，尽管使用了各种正则化技术(例如，权重衰减，Dropout等)ViTs的精度依然低于类似大小和吞吐量的卷积网络。同时在鲁棒性测试方面，vit和resnet之间也存在较大的差距。

此外，Chen等人发现，在训练vit时，梯度会出现峰值，导致精确度突然下降，Touvron等人也发现初始化和超参数对训练很敏感。这些问题其实都可以归咎于优化问题。

在本文中，作者研究了ViTs和mlp-mixer的损失情况，从优化的角度理解它们，旨在减少它们对大规模预训练或强数据增强的依赖。

3.1 ViTs和MLP-Mixers收敛到极sharp局部极小值

众所周知，当模型收敛到曲率小的平坦区域时模型会具有更好的泛化性能。在[36]之后，当resnet、vit和MLP-Mixers在ImageNet上使用基本的初始风格预处理从头开始训练时，作者绘制损失图：

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第2张图片

如图1(a)到1(c)所示，ViTs和mlp-mixer比ResNets收敛到更清晰的区域。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第3张图片

在表1中，通过计算主要的Hessian特征值进一步验证了结果。ViT和MLP-Mixer的值比ResNet大一个数量级，并且MLP-Mixer的曲率在3种中是最大的(具体分析见4.4节)。

3.2 Small training errors

这种向sharp区域的收敛与图2(左)所示的训练动态一致。尽管Mixer-B/16参数少于ViT-B/16(59M vs 87M)，同时它有一个小的训练误差，但测试性能还是比较差的，这意味着使用cross-token MLP学习的相互作用比ViTs’ self-attention机制更容易过度拟合。这种差异可能解释了mlp-mixer更容易陷入尖锐的局部最小值。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第4张图片

3.3 ViTs和MLP-Mixers的可训练性较差

此外，作者还发现ViTs和MLP-Mixers的可训练性较差，可训练性定义为通过梯度下降优化的网络的有效性。Xiao等人的研究表明，神经网络的可训练性可以用相关的神经切线核(NTK)的条件数来表征:

其中是雅可比矩阵。

用表示NTK 的特征值，最小的特征值以条件数κ的速率指数收敛。如果κ是发散的，那么网络将变得不可训练。如表1所示，ResNets的κ是相当稳定的，这与之前的研究结果一致，即ResNets无论深度如何都具有优越的可训练性。然而，当涉及到ViT和时，条件数是不同的MLP-Mixer，证实了对ViTs的训练需要额外的辅助。

4CNN-Free视觉架构优化器原理

常用的一阶优化器(如SGD,Adam)只寻求最小化训练损失。它们通常会忽略与泛化相关的高阶信息，如曲率。然而，深度神经网络的损失具有高度非凸性，在评估时容易达到接近0的训练误差，但泛化误差较高，更谈不上在测试集具有不同分布时的鲁棒性。

由于对视觉数据缺乏归纳偏差ViTs和MLPs放大了一阶优化器的这种缺陷，导致过度急剧的损失scene和较差的泛化性能，如前一节所示。假设平滑收敛时的损失scene可以显著提高那些无卷积架构的泛化能力，那么最近提出的锐度感知最小化(SAM)可以很好的避免锐度最小值。

4.1 SAM:Overview

从直觉上看，SAM寻找的是可以使整个邻近训练损失最低的参数w，训练损失通过构造极小极大目标:

其中是neighbourhood ball的大小。在不失一般性的情况下，这里使用范数作为其强经验结果，这里为了简单起见省略了正则化项。

由于内部最大化下式的确切解很难获得：

因此，这里采用了一个有效的一阶近似:

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第5张图片

在范数下，是当前权值的缩放梯度。计算后，SAM基于锐度感知梯度更新w。

4.2 SAM优化器实质上改进了ViTs和MLP-Mixers

作者在没有大规模的预训练或强大的数据增强的情况下训练了vit和MLP-Mixers。直接将SAM应用于vit的原始ImageNet训练pipeline，而不改变任何超参数。pipeline使用了基本的Inception-style的预处理。最初的mlp-mixer的训练设置包括强数据增强的组合;也用同样的Inception-style的预处理来替换它，以便进行公平的比较。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第6张图片

注意，在应用SAM之前，我们对学习速率、权重衰减、Dropout和随机深度进行网格搜索。

1 局部极小值周围的平滑区域

由于SAM, ViTs和mlp-mixer都汇聚在更平滑的区域，如图1(d)和1(e)所示。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第7张图片

曲率测量，即Hessian矩阵的最大特征值，也减小到一个小值(见表1)。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第8张图片

2 Higher accuracy

随之而来的是对泛化性能的极大改进。在ImageNet验证集上，SAM将ViT-B/16的top-1精度从74.6%提高到79.9%，将Mixer-B/16的top-1精度从66.4%提高到77.4%。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第9张图片

相比之下，类似规模的ResNet-152的性能提高了0.8%。根据经验，改进的程度与架构中内置的归纳偏差水平呈负相关。与基于注意力的ViTs相比，具有inherent translation equivalence和locality的ResNets从landscape smoothing中获益较少。MLP-Mixers从平滑的loss geometry中获得最多。

此外，SAM对更大容量(例如:+4.1%的Mixer-S/16 vs. +11.0%的Mixer-B/16)和更长的patch序列(例如:+2.1%的vits/32 vs. +5.3%的vits /8)的模型带来了更大的改进。

3 Better robustness

作者还使用ImageNet-R和ImageNetC评估了模型的鲁棒性，并发现了smoothed loss landscapes的更大影响。在ImageNet-C上，它通过噪音、恶劣天气、模糊等来破坏图像，实验了5种严重程度上19种破坏的平均精度。如表1和表2所示， ViT-B/16和Mixer-B/16的精度分别增加了9.9%和15.0%。

4.3 无需预训练或强大的数据增强ViTs优于ResNets

模型体系结构的性能通常与训练策略合并，其中数据增强起着关键作用。然而，数据增广的设计需要大量的领域专业知识，而且可能无法在图像和视频之间进行转换。由于有了锐度感知优化器SAM，可以删除高级的数据增强，并专注于体系结构本身(使用基本的Inception-style的预处理)。

当使用SAM在ImageNet上从0开始训练时，ViT的准确性(在ImageNet、ImageNet-Real和ImageNet V2上)和健壮性(在ImageNet-R和ImageNet-R上)方面都优于类似和更大的ResNet(在推理时也具有相当的吞吐量)。

ViT-B/16在ImageNet、ImageNet-r和ImageNet-C上分别达到79.9%、26.4%和56.6%的top精度，而对应的ResNet-152则分别达到79.3%、25.7%和52.2%(见表2)。对于小型架构，vit和resnet之间的差距甚至更大。在ImageNet上，ViT-S/16的表现比同样大小的ResNet-50好1.4%，在ImageNet-C上好6.5%。SAM还显著改善了MLP-Mixers的结果。

4.4 SAM后的内在变化

作者对模型进行了更深入的研究，以理解它们如何从本质上改变以减少Hessian的特征值以及除了增强泛化之外的变化意味着什么。

结论1：每个网络组件具有Smoother loss landscapes

在表3中，将整个体系结构的Hessian分解成与每一组参数相关的小的斜对角Hessian块，试图分析在没有SAM训练的模型中，是什么特定的成分导致爆炸。

作者观察到较浅的层具有较大的Hessian特征值，并且第1个linear embedding layer产生sharpest的几何形状。

此外，ViTs中的多头自注意(MSA)和MLP-Mixers中的token mlp(Token mlp)跨空间位置混合信息，其相对较低。SAM一致地降低了所有网络块的。

可以通过递归mlp的Hessian矩阵得到上述发现。设和分别为第k层激活前的值和激活后的值。它们满足

402 Payment Required

，其中为权值矩阵，为激活函数(mlp-mixer中的GELU)。为了简单起见，在这里省略偏置项。Hessian矩阵相对于的对角块可递归计算为:

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第10张图片

其中⊗为Kronecker product，为第层的预激活Hessian，L为目标函数。因此，当递归公式反向传播到浅层时，Hessian范数累积，这也解释了为什么表3中第一个块的比最后一个块大得多。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第11张图片

结论2：Greater weight norms

应用SAM后，作者发现激活后的值的范数和权重的范数变得更大(见表3)，说明常用的权重衰减可能不能有效地正则化ViTs和MLP-Mixers。

结论3：MLP-Mixers中较稀疏的active neurons

根据递归公式(3)到(4)，作者确定了另一个影响Hessian的MLP-Mixers的内在度量:激活神经元的数量。

事实上，是由大于零的被激活神经元决定的，因为当输入为负时，GELU的一阶导数变得非常小。因此，活跃的GELU神经元的数量直接与Hessian规范相连。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第12张图片

图2(右)显示了每个块中被激活的神经元的比例，使用ImageNet训练集的10%进行计算。可以看到，SAM极大地减少了前几层被激活神经元的比例，使它们处于更稀疏的状态。这一结果也说明了图像patch的潜在冗余性。

结论4：ViTs的active neurons高度稀疏

虽然公式(3)和(4)只涉及mlp，但仍然可以观察到vit的第1层激活神经元的减少(但不如MLP-Mixers显著)。更有趣的是，作者发现ViT中被激活神经元的比例比ResNets或MLP-Mixers中要小得多——在大多数ViT层中，只有不到5%的神经元的值大于零。换句话说，ViT为网络修剪提供了巨大的潜力。

这种稀疏性也可以解释为什么一个Transformer可以处理多模态信号(视觉、文本和音频)?

结论5：ViTs中有更多的感知注意力Maps

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第13张图片

在图3中可视化了classification token的attention map。有趣的是，经过SAM优化的ViT模型能够编码合理的分割信息，比传统SGD优化训练的模型具有更好的可解释性。

结论6：Higher training errors

如图2(左)所示，使用SAM的ViT-B/16比使用vanilla SGD的训练误差更高。当在训练中使用强数据增强时，这种正则化效应也会发生，它迫使网络显式地学习RandAugment中的旋转平移等方差和mixup中的线性插值等先验。然而，增益对不同的训练设置很敏感(第5.2节)，并导致高噪声损失曲线(图2(中间))。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第14张图片

5实验

具有smoother loss geometry的ViTs和MLP-Mixers可以更好地迁移到下游任务。

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第15张图片

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！_第16张图片

上述论文PDF下载

后台回复：0606，即可下载上述论文

CVPR和Transformer资料下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

CVer-Transformer交流群成立
扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
使用 PyTorch 实现逻辑回归：从数据到模型保存与加载弥树子 pytorch 逻辑回归人工智能
在机器学习中，逻辑回归是一种经典的分类算法，广泛应用于二分类问题。本文将通过一个简单的示例，展示如何使用PyTorch框架实现逻辑回归模型，从数据准备到模型训练、保存和加载，最后进行预测。1.数据准备逻辑回归的核心是通过学习数据中的特征与标签之间的关系来进行分类。在本示例中，我们手动创建了一个简单的二维数据集，包含两类数据点。第一类数据点的标签为0，第二类数据点的标签为1。class1_point
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【机器学习】自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克 tensorflow 逻辑回归人工智能 python 作业
一、使用tensorflow框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。tensorflow框架不需要numpy数组转换为相应的张量，可以直接在模型中使用数据集。2.模型定义部分：方案1：model=tf.keras.Sequential([tf.keras.layers.Dense(1,input_sh
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory解决方案爱编程的喵喵 Python基础课程 python pip OSError 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ERROR:Couldnotinst
安装flash-attn出现RuntimeError current installed version g++ (4.8.5) is less than mininum version解决方案爱编程的喵喵 Python基础课程 python flash-attn g++RuntimeError
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。本文主要介绍了安装flash-attn出现RuntimeErrorcurrentinstalledversiong++(4.8.5)islessthanmininumversion解决方案
动手学深度学习-卷积神经网络-3填充和步幅像污秽一样动手学深度学习深度学习 cnn 人工智能神经网络
目录填充步幅小结在上一节的例子（下图）中，输入的高度和宽度都为3，卷积核的高度和宽度都为2，生成的输出表征的维数为2×2。正如我们在上一节中所概括的那样，假设输入形状为nh×nw，卷积核形状为kh×kw，那么输出形状将是(nh−kh+1)×(nw−kw+1)。因此，卷积的输出形状取决于输入形状和卷积核的形状。还有什么因素会影响输出的大小呢？本节我们将介绍填充（padding）和步幅（stride）
【llm对话系统】RL强化学习的技术演进与RLHF kakaZhui 人工智能 chatgpt llama
一、强化学习基础知识强化学习(ReinforcementLearning,RL)是一种机器学习方法，它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward)。1.核心概念:智能体(Agent):做出决策并采取行动的学习者。环境(Environment):智能体所处的外部世界，对智能体的行动做出反应。状态(State,S):对环境当前情况的描述。
神经网络及其架构和模型的关系爱吃瓜的猹z 大模型神经网络架构人工智能
模型、架构、神经网络之间的关系可以理解为不同层次上的概念，它们分别涵盖了机器学习系统的不同方面。具体来说：1.神经网络神经网络是一种模型类型，基于生物神经系统的启发，用于模拟人脑的学习过程。它由**多个神经元（节点）**和连接权重组成，这些神经元组织成不同的层，通过输入数据进行学习和预测。神经网络的特点：基本组成单位：神经网络的基本单位是“神经元”（或节点），每个神经元接收输入，进行加权和激活，然
【Python知行篇】代码的曼妙乐章：探索数据与逻辑的和谐之舞 hope kc python 开发语言
Python学习指南Python是一种功能强大且易于学习的编程语言，广泛应用于数据分析、Web开发、机器学习等多个领域。本文将详细介绍如何学习Python，并涵盖从基础语法到高级应用的多个方面。每个部分都有代码示例，以帮助读者更好地理解并实践所学内容。目录Python基础面向对象编程数据结构与算法Python标准库数据分析和可视化Web开发基础机器学习初步Python优化技巧总结Python基础学
9.6 解锁 AI 潜力：GPT Builder 的强大能力与无限可能少林码僧 AI大模型应用实战专栏人工智能 gpt
解锁AI潜力：GPTBuilder的强大能力与无限可能引言：轻松打造智能应用的革命性工具在人工智能的浪潮中，GPTBuilder作为一款强大且易用的开发工具，让构建AI驱动的智能应用变得前所未有的简单。无论你是开发者、企业家，还是对技术一知半解的创作者，GPTBuilder都能帮助你快速将创意变为现实。从自动化客户支持到内容生成，从数据分析到智能助手，GPTBuilder提供了丰富的功能和灵活的设
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Spring AI 更新：支持OpenAI的结构化输出，增强对JSON响应的支持 java后端
就在昨晚，SpringAI发了个比较重要的更新。由于最近OpenAI推出了结构化输出的功能，可确保AI生成的响应严格遵守预定义的JSON模式。此功能显着提高了人工智能生成内容在现实应用中的可靠性和可用性。SpringAI紧随其后，现在也可以对OpenAI的结构化输出完美支持了。下图展示了本次扩展的实现结构，如果对于当前实现还不够满意，需要扩展的可以根据此图来着手理解分析进行下一步扩展工作。使用样例
非凸科技招聘来啦！技术岗及非技术岗由你选！欢迎大家加入！招聘
公司介绍：非凸科技成立于2018年，是国内领先的智能算法和交易系统服务公司，专注于智能算法交易领域的研究和开发。公司特点：投研团队来自华尔街顶级资管公司BlackRock等，以及多位来自腾讯、字节跳动的顶尖工程师；在职员工100+，投研和技术团队占总人数比例75%，多位成员是ACM/ICPCWorldFinal选手；公司司正基于Rust生态，结合机器学习、深度学习等新兴技术，打造高效率、低延迟、高
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景余生H 前端的AI工具书前端 transformer javascript hugginface webml web大模型
随着大模型的广泛应用，越来越多的开发者希望在前端直接运行机器学习模型，从而减少对后端的依赖，并提升用户体验。Transformer.js是一个专为前端环境设计的框架，它支持运行基于Transformer架构的深度学习模型，尤其是像BERT、GPT等广泛应用于自然语言处理（NLP）的模型。本文将全面解析Transformer.js的运行环境、使用方式、代码示例，以及其能够完成的功能与目前的限制，帮助
Python magenta库：一款人工智能生成音乐与艺术的创新工具程序员喵哥 python 人工智能开发语言
更多Python学习内容：ipengtao.com随着人工智能在创意领域的不断进步，音乐和艺术生成正成为一种新的可能性。Magenta是由Google推出的一个开源项目，它结合了深度学习与艺术创作，为开发者提供了一系列强大的工具，帮助他们创作音乐、绘画等艺术作品。基于TensorFlow，Magenta不仅适用于研究人员，也适合开发者和艺术家，提供了易于上手的API和丰富的模型。安装在使用Mage
Crawl4AI 人工智能自动采集数据葡萄爱人工智能 python 大数据
文章目录1使用Crawl的步骤2AI智能体应用实例3结语Crawl是一款免费的开源工具，利用AI技术简化网络爬取和数据提取，提高信息收集与分析的效率。它智能识别网页内容，并将数据转换为易于处理的格式，功能全面且操作简便。定位：开源AI工具Crawl，简化数据爬取和分析，助力高效提取网站定价信息。1使用Crawl的步骤步骤1：安装与设置pipinstall“crawl4ai@git+https://
深度学习探索：ChatGPT数据分析精髓 & 梯度下降优化方法深度剖析网罗开发 AI 大模型人工智能深度学习 chatgpt 数据分析
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
开源模型应用落地-qwen模型小试-调用Qwen2-VL-7B-Instruct-更清晰地看世界-vLLM+Docker（七）开源技术探险家开源模型-实际应用落地 #深度学习 AI编程 AIGC
一、前言学习Qwen2-VL，为我们打开了一扇通往先进人工智能技术的大门。让我们能够深入了解当今最前沿的视觉语言模型的工作原理和强大能力。这不仅拓宽了我们的知识视野，更让我们站在科技发展的潮头，紧跟时代的步伐。Qwen2-VL具有卓越的图像和视频理解能力，以及多语言支持等特性。学习它可以提升我们处理复杂视觉信息的能力，无论是在学术研究中分析图像数据、解读视频内容，还是在实际工作中进行文档处理、解决
【有啥问啥】大模型赋能智能座舱：重塑未来出行体验有啥问啥大模型行业调研语言模型汽车人工智能
大模型赋能智能座舱：重塑未来出行体验在科技日新月异的今天，人工智能（AI）正以前所未有的速度改变着各行各业，而智能座舱作为现代汽车产业的重要组成部分，也在经历一场由大模型技术引领的重大变革。这些变化不仅赋予了智能座舱更强的学习与推理能力，还为用户带来了前所未有的个性化服务体验。让我们一起走进几位普通车主的故事，看看他们的生活因智能座舱而发生了怎样的改变。一、智能座舱与大模型：技术融合的前沿趋势（一
【有啥问啥】揭秘AI图像/视频生成的幕后功臣：重述（Recaptioning）技术有啥问啥大模型科普人工智能
揭秘AI图像/视频生成的幕后功臣：重述（Recaptioning）技术近年来，人工智能（AI）在图像和视频生成领域取得了令人瞩目的进展。从生成震撼视觉效果的图像生成器DALL-E3，到能够创造逼真动态视频的Sora，这些强大的模型背后，有一项至关重要的技术正在悄然发力——那就是重述（Recaptioning）技术。本文将通俗易懂地带你深入了解这项技术的工作原理及其对AI生成领域的巨大推动作用。什么
Python 能写游戏吗？有哪些优秀的开源项目？ cda2024 python 游戏 pygame
Python，这个被誉为“胶水语言”的编程工具，不仅在数据分析、机器学习等领域大放异彩，还能用来编写游戏吗？答案是肯定的！Python的简洁语法和强大的库支持，使其成为游戏开发的理想选择。本文将详细介绍Python在游戏开发中的应用，并推荐一些优秀的开源项目。Python游戏开发的优势简洁易学Python的语法简洁明了，学习曲线平缓。这使得初学者可以快速上手，专注于游戏逻辑的设计而非语言细节。对于
拨开迷雾：人工智能核心领域与大模型的演进逻辑！新手放心进，保证通俗易懂！！小南AI学院人工智能
1.人工智能的定义及其子领域人工智能（ArtificialIntelligence,AI）是计算机科学的一个重要分支，旨在模拟和扩展人类智能。AI涉及多个学科，涵盖数学、计算机科学、认知科学等领域。根据研究内容和技术特点，人工智能主要分为以下几个子领域：1.1人工智能人工智能是一个广义的概念，包含任何试图让机器表现出类似人类智能的技术。传统人工智能注重规则设计和逻辑推理，而现代人工智能通过机器学习
非凸科技荣获2024中国人工智能行业创新力企业奖人工智能
11月27日，CIAI2024第九届中国国际人工智能大会暨“2024中国人工智能行业创新力企业”颁奖典礼在上海圆满落幕。非凸科技作为百强创新力企业受邀出席大会，并荣获“十大创新力企业”奖，在科技创新、商业模式成熟度、主营业务表现、市场地位等多方面获得认可。此次奖项由中国国际人工智能大会组委会、人工智能行业创新力评价委员会共同评选，重点关注入选企业在人工智能技术方面的创新应用及行业突破或独特优势。非
chatGPT底层原理是什么，为什么chatGPT效果这么好？三万字长文深度剖析-下会写代码的孙悟空大模型从入门到放弃 chatgpt 算法人工智能深度学习机器学习
导航chatGPT底层原理是什么，为什么chatGPT效果这么好？三万字长文深度剖析-上chatGPT底层原理是什么，为什么chatGPT效果这么好？三万字长文深度剖析-中chatGPT底层原理是什么，为什么chatGPT效果这么好？三万字长文深度剖析-下到chatGPT内部一探究竟好的，现在我们终于可以讨论ChatGPT的内部结构了。最终它是一个巨大的神经网络——目前是一个所谓的GPT-3网络版
小南每日 AI 资讯 | 2025年AI泡沫破裂？ | 25/01/24 小南AI学院人工智能搜索引擎百度
小南每日AI资讯|2025年AI泡沫破裂？|25/01/24人工智能领域近期动态汇总一、行业趋势与未来展望AI泡沫可能在2025年破裂专家预测，尽管人工智能在多模态模型和自动机器学习等领域取得进展，但技术瓶颈、投资回报率下降、监管趋严，以及环境和伦理问题可能导致2025年AI泡沫破裂。未来AI的发展将更加注重平衡和可持续性。斯坦福大学发布《2024年人工智能指数报告》李飞飞教授团队揭示了人工智能行
人工智能技术的应用前景及未来发展键盘上的蚂蚁- 人工智能生活
引言人工智能（AI）作为21世纪最具创新性和革命性的技术之一，正在全球范围内深刻地改变着我们的生产、工作和生活方式。随着深度学习、强化学习、自然语言处理（NLP）、计算机视觉（CV）等技术的飞速进展，AI不再仅仅是学术研究中的一个热点，而是渗透到各个行业，成为推动创新、优化生产和提升效率的核心力量。对于开发者来说，理解和掌握AI技术不仅是提升个人技能的途径，更是应对未来技术变革、抓住职业机遇的关键
AI人工智能深度学习算法：在生物信息学中的应用 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能深度学习算法：在生物信息学中的应用关键词：人工智能、深度学习、生物信息学、基因组学、蛋白质结构预测、药物发现、个性化医疗文章目录AI人工智能深度学习算法：在生物信息学中的应用1.背景介绍2.核心概念与联系2.1人工智能（AI）2.2机器学习（ML）2.3深度学习（DL）2.4生物信息学2.5应用领域3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1卷积神经网络（CNN）3.1.
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n