cbd_2012

腾讯Deep CNNS卷积加速架构

[转载]深度卷积网络大提速及其问题

已有 4882 次阅读 2015-1-21 08:53 |个人分类:人工智能|系统分类:观点评述|文章来源:转载

Geoffrey Hinton的努力，使得深度学习（Deep Learning，DL）成为实现机器智能的核心技术。然而，深度学习的一些坑，如大型神经网络的计算负载、训练性能，并不那么容易克服。现在，深度学习的爱好者可以通过Facebook的福利消除这一障碍：日前，Facebook人工智能研究院（FAIR）宣布开源了一组深度学习软件库，是针对Torch机器学习框架的插件，基于NVIDIA的GPU，大大提升了神经网络的性能，可以用于计算机视觉和自然语言处理（NLP）等场景。

那么，具体而言，Facebook开源深度学习软件库有哪些内容？它会是谁的菜？它能做什么？我们应当如何利用它？

开源代码&工具

Torch
iTorch
fbcunn
fbnn
fbcuda
fblualib

谁能受益

根据Facebook的说法，如果您想训练用于图像识别、自然语言处理或其他应用程序的大规模的深度学习系统（特别是卷积网络），fbcunn会很有帮助。如果您已经是一个Torch用户，效果更佳——我们知道，Torch作为一个协助机器学习技术开发的开源环境，一直以来是很多人工智能项目的核心，不管是在学校研究或者是类似 Google、Twitter 和Intel这样的公司，都采用这一框架。

开源之后，深度学习生态链上可以有更多的玩家。FAIR研究员、软件工程师Soumith Chintala表示，开源的AI工具能够帮助研究实验室和新兴创业公司免去了从零开始研究的复杂道路，把更多的精力和时间都投入到改善现有的算法中，同时开源的AI工具也将成为Facebook和创业团队之间的催化剂。

能做什么

Facebook表示，其开源优化的深学习模块，加快了基于Torch的深度学习项目的运行速度，允许我们在更短的时间训练规模更大的神经网络加快我们的研究项目。

开源的包括用于大型卷积网（ConvNets）的GPU优化模块，以及那些在自然语言处理领域常用的网络。Facebook的ConvNets模块包括一个快速的基于FFT的卷积层，采用基于NVIDIA的cuFFT库构建的自定义CUDA内核。

除此之外，还包括许多其他基于CUDA的模块和容器（container）。

基于FFT的卷积层

本次发布的最重要部分包括基于FFT的卷积层代码，因为在训练ConvNets中卷曲占用了大部分的计算时间。由于提高这些模型的训练时间转化为更快的研发，Facebook已经花了相当大的工程努力提高GPU卷积层。这项工作成效显着，达到目前公布的最快代码的23.5倍。

上面的热力图可视化地显示了采用Facebook的ConvolutionFFT相对于采用NVIDIA的CuDNN完成一个训练的相对速度，红色代表Facebook慢，绿色代表Facebook更快，颜色增强代表加速的幅度。

对于小尺寸的内核（3×3），增速适中，最高速度比CuDNN快1.84倍。

对于较大尺寸的内核，从（5×5）开始，增速相当可观。

更大尺寸的内核（13x13），最高速度为比CuDNN快23.5倍。(更多的技术细节，请您阅读Facebook的Arxiv论文。)

多GPU之上的并行化

从工程方面，Facebook一直努力实现在多GPU上并行训练神经网络模型的能力。Facebook致力于最小化并行的开销，同时也使研究人员极易使用，通过数据并行和模型并行模块（fbcunn的一部分）。当研究人员把它们的模型推到这些易于使用的容器，代码自动调度模型在多个GPU上最大化加速。Facebook使用多GPU在Imagenet上训练一个ConvNet的一个例子已经展示了这一点。

fbcunn是什么

这个库包含Facebook用于GPU的高度工程化深度学习模块，以加快深度学习的速度。它插入到Torch7的框架之中，通过luarocks无缝安装，并且与Torch的NN封装完全兼容。

总体来说，Facebook发布了用于Convnets和一般神经网络的快速NN模块：

快速空间卷积模块，使用FFT加速卷积。
快速Temporal卷积，速度相比Torch的cunn实现快1.5倍至10倍。
nn.DataParallel和nn.ModelParallel容器。将您的模型插入，在多个GPU上加速效果立竿见影。
采用FFT/ IFFT为NN模块。
用于神经语言模块（Neural Language Models）和文字嵌入的快速LookupTable。比在Torch/ NN下快很多。
Hierarchical SoftMax模块，使得现在分类百万类成为实际可行的策略。
特征映射上的LP和Max Pooling （用于MaxOut）。
更多的好东西。

示例：

在Torch-7中使用多GPU训练基于分类的imagenet（展示FFT卷积以及ModelParallel容器）

fbcunn如何使用

DataParallel和ModelParallel这两个模块超级简单易用。这个unit-test同时作为例子和测试。examples/imagenet下面还有ModelParallel的例子。

m = nn.DataParallel（）：add（nn.SpatialConvolution（...））：add（nn.ReLU（））-- see, so simple

卷积模块更加简单易用。它们与NN的API完全兼容。

CONV= nn.SpatialConvolutionCuFFT（...）-- fast spatial convolutions!

CONV= nn.TemporalConvolutionFB（...）-- fast temporal convolutions!

LookupTable和Hierarchical SoftMax分别被命名为nn.LookupTableGPU和nn.HSM，也是超级简单易用。它们的使用，以及fbcunn的安装步骤、API文档等更多的细节，您都可以在这个链接的完整的文档和规范中找到答案：http://facebook.github.io/fbcunn/fbcunn/。

编后语

极客们说，人工智能是世界的未来，深度学习算法是让机器拥有智能的最佳途径。我们看到，从的相册处理到无人驾驶汽车，深度学习的模型已经在逐步应用。尽管目前的技术成果距离S.W.Hawking和Elon Musk所担忧的“机器政变”还非常遥远，但在硬件加速技术的支撑和开源社区的贡献之下，深度学习算法的普及应用门槛确实大大降低，模式识别、NLP变得更加简单，我们没有理由不加以学习和利用。

深度卷积神经网络CNNs的多GPU并行框架及其应用

【编者按】深度卷积神经网络有着广泛的应用场景，本文对深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架做了详细的分享，通过多个Worker Group实现了数据并行，同一Worker Group内多个Worker实现模型并行。框架中实现了三阶段并行流水线掩盖I/O、CPU处理时间；设计并实现了模型并行引擎，提升了模型并行计算执行效率；通过Transfer Layer解决了数据存储访问效率问题。此框架显著提升了深度卷积神经网络训练速度，解决了当前硬件条件下训练大模型的难题。

以下为原文：

将深度卷积神经网络（Convolutional Neural Networks, 简称CNNs）用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练，因此以模型并行+数据并行的方式来加速Deep CNNs训练，可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是腾讯深度学习平台的一部分，腾讯深度学习平台技术团队实现了模型并行和数据并行技术加速Deep CNNs训练，证实模型拆分对减少单GPU上显存占用有效，并且在加速比指标上得到显著收益，同时可以以较快速度训练更大的深度卷积神经网络，提升模型准确率。

1.CNNs模型并行导论1.1.典型应用分析：图像识别

图像识别是深度卷积神经网络获得成功的一个典型应用范例。图1揭示了一个具有5个卷积层和3个全连接层的深度卷积神经网络，该模型可应用于图像分类。

使用GPU训练深度卷积神经网络可取得良好的效果[1][2]，自2012年使用Deep CNNs模型在ImageNet图像分类挑战中取得突破性成绩，2013年的最佳分类结果也是由Deep CNNs模型取得。基于此，腾讯深度学习平台技术团队期望引入Deep CNNs来解决或优化图像分类问题和图像特征提取问题，以提升在相应用例场景中的效果。

1.2.现有系统的问题

在将CNN应用于图像相关领域的算法研究以及CNN训练平台搭建的实践过程中，受限于单个GPU上的显存大小（例如：服务器采购的显卡Tesla K20c可用显存为4.8GB，ImageNet 2012论文[1]中用到的网络占用显存大约3.9GB），在尝试调整参数和网络规模的实验中，往往难以存储下更大规模的深度卷积神经网络模型，使得包含较多参数的网络不能在单GPU上训练，需要通过多GPU模型并行技术，拆分模型到多个GPU上存储和训练来解决。

随着训练数据集扩充、模型复杂度增加，即使采用GPU加速，在实验过程中也存在着严重的性能不足，往往需要十余天时间才能达到模型的收敛，不能满足对于训练大规模网络、开展更多试验的需求

考虑到上述问题，在腾讯深度学习平台的Deep CNNs多GPU并行训练框架中，通过设计模型拆分方法、模型并行执行引擎和优化访存性能的Transfer Layer，并吸收在数据并行方面设计经验，实现了多GPU加速的模型并行和数据并行版本。

本文描述多GPU加速深度卷积神经网络训练系统的模型并行和数据并行实现方法及其性能优化，依托多GPU的强大协同并行计算能力，结合目标Deep CNNs模型在训练中的并行特点，实现快速高效的深度卷积神经网络训练。

1.3.框架设计目标

多GPU模型并行+数据并行期望达到下述目标：充分利用Deep CNNs模型的可并行特点，结合SGD（Stochastic Gradient Descent，随机梯度下降）训练的数据并行特性，加速模型训练过程；突破显存大小限制，使得训练超过单GPU显存的模型成为可能，并预期通过训练更复杂的网络来获得更好的模型效果。

上述目标完成后，系统可以更快地训练图1中目标Deep CNNs模型。模型拆分到不同GPU上可减少对单GPU显存占用，适用于训练更深层次、更多参数的卷积神经网络。

1.4.挑战

在图像识别应用中，深度卷积神经网络模型的卷积层计算量大，全连接层参数多。因此，如何划分计算资源，通过模型并行和数据并行两个数据/计算组织层次上来加速训练是框架设计首要解决的问题。

图像作为输入数据，其数据量庞大，且需要预处理过程，因此在Batch训练时磁盘I/O、数据预处理工作也要消耗一定时间。经典的用计算时间掩盖I/O时间的方法是引入流水线，因此如何设计一套有效的流水线方法来掩盖I/O时间和CPU处理时间，以使得整体耗时只取决于实际GPU训练时间，是一个重要问题。

模型并行是将一个完整Deep CNNs网络的计算拆分到多个GPU上来执行而采取的并行手段，结合并行资源对模型各并行部分进行合理调度以达到模型并行加速效果是实现模型并行的关键步骤。

多GPU系统通过UVA（Unified Virtual Address，统一虚拟地址）技术，允许一颗GPU在kernel计算时访问其他GPU的设备内存（即显存），但由于远程设备存储访问速度远远低于本地存储访问速度，实际性能不佳。因此在跨GPU的邻接层数据访问时，需要关注如何高效利用设备间数据拷贝，使所有计算数据本地化。

2.系统概述

如何模型并行？

模型并行是：适当拆分模型到不同的计算单元上利用任务可并行性达到整个模型在计算过程中并行化效果。

如图2所示，揭示了从单GPU训练到多GPU模型并行训练的相异之处，主要在于：在使用单GPU训练的场景下，模型不进行拆分，GPU显存上存储整个模型；模型并行的场景下，将模型拆分到多个GPU上存储，因此在训练过程中每个GPU上实际只负责训练模型的一部分，通过执行引擎的调度在一个WorkerGroup内完成对整个模型的训练。

多GPU并行系统从功能上划分为用于读取和分发数据的Training Data Dispatcher和用于做模型并行训练的GPU Worker，如图3所示。训练数据从磁盘文件读取到CPU主存再拷贝到GPU显存，故此设计在各Worker计算每batch数据时，由Training Data Dispatcher从文件中读取并分发下一batch数据，以达到用计算时间掩盖I/O时间的设计目标。

3.训练数据处理的并行加速

基于mini-batch的训练，现有技术方案在训练深度卷积神经网络时，每次从数据文件中读入和处理1个batch数据，在GPU计算某一batch时由CPU预读取和预处理下一batch。但是随着训练集图片像素数增大，读取和处理时间随之增加，由于采用多GPU技术加速了单个batch计算时间，数据处理的性能问题随之而来，需要减少数据处理的用时，以使最终加速效果取决于计算用时。

如图4所示，总体看来，在深度卷积神经网络训练过程中始终是在执行一条三阶段并行的流水线：计算本次batch数据——处理下次batch数据——读入再下次batch数据。

4.GPU Worker: 模型并行的承载体

数据并行以划分Worker Group为基本组织形式，模型并行以在Worker Group内划分Worker为基本组织形式，并行训练的调度资源来源于CPU线程，计算资源来源于GPU卡。由于GPU卡通常意义上被看成是一种加速卡或协处理器卡，必须在基于CPU的主机上下文中被调用来做计算，因此遵循1个CPU线程绑定1张GPU卡能够发挥多GPU共同参与计算时的并行性效能。

在实际生产环境中，安装多GPU服务器的硬件体系结构如图5所示，示例中揭示了一个8 GPU节点服务器的硬件配置，每两个GPU Slot连接在一个GPU专用PCI槽位上再通过PCIe Switch将GPU Slot 0,1,2,3连接在一颗CPU上，GPU Slot 4,5,6,7连接在另一颗CPU上，两颗CPU通过IOH（Input Output Hub）连接。

5.CNNs网络的模型划分5.1.基本模型划分方法

模型并行的来源是Deep CNNs网络只在特定层（如输入层、全连接层）与其他层有全面的连接，而其他较为独立的直线连接关系即可作为模型的可并行部分。将模型的可并行部分拆分到多个GPU上，同时利用多个GPU的计算能力各执行子模型的计算，可以大大加快模型的单次前向-后向训练时间。

DeepCNNs网络的层次模型实际上是一张有向无环图（DAG图），分配到每个模型并行Worker上的层集合，是有向无环图的拓扑排序子集，所有子集组成整个网络的1组模型。

5.2“十字形”模型划分方法

考虑极端情景：需要训练超大规模Deep CNNs模型，或者使用计算能力相对较强、显存较小（一般在1GB~3GB）的桌面级GeForce系列GPU，则利用模型本身的并行性这种基本的模型划分方法将不再适用。需要将模型再做拆分以保证单个GPU都能存储下对应的子模型。

如图7所示，描述了将模型按“十字形”划分到4 Worker上训练的情景，不仅拆分了模型的可并行部分，也虽然这样的划分在Worker 0和Worker2之间，Worker 1和Worker 3之间达到并行加速效果，却能使得整个模型得以存储在4 GPU上。这种模型划分方法能够适用于训练超大规模网络等特殊模型的需求。

6.CNNs网络的模型并行工作引擎

每个模型并行Worker上以一个模型并行执行引擎负责调度本Worker上子模型的执行过程。执行引擎控制所有Worker上的子模型完成前向和后向计算，各自对子模型完成参数更新后，到达主线程同步点，开始下一mini-batch训练。

多GPU模型并行和数据并行的Deep CNNs模型replicas及划分结构如图8所示，在使用4 GPU的场景下，划分了2组Worker Group用于数据并行；每个Worker Group内划分2个Worker用于模型并行。

7.在图像识别上的应用7.1.模型训练实验性能

实验环境为一台搭载8核心Intel(R) Xeon(R) CPUE5-2640 v2 @ 2.00GHz的服务器，内存为48GB，服务器安装了4块NVIDIATesla K20c GPU，单GPU显存大小为4.8GB。

训练同样的Deep CNNs模型，相比于单GPU，使用多GPU结合不同并行模式的加速效果如下表所示：

7.2.模型收敛性

对于目标Deep CNNs模型，在单GPU训练时（对照实验）显存占用量为3.99GB；使用2 GPU模型并行训练时单个GPU上显存占用量为2.15GB，并且在训练相同迭代时训练集、测试集错误率效果都与对照实验完全相同；抽样比照参数一致性，被抽样的参数（同对照实验相比）也都是一样。

尝试更改Deep CNNs模型，训练一个更大的网络，增加滤波器数目，减小步长，增加中间卷积层feature map数目，训练时所需显存将达到9GB以上，使用单个Tesla K20c GPU（4.8GB显存）无法开展训练实验；而多GPU模型并行训练实验中该模型的错误率对比图1模型降低2%。

7.3.效果展示

图9为图像标签识别的示例，通过对两千多类物体的图像进行训练，可实现对常见物体的自动识别。

8.结论与展望

本文描述了深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架，通过多个Worker Group实现了数据并行，同一Worker Group内多个Worker实现模型并行。框架中实现了三阶段并行流水线掩盖I/O、CPU处理时间；设计并实现了模型并行引擎，提升了模型并行计算执行效率；通过Transfer Layer解决了数据存储访问效率问题。此框架显著提升了深度卷积神经网络训练速度，解决了当前硬件条件下训练大模型的难题。

深度卷积神经网络有着广泛的应用场景：在图像应用方面，Deep CNNs可应用于相似图片检索、图片的自动标注和人脸识别等。在广告图片特征提取方面，考虑Deep CNNs能够很好地学习到图像特征，我们尝试将其用于广告点击率预估（Click-Through Rate Prediction, pCTR）模型中。

原文链接：深度卷积神经网络CNNs的多GPU并行框架及其在图像识别的应用（责编魏伟）

引自：http://yuedu.163.com/news_reader/#/~/source?id=426f1ed9-b19b-44f5-bcad-9f58930fc65e_1&cid=2c4021a19c0046b39a55e5cd2141e495_1

新浪科技讯北京时间1月17日午间消息，Facebook周五宣布开放部分深度学习技术的源代码，以此推进整个行业的发展以及这项技术的普及。

深度学习已经成为机器学习领域最热门的词汇之一。这项技术是在吉奥夫-辛顿(Geoff Hinton)的努力下普及开来的，他目前任职于谷歌，之前还曾在微软研究院工作。除此之外，Yann LeCun等计算机研究人员也都希望寻找更好的方式，帮助电脑学会识别物体和语音。

Facebook同样在这一领域开展了一些工作。该公司周五宣布，将对围绕Torch7机器学习计算架构开展的一些项目进行开源。Torch长期以来都是很多机器学习和人工智能项目的核心，不仅是学术界，就连谷歌、Twitter和英特尔等企业也都使用这一架构。

Facebook周五推出了一些优化工具，加快了基于Torch的深度学习项目的运行速度。其中一项允许开发者使用多个GPU平行训练他们的网络。另外一项改进则可以大幅加快“卷积神经网络”的训练速度，达到目前公布的最快代码的23倍。卷积神经网络是很多深度学习系统的核心所在。

另外，Facebook还额外推出了多款工具，为Torch的其他部分赋予更快的速度。其中部分比较温和，但Facebook很多项目的速度都比默认工具快了3至10倍。

不过，真正重要的在于，深度学习技术正逐步在我们日常使用的很多软件中发挥作用。

例如，Google+ Photos就使用这项技术帮助用户寻找自己图库中的照片。在上周的CES上，英伟达也在主题演讲中谈到了如何利用深度学习帮助车载摄像头对物体进行分类，从而推进无人驾驶汽车的研究。(书聿)

转载本文请联系原作者获取授权，同时请注明本文来自王小平科学网博客。
链接地址：http://blog.sciencenet.cn/blog-1225851-861388.html

上一篇：[转载]Hadoop 2.0 上深度学习的解决方案
下一篇：[转载]Yann LeCun有关深度卷积网络研究新进展

收藏分享

你可能感兴趣的:(卷积加速)

本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用rknn进行yolo11-pose部署点PY 深度学习模型部署 pytorch 深度学习人工智能
文章目录概要生成ONNX生成RKNN实测效果概要使用RKNN进行YOLOv11Pose部署的必要性在于，RKNN能将YOLOv11Pose模型转化为适合Rockchip硬件平台（如RV1109、RV1126）执行的格式，充分利用其AI加速功能，显著提高推理速度和效率。此外，RKNN提供模型优化（如量化）功能，有助于减少计算资源消耗，提升实时处理能力，特别适合在嵌入式设备上进行高效、低功耗的姿态估计
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
动态蛇形卷积（DySnakeConv）在YOLOv8检测头中的应用与优化-分割性能的提升【YOLOv8】步入烟尘 YOLO 动态蛇形卷积 DySnakeConv
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录动态蛇形卷积（DySnakeConv）在YOLOv8检测头中的应用与优化-分割性能的提升【YOLOv
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
动态蛇形卷积在YOLOv8中的探索与实践：提高目标识别与定位精度向哆哆 YOLO 目标跟踪深度学习 YOLOv8
文章目录动态蛇形卷积在YOLOv8中的探索与实践：提高目标识别与定位精度1.什么是动态蛇形卷积？2.YOLOv8的卷积改进2.1常规卷积与动态蛇形卷积的区别2.2动态蛇形卷积的实现原理2.3YOLOv8中集成动态蛇形卷积3.手把手实现动态蛇形卷积3.1安装依赖3.2设计动态蛇形卷积层3.3集成到YOLOv8中3.4训练与优化4.动态蛇形卷积的进一步优化4.1蛇形路径的动态学习4.1.1学习动态路径
【deepseek与chatGPT辩论】辩论题： “人工智能是否应当具备自主决策能力？” 海宁不掉头发软件工程人工智能人工智能 chatgpt deepseek
探讨辩论题这个提案涉及创建一个精确的辩论题目，旨在测试deepseek的应答能力。创建辩论题目提议设计一个辩论题目以测试deepseek的应答能力。希望这个题目具有挑战性并能够测量其回应质量。好的，来一道适合深度学习的辩论题：辩论题：“人工智能是否应当具备自主决策能力？”这个话题涉及到人工智能的发展、伦理以及未来应用，可以从以下几个方面展开辩论：支持方：认为人工智能的自主决策能力能够加速科技进步，
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别知识鱼丸深度学习神经网络 cnn 人工智能深度学习 AlexNet 经典神经网络
深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
KTransformers如何通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度？魔王阿卡纳兹大模型知识札记语言模型人工智能自然语言处理
KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术显著加速大语言模型的推理速度，具体体现在以下几个方面：内核级优化：KTransformers采用了高效的内核级优化技术，包括对Transformer模型中的关键操作进行优化。例如，通过使用Llama和Marlin等高效内核，显著提升了计算效率。通过IntelAMX指令集优化，KTransformers在CPU端实现了更高的
双T4加速卡虚拟机中掉了一个卡(RmInitAdapter failed)问题的处理记录大新新大浩浩智算 linux 运维服务器
文章目录前言一、现象1.1nvidia-smi的输出只有一个卡1.2dmesg的输出有RmInitAdapterfailed1.3lspci-v的输出二、分析过程及思路三、动手操作总结前言同事找我说用的双卡虚拟机只有一个卡显示了，看看怎么处理处理一、现象1.1nvidia-smi的输出只有一个卡(base)root@XXX:~#nvidia-smiWedFeb1914:13:332025+----
百度百舸 DeepSeek 一体机发布，支持昆仑芯 P800 单机 8 卡满血版开箱即用百度智能云技术站 deepseek 百度百舸专有云
在私有云环境中成功部署DeepSeek满血版并实现性能调优，并不是一件容易的事情。选择合适的GPU配置、安装相应的环境、成功部署上线业务、加速推理任务加速、支撑多用户并发……完成业务测试，成功融入生产业务中。为了帮助企业快速实现DeepSeek服务的落地，百度智能云推出「百度百舸DeepSeek一体机」。百度百舸DeepSeek一体机基于百度百舸平台打造，提供纯国产的算力组合，支持昆仑芯P800单
阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验阿里云大数据AI技术阿里云云原生 MaxCompute 大数据实时数仓
随着实时、近实时数据分析需求的持续增长，查询响应时间在现代数据分析和业务应用中变得越来越重要。为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化，显著减少了查询响应时间，适用于BI场景、交互式分析以及近实时数仓等对
从代码到专利：如何用自注意力机制实现高效序列转换？——深度解析Google的Transformer架构 CodePatentMaster transformer 深度学习人工智能 AIGC 架构
本文将从五个方面【技术问题、技术手段、技术效果、代码实现逻辑和工程落地建议】解读以下专利。US201816021971A，ATTENTION-BASEDSEQUENCETRANSDUCTIONNEURALNETWORKS一、技术问题：为什么需要自注意力机制？在传统的序列转换任务（如机器翻译、语音识别等）中，循环神经网络（RNN）和卷积神经网络（CNN）是常用的模型架构。然而，这些模型存在以下问题：
Winograd 算法原理推导和python程序 weixin_47696437 算法 python 人工智能
一、算法背景Winograd算法是一种用于高效计算卷积的算法，其核心思想是通过减少乘法运算的次数来提高卷积计算的效率。在传统的卷积计算中，乘法运算的开销较大，而Winograd算法通过巧妙的变换，将卷积运算转化为在变换域中的矩阵乘法，从而减少乘法的数量，虽然会引入一些额外的加法和变换操作，但整体上在计算效率上有显著提升。二、一维卷积的Winograd推导2.Winograd优化通过多项式变换减少乘
山石网科×阿里云通义灵码，开启研发“AI智造”新时代阿里云云原生
近日，山石网科正式宣布全面接入阿里云通义灵码企业专属版，这标志着山石网科在研发智能化、自动化领域迈出重要一步，为研发工作注入强大的AI动力，实现多维度的效率飞跃。此次合作，阿里云通义灵码依托强大的AI能力，为山石网科研发团队提供从代码开发、代码评审、设计文档撰写到测试用例生成等全流程的AI辅助支持，全面提升研发效率，加速产品迭代，为用户提供更优质、更安全的网络安全产品和服务。据山石网科首席战略官（
【TVM教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在if__name__=="__main__":代码块中。impor
Ubuntu下配置国内Docker镜像站,加速你的镜像拉取 Aaron own 开发小技巧 windows docker 容器 ubuntu linux
如果执行dockerpull拉取镜像速度慢,可以配置国内镜像站进行加速查看是否已添加镜像站首先执行dockerinfo查看是否有docker镜像站dockerinfo若没有RegistryMirrors字段则表示没有,可新增配置增加配置文件查看/etc/docker/目录下是否存在daemon.json文件ls/etc/docker/若不存在,则可使用如下命令新增sudonano/etc/dock
ubuntu配置docker镜像加速器黑色幽默ma linux ubuntu docker linux
安装docker。安装步骤可参考https://blog.csdn.net/weixin_42412462/article/details/109180600注册阿里云账号，到容器镜像服务这一栏目按照操作文档步骤操作。最后，检测是否安装成功sudodockerinfo
【大模型】量化、剪枝、蒸馏油泼辣子多加深度学习剪枝人工智能算法
大模型的量化、剪枝和蒸馏是三种常用的模型优化技术，旨在减少模型的复杂性，降低计算资源消耗，并加速推理过程。下面是每种技术的详细介绍：1.量化（Quantization）量化是将浮点数表示的模型参数（通常是32位浮点数）转换为低精度表示（如8位整数）。这个过程可以显著减小模型的存储占用并提高计算效率，尤其在硬件资源有限的情况下，量化非常有效。量化可以分为以下几种类型：权重量化（WeightQuant
Svelte 5 框架加速实时应用开发, 或引领未来前端编译式框架大爆发? 寒鸦xxx 前端前沿技术前端前端框架
自从去年Svelte团队发布了Svelte5稳定版，同样也是该项目历史上最重要的版本,目前start已经上升到了80K+,也有越来越多的企业和项目投入了该生态.下面我们来看看它与众不同的几大点一、为何Svelte5能加速实时应用？响应式系统的革命细粒度更新：通过$state和$derived实现精准依赖追踪，仅更新受影响的UI部分（而非虚拟DOM全量比对）。性能对比：在实时数据流场景（如股票行情）
QT+FFmpeg如何使用GPU加速解码？ bug菌¹ 全栈Bug调优(实战版)qt ffmpeg 开发语言 c++
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.确保FFmpeg和CUDA的支持2.正确选择硬件解码器设置硬件解码器3.初始化CUDA硬件设备4.硬件解码流程解码帧并处理硬件帧5.检查FF
火山引擎数据飞轮2.0助力中信银行，用“AI”开启新年新气象大数据
新年年初，是银行旺季营销的开端，也是产品、服务与创意的比拼擂台。在今年的春节中，中信银行基于火山引擎豆包大模型，首次上线了新春祝福视频共创活动，让用户切实体验到传统年味与科技创新的奇妙融合，为今年的旺季营销增添满满“AI”意。当下，大模型应用的创新成果正加速涌现。对企业而言，如何将技术范儿的大模型能力，转化为用户喜闻乐见、零门槛上手的“玩法”，是极具挑战性的命题。本次活动紧扣中信银行新春“幸福就是
易点天下与火山引擎ByteHouse共建高性能数仓，助力智能营销效率跃升数据库
近日，全球领先的企业国际化智能营销服务商易点天下与火山引擎ByteHouse达成合作，双方将聚焦智能营销场景，建设高性能数仓，为海量数据提供更精准、实时性更强的分析服务。据月狐数据发布的《2024年中国企业出海品牌营销策略分析》报告，中国上市企业加速全球化步伐，海外收入总额已接近10万亿，占总营收比重持续上升。2023年，超过3500家A股上市公司开展了海外业务，占比超过66%，创下历史新高。而在
遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）岁月如歌，青春不败生态遥感目标检测 cnn transformer 遥感遥感影像
我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5
Spring Boot：Java开发的神奇加速器（二）小周不想卷艾思科蓝学术会议投稿 spring boot
目录四、深入理解SpringBoot配置4.1配置文件类型4.2常用配置项4.3自定义配置五、数据访问与持久化5.1集成SpringDataJPA5.2编写数据访问层代码5.3事务管理四、深入理解SpringBoot配置4.1配置文件类型在SpringBoot应用中，主要有两种配置文件类型，即application.properties和application.yml（或application.y
Redis在实际应用中的最佳实践：缓存加速、分布式锁与消息队列一碗黄焖鸡三碗米饭 Redis技术全景解析 redis java 后端架构微服务
Redis在实际应用中的最佳实践：缓存加速、分布式锁与消息队列Redis作为一个高性能的内存数据库，凭借其高吞吐量、低延迟的特性，已成为开发者在构建现代应用时的首选技术之一。无论是在缓存加速、分布式锁，还是消息队列等多个应用场景中，Redis都展现出了卓越的性能。本文将围绕这三个核心场景，深入探讨Redis的最佳实践，帮助开发者更好地理解和应用Redis，在生产环境中提高系统的响应速度、稳定性与可
docker镜像加速 ❀͜͡傀儡师 docker 容器运维
近期，国内云计算和容器技术社区面临了一项挑战：多个镜像加速站点被关闭。这些加速站点原本为开发者和企业提供了快速访问和下载海外Docker镜像的能力,以下是一些可以用的镜像地址腾讯云镜像加速器地址：https://mirror.ccs.tencentyun.com中国科学技术大学：https://docker.mirrors.ustc.edu.cnDocker官方镜像（中国区）镜像加速：https:
arXiv每日推荐-3.4：语音/音频每日论文速递 sapienst 语音识别语音识别
同步公众号(arXiv每日学术速递)【1】SELD-TCN:SoundEventLocalization&DetectionviaTemporalConvolutionalNetworks标题：SELD-TCN：基于时间卷积网络的声音事件定位与检测作者：KarimGuirguis,BinYang备注：5pages,3tables,2figures.SubmittedtoEUSIPCO2020链接：
图形渲染（一）——Skia、OpenGL、Mesa 和 Vulkan简介阳光开朗_大男孩儿图形渲染 OpenGL 图形渲染 c++
1.Skia——2D图形库Skia是一个2D图形库，它的作用是为开发者提供一个高层次的绘图接口，方便他们进行2D图形渲染（比如绘制文本、形状、图像等）。Skia本身不直接管理GPU或进行底层的渲染工作，而是通过底层图形API（如OpenGL或Vulkan）来实现硬件加速的渲染。-Skia的角色：提供高层的2D渲染API，抽象掉底层的硬件细节。-依赖底层API：Skia本身依赖于图形API（如Ope
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &