江太翁

AI加速器与机器学习算法：协同设计与进化

作者｜Shashank Prasanna

翻译｜胡燕君

此刻，你应该是在电脑或手机上看这篇文章。不管怎样，这些机器都属于现代计算机，它们都有中央处理器（CPU）和其他为特定功能服务的专用芯片，例如显卡、声卡、网卡、传感器融合等。处理特定任务时，专用处理器往往比通用CPU更快更高效。

计算机发展早期，CPU都会和专用处理器配合使用。1970年代的8位和16位CPU需要依赖软件来模拟浮点指令，因此执行浮点运算非常慢。而由于计算机辅助设计（CAD）和工程模拟等应用对浮点运算的速度要求较高，于是人们开始用数学协处理器（math coprocessor）辅助CPU，让数学协处理器分担所有浮点运算任务，它的浮点运算速度和效率都比CPU更高。这就是专用处理器的一个例子。

关注AI和半导体行业的朋友近来可能听说过“机器学习（ML）专用处理器”（即AI加速器）。最常见的AI加速器莫过于NVIDIA GPU，此外还有Intel的Habana Gaudi处理器、Graphcore的Bow IPU、Google的TPU、AWS的Trainium和Inferentia芯片等。

为什么如今有这么多AI加速器可供选择？它们和CPU有什么不同？算法如何改变才能适应这些硬件？硬件又该如何发展才能支持最新的算法？本文将一一解答。本文主要内容包括：

为什么需要专用AI加速器？

ML硬件的分类：CPU、GPU、AI加速器、FPGA和ASIC

“硬件感知（Hardware-aware）”的算法和“算法感知（Algorithms-aware）”的硬件

AI加速器与高效ML算法的协同进化

针对推理的AI加速器与高效算法

针对训练的AI加速器与高效算法

AI加速器的未来

为什么需要专用AI加速器？

构建ML专用处理器有三个方面的原因：能效、性能、模型大小及复杂度。近来，要提高模型准确率，通常做法是扩大模型参数量，并用更大型的数据集训练模型。计算机视觉、自然语言处理和推荐系统都采用这种做法。

语言模型方面，前几年诞生的GPT-3有1750亿参数，当时被视为大模型的“天花板”，但后来又出现了GLaM和NVIDIA MT-NLG，参数量分别达到1.2万亿和5300亿。按照历史规律，模型将越来越大，而现有处理器的算力将无法满足大模型在训练时间和推理延迟方面的要求。

不过，构建AI专用加速器的最重要原因还是能效，开发AI专用芯片可节省巨大的能源，可覆盖研发投入有余。

为什么需要高能效的处理器？

ML模型越大，需要执行的内存访问操作就越多。与内存访问相比，矩阵-矩阵运算和矩阵-向量运算的能效高很多。根据斯坦福大学韩松博士的论文(https://arxiv.org/pdf/1506.02626v3.pdf)，读取内存的能耗比加/乘运算操作的能耗高出好几个数量级。大型神经网络由于无法片上存储，需要执行更多DRAM读取操作，因此能耗还要更高。

用通用处理器运行深度神经网络时，扩大处理器规模可以带来性能提升，但即便只是小幅提升也须以大量能耗和巨额设备成本为代价。

CPU等通用处理器牺牲低能耗换取通用性，AI加速器等专用处理器则牺牲通用性换取低能耗。

使用AI加速器则不一样。AI加速器通过改进设计，可以减少内存访问，提供更大的片上缓存，还可以具备特定的硬件功能（如加速矩阵-矩阵计算）。由于AI加速器是基于特定而构建的设备，可根据算法进行适配改进，因此其运行效率会比通用处理器更高。

ML硬件的分类——CPU、GPU、AI加速器、FPGA和ASIC

接下来我们谈谈加速器的不同种类，以及它们的通用和专用程度。

如上图所示，最具通用性的是CPU，可以运行任意代码。专用芯片可执行的任务，CPU也能执行，如图像处理、语音处理、机器学习等。然而，CPU的性能和能效都比较低。

专用性最强的是专用集成电路（ASIC），又称固定功能芯片，因为它只能执行一种或几种任务，而且通常不可编程，也没有面向开发者的API。耳机中的降噪处理器就是一种ASIC芯片，它需要同时具备低能耗和高性能，这样才能既延长耳机电池使用时间，又能实现低延迟，以免用户看节目时遇到声画不同步的糟糕体验。

上图中，越靠左代表通用性和可编程性越强；越靠右代表专用性和效率越高。那么GPU、FPGA和AI加速器分别处于图中什么位置呢？

答案是：它们都处在这两个极端之间。

靠近ASIC一端的是现场可编程逻辑门阵列（FPGA）。顾名思义，FPGA是可编程的，但编程人员需要具备硬件设计知识，还须对Verilog、VHDL等硬件描述语言（HDL）有一定了解。换言之，FPGA编程与硬件关联度太高，而软件开发人员缺乏这方面的编程技能和工具，因此难以对它进行编程。

靠近CPU一端的是GPU。GPU是面向特定目的处理器，擅长处理并行任务，例如图形着色器计算和矩阵乘法。CPU更适合延迟敏感型应用，GPU则更适合要求高吞吐量的应用。GPU与CPU的相似之处在于它们都可编程。而作为并行处理器，GPU使用NVIDIA CUDA和OpenCL等语言，虽然能处理的任务种类比CPU少，但在运行包含并行任务的代码时极高效。

Intel的Habana Gaudi处理器、AWS的Trainium和Inferentia芯片等AI加速器则处在GPU的右侧。Habana Gaudi处理器具备可编程性，但通用性比GPU更低，所以应处GPU右侧。AWS的Inferentia芯片不可编程，但可以加速多种操作，如果你的ML模型不支持这些操作，Inferentia就会执行CPU回退（fallback）模式。综上，Inferentia应处Habana Gaudi的右侧。

“硬件感知（Hardware-aware）”的算法

和“算法感知（Algorithms-aware）”的硬件

通过以上分类，我们对各种处理器有了大致认识。下面我们来谈谈这些处理器如何与软件互相配合。

通用计算模型有两个组成部分：(1)软件与算法；(2)运行软件的硬件处理器。一般而言，这两部分互相独立——编写软件时很少会考虑软件会在什么硬件上运行；而硬件设计的出发点则是让硬件尽可能支持更多种类的软件。

通用计算模型逐渐演进，需要应用于深度学习等要求高性能和高能效的领域，因此需要加强算法设计和硬件设计之间的联系。现代ML计算模型同样包含两个组成部分：(1)ML算法与软件框架；(2)与AI加速器配合使用的通用处理器。

不同于通用计算模型的开发，ML研发人员会针对特定硬件设计ML算法。比如，编写代码时可以充分利用硬件的特定功能（如支持多种精度：INT8、FP16、BF16、FP32）实现特定的芯片功能（混合精度、结构化稀疏）。然后，用户就可以通过常见的ML软件框架使用这些功能。同理，硬件设计师会针对特定算法构建AI加速器。比如，为加速ML矩阵计算而设计专门的芯片功能（如NVIDIA在Volta GPU架构中引入Tensor Core）。

这就是AI加速器和ML算法的协同进化。硬件设计师为AI加速器增加ML算法可以使用的功能，而ML研发人员则利用AI加速器的硬件功能量身设计新的算法。

硬件和软件的协同可以带来更好的性能和更高的能效。

AI加速器与高效ML算法的协同进化

AI加速器分为两类：(1)用于训练的AI加速器；(2)用于推理的AI加速器。由于训练和推理的目标不同，而AI加速器是针对特定工作负载的专用处理器，因此有必要为不同类型的工作负载分别设计处理器。

用于训练的AI加速器的目标是减少训练时间，而且应具备能配合训练算法的硬件特点。因此，AI训练加速器的功率通常较大，内存空间也较大，以满足较高的吞吐量（每秒处理的数据）要求。由于AI训练加速器注重吞吐量，因此提高吞吐量和利用率有助于降低能耗成本（即通过扩大吞吐量降低“能耗/吞吐量”之间的比率）。AI训练加速器还支持混合精度训练，使用较低精度以加快计算速度，使用高精度累积计算结果，从而实现比通用处理器更高的能效。（后文还将详谈AI加速器的混合精度训练。）

AI推理加速器的目标是，在运行大量独立数据批次时降低预测延迟，因此需要具备高能效特点，需要降低“能耗/预测”之间的比率。虽然也可将训练加速器用于推理加速（毕竟训练中的前向传播过程本质上即是一种推理任务），但使用训练加速器时，“能耗/推理”之比会大很多，因为训练加速器处理小型数据批次的推理请求时利用率较低。

训练加速器就像公交车，只有保持乘客满员才能实现高能效（油耗/乘客数之比低）。如果偌大的公交车每次只载一个人，其油耗/乘客数之比将变得极高。而推理加速器就像跑车，其速度比公交车快，只载一人时能效比公交车高（跑车的单名乘客油耗比公交车低）。但如果想用跑车一次载50个人，它就会跑得极慢（何况超载违法）。

下文将分别谈论训练和推理的工作流，以及AI加速器和软件应具备什么特点才能在训练和推理中实现高性能和高能效。

针对推理的AI加速器与高效算法

ML推理即是根据新的数据使用训练好的模型以输出预测结果。本节将讨论AI加速器上运行的可提升推理性能和效率的算法。

提升机器学习效率最重要的方法是量化。要充分理解量化，首先须了解计算机硬件中的数字表示方法。浮点数是数字计算机中用以表示连续实值的离散表示形式。ML算法通常基于IEEE 754标准用单精度（FP32）储存和处理数字。IEEE 754还规定了AI加速器支持的其他常见浮点类型，如半精度（FP16）和双精度（FP64）。

现代AI加速器也支持IEEE 754以外的数字格式，例如BF16（由Google Brain引进；NVIDIA Ampere GPU、AWS Inferential、AWS Tranium、Intel Habana Gaudi和Google TPU均支持此格式）和TF32（NVIDIA Ampere架构和AWS Tranium芯片支持此格式）。推理加速器还支持整数精度，如INT8和INT4。

量化在推理中的优势

在推理任务中，模型权重和激活函数输出均可被量化，例如可将FP32（训练常用精度）转化为更低精度的表示形式（FP16、BF16和INT8）。使用较低精度可以获得更高的性能和能效。当把FP32转化为FP16操作时，数据大小可减半，能耗可减少约75%（数据来源：https://arxiv.org/pdf/1506.02626v3.pdf），使用的硅面积（silicon area）也可减少约75%。

如果仅从推理的角度考虑硬件设计，可以构建仅供推理使用、仅支持较低精度的加速器，这样就可以缩小加速器的尺寸，并提高能效。将运算结果从FP32转化为INT8数据还可进一步减少能耗，因为数据大小减少到原来的1/4。

然而，通过量化方法提升计算效率会损失一定的预测准确性。因为将高精度表示形式转化为低精度本质上是一种压缩，压缩意味着会损失部分数据。FP32的动态范围比FP16和INT8更大，因此，推理中，量化的目的是保留数据中的“信号”，去除数据中的“噪声”，为实现这个目的可以有多种方法。

使用NVIDIA GPU进行量化

NVIDIA的Ampere和Turing等较新GPU架构均支持多种精度类型。2016年，NVIDIA在Pascal架构中首次引进了FP16精度类型，而最新的Ampere和Turing架构GPU均体现了“硬件与算法的协同进化”。我之前写过一篇文章介绍GPU的完整发展史和不同架构的GPU及其特点：Choosing the right GPU for deep learning on AWS（https://towardsdatascience.com/choosing-the-right-gpu-for-deep-learning-on-aws-d69c157d8c86）。

本节将聚焦硬件和软件层面如何支持GPU进行量化。

以NVIDIA 的Ampere架构为例。你可以在AWS云服务器上通过启动Amazon EC2 p4d实例或G5实例体验Ampere架构的性能。p4d和G5实例分别使用NVIDIA的A100和A10G GPU，两款GPU都基于Ampere架构，都支持FP64、FP32、FP16、 INT8、BF16和TF32精度类型，也都包含一种被NVIDIA称为“Tensor Core”的运算单元，用于混合精度计算。推理时用到的重点精度类型只有FP16和INT8两种（其他精度类型将在下一节中提到训练时详谈）。

大多数深度学习框架都使用NVIDIA GPU和FP32格式训练模型，因此NVIDIA 推出TensorRT编译器，用以加快推理速度。TensorRT可将FP32格式的模型权重和激活函数量化为FP16和INT8格式。量化时，TensorRT先确定一个比例因子（scaling factor），然后根据该系数将FP32的动态范围映射到FP16或INT8的动态范围。映射到INT8的难度尤其高，因为INT8的动态范围比FP32小太多。INT8仅能表示256个数值，而FP32足足能表示4.2×109个数值。

如何在通过量化提高推理速度的同时减少精度损失？一般有两种方法：

训练后量化（PTQ）：使用一个训练好的、以FP32格式计算的模型，确定比例因子，然后将FP32映射为INT8。确定比例因子的方法是：TensorRT衡量每个神经网络层中激活函数输出的分布，然后找到一个使参考分布（reference distribution）和量化分布（quantized distribution）之间信息损失（KL散度）最小的比例因子。

量化感知训练（QAT）：在训练中计算比例因子，使模型可以适应信息损失并将信息损失降到最低。

可见，硬件不断发展，具备更多可提升效率的功能（如降低精度）。同时，算法也不断进化，可以更好地利用硬件的功能。

我的另一篇文章提供了NVIDIA TensorRT在GPU上实行量化的代码示例（https://towardsdatascience.com/a-complete-guide-to-ai-accelerators-for-deep-learning-inference-gpus-aws-inferentia-and-amazon-7a5d6804ef1c）。

使用AWS Inferentia芯片进行量化

NVIDIA GPU设计之初用于图像处理加速，后来才演变成强大的AI加速器，而AWS Inferentia芯片一开始即是为机器学习推理而生。

每块AWS Inferentia芯片含4个NeuronCore。NeuronCore是基于脉动阵列的矩阵相乘引擎，有两级存储层次结构和极大的片上缓存空间。AWS Inferentia芯片支持FP16、BF16和INT8数据类型，不支持更高精度的格式——毕竟AWS Inferentia是一种推理专用处理器，推理时无须用到更高的精度。正如NVIDIA为GPU推出了TensorRT编译器，AWS也推出了AWS Neuron SDK和AWS Neuron编译器，该编译器支持量化和优化，可提高推理效率。

尽管AWS Inferentia芯片支持INT8格式，但截至本文撰写时，AWS Neuron编译器只支持量化到FP16和BF16格式。用FP32格式训练的模型会在编译过程中自动被转化为BF16格式。如果在使用AWS Neuron编译器之前人工将FP32格式的权重量化为FP16，那么编译器就会保留FP16精度用于推理。

与GPU相比，AWS Inferentia芯片不可编程，专用性比GPU更强，更接近ASIC。如果模型中包含的操作均为AWS Inferentia所支持，那么对于特定的模型和批次规模（batch size）而言，使用Inferentia就比使用GPU更能提高模型的能效。然而，如果模型含有Inferentia不支持的操作，AWS Neuron编译器会自动将相应操作置于主机CPU上，这就导致CPU和加速器之间需要进行数据搬运，进而降低性能和效率。

针对训练的AI加速器与高效算法

ML训练即利用训练数据优化模型参数，以提高模型的预测准确度。本节将讨论AI加速器上运行的算法如何提升推理性能和能效。

接下来我们依旧会讨论精度，不过这次是从训练工作流的角度。如前所述，训练时，模型权重和激活函数都以FP32格式存储，FP32遵循早在深度学习之前就诞生的IEEE 754浮点数标准。FP32之所以被选为机器学习默认的浮点数表示形式，是因为训练时FP16可表示的信息量不够大，而FP64可表示的信息量则太大，而且也不必用到这么高的精度。机器学习需要一种精度处在FP16 和FP64之间的表示格式，但当时的硬件并不支持。

换言之，当时的硬件并不能满足ML算法的需求，并未成为“算法感知”的硬件。

如果当时的ML研究人员有更好的选择，他们应该会选一种不同于FP32的格式，或者使用混合精度来提升性能和效率。混合精度也正是目前AI加速器的发展方向。实现混合精度，需要硬件和算法的协同设计。

混合精度训练提升性能与效率

矩阵乘法运算是神经网络训练和推理的基本操作。AI加速器的主要工作即为在神经网络的不同层中将输入数据和权重的大型矩阵相乘。混合精度训练背后的思想是，训练时的矩阵乘法发生在较低精度表示（FP16、BF16、TF32），因此它们更快和能效更高，然后用FP32格式累积运算结果，以降低信息损失，从而提升训练速度和能效。

使用NVIDIA GPU进行混合精度训练

2017年，NVIDIA宣布推出Volta GPU架构，其中包含专门用于机器学习的Tensor Core运算单元。Tensor Core通过FP16运算和FP32累积结果实现混合精度训练（https://arxiv.org/abs/1710.03740）。NVIDIA的新一代新架构还支持更多低精度格式（BF16、TF32）。在芯片层次，Tensor Core执行低精度（reduced-precision）融合乘加（FMA）运算，用FP32累积结果。

每一代NVIDIA架构的进步都体现了硬件和算法之间的协同设计和协同发展。

NVIDIA Volta架构（2017）引入第一代Tensor Core，当时仅支持FP16运算和FP32累积结果。

NVIDIA Turing架构（2018）的Tensor Core支持更低精度的INT8和INT4（主要可以加速推理，而非加速训练）。

NVIDIA Ampere架构（2020）的Tensor Core还支持BF16和TF32，也就是说，它可以执行FP16、BF16和TF32运算，并且用FP32累积结果，以实现混合精度

混合精度训练的一大难点是软件层面的实现。用户必须在训练时执行额外的操作，比如将权重转化为FP16格式，但同时会保留权重的FP32副本和损失缩放（loss scaling）。尽管NVIDIA可以让深度学习框架在只需修改少量代码的情况下执行这些操作，它对用户的要求依然很高，不像使用FP32训练那么简单。

NVIDIA的Ampere架构支持TF32，可以有效解决这一用户体验难题。TF32格式的好处在于，它结合了FP32的动态范围和FP16的精度，因此深度学习框架无需转换格式和保留副本等额外操作即可直接支持TF32格式。然而，在为开发者减少麻烦的情况下，使用TF32可实现比FP32更好的性能，但NVIDIA依然推荐使用FP16或BF16格式进行混合精度训练，以便获得最快的训练性能。

使用其他AI加速器进行混合精度训练

Intel Habana Gaudi处理器

Habana Gaudi加速器支持混合精度训练的方式与NVIDIA GPU类似——通过一个附加工具配合深度学习框架，使用格式转换和副本保存功能。若想体验Intel Habana Gaudi AI加速器的功能，可以通过AWS云服务器启动Amazon EC2 DL1实例，该实例配备8个Gaudi加速器。

AWS Tranium芯片

AWS在2021年re:Invent大会上宣布推出Tranium芯片，该芯片由AWS的Annapurna实验室研发，用于AI加速。目前，Tranium 芯片尚未得到大规模应用。AWS在大会上介绍称，Tranium将支持FP16、TF32、BF16、INT8，以及一种称为cFP8（定制8位浮点数）的全新格式。

AI加速器的未来

如今，ML算法研究和硬件设计都在蓬勃发展。AI加速器也将在性能和能效方面持续进步，逐渐可以像通用处理器一样无缝使用。

现代的AI加速器已具备理想中的硬件功能，例如支持INT1和INT4，这两种精度类型尚未被用于训练和推理，但或许它们的存在可以催生新的ML算法。AI加速器之间的互联也渐见革新。

随着模型规模越来越大，我们需要更大的计算集群，将更多AI加速器连接起来，从而支持更大的工作负载。为此，NVIDIA推出了高带宽的NVLink和NVSwitch，用于GPU之间的互联；Intel的Habana Gaudi处理器则在片上集成了基于以太网的RoCE RDMA。未来AI应用将更加广泛， AI加速器也将成为现代计算环境的中流砥柱。

希望未来的AI加速器带来更好的用户和开发者体验。如今的异构计算模型需要协调多个CPU和AI加速器，对大部分数据科学家和开发人员而言，掌握它们的联网和存储设置难度颇高。使用Amazon SageMaker等云托管服务可省去管理基础设施的麻烦，可以方便地扩大机器学习规模，然而，开源框架仍希望用户对底层硬件、精度类型、编译器选择和联网原语等有较深的了解。

未来，开发人员可以登入远程IDE，然后使用开源ML框架运行代码，而不必考虑代码在何种设备上以何种方式运行。他们唯一需要思考的只是成本和速度之间的权衡——想获得高速度就多花钱，想省钱就在速度上妥协。我是个乐观的人，我认为距离这样的未来已经不远了。

（本文经授权后编译发布。原文：https://towardsdatascience.com/ai-accelerators-machine-learning-algorithms-and-their-co-design-and-evolution-2676efd47179）

头图源自brookhaven, Pixabay
————————————————
版权声明：本文为CSDN博主「OneFlow深度学习框架」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/OneFlow_Official/article/details/126882582

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

AI加速器与机器学习算法：协同设计与进化

你可能感兴趣的:(人工智能,人工智能,机器学习,算法)