极智视界

【经验分享】谈谈这两年适配过的 AI 硬件

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

O_o >_< o_O O_o ~_~ o_O

本文主要聊一聊我这两年来适配过的 AI 硬件。

这两年适配过挺多的 AI 硬件，一直以来总觉得少了篇小结性的文章来记录一下，前段时间看到这篇文章《一文看懂AI项目流程及边缘设备开发》，里面介绍了很多作者适配过的边缘计算设备，包括英伟达 Jetson、华为 atlas、比特大陆 Sophon、寒武纪 MLU 等，看了这篇文章我感慨颇多，回顾自己也是有相似的经历，以致于在文章末进行了这样的评论：

上面说的这篇文章的作者主要做边缘侧设备的部署，我们既有板卡也有边缘侧，场景和硬件形态更加丰富一些。这里记录一下我适配过的硬件，也把自己的一些算法部署经历经验分享一下，希望能对需要的同学有一点点帮助。

先罗列一下都适配过哪些厂商的硬件：英伟达 GPU / Jetson、寒武纪 MLU、曙光 DCU、华为昇腾 atlas / 海思、比特大陆 Sophon、瑞芯微 RK、全志 R329、登临 Goldwasser。下面分别进行介绍一下。

文章目录

- 1、英伟达
- - 1.1 英伟达 GPU
  - 1.2 英伟达 Jetson
- 2、寒武纪
- - 2.1 思元 MLU270
  - 2.2 思元 MLU220
- 3、曙光
- - 3.1 曙光 DCU
- 4、华为
- - 4.1 昇腾 atlas300I
  - 4.2 昇腾 atlas500
  - 4.3 海思 Hi35xx
- 5、比特大陆
- - 5.1 Sophon SE5
  - 5.2 Sophon SE3
- 6、瑞芯微
- - 6.1 RK3399
- 7、全志
- - 7.1 R329
- 8、登临
- - 8.1 Goldwasser L

1、英伟达

1.1 英伟达 GPU

英伟达 GPU 肯定是大家接触最多的硬件了，其中 Tesla T4 号称为推理而生。这里以 T4 为例介绍一下，上图：

给出一些硬件性能参数：

GPU 架构为图灵（现在已经有安培架构了），有 320 个 Tensor Cores，2560 个 CUDA Cores，int8 算力达到 130 T，功耗只有 75 瓦。功耗低，性能强，是推理卡的好选择。对于模型推理来说，在 GPU 设备上一般都会用 TensorRT 去做，TensorRT 是英伟达提供的一套推理框架，在里面可以做模型量化、算符融合、性能调优等算法优化工作。对于 TensorRT 的部署，有多条路线可以选择，可以直接从 tensorflow / pytorch / onnx 导出 TensorRT 模型，也可以用 TensorRT API 去搭建网络。

在用 TensorRT 的时候一般会涉及到 serialize 和 deserialize，这两个过程的示意如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-et98dBIG-1633869187420)(https://gitee.com/jeremyjj/imageBed/raw/master/share/经验分享/【经验分享】谈谈这两年适配过的AI硬件/image (1)].png)

TensorRT 的整个推理流程如下：

使用 TensorRT 推理一般都能获得不错的性能，虽然 TensorRT 只能用在英伟达 GPU 上，但由于现在用英伟达的公司实在太多，所以 TensorRT 自然也是香饽饽。

1.2 英伟达 Jetson

T4 是板卡，Jetson 系列是英伟达的边缘计算设备，之前也写过几篇关于 Jetson 的文章《【模型推理】英伟达 Jetson 系列边缘盒子硬件参数汇总》、《【模型推理】英伟达 Jetson 系列边缘盒子性能测评》。

我拿米文动力的产品手册里的图展示，Jetson 的产品矩阵如下，第一档是 Xavier（AGX Xavier、Xavier NX），第二档是 TX2（TX2、TX2 NX），第三档是 Nano。

由于 Jetson 里装的推理卡还是 GPU，所以基本可以 TensorRT 一套通吃，需要注意的是：（1）不同型号的 Jetson 有不同的 GPU 架构，Nano 不支持 int8 精度，其他都支持，涉及到模型量化精度的选择问题；（2）同样是精度问题，TX2 NX 的 Tegra X2 Pascal 架构是刚开始支持 int8 精度，int8 运算指令还不够完善，所以你在 TX2 / TX2 NX 上 int8 推理不一定就比 fp16 更加快；（3）需要注意的是，Xavier 系列 Jetson 设备上还有专门为深度学习神经网络加速所设计的 DLA，这个也是和 GPU 板卡不一样的地方。

总体来说，在 Jetson 做移植还是很方便，是因为 Jetson 和通用 GPU 之间的技术栈的通用性比较好。

2、寒武纪

2.1 思元 MLU270

寒武纪是我接触比较早的国产 AI 新硬件，在国内算做的比较早的对标英伟达的厂商，我个人还是比较喜欢它的。寒武纪做推理卡也有相对比较悠久的历史，从最开始中科院的 DianNao、DaDianNao 开始到现在的思元系列，逐步走向成熟。寒武纪也提供了比较丰富的配套学习资料，如陈云霁老师写的《智能计算系统》就是一本比较系统介绍寒武纪推理卡及软件栈的书籍。我之前也写过几篇寒武纪部署相关的文章，也可以作为学习的参考资料：《【经验分享】ubuntu 安装寒武纪MLU-270 SDK教程》、《【经验分享】寒武纪MLU270源码编译 pytorch-mlu》。

和英伟达一样，寒武纪也有全高全长的训练卡 MLU290、半高半长的 PCIE 推理卡 MLU270、边缘计算设备 MLU220，其中 MLU270 说是对标 P4，我实际拿他对标 T4，功耗为 70 瓦，int8 推理算力为 128 T，上图：

给出一些硬件性能参数：

寒武纪有它自己一套十分完整的软件栈，前端也十分丰富，支持 caffe、tensorflow、pytroch、mxnet，寒武纪也提供了 CNML 机器学习算子库，CNRT 运行时库等帮助模型推理落地，我总结了一下寒武纪的推理流程，如下，这里前端只考虑了 from_pytorch 和 from_darknet，yolo 系列的 darknet 模型需要进行模型转换后才能进寒武纪的推理框架，这里采用了 darknet -> caffe 的转换路线。

从上图你可以知道，寒武纪的模型部署技术栈主要有两条路线：

（1）from_caffe / tensorflow / pytorch / mxnet -> CNRT；

（2）trained_model -> cnml -> CNRT；

其中第一条路线是最方便的，如 CNPytorch 或 CNCaffe 其实都是寒武纪在社区版 Pytorch / Caffe 的基础上融入了结合 MLU 推理卡特性的代码后形成的寒武纪版的深度学习框架。推理过程可以分为离线推理和在线推理，其执行结果是一致的，在线推理方便 debug 定位问题。寒武纪推理卡在设置 batch 的时候也比较有讲究，由于 MLU270 的 cluster 为 4，所以在设置 batch 的时候为 4 的倍数的时候性能为最优。

寒武纪还有个特色是 BANG C，这是为 MLU 硬件打造的编程语言，类似英伟达里的 CUDA C，可以充分利用硬件资源和软件编译优化、通过算子新增或替换来提升模型推理性能。下面用一个 L2LossKernel 的 BANG C kernel 的示例来展示一下 BANG C 是怎么写的：

#include "mlu.h"
#define ONELINE 64
__mlu_entry__ void L2LossKernel(half* input, half* output, int32_t len) {
	__nram__ int32_t quotient = len / ONELINE;
	__nram__ int32_t rem = len % ONELINE;
	__nram__ half input_nram[ONELINE];
	output[0] = 0;
	for (int32_t i = 0; i < quotient; i++) {
		__memcpy(input_nram, input + i * ONELINE,
		ONELINE * sizeof(half) , GDRAM2NRAM);
		__bang_mul(input_nram, input_nram, input_nram, ONELINE);
		__bang_mul_const(input_nram, input_nram, 0.5, ONELINE);
	for (int32_t j = 0; j < ONELINE; j++) {
		output[0] += input_nram[j];
		} }
	if (rem != 0) {
		__memcpy(input_nram, input + quotient * ONELINE,
         	ONELINE * sizeof(half), GDRAM2NRAM);
		__bang_mul(input_nram, input_nram, input_nram, ONELINE);
		__bang_mul_const(input_nram, input_nram, 0.5, ONELINE);
	for (int i = 0; i < rem; i++) {
		output[0] += input_nram[i];
} } }

CNCC 是寒武纪 MLU 用来编译 BANG C 程序的编译器，CNCC 编译器架构如下：

2.2 思元 MLU220

思元 MLU220 是寒武纪的边缘计算设备，功耗为 8.25 瓦，int8 算力为 8 T，这在边缘盒子里算低的，一般用的像英伟达 Jetson Xavier NX int8 算力有 21T，像华为 atlas500 int8 算力也有 16 T，这么对比看来思元 220 的算力是比较弱的。上图：

MLU220 可以看成是 MLU270 的袖珍版，MLU220 有 1 个 cluster，4 个核，MLU270 有 4 个 cluster，16 个核。MLU220 通过离线运行模型完成对神经网络或单算子的运算，离线运行模型是将编译原子算子和融合算子后生成的指令，打包保存为离线模型文件，再通过 CNRT 加载离线模型文件来驱动 MLU Core 完成计算。需要在 MLU270 上完成 MLU220 离线模型的模拟调试后，再生成和部署离线模型。由于 MLU270 和 MLU220 硬件结构不同，部分硬件指令参数的设置也会有所不同，导致两个平台上二进制指令无法兼容。因此需要在 MLU270 上完成对 MLU220 离线模型的模拟调试，调试无误后，再生成最终的离线模型，放到 MLU220 上执行。离线运行模型免去了编译过程，减少了运行依赖，也避免了对框架和 CNML 等的依赖。因此，离线运行模型的执行具有更好的性能和通用性。

以 Caffe vgg16 model MLU220 部署为例，需要先在 MLU270 上进行操作：

./build/tools/generate_quantized_pt --ini_file vgg16_quantized.ini

执行下面命令，使用离线模型转换工具转换模型，并生成离线模型 vgg16.cambricon：

./caffe genoff -model vgg16_int8.prototxt -weights vgg16.caffemodel -mcore MLU220 -simple_compile 1 -batchsize 32 -core_number 4 -mname vgg16

其中有几个参数需要注意的，-mcore 需要设置为 MLU220，-core_number 用于指定推理使用的核数，选择核数应小于等于支持的硬件核数，MLU220 最大核数为 4，所以这个参数不能大于 4，然后就可以拿生成的离线模型到 MLU220 上执行推理了。

3、曙光

3.1 曙光 DCU

适配曙光 DCU 是在云平台上做的，云平台融合了 Caffe、TensorFlow 和 PyTorch 等深度学习框架，同时融合了任务调度系统，结合 docker 容器技术，提供深度学习计算服务，集中了数据集管理、镜像管理、容器管理、模型管理、文件管理、任务管理和资源管理，以及训练任务提交、资源状态监控等功能，实现对高性能计算资源的调度分配。

在曙光 DCU 平台上要做模型的推理适配需要先申请计算节点，将外部训练好的权重文件上传至 E-File，在 E-Shell 内申请的计算节点里加载 pytorch / caffe / tensorflow 环境，然后可以使用单卡或分布式 (单节点4卡) 的运行模式来进行模型推理。曙光 DCU 支持原生框架，算法移植十分方便，无需投入更多人力进行再开发，但没有提供专门的推理运行时和摆脱深度学习框架部署的选择，所以对于部署环境依赖过于臃肿，实用性并不强，这里不多说了，我也没有进一步研究。

4、华为

4.1 昇腾 atlas300I

昇腾 atlas300I 是华为昇腾基于 Ascend 310 的半高半长的 PCIE 推理板卡，功耗 67 瓦，单卡 int8 算力 88 T，上图：

给出 atlas300I 的硬件性能参数：

昇腾相关的部署技术我之前写过好几篇文章：《【模型推理】聊一聊昇腾 CANN TBE 算子开发方式》、《【嵌入式AI】atlas500与虚拟机ubuntu交互配置》、《【经验分享】华为atlas500系列aarch64交叉编译opencv》、《【经验分享】华为昇腾 docker 内配置 MindStudio》、《【系统架构】一文看懂昇腾达芬奇架构计算单元》。昇腾提供了一套完整的从训练（MindSpore）、部署（AMCT / ATC ）、高性能算子开发（CANN TBE）的软件栈支持，华为的 AI 目前已经号称不需依赖美国技术，这可不是吹牛的。如下给出的 AI 架构图，可以看出它是如此的全面，覆盖端 / 边 / 云、训练 / 推理、算子开发可扩展。

讲昇腾需要先讲达芬奇架构，达芬奇架构是一种特定域架构。昇腾AI处理器的计算核心主要由 AI Core 构成，包含三种基础计算资源：矩阵计算单元（Cube Unit）、向量计算单元（Vector Unit）和标量计算单元（Scalar Unit），负责执行张量、矢量、标量计算。AI Core 中的矩阵计算单元支持 Int8 和 fp16 的计算，向量计算单元支持 fp16 和 fp32 的计算。AI Core 基本架构如下：

目前昇腾支持的前端框架有 tensorflow、caffe 和 mindspore，以 caffe 为例，如果你的训练框架为 pytorch 或 darknet，在做昇腾的模型部署前需要进行 pytorch / darknet -> caffe 的模型转换，然后如果你需要做量化，昇腾提供了 AMCT 的模型小型化工具。在昇腾的 SDK 中还集成了 TVM 自动调优的性能优化手段，然后可以转离线模型 .om，进行模型推理。整个开发过程可以选择使用 MindStudio，也可以使用命令行进行，使用 MindStudio 会更加方便，缺点是一般一个服务器只能开一个 MindStudio 界面，在我的这篇文章中《【经验分享】华为昇腾 docker 内配置 MindStudio》解决了多人同时使用 MindStudio 开发的问题。

TBE（Tensor Boost Engine）算子开发在昇腾适配中是一个比较核心和有难度的模块，看一下 TBE 所在的位置：

一个完整的 TBE 算子包含四部分：算子原型定义、对应开源框架的算子适配插件、算子信息库定义和算子实现。

TBE 的算子开发方式主要有两种：DSL 和 TIK。DSL 借鉴了 TVM 中的 TOPI 机制，预先提供一些常用运算的调度，封装成一个个运算接口，开发时只需要生命计算的流程再使用调度机制，生成指定目标代码即可。而 TIK 一种基于 Python 语言的动态编程框架，程序员直接使用 TIK 提供的 API 完成计算过程及 Schedule 过程，需要手工控制数据搬运的参数和 Schedule，不过无需关注 Buffer 地址的分配及数据同步处理，由 TIK 工具进行管理。

下面展示一个 add 的 DSL 实现例子：

from te import tvm 
from te.platensorfloworm.fusion_manager 
import fusion_manager 
import te.lang.cce as tbe 
from te.utils import para_check
from te.utils import shape_util 
from functools import reduce

SHAPE_SIZE_LIMIT = 2147483648 

# 实现 Add 算子的计算逻辑 
@fusion_manager.register("add") 
def add_compute(input_x, input_y, output_z, kernel_name="add"): 
    shape_x = shape_util.shape_to_list(input_x.shape) # 将 shape 转换为 list 
    shape_y = shape_util.shape_to_list(input_y.shape) # 将 shape 转换为 list 
    shape_x, shape_y, shape_max = shape_util.broadcast_shapes(shape_x, shape_y,param_name_input1="input_x",param_name_input="input_y") 
    shape_size = reduce(lambda x, y: x * y, shape_max[:]) 
    
    if shape_size > SHAPE_SIZE_LIMIT: 
        raise RuntimeError("the shape is too large to calculate") 
    
    input_x = tbe.broadcast(input_x, shape_max) # 将 input_x 的 shape 广播为 shape_max 
    input_y = tbe.broadcast(input_y, shape_max) # 将 input_y 的 shape 广播为 shape_max 
    res = tbe.vadd(input_x, input_y) # 执行 input_x + input_y 
    return res # 返回计算结果的 tensor 

# 算子定义函数 
def add(input_x, input_y, output_z, kernel_name="add"): 
# 获取算子输入 tensor 的 shape 与 dtype 
    shape_x = input_x.get("shape") 
    shape_y = input_y.get("shape") 
    check_tuple = ("float16", "float32", "int32") 
    input_data_type = input_x.get("dtype").lower() 
    if input_data_type not in check_tuple: 
        raise RuntimeError("only support %s while dtype is %s" % (",".join(check_tuple), input_data_type)) 
    
    # shape_max 取 shape_x 与 shape_y 的每个维度的最大值 
    shape_x, shape_y, shape_max = shape_util.broadcast_shapes(shape_x, shape_y,param_name_input1="input_x",param_name_input="input_y") 
    if shape_x[-1] == 1 and shape_y[-1] == 1 and shape_max[-1] == 1: 
        # 如果 shape 的长度等于 1，就直接赋值，如果 shape 的长度不等于 1，做切片，将最后一个维度舍弃（按照内存 排布，最后一个维度为 1 与没有最后一个维度的数据排布相同，例如 2*3=2*3*1，将最后一个为 1 的维度舍弃可提升 后续的调度效率）。 
        shape_x = shape_x if len(shape_x) == 1 else shape_x[:-1] 
        shape_y = shape_y if len(shape_y) == 1 else shape_y[:-1] 
        shape_max = shape_max if len(shape_max) == 1 else shape_max[:-1] 
        # 使用 TVM 的 placeholder 接口对第一个输入 tensor 进行占位，返回一个 tensor 对象 
        data_x = tvm.placeholder(shape_x, name="data_1", dtype=input_data_type) 
        # 使用 TVM 的 placeholder 接口对第二个输入 tensor 进行占位，返回一个 tensor 对象 
        data_y = tvm.placeholder(shape_y, name="data_2", dtype=input_data_type) 
        # 调用 compute 实现函数 
        res = add_compute(data_x, data_y, output_z, kernel_name) 
        # 自动调度 
        with tvm.target.cce():
            schedule = tbe.auto_schedule(res) 
            # 编译配置 
            config = {
     "name": kernel_name, "tensor_list": (data_x, data_y, res)} 
            tbe.build(schedule, config)

再展示一个 TIK 的开发示例，如下实现算子用于实现从 Global Memory 中的 A、B 两处分别读取 128 个 float16 类型的数值搬运到 unified buffer 中相加，并将结果从 unified buffer 写入 Global Memory 地址 C 中。

from te import tik 

def simple_add(): 
        tik_instance = tik.Tik() 
        # 指定 Tensor 对象的所在 buffer 空间。scope_gm 表示 Global Memory 中的数据； 
        # scope_ubuf 表示 unified buffer 中的数据 
        data_A = tik_instance_Tensor("float16", (128,), name="data_A", scope=tik.scope_gm) 
        data_B = tik_instance_Tensor("float16", (128,), name="data_B", scope=tik.scope_gm) 
        data_C = tik_instance_Tensor("float16", (128,), name="data_C", scope=tik.scope_gm) 
        data_A_ub = tik_instance_Tensor("float16", (128,), name="data_A_ub", scope=tik.scope_ubuf) 
        data_B_ub = tik_instance_Tensor("float16", (128,), name="data_B_ub", scope=tik.scope_ubuf) 
        data_C_ub = tik_instance_Tensor("float16", (128,), name="data_C_ub", scope=tik.scope_ubuf) 
        
        # 数据搬运 假设要搬运的数据为 128 个 float16 类型的数据，占 128*2Byte，而一个 unifield buffer 为 256kb，每次 
        # 搬运大小为 128*2/32Byte。 
        tik_instance.data_move(data_A_ub, data_A, 0, 1, 128 //16, 0, 0) 
        tik_instance.data_move(data_B_ub, data_B, 0, 1, 128 //16, 0, 0) 
        tik_instance.vec_add(128, data_C_ub[0], data_A_ub[0], data_B_ub[0], 1, 8, 8, 8) 
        tik_instance.data_move(data_C, data_C_ub, 0, 1, 128 //16, 0, 0) 
        tik_instance.BuildCCE(kernel_name="simple_add",inputs=[data_A,data_B],outputs=[data_C])

4.2 昇腾 atlas500

昇腾 altas500 智能小站，是昇腾的边缘计算设备，算力有 int8 22 T 和 16 T 可供选择。

给出 altas500 的硬件性能参数：

昇腾 atlas500 的主控是不带 NNIE 的海思Hi3559A，NPU 是昇腾310。昇腾 atlas500 的操作系统采用了欧拉系统，在进行 atlas500 开发的时候一般先在 WebUI 端进行 ip 的配置，然后可以使用 nfs 挂载来交互开发，配置过程可以参考《【嵌入式AI】atlas500与虚拟机ubuntu交互配置》。

atlas500 的模型适配和 atlas300 的流程类似，区别是 atlas500 是 arm 架构，atlas300I 是 x86 架构（当然也有 arm 架构），所以编译工具链可能不太一样，如果你要用 arm 版的 opencv，需要进行交叉编译，可以参考这篇文章《【经验分享】华为atlas500系列aarch64交叉编译opencv》。如果你先做了 atlas300I 的开发，那么 atlas500 的开发其实没啥难度。

4.3 海思 Hi35xx

曾几何时，海思 Hi35xx 系列是端场景的首选，现在因为供货问题，其他一些替代产品如 Rockchip 等开始崛起，但海思系列还是擎天柱般的存在，如 Hi3559A 就能提供 4T 算力，这十分的可观。来看下 Hi3559A 的开发板：

一般实际项目开发的时候会采用带摄像头模块的海思模组，长的像这样：

海思的 SDK 是一个庞大的工程，包括图像采集、视频编解码、模型推理等功能模块。对于海思 NNIE 上的模型推理，一般流程是先在 windows 上采用 RuyiStudio 进行模型量化、仿真推理、精度验证、离线模型转换等操作，然后把精度验证没有问题的 .wk 离线模型通过 nfs 放到 Hi35xx 上执行，如下是 RuyiStudio 进行模型转换操作的一些示例。

RuyiStudio提供了 Vector Comparision 工具，能够对比输出向量的相似度、绝对误差等信息，可用于验证模型量化后的输出精度误差大小。

同时海思提供了一个中间层输出脚本，该工具可以通过读取cfg文件输出中间层结果。

python CNN_convert_bin_and_print_featuremap.py -i MobileFace.cfg -m mobilefacenet.prototxt -w mobilefacenet.caffemodel -c 0

运行结束后会在data文件夹下生成一个output文件夹，其中存储了中间层输出结果，将其加载到 RuyiStudio 进行 Vector Comparision 精度校验，如下：

通过仿真验证后，生成 xxx.wk 模型文件，将其放到板子上 SVP NNIE 上执行，以 mobilefacenet 为例，NNIE 推理的代码示例如下：

void SAMPLE_SVP_NNIE_Cnn(void)
{
    HI_CHAR *pcSrcFile = "./data/nnie_image/rgb_planar/10.bgr";
    HI_CHAR *pcModelName = "./data/nnie_model/face/mobilefacenet_inst.wk";
    HI_U32 u32PicNum = 1;
    HI_S32 s32Ret = HI_SUCCESS;
    SAMPLE_SVP_NNIE_CFG_S   stNnieCfg = {0};
    SAMPLE_SVP_NNIE_INPUT_DATA_INDEX_S stInputDataIdx = {0};
    SAMPLE_SVP_NNIE_PROCESS_SEG_INDEX_S stProcSegIdx = {0};

    /*Set configuration parameter*/
    stNnieCfg.pszPic= pcSrcFile;
    stNnieCfg.u32MaxInputNum = u32PicNum; //max input image num in each batch
    stNnieCfg.u32MaxRoiNum = 0;
    stNnieCfg.aenNnieCoreId[0] = SVP_NNIE_ID_0;//set NNIE core
    s_stCnnSoftwareParam.u32TopN = 5;

    /*Sys init*/
    SAMPLE_COMM_SVP_CheckSysInit();

    /*CNN Load model*/
    SAMPLE_SVP_TRACE_INFO("Cnn Load model!\n");
    s32Ret = SAMPLE_COMM_SVP_NNIE_LoadModel(pcModelName,&s_stCnnModel);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_0,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_COMM_SVP_NNIE_LoadModel failed!\n");

    /*CNN parameter initialization*/
    SAMPLE_SVP_TRACE_INFO("Cnn parameter initialization!\n");
    s_stCnnNnieParam.pstModel = &s_stCnnModel.stModel;
    s32Ret = SAMPLE_SVP_NNIE_Cnn_ParamInit(&stNnieCfg,&s_stCnnNnieParam,&s_stCnnSoftwareParam);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_0,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_SVP_NNIE_Cnn_ParamInit failed!\n");

    /*record tskBuf*/
    s32Ret = HI_MPI_SVP_NNIE_AddTskBuf(&(s_stCnnNnieParam.astensorfloworwardCtrl[0].stTskBuf));
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_0,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,HI_MPI_SVP_NNIE_AddTskBuf failed!\n");

    /*Fill src data*/
    SAMPLE_SVP_TRACE_INFO("Cnn start!\n");
    stInputDataIdx.u32SegIdx = 0;
    stInputDataIdx.u32NodeIdx = 0;
    s32Ret = SAMPLE_SVP_NNIE_FillSrcData(&stNnieCfg,&s_stCnnNnieParam,&stInputDataIdx);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_1,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_SVP_NNIE_FillSrcData failed!\n");

    /*NNIE process(process the 0-th segment)*/
    stProcSegIdx.u32SegIdx = 0;
    s32Ret = SAMPLE_SVP_NNIE_Forward(&s_stCnnNnieParam,&stInputDataIdx,&stProcSegIdx,HI_TRUE);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_1,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_SVP_NNIE_Forward failed!\n");

    /*Software process*/
    s32Ret = SAMPLE_SVP_NNIE_Cnn_GetTopN(&s_stCnnNnieParam,&s_stCnnSoftwareParam);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_1,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_SVP_NNIE_CnnGetTopN failed!\n");

    /*Print result*/
    SAMPLE_SVP_TRACE_INFO("Cnn result:\n");
    s32Ret = SAMPLE_SVP_NNIE_Cnn_PrintResult(&(s_stCnnSoftwareParam.stGetTopN),
        s_stCnnSoftwareParam.u32TopN);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_1,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,SAMPLE_SVP_NNIE_Cnn_PrintResult failed!\n");

    s32Ret = SAMPLE_SVP_NNIE_PrintReportResult(&s_stCnnNnieParam);
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret, CNN_FAIL_1, SAMPLE_SVP_ERR_LEVEL_ERROR,"Error,SAMPLE_SVP_NNIE_PrintReportResult failed!");

CNN_FAIL_1:
    /*Remove TskBuf*/
    s32Ret = HI_MPI_SVP_NNIE_RemoveTskBuf(&(s_stCnnNnieParam.astensorfloworwardCtrl[0].stTskBuf));
    SAMPLE_SVP_CHECK_EXPR_GOTO(HI_SUCCESS != s32Ret,CNN_FAIL_0,SAMPLE_SVP_ERR_LEVEL_ERROR,
        "Error,HI_MPI_SVP_NNIE_RemoveTskBuf failed!\n");

CNN_FAIL_0:
    SAMPLE_SVP_NNIE_Cnn_Deinit(&s_stCnnNnieParam,&s_stCnnSoftwareParam,&s_stCnnModel);
    SAMPLE_COMM_SVP_CheckSysExit();
}

5、比特大陆

5.1 Sophon SE5

Sophon SE5 是比特大陆的边缘计算盒子，搭载比特大陆自研的第三代 TPU 芯片 BM1684，int8 算力为 17.6 T，需要说一下 SE5 仅支持 int8 和 fp32 精度，不支持 fp16 精度。

BMNNSDK (Bitmain Neural Network SDK) 是比特大陆基于其自主研发的 AI 芯片所定制的深度学习 SDK，涵盖了神经网络推理阶段所需的模型优化、高效运行时支持等能力，为深度学习应用开发和部署提供易用、高效的全栈式解决方案。BMNNSDK 由 Compiler，Library 和 Examples 部分组成。Compiler 负责对各种深度神经网络模型（如 caffemodel、tensorflow model 等）进行离线编译和优化，最终生成运行时需要的 bmodel；Library 提供了 video、bmcv、runtime 等库，供用户进行深度学习应用开发；Examples 提供了 SoC 和 x86 环境的多个例子，供开发参考。

BMNNSDK 的文件结构如下：

BMNNSDK2
├── bin           // 相关工具
│   ├── arm
│   └── x86
├── bmlang
├── bmnet         // Compiler工具
│   ├── bmnetc    // Caffe Compiler
│   ├── bmnetm    // MXNet Compiler
│   ├── bmnetp    // Pytorch Compiler
│   └── bmnett    // Tensor Flow Compiler
│   ├── bmnetu    // int8 compiler
│   ├── bmusercpu 
│   └── calibration //量化工具
├── documents
├── driver        // PCIE卡设备驱动
├── examples      // 示例代码
├── include       // 运行库头文件，供二次开发使用
├── lib           // 运行库，供运行时和二次开发使用，还加入了一些常用第三方库
├── res
├── run_docker_bmnnsdk.sh    // Docker启动脚本

比特大陆的模型量化和转换过程比较复杂一些，需要进行 fronted model -> fp32 model -> fp32 umodel -> int8 umodel -> int8 bmodel，其中 umodel 主要是用于验证精度，bmodel 就是可以在 BM1684 上可以执行的离线模型，整个转换和精度验证过程是在交叉编译环境中进行的，最终执行在 SE5 上。

基于 AI 训练框架的模型首先需要借助量化工具转换成 fp32umodel，基于 fp32umodel 后续量化流程已经跟开源框架解耦，作为通用流程执行 int8 量化校准。比特大陆量化平台框架参考 caffe 框架，因此天然支持 caffemodel，在 caffemodel 时无需借助量化工具进行 fp32umodel 的转换，可直接作为 int8 校准的输入。但 tensorflow、pytorch、mxnet、darknet 出来的模型必须先通过量化工具转换为 fp32umodel，在进行进一步的量化。 Qantization-Tools 是比特大陆 SDK 中提供的模型量化工具，可接主流框架（caffe、mxnet、tensorflow、pytorch、darknet）出的 fp32 model，生成 int8 model。Quantization-Tools 工具架构如下:

BMNet Compiler 是一个模型转换工具，可以对各种框架的模型进行离线转换，将模型转换成 TPU 能够执行的模型格式，然后调用 bmrutime 在初始化阶段读取模型，运行时则将输入数据拷给 TPU，TPU 进行神经网络推理，再将输出读取出来，整个流程是这样的：

SE5 上的模型加载和推理流程主要分三个部分：（1）加载模型；（2）预处理；（3）推理。之前写过一篇文章《【模型推理】比特大陆 SE5 边缘盒子 caffe SSD 量化与转换部署模型》介绍了 SE5 上 caffe SSD 量化与转换部署模型的方法，下面用一些代码示例对模型推理进行说明一下。

## 1. 加载模型
import sophon.sail as sail
engine = sail.Engine(0)
engine.load(bmodel_path)

## 2. 预处理
class PreProcessor:
  def __init__(self, bmcv, scale):
    self.bmcv  = bmcv
    self.ab    = [x * scale for x in [1, -123, 1, -117, 1, -104]]

  def process(self, input, output):
    tmp = self.bmcv.vpp_resize(input, 300, 300)
    self.bmcv.convert_to(tmp, output, ((self.ab[0], self.ab[1]), (self.ab[2], self.ab[3]), (self.ab[4], self.ab[5])))

bmcv = sail.Bmcv(handle)   # 图形处理加速模块
scale = engine.get_input_scale(graph_name, input_name)
pre_processor = PreProcessor(bmcv, scale)  # 预处理初始化

img0 = decoder.read(handle)            # 解码视频输出image
img1 = bmcv.tensor_to_bm_image(input)  # 将推理的输入地址挂载到image

pre_processor.process(img0, img1)      # 预处理

## 3. 推理
graph_name = engine.get_graph_names()[0]
engine.set_io_mode(graph_name, sail.IOMode.SYSO)

input_name   = engine.get_input_names(graph_name)[0]
output_name  = engine.get_output_names(graph_name)[0]

input_shape  = [1, 3, 300, 300]
output_shape = [1, 1, 200, 7]

handle = engine.get_handle()

input_dtype  = engine.get_input_dtype(graph_name, input_name)
output_dtype = engine.get_output_dtype(graph_name, output_name)

input  = sail.Tensor(handle, input_shape,  input_dtype,  False, True)
output = sail.Tensor(handle, output_shape, output_dtype, True,  True)

input_tensors  = {
      input_name:  input  }
output_tensors = {
      output_name: output }
...
# 此处省略 解码，预处理 代码
...
engine.process(graph_name, input_tensors, output_tensors) # 推理
out = output.asnumpy()

dets = post_processor.process(out, img0.width(), img0.height())  # 后处理
...

5.2 Sophon SE3

Sophon SE3 是比特大陆算力更低场景的边缘计算设备，搭载的芯片为比特大陆第二代人工智能芯片 BM1682，相比 SE5 的 BM1684 要落后一些，如图，比较精致，不得不说 SE3 的散热做的很好。

SE3 不支持 int8 精度和 fp16 精度，仅支持 fp32 精度，所以在做模型部署的时候只需要部署 fp32 模型就可以了，可以抛却模型量化的过程。给出 SE3 的硬件性能参数：

同样有了 SE5 的开发经验后，SE3 的开发也不会是啥大问题，这里不多说了。

6、瑞芯微

6.1 RK3399

OpenAILab 的 EAIDK610 搭载了 RockChip 的 RK3399，我在用的是 EAIDK610 的开发者套件，上图：

来看看硬件接口：

RK3399 是瑞芯微推出的一款低功耗、高性能的应用处理器芯片，该芯片基于 Big.Little 架构，具有独立的 NEON 协同处理器的双核Cortex-A72 及四核 Cortex-A53 组合架构，主要应用于计算机、个人互联网移动设备、VR、广告机等智能终端设备。在 RK3399 上部署模型可以考虑 OpenAILab 的 Tengine，正好 EAIDK610 也是 OpenAILab 的产品。

Tengine 于 2017 年在 GitHub 开源，一方面可以通过异构计算技术同时调用 CPU、GPU、DSP、NPU 等不同计算单元来完成 AI 网络推理计算，另一方面，它支持 TensorFlow、Caffe、MXNet 、PyTorch、 MegEngine、 DarkNet、ONNX、 ncnn 等业内主流框架，最友好的是内置了很多的 samples，上手十分方便。Tengine 的架构如下：

7、全志

7.1 R329

全志 R329 搭载的 NPU 是 ARM 周易 AIPU，整个 R329 十分小巧精致，上图：

给出 R329 的硬件参数：

之前写过的几篇关于 R329 的文章可以参考：《【嵌入式AI】全志 R329 开箱与开发环境搭建》、《【嵌入式AI】全志 R329 Tina 系统镜像编译》、《【嵌入式AI】周易 AIPU 算法部署仿真测试》、《【嵌入式AI】全志 R329 板子跑 mobilenetv2》。

在 R329 这种嵌入式设备上同样需要交叉编译模型，然后把模型放到板子上进行执行。以 tensorflow pb 模型部署为例，需要首先对 pb 模型做 export graph 和 freeze graph 的操作得到 frozen pb model，然后需要准备好量化校准数据集，在这种端场景设备上必须是要做量化的。然后配置 NN Compiler 文件，以 mobilenet 为例：

## mobilenet_build.cfg
[Common]
mode=build

[Parser]
model_name = mobilenet 
detection_postprocess = 
model_domain = image_classification
output = mobilenet/predictions/Reshape
input_model = ./tmp/mobilenet_frozen.pb
input = input
input_shape = [1,224,224,3]

[AutoQuantizationTool]
model_name = mobilenet
quantize_method = SYMMETRIC
ops_per_channel = DepthwiseConv
calibration_data = ./dataset/dataset.npy
calibration_label = ./dataset/label.npy
preprocess_mode = normalize
quant_precision=int8
reverse_rgb = False
label_id_offset = 0

[GBuilder]
outputs=./aipu.bin
profile= True
target=Z1_0701

然后执行：

aipubuild mobilenet_build.cfg

就能生成 R329 能认识执行的 aipu.bin 模型结构文件了，然后交叉编译出 R329 上推理执行程序，在板子上执行类似下面命令配置环境执行推理：

cd /root/maix_sense 

insmod aipu.ko 

## 让我们跑起来吧 
./zhouyi_demo ./aipu.bin 1

效果图如下，mobilenet 差不多能跑到 20 帧，接近实时。

8、登临

8.1 Goldwasser L

Goldwasser L 是登临半高半长的推理卡，对标 T4 ，标出的性能十分强悍，号称要做中国的英伟达。上图：

登临也有覆盖端（Goldwasser UL）、边（Goldwasser L）、云（Goldwasser XL）全场景的推理卡，给出这些卡的性能参数：

对标 T4 的 Goldwasser L 40 瓦的卡就能达到 int 128 T 的算力，而 T4 130 T 算力的功耗是 75 瓦，从数据来看能效比吊打 T4，而 70 瓦的 Goldwasser L 性能更加的夸张。登临的卡还有个优势是显存，提供了 16G、32G、64G 可选的配置，对比 T4 的 16G，同样具有巨大的优势。

登临的前端目前支持 tensorflow、onnx、caffe，所以如果你们用 pytorch 做训练的话，一般可以选择 torch.onnx.export 导出为 onnx 模型，然后再进登临推理框架；如果你是用 darknet 训练的 yolo 系列，一般也可以做 darknet -> onnx 的模型转换，再接着做推理。登临的推理框架有几个特色的地方：（1）前端集成了 TVM Relay；（2）调优借鉴了 TVM 图优化；（3）登临的推理库 dlnne 接口对标 NVIDIA TensorRT；（4）自定义算子通过 Plugin CUDA C 来写。把这些特色结合起来看，其实蛮有意思，登临最大程度的期望广大的用习惯了 TensorRT 的开发者能够快速的切换到登临的开发世界中。把 TVM 融入自家的推理框架不是登临的首创，华为昇腾也是基于 TVM 的。不过这个由于刚出来没多久，坑还是挺多的，后续可以再分享一些其适配的笔记。

以上我花了两天时间整理、记录了一下我这两年适配过的 AI 硬件。做个记录，也希望给有需要的同学一点点帮助，我也在学习中。

【公众号传送】

《【经验分享】谈谈这两年适配过的 AI 硬件》

扫描下方二维码即可关注我的微信公众号【极智视界】，获取更多AI经验分享，让我们用极致+极客的心态来迎接AI ！

你可能感兴趣的:(经验分享,人工智能,硬件,深度学习,嵌入式,gpgpu)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
ARM V8 base instruction -- Debug instructions xiaozhiwise Assembly arm
/**Debuginstructions*/BRK#imm16进入monitormodedebug，那里有on-chipdebugmonitorcodeHLT#imm16进入haltmodedebug，连接有外部调试硬件
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
AUTO TECH 2025 广州国际汽车软件与安全技术展览会 ws201907 汽车安全
AUTOTECH2025广州国际汽车软件与安全技术展览会ChinaGuangzhouSoftware-DefinedVehicleExpo2025亚洲领先的汽车软件与安全技术专业展会——是与来自世界各地的汽车工程师们交流的最佳平台！广州国际汽车软件与安全技术展览会是AUTOTECH2025华南展专题展之一，汇集了各种汽车嵌入式软件开发与应用、车载操作系统、智驾功能安全与SOTIF、基础软件平台、车
KVM虚拟机源代码分析【转】 xidianjiapei001 #虚拟化技术
1.KVM结构及工作原理1.1KVM结构KVM基本结构有两部分组成。一个是KVMDriver，已经成为Linux内核的一个模块。负责虚拟机的创建，虚拟内存的分配，虚拟CPU寄存器的读写以及虚拟CPU的运行等。另外一个是稍微修改过的Qemu，用于模拟PC硬件的用户空间组件，提供I/O设备模型以及访问外设的途径。KVM基本结构如图1所示。其中KVM加入到标准的Linux内核中，被组织成Linux中标准
嵌入式单片机中数码管基本实现方法嵌入式开发星球单片机项目实战操作之优秀单片机
1.点亮数码管本节课利用已经学习的LED知识去控制一个8位数码管。本节的原理比较简单。不需要多少时间讲。更多时间是跟大家一起编码调试，从中学习一些编码思路和学习方法。1.1.什么是数码管数码管是什么？下图就是一个数码管从硬件上个看，其实就是8个LED组合在一起。8个LED应该有16个引脚，但是数码管上只有10个引脚。为什么呢？请看下图：1个LED有两个引脚，要控制LED，1个引脚接控制信号，另外一
家庭教育，先家庭后教育：家庭是硬件，教育是软件唯唯育家
很多家长为孩子付出很多，也学习很多家庭教育课程，看很多家庭教育书籍，为什么还是教育孩子很困难？因为主次颠倒，没有抓住家庭教育的主干！家庭教育，很多家长只行使“教育”功能，忽视了“家庭”功能！家长总想着怎么教孩子，怎么教育孩子！如果单靠教育，就能把孩子教好，学校老师在教育方面比家长在行，孩子应该在学校就被教好了，哪还需要家庭教育？为什么只有学校教育不够，还需要家庭教育？家庭教育的主要功能不在“教育”
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb