夕阳叹

浅淡深度学习的发机机——张量计算

张量计算是个看似陌生，实际上很常用的事物，它包括图形渲染的透明度混合、图像处理的滤镜、数学计算中的矩阵乘法、卷积等等，是图形引擎、图像算法、机器学习以及深度学习的基础。如何进行高效的张量计算，是OpenCV之类的图像库、OpenBlas / Eigen之类的高性能计算库以及MNN之类的深度学习推理引擎要解决的核心问题。
本文主要以端侧深度学习推理引擎MNN为示例，谈一下张量计算及主要优化策略。

相关链接
https://github.com/alibaba/MNN

1. 概念说明

本节对张量计算做一些概念上的科普，熟悉Tensorflow 或者其他深度学习推理引擎的可以跳过本节。

1.1 张量

张量（英文Tensor）是标量、矢量、矩阵等概念的总称与拓展，是机器学习领域的基础数据结构。

我们这里不讨论数学意义上的张量，只考虑程序中的实现。程序中的张量是一个多维数组的数据结构，示例如下：

#define MAX_DIM 6
struct Tensor {
    // 维度信息
    size_t dim[MAX_DIM];
    uint8_t num_dim;

    // 数据信息
    float* data;
    size_t num_data;
};

0维张量，就是一个数。1维张量等同于一个向量。2维张量对应一个矩阵。3维张量则是一个立方体。

1.2 张量计算

张量集到张量集的映射称为张量计算。用编程语言来说，输入是若干张量，输出也是若干个张量，并且无副作用（参考函数式编程）的函数称之为张量计算。
由示例程序可以看出，张量有 “维度” 和 “数据” 两个组成要素，张量计算，也就包含维度与数据这两个组成要素的处理。

比如矩阵乘法C = MatMul(A, B)，首先是根据输入的两个张量A, B确定C的维度，然后根据A和B的数据再去计算C的数据。具体一些可参考下面的代码：

Tensor* MatMul(Tensor* A, Tensor* B) {
    Tensor* C = new Tensor;
    // 计算维度
    C->num_dim = 2;
    C->dim[0] = A->dim[0];
    C->dim[1] = B->dim[1];

    // 分配内存
    C->data = malloc(C->dim[0]*C->dim[1]*sizeof(float));

    // 计算数据
    Matrix::multi(C, A, B);
    return C;
}

1.3 计算图

在深度学习领域，一个模型是由一系列的张量计算与常量组合而得的计算图，每一次张量计算称为一个算子（Op）。
比如手写数字识别的Mnist模型：

class Mnist:
    def __init__(self):
        self.w0, self.w1, self.w2, self.w3 = LoadWeight()
    def forward(self, x):
        x = Conv(x, self.w0)
        x = Pool(x)
        x = Conv(x, self.w1)
        x = Pool(x)
        x = InnerProduct(x, self.w2)
        x = Relu(x)
        x = InnerProduct(x, self.w3)
        x = Softmax(x)
        return x

它由 8个算子组成，分别是 Conv -> Pool -> Conv -> Pool -> InnerProduct->Relu->InnerProduct->Softmax

计算图涵盖了一系列的算子，最坏情况下，它的计算时间是各算子时间之合。但我们可以对计算图进行依赖分析，在资源管理、计算调度、冗余清除等方面做文章，使计算图的计算时间小于这个总合。

2. 张量计算的特点

2.1 变化的运算量

每种算子都是对一批数据进行计算，其运算量不仅取决于算子本身，也取决于数据本身的维度信息。
以下是一些常见算子的运算量的分析

算子	参数	输入维度	输出维度	运算量
Conv	$c_o, k_h, k_w$	$n, c_i, h,w)$	$n, c_o, h,w)$	$nc_oc_ihwk_hk_w$
ConvDw	$k_h, k_w$	$(n, c, h, w)$	$(n, c, h, w)$	$nchwk_hk_w$
MatMul		$h_i, w), (w, w_o)$	$h_i, w_o)$	$h_iww_o$
MatAdd		$(h, w), (h, w)$	$(h, w)$	$h w$
MatSub		$(h, w), (h, w)$	$(h, w)$	$h w$
Resize	$f = 2$ , Bilinear	$(n, c, h, w)$	$(n, c, 2 h, 2 w)$	$16 n c h w$
Resize	$f = 0.5$ , Bilinear	$(n, c, h, w)$	$(n, c, 0.5 h, 0.5 w)$	$n c h w$
Resize	$f = 2$ , Nearest	$(n, c, h, w)$	$(n, c, 2 h, 2 w)$	$4 n c h w$

由于这一性质，张量计算的耗时随着输入的变大而上升。我们在做性能分析时，不能一刀切地去说一个算子是不是耗时的，要具体地结合维度信息去判断。比如Conv(卷积算子)一般情况下比较耗时，但如果它的输入维度比较小，就很可能不如后面的一个Resize耗时多。

2.2 校验困难与误差容忍

张量计算的结果是一个庞大的数组，比如一个图像算法，输入输出均是 400 x 300 像素的RGB图像，那么它的输出数据量就是 $400 x 300 x 3 = 360000$ ，这么大的数据量我们很难人工去确认是否正确，有参考输出时，可以用统计学的一些方法，编程序判断。没有参考输出的情况，比如图像滤镜，只能人肉眼去看图像。

大部分张量计算，即便是最简单的矩阵相加，不同的计算顺序，不同的硬件指令集也可能导致计算结果有非常小的偏差。在实际的应用中，我们往往没有必要要求计算结果和标准输出完全一致，如下面两幅图像，两者像素值均存在一定偏差，但不仔细看基本分辨不出。

由于实际应用中对张量计算的结果有一定的误差容忍，我们可以采用有一定误差的优化方案，典型的就是定点计算，将原先浮点计算等效替换为整型计算。

2.3 形实无关

对常用算子而言，维度的计算仅由输入张量的维度与算子信息确定，因此可以先计算维度信息（“形”），再计算内容（“实”）。具体到一个张量计算图来说，就是先计算图中所有张量的维度，再去算各张量的内容。

一般而言，维度信息确定下来后，就能确定分配的内存大小和该算子所需要采用的最优计算流程，而很多情况下内容在不断变化，而维度信息是相对稳定的，利用这一特性，我们可以做优化，减少运行时的耗时。

并非所有算子都有这个性质，比如unique算子需要从输入张量中取互不相同的元素出来组成输出张量，就无法单从输入维度计算维度信息，对于这些情况需要特别处理。

2.4 "复杂"的优化

张量计算很多情况下需要适当添加计算步骤来加速，使得程序变得复杂而难懂。

2.4.1 普通程序的优化

对普通程序而言，性能优化是一个使代码变"简洁"的过程，删除掉冗余计算之后，性能肯定比之前好，代码看上去也更舒服。
例如：

void lower1(char *s){
    long i;
    for(i = 0; i < strlen(s); i++){
        if(s[i] >= 'A' && s[i] <= 'Z'){
            s[i] -= ('A' - 'a');
        }
    }
}

strlen(s) 每次循环都计算，可以放到循环外面。优化后：

void lower1(char *s){
    long i;
    long sLength = strlen(s);
    for(i = 0; i < sLength; i++){
        if(s[i] >= 'A' && s[i] <= 'Z'){
            s[i] -= ('A' - 'a');
        }
    }
}

2.4.2 优化示例：两种矩阵乘法

我们以两种矩阵乘法为例，来看张量计算的优化。

简易版本V1

// 矩阵乘法 v1
void Matrix::multi(Tensor* C, const Tensor* A, const Tensor* B) {
    const auto a = A->host();
    const auto b = B->host();
    auto c       = C->host();

    const int h = A->length(0);
    const int k = A->length(1);
    const int w = B->length(1);

    const int aw = A->stride(0);
    const int bw = B->stride(0);
    const int cw = C->stride(0);

    MNN_ASSERT(k == B->length(0));

    for (int y=0; y < h; ++y) {
        const auto aLine = a + y * aw;
        auto cLine       = c + y * cw;
        for (int x=0; x < w; ++x) {
            auto bColumn = b + x;
            float sum    = 0.0f;
            for (int i = 0; i < k; ++i) {
                sum += aLine[i] * bColumn[i * bw];
            }
            cLine[x] = sum;
        }
    }
}

复杂版本V2

具体代码参见
https://github.com/alibaba/MNN/blob/master/source/backend/cpu/CPUMatMul.cpp

// 矩阵乘法 V2 （一部分）
    const Tensor* A = inputs[0];
    const Tensor* B = inputs[1];
    auto APtr = A->host();
    auto BPtr = B->host();
    Tensor* C       = outputs[0];
    auto CPtr = C->host();
    auto w0         = inputs[0]->length(1);
    auto h0         = inputs[0]->length(0);
    mFunction.clear();
    auto e = C->length(0);
    auto h = C->length(1);
    auto l = w0;
    std::shared_ptr AT(Tensor::createDevice({UP_DIV(l, 4), e, 4}));
    std::shared_ptr BT(Tensor::createDevice({UP_DIV(h, 4), UP_DIV(l, 4), 16}));
    std::shared_ptr CT(Tensor::createDevice({UP_DIV(h, 4), e, 4}));
    std::shared_ptr BTemp;
    if (l % 4 != 0) {
        BTemp.reset(Tensor::createDevice({UP_DIV(h, 4), l, 4}));
        auto res = backend()->onAcquireBuffer(BTemp.get(), Backend::DYNAMIC);
        if (!res) {
            return OUT_OF_MEMORY;
        }
    }
    auto res = backend()->onAcquireBuffer(BT.get(), Backend::DYNAMIC);
    if (!res) {
        return OUT_OF_MEMORY;
    }
    auto BTPtr = BT->host();
    float* BTempPtr = BTPtr;
    if(l % 4 != 0) {
        BTempPtr = BTemp->host();
    }
    mFunction.emplace_back([BPtr, BTempPtr, l, h] {
        MNNTensorConvertNHWCToNC4HW4(BTempPtr, BPtr, l, h);
    });
    if (l % 4 != 0) {
        mFunction.emplace_back([BTPtr, BTempPtr, l, h] {
            auto hC4 = UP_DIV(h, 4);
            auto lC4 = UP_DIV(l, 4);
            for (int y=0; yonReleaseBuffer(BTemp.get(), Backend::DYNAMIC);
    }
    res = backend()->onAcquireBuffer(AT.get(), Backend::DYNAMIC);
    res = res && backend()->onAcquireBuffer(CT.get(), Backend::DYNAMIC);
    if (!res) {
        return OUT_OF_MEMORY;
    }
    auto ATPtr = AT->host();
    mFunction.emplace_back([ATPtr, APtr, e, l]() {
        MNNTensorConvertNHWCToNC4HW4(ATPtr, APtr, e, l);
    });
    std::shared_ptr computor(new StrassenMatrixComputor(backend()));

    auto code = computor->onEncode({AT.get(), BT.get()}, {CT.get()});
    if (NO_ERROR != code) {
        return code;
    }
    auto CTPtr = CT->host();
    mFunction.emplace_back([computor, CPtr, CTPtr, e, h]() {
        computor->onExecute();
        MNNTensorConvertNC4HW4ToNHWC(CPtr, CTPtr, e, h);
    });
    backend()->onReleaseBuffer(AT.get(), Backend::DYNAMIC);
    backend()->onReleaseBuffer(BT.get(), Backend::DYNAMIC);
    backend()->onReleaseBuffer(CT.get(), Backend::DYNAMIC);
    //限于篇幅，这里只展示一部分代码，实际还有另外一大半就不展示了。

初看上去，v2版本流程比v1复杂多了。但同样单线程运行，v2版本大部分情况下速度是v1的10倍。

由于张量计算的优化是“复杂”的，针对单独张量计算函数，我们不能以将像传统程序优化一样去找冗余并清理，正确的方式请看下节。

3. 张量计算的优化

3.1 优化就是“修路”

以城市交通建设举例说明一下张量计算优化的基本思路。
比如下图，魏博下属有魏州、相州、博州、贝州、澶州，范阳下属有幽州、妫州、易州、定州、恒州。现在要让魏博的人民到范阳更方便，应该怎么做呢？

我们可以每两个州都修一条路，但这样需要25条路，成本高昂。现实中的我们的解决方案一般是这样的：
1、建一条高速路，起点站为S，终点站为D。
2、魏博各州与S连通。
3、范阳各州与D连通。

这样做的好处在于：
1、保证各州居民均能较快地到达。
2、集资打造一条高速路就可以，成本较低。

缺点在于，有些相邻比较近的州要绕远路（如图上的博州到易州）。

张量计算的优化就类似上面这个"修路"的过程，设计一系列高速计算模块，然后原始的计算转化为高速计算模块可解决的问题。

3.2 修高速——设计高性能计算模块

高性能的来源第一部分是硬件层面，在开发者层面无法参与，但需要深入了解。

第二部分是软件层面，主要分成三类策略：
第一类是相对固定的计算套路，比如汇编排列技巧、SIMD使用技巧等、GPU的调度技巧等等，这些套路需要举一反三，应用到自己的代码中。

第二类是内存访问与并发设计，有较简单的针对硬件特性的引用（比如GPU加速在高通GPU上用Image而不是用Buffer存储），也需要反复试验调试，在并行度与缓存友好中取折中的Schedule过程。

第三类是张量计算优化算法，如 Winograd 卷积计算，Strassen 矩阵乘，这些算法限定于固定的某类张量计算，但可以结合第一、二类策略广泛应用于不同的硬件上。

“修高速”是优化过程中最为重要与困难的任务，极其考验研发人员的智商与耐力。近些年来，多面体模型编译技术得到了不少发展，并以 Halide / TVM 知名度最广，这种技术可以自动地产生“高速路”，但性能与人们手工设计的仍然有差距，并且要达到较好的性能，人工且入的成本目前也不低。

3.3 连接高速——原始计算与高性能计算模块之间的转换

类似于高速路搭完之后，我们需要将居民点与高速连接，由于软件层面前两类策略的实施，高性能计算需要一些触发条件，或者称入口，随着所使用的具体硬件而不同，比如：
（1）ARM的 SIMD 运算浮点矩阵乘法要求把矩阵重排为一系列 (1, 4), (4, 4) 的小块
（2）ARMv8.2 的 SDOT 指令计算要求把矩阵重排为(4, 4), (4, 4)的小块
（3）分块后，需要申请若干缓存，以便逐块复制数据与计算
（4）使用 GPU 加速，需要创建 Kernel / Buffer，并上传数据到显存中

在高性能计算完成后，其产生的数据往往也不便于用户直接使用，需要作一些转换，使之用户可见；另外，在高性能计算过程产生的一些缓存也需要清理，这类似于一个下高速的过程，对应上文“上高速”的例子，分别的“下高速”操作为：
（1）将重排成 (1, 4) 小块的矩阵辅平
（2）将重排成 (4, 4) 小块的矩阵辅平
（3）销毁缓存
（4）将显存中的数据复制出来，销毁之前创建的Kernel/Buffer 对象。

3.4 优化方案实践——矩阵乘法

这里以上一节的矩阵乘法为例说明一个完整的张量计算优化方案。回到上节矩阵乘法的V2版本，那段复杂的代码是按如下流程编写的：

首先把 A , B 分别转到适宜计算的数据布局AT和BT，然后执行该布局下的矩阵计算，其中包含Strassen分解，分块，汇编等具体优化手段，最后把计算完成的矩阵CT转回原始的数据布局C。
这样我们付出 $O (e l) + O (e h) + O (l h)$ 的布局转换代价，换来核心计算 $O (e l h)$ 的数倍性能提升。

可能有人会注意到，在一些情况下，比如 $e, l, h$ 中有某个数为1，那么布局转换的代价就会超过运算的代价。因此，在必要的时候我们需要提供多种方案，在情况不同时采用。

4. 计算图的优化

对于单个张量计算而言，“上高速”——“跑高速”——“下高速”是一个完整链路，“上高速”、“下高速”相对于“跑高速”而言，时间一般比较少，也没有太多优化空间。而在深度学习模型的推理过程中，由于多个张量计算先后执行，就产生了与普通程序相似的冗余计算，在“不关注中间结果”的前提下，可以进行优化以进一步提升。

A = Input();
B = Const();
C = MatMul(A, B);
D = Const();
E = MatMul(C, D);

比如上面代码，矩阵乘之后接矩阵乘，且每个矩阵乘的输入之一是常量。展开之后类似这样：

A = Input();
B = Const();
AT = Convert(A);
BT = Convert(B)
CT = Strassen_MatMul(AT, BT);
C = Revert(CT);
CT = Convert(C);
D = Const();
DT = Convert(D);
ET = Strassen_MatMul(CT, DT);
E = Revert(ET);

很自然地我们会发现如下的冗余计算：

1、B、D 是常量，BT、DT 可以预先计算
2、CT -> C 和 C->CT 两步可以去掉

推理引擎除了提供一系列高效张量计算实现之外，冗余计算的清除也是非常重要的，主要的策略是：
1、“车同轨”：各类张量计算尽量按照相似的内存布局进行计算，减少切换成本。
2、“书同文”：将各类张量计算按一定的接口要求改造，便于调度模块根据这些接口进行冗余计算的清除。

具体到 MNN 中，表现为如下几个设计：

4.1 形实分离

MNN 要求所有算子实现的形状计算与内容计算分离，形状计算为各种硬件实现共用，内容计算由各类硬件抽象实现。
如 Pooling 算子的计算，被拆解为如下文件：
形状计算：

source/shape/ShapePool.cpp

各种硬件下的内容计算

source/backend/cpu/CPUPool.hpp  // ARM / x86 等实现
source/backend/opencl/execution/PoolExecution.hpp // 基于 OpenCL 标准的实现 
source/backend/vulkan/execution/VulkanPool.hpp // 基于 Vulkan 标准实现
source/backend/opengl/GLPool.cpp // 基于 OpenGL ES 3.1 的实现

这样做的好处是：
（1）减少异构计算支持的成本
（2）便于统一内存分配管理
（3）便于统一计算调度

4.2 NC4HW4布局

基于ARM / GPU 上的4单元SIMD，及大部分图像相关的算子可天然在通道并行的特性，MNN 对大部分CV相关算子采用NC4HW4 布局计算，这个布局设计可以在多数情况下减少内存布局转化的开销。

4.3 Resize机制 / 预推理机制

为了避免在推理中频繁申请和释放内存，减少异构计算中的冗余，MNN设计时引入一个预推理过程（接口上为 resize）。

这样做，可以在支持动态形状（即输入的形状可变的情况，允许运行时改变输入形状大小）的前提下达到如下目的：
（1）计算策略调度：根据输入形状决定一些算子的最优计算策略。
（2）进行内存管理：申请每个算子的输入输出Tensor内存与运算时所需的缓存，并按依赖关系复用中间算子的内存，这样既在运算过程中无内存申请/释放的损耗，也不会过多占用系统内存。
（3）冗余计算清除：在形状确定的情况下，部分算子的输出是固定的，如Priorbox，这些可以预先计算。另外对异构设备来说，如 Vulkan ，可以制作相关算子的命令缓冲（Command Buffer），填充参数等等，在执行过程中仅需提交 Command Buffer，将CPU-GPU的交互降到最低。

4.4 Fuse （算子融合）

在模型转换阶段，也即离线将一些算子合并或消除，如 scale 与 convolution 合并，relu 与 convolution 合并，这部分依赖于对具体算子的分析制定专家规则。

对于常用算子而言，MNN 在冗余计算的清除上已经做得比较好，但对于更复杂的算子处理上，仍有较多优化空间。业界也有基于编译技术进行冗余计算清除的，比如XLA(Tensorflow)，TVM，但目前主要局限于Fuse，且还是靠专业经验去堆，不见得有更简单的做法。此外除了冗余计算清除外，业界也有不少研究异构调度，将计算拆解后分配到不同硬件上，由于未有成熟方案，不多叙述。

5. 展望

关于张量计算领域的未来发展，目前主要关注点还在于深度学习推理引擎的优化，像软硬协同、编译优化、模型压缩被经常提及。这里我想谈一些不同的视角：
（1）近些年来高性能计算的硬件层出不穷，华为、高通、苹果、谷歌、MTK都有自研的NPU，大家都支持一些核心的Op，但支持粒度参差不齐，也没几家愿意开放指令集。这种碎片化的现状目前来看会长期存在，承认碎片化的现状，梳理各类张量计算的逻辑，使它们能基于几个相对固定的被硬件所支持的高性能计算模块去实现，对接各个厂商去实现这少量模块，相对于统一标准、基于编译技术实现跨硬件，目前来看是更现实更可行的做法。
（2）由于历史原因，在图像与机器学习领域，张量被定义为多维数组，而这种定义在处理形变时显得繁琐，我们需要大量的算子去支持缩放、平移、裁剪功能，是否有更好的定义与计算方式，值得进一步探讨。
（3）除了深度学习以外，还有更多应用张量计算的场景，如图形图像、科学计算等，但这些领域往往是使用单独的张量计算库，少见像深度学习框架那样的清除冗余的机制，也没有求导的能力。未来深度学习框架与这些领域打通，可以赋予它们学习能力，也可以进一步优化性能，统一调度硬件。Tensorflow 已经推出了 Tensorflow Graphics 以做尝试，但后效如何还需观察。

参考链接：
http://www.jos.org.cn/html/2018/8/5563.htm
https://halide-lang.org/docs/index.html
https://github.com/alibaba/MNN

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Qualcomm Hexagon DSP 与 AI Engine 架构深度分析：从微架构原理到 Android 部署实战观熵国产 NPU ×Android 推理优化人工智能架构 android
QualcommHexagonDSP与AIEngine架构深度分析：从微架构原理到Android部署实战关键词QualcommHexagon、AIEngine、HTA、HVX、HMX、Snapdragon、DSP推理加速、AIC、QNNSDK、Tensor编排、AndroidNNAPI、异构调度摘要HexagonDSP架构是QualcommSnapdragonSoC平台中长期演进的异构计算核心之一
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
华为 Mate 80 影像配置揭秘：硬软双升 RUZHUA 华为
7月7日，知名数码博主爆料了华为Mate80系列的影像配置，引发广泛关注。从曝光信息来看，Mate80系列在影像方面延续华为的技术探索，通过硬件升级与算法优化，力图为用户带来更出色的拍摄体验。爆料显示，Mate80系列主摄将采用5000万像素的1/1.28英寸超大底传感器，支持物理可变光圈与定制模组。这一配置虽未达到“超大杯”的极致堆料，但在影像硬件上的创新依旧可圈可点。其主摄传感器型号为SC59
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析观熵大模型高阶优化技术专题算法人工智能
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同、动态算力管理摘要在AI推理系统的生产级部署中，单一自动扩缩容机制已无法满足实际复杂环境中对资源利用率、任务延迟与系统稳定性的多重要求。特别是在GPU/NPU/CPU并存的异构计算集群中，运行
海岛分布式能源系统调度粒子群算法优化 hie98894 能源
海岛分布式能源系统调度粒子群算法优化PSO_0810/avgfitness_gen.xlsx,168268PSO_0810/fit_gen.xlsx,57153PSO_0810/myfunc_fit1.m,246PSO_0810/myfunc_fit2.m,1499PSO_0810/myfunc_fit3.m,499PSO_0810/PSO_0804.m,4468PSO_0810/PSO_0804
Elasticsearch：什么是搜索相关性？ Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎人工智能全文检索
搜索相关性定义搜索相关性衡量的是搜索引擎返回的搜索结果与用户查询和意图之间的匹配程度。搜索结果的质量取决于显示的信息与用户预期之间的契合度。提升搜索相关性和性能需要进行语言分析、排序算法优化以及考虑上下文因素。这些因素可能包括用户行为分析、位置信息、热门程度和搜索历史等。搜索相关性是客户体验中的关键因素，通过合理平衡，搜索体验可以同时满足企业和用户的需求。了解为什么相关性对搜索引擎至关重要，以及如
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
Apple SoC 图像 ISP 与 Neural Engine 联合优化案例分析：性能与质量平衡的实战经验观熵影像技术全景图谱：架构调优与实战接口隔离原则影像 Camera
AppleSoC图像ISP与NeuralEngine联合优化案例分析：性能与质量平衡的实战经验关键词：AppleSoC、ISP优化、NeuralEngine协同、图像处理性能、DeepFusion、SmartHDR、实时推理、多核异构计算、功耗管理摘要：随着图像计算复杂度的不断提升，AppleSoC中的ISP与NeuralEngine（NE）联合优化成为提升拍照性能和图像质量的关键路径。本文结合最
数据结构与算法：贪心算法的优化案例展示
数据结构与算法：贪心算法的优化案例展示关键词：贪心算法、局部最优、全局最优、活动选择问题、霍夫曼编码、硬币找零、算法优化摘要：贪心算法是计算机科学中最“接地气”的算法思想之一——它像极了我们日常生活中“走一步看一步，每次选当前最好”的决策方式。但这种“短视”的策略为何能在某些问题中得到全局最优解？它的优化边界在哪里？本文将通过5个经典案例，从生活场景到代码实现，一步步拆解贪心算法的核心逻辑与优化技
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
AI人工智能领域必备：AI芯片的关键作用 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 AI人工智能与大数据技术人工智能 ai
AI人工智能领域必备：AI芯片的关键作用关键词：AI芯片、算力、神经网络、能效比、专用架构、异构计算、存算一体摘要：在人工智能高速发展的今天，从手机里的“语音助手”到马路上的“自动驾驶汽车”，从医院的“智能影像诊断”到工厂的“机器人流水线”，AI技术的落地离不开一个“幕后大功臣”——AI芯片。本文将用“快递分拣工厂”“人脑神经村”等生活案例，带你一步一步理解AI芯片的核心作用、工作原理和未来趋势，
睿尔曼系列机器人——以创新驱动未来，重塑智能协作新生态（上） BFT白芙堂机器人人工智能睿尔曼机器人协作机器人机器学习复合机器人
在工业自动化与智能服务深度融合的浪潮中，协作机器人凭借其安全、灵活、易部署的特性，成为推动产业升级的核心力量。睿尔曼（RuiermanRobotics）作为中国协作机器人领域的领军品牌，始终以“让机器人触手可及”为使命，专注于轻量化、高精度、高性价比的协作机器人研发与生产。其产品矩阵覆盖工业制造、物流仓储、医疗健康、商业服务等多场景，通过模块化设计、智能算法优化和开放生态构建，为全球客户提供高效、
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
【算法设计与分析】（四）Strassen 矩阵珹洺 #算法设计与分析算法矩阵线性代数
【算法设计与分析】（四）Strassen矩阵前言一、传统矩阵乘法二、Strassen矩阵乘法1.算法步骤2.效率提升三、实际应用场景四、算法的局限性与改进前言上一篇博客我们以生动形象的例子和清晰的步骤，为大家详细讲解了二分搜索技术与大整数乘法。接下来，这篇博客将带大家深入探索**Strassen矩阵**乘法，感受算法优化魅力。我的个人主页，欢迎来阅读我的其他文章https://blog.csdn.
算法优化：前缀和+哈希表雨声敲敲，风声潇潇算法算法 java leetcode 性能优化哈希表
今天在leetcode上写到6952.统计趣味子数组的数目这道题的时候出现了超时问题，由此学习了前缀和+哈希表的方法。目前看到与此知识点相关的题目有如下：560.和为k的子数组，非常经典的前缀和+哈希表，可以从这一道题入手。6952.统计趣味子数组的数目，这道题比上一到稍微难一点，但是不至于困难。下面介绍一下前缀和+哈希表以560题为例，题目：给你一个整数数组nums和一个整数k，请你统计并返回该
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
异构计算解决方案（兼容不同硬件架构） ARM2NCWU 硬件架构
异构计算解决方案通过整合不同类型处理器（如CPU、GPU、NPU、FPGA等），实现硬件资源的高效协同与兼容，满足多样化计算需求。其核心技术与实践方案如下：一、硬件架构设计异构处理器组合‌主从协作模式‌：采用通用CPU（如ARMCortex-M3）作为主处理器，搭配专用协处理器（如MSP430微控制器）处理特定任务（如射频通信），通过串口/USB/以太网实现通信。众核架构‌：集成CPU、GPU、N
从源码到实践：Java集合框架面试核心知识点全解析码里看花‌ java java 面试开发语言
在Java开发中，集合框架（JavaCollectionsFramework）是最基础也最常用的工具集。无论是处理业务逻辑时的数据暂存，还是高性能场景下的算法优化，集合的使用都贯穿始终。因此，Java集合相关的面试题几乎是所有技术面试的“必考项”。本文将从底层原理、高频问题、常见误区三个维度，结合源码和实践场景，帮你彻底掌握集合框架的核心知识点。一、集合框架的底层逻辑：为什么需要不同的集合类？Ja
深度学习学习指南努力的Lorre 深度学习人工智能
本帖子将以本书的逻辑和顺序做一个梳理：CS基础->AI算法->模型压缩->异构计算->AI框架->AI编译器《DeepLearningSystems》(https://deeplearningsystems.ai/)CS基础推荐书单所需的编程语言(C/C++、Python)就不多讲了，数据结构算法也是大学基础课程，不多赘述。对于操作系统需要多了解，推荐多看一看《深入理解计算机系统》(传说中的面试圣
BLDC电机控制器下一个发展趋势是什么？ funny2024 大数据
【哔哥哔特导读】集成降本?优化算法?BLDC电机控制器更新迭代居然还有新花样......本栏目就邀请整机企业和半导体企业资深行业人士展开对话，一窥BLDC电机控制器的魅力所在，探讨BLDC电机技术创新、算法优化及产业链协同的奥秘。编者按：相比于传统的电机，BLDC电机具有不可比拟的优势。在智能化、工业自动化的今天，BLDC电机控制器在白电、新能源汽车、工业/人形机器人等领域有着广泛的应用前景和市场
复旦微ZYNQ SOC AXI_DMA高速数据传输实战指南芯作者 D1：ZYNQ设计 fpga开发
突破传统瓶颈：零拷贝+双缓冲实现2.4GB/s传输速率AXI_DMA在异构计算中的核心价值在复旦微ZYNQSOC系统中，AXI_DMA是连接PS（处理系统）和PL（可编程逻辑）的高速数据通道。本文通过创新性的零拷贝双缓冲架构，实现2.4GB/s的稳定传输速率，相比传统方案提升300%！我们将从硬件设计到软件优化，揭秘工业级DMA应用的完整开发流程。一、系统架构创新设计1.1传统DMA方案瓶颈分析方
Vue 性能优化超级土豆粉前端技术沉淀指南 vue.js 性能优化前端
目录Vue性能优化背景介绍虚拟DOM优化1.虚拟DOM原理2.Diff算法优化组件优化1.组件缓存2.异步组件数据优化1.计算属性缓存2.防抖和节流渲染优化1.v-show和v-if2.列表渲染优化打包优化1.路由懒加载2.组件按需加载常见问题1.内存泄漏2.大数据渲染面试题Vue性能优化背景介绍性能优化是Vue应用开发中的重要环节，良好的性能可以提升用户体验。Vue提供了多种性能优化的方式，包括
在Simulink中进行基于蚁群算法优化滤波器带宽的智能控制系统仿真 amy_mhd 算法前端数据库 simulink matlab
目录一、背景介绍二、所需工具和环境三、步骤详解步骤1：定义问题与目标示例：定义优化目标步骤2：准备数据集或模拟环境示例：生成测试信号步骤3：设计并实现蚁群算法示例：简单的蚁群算法实现步骤4：创建Simulink模型步骤5：添加滤波器模块示例：添加FIR滤波器步骤6：集成蚁群算法结果示例：MATLABFunctionBlock代码步骤7：设置仿真参数步骤8：运行仿真并分析结果四、总结蚁群算法（Ant
鸿蒙HarmonyOS 5 小游戏实践：数字华容道（附：源代码）我睡醒再说 HarmonyOS NETX原生态游戏 harmonyos 华为 ArKTS 应用开发游戏
数字拼图作为经典的益智游戏，其在鸿蒙OS平台上的实现不仅展现了声明式UI的开发优势，更通过丰富的交互设计和性能优化为用户带来沉浸式体验。本文将深入解析这款数字拼图游戏的技术实现，从数据模型设计、核心算法优化到多维度交互体验构建，为开发者呈现一个完整的鸿蒙应用开发案例。游戏架构与数据模型设计鸿蒙数字拼图游戏采用了清晰的MVC架构思想，将游戏逻辑与UI展示分离，通过状态管理实现数据与视图的自动同步。核
深入实战：ZYNQ中AXI BRAM打通PS与PL数据交互的高速通道芯作者 D1：ZYNQ设计 fpga开发智能硬件硬件工程
在ZYNQ异构计算平台上，高效的数据交互是发挥PS（处理器系统）与PL（可编程逻辑）协同计算优势的关键。本文将深入探讨利用AXIBRAM控制器实现PS与PL间共享内存通信的方案，提供详实的代码、创新优化思路及性能分析，助你构建高速数据通道。一、为何选择AXIBRAM？在ZYNQ中，PS与PL交互的常用方式包括：AXIDMA：适合大数据流传输AXIGPIO：仅适合小数据量控制AXIBRAM：低延迟、
算力新纪元前夜：AI 算力架构迎来迭代升级，三大技术突破开启产业新局 Finehoo 人工智能架构
当AI算力需求以年均300%的增速冲击基础设施极限时，全球科技界正屏息以待英伟达2025年GTC大会的到来。这场将于3月17日启幕的技术盛会，或将成为AI算力架构从"量变"到"质变"的转折点。结合行业动态与技术演进趋势，三大突破性方向正浮出水面，预示着产业格局的深度重构。一、异构计算架构的范式突破随着大模型参数突破万亿级，传统冯・诺依曼架构的"内存墙"问题愈发凸显。英伟达BlackwellUltr
基于沙猫群算法优化的正则化极限学习机(RELM)的回归预测智能算法研学社（Jack旭） #正则极限学习机(RELM)智能优化算法应用算法回归数据挖掘
基于沙猫群算法优化的正则化极限学习机(RELM)的回归预测文章目录基于沙猫群算法优化的正则化极限学习机(RELM)的回归预测1.RELM原理2.预测问题求解3.基于沙猫群算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN个训练样
基于战争策略算法优化的正则化极限学习机(RELM)的回归预测
基于战争策略算法优化的正则化极限学习机(RELM)的回归预测文章目录基于战争策略算法优化的正则化极限学习机(RELM)的回归预测1.RELM原理2.预测问题求解3.基于战争策略算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN个
Python 算法及其架构设计详解 conkl python知识 python 算法开发语言
文章目录一、算法基础与架构概述二、经典算法实现与分析1.排序算法-快速排序2.搜索算法-二分查找3.图算法-广度优先搜索(BFS)三、算法架构设计模式1.策略模式(StrategyPattern)2.管道-过滤器模式(Pipeline-FilterPattern)四、Python算法优化与性能分析1.使用内置数据结构和库2.性能分析工具3.算法优化示例五、总结在计算机科学领域，算法是解决特定问题的
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

浅淡深度学习的发机机——张量计算

浅淡深度学习的发机机——张量计算

1. 概念说明

1.1 张量

1.2 张量计算

1.3 计算图

2. 张量计算的特点

2.1 变化的运算量

2.2 校验困难与误差容忍

2.3 形实无关

2.4 "复杂"的优化

2.4.1 普通程序的优化

2.4.2 优化示例：两种矩阵乘法

简易版本V1

复杂版本V2

3. 张量计算的优化

3.1 优化就是“修路”

3.2 修高速——设计高性能计算模块

3.3 连接高速——原始计算与高性能计算模块之间的转换

3.4 优化方案实践——矩阵乘法

4. 计算图的优化

4.1 形实分离

4.2 NC4HW4布局

4.3 Resize机制 / 预推理机制

4.4 Fuse （算子融合）

5. 展望

你可能感兴趣的:(异构计算/算法优化)