早睡的叶子

深度学习编译器研究报告

深度学习编译器综合研究报告

本文主要参考了： The Deep Learning Compiler: A Comprehensive Survey

本文主要回答以下几个问题：

为什么需要dl compiler
当下流行的dl framwwork有哪些
深度学习硬件有三类都有哪些
dl compiler的关键组件和技术
流行的dl compiler 都有哪些，从四个方向说下它们优缺点
dl的研究方向和价值

文章目录

深度学习编译器综合研究报告
- 1. 为什么需要DL compiler
- 2. 当下流行的DL compiler都有哪些
- 3. 深度学习硬件有哪三类
- 4. `dl compiler`的关键组件和技术
- 5. 流行的`dl compiler` 都有哪些，从四个方向说下它们优缺点
- 6. `dl`的研究方向和价值

1. 为什么需要DL compiler

为了解决 DL 库和工具的缺点，以及减轻在每个 DL 硬件上手动优化 DL 模型的负担。

DL 编译器将 DL 框架中描述的模型定义作为输入，并在各种 DL 硬件上生成高效的代码实现作为输出。模型定义和具体代码实现之间的转换针对模型规范和硬件架构进行了高度优化。具体来说，它们结合了面向 DL 的优化，例如层和运算符融合，从而实现高效的代码生成。此外，现有的 DL 编译器还利用了来自通用编译器（例如 LLVM ）的成熟工具链，这在不同的硬件架构之间提供了更好的可移植性。与传统编译器类似，深度学习编译器也采用了包括前端、中间表示（IR）和后端的分层设计。然而，DL 编译器的独特之处在于多级 IR 的设计和 DL 特定的优化。

2. 当下流行的DL compiler都有哪些

TensorFlow： 在所有 DL 框架中，TensorFlow 对语言接口的支持最全面，包括 C++、Python、Java、Go、R 和 Haskell。 TensorFlow 使用了一个原始算子的数据流图，该算子用受限控制边扩展来表示可微程序 [78]。 TensorFlow Lite 专为移动和嵌入式深度学习而设计，并提供 Android 神经网络 API。为了降低使用 TensorFlow 的复杂性，Google 采用 Keras 作为 TensorFlow 核心的前端。此外，TensorFlow 中的 Eager-mode 应用了类似于 PyTorch 的方法来更好地支持动态计算图。

Keras ：Keras [19] 是一个高级神经网络库，用于快速构建 DL 模型，用纯 Python 编写。虽然 Keras 本身不是一个 DL 框架，但它提供了一个与 TensorFlow、MXNet、Theano 和 CNTK 集成的高级 API。借助 Keras，深度学习开发人员只需几行代码即可构建神经网络。此外，Keras 可以与其他常见的 DL 包集成，例如 scikit-learn。但是，Keras 由于过度封装，不够灵活，使得添加算子或获取底层数据信息变得过于困难

PyTorch： Facebook 用 Python 重写了基于 Lua 的深度学习框架 Torch，并在 Tensor 级别重构了所有模块，这导致了 PyTorch 的发布。作为最流行的动态框架，PyTorch 嵌入了用于在 Python 中构建动态数据流图的原语，其中控制流在 Python 解释器中执行。 PyTorch 1.0 集成了 PyTorch 0.4 和 Caffe2 的代码库，创建了一个统一的框架。这使得 PyTorch 能够吸收 Caffe2 的优势，以支持高效的图形执行和移动部署。 FastAI [39] 是基于 PyTorch 上层封装的高级 API 层。它完全借用 Keras 来简化 PyTorch 的使用。

Caffe/Caffe2： Caffe [42] 由加州大学伯克利分校设计用于深度学习和图像分类。 Caffe 具有命令行、Python 和 MATLAB API。 Caffe 的简洁性使得源代码易于扩展，适合开发者深入分析。所以，主要定位于研究，这使它从开始流行到现在。 Caffe2 建立在原始的 Caffe 项目之上。 Caffe2 在代码结构上与 TensorFlow 类似，但 API 更轻，更容易访问计算图中的中间结果

MXNet ： MXNet 支持多种语言 API，包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript。它旨在具有可扩展性，并从减少数据加载和 I/O 复杂性的角度进行设计 [16]。 MXNet 提供了不同的范例：像 Caffe 和 Tensorflow 这样的声明式编程以及像 PyTorch 这样的命令式编程。 2017 年 12 月，亚马逊和微软联合发布了基于 MXNet 的 Gluon [69]，这是一个类似于 Keras 和 FastAI 的高级接口。 Gluon 支持灵活的动态图和高效的静态图。

CNTK： CNTK 可以通过 Python、C++ 和 C# API 或它自己的脚本语言（即 BrainScript）来使用。 CNTK 被设计为易于使用且可用于生产中的大规模数据 [37]。但是，CNTK 还不支持 ARM 架构，这限制了它在移动设备上的使用。它使用类似于 TensorFlow 和 Caffe 的静态计算图，其中 DL 模型被视为通过有向图的一系列计算步骤。

PaddlePaddle： PaddlePaddle [11] 的原始设计类似于 Caffe，其中每个模型都可以表示为一组层。然而，PaddlePaddle v2 参考了 TensorFlow 采用了算子的概念，将层分解为更细粒度的算子，从而支持更复杂的 DL 模型。 PaddlePaddle Fluid 与 PyTorch 类似，因为它提供了自己的解释器，从而避免了 Python 解释器的有限性能。

ONNX： 开放式神经网络交换（ONNX）[66] 定义了一个可扩展的计算图模型，因此由不同 DL 框架构建的计算图可以很容易地转换为 ONNX。使用 ONNX，在 DL 框架之间转换模型变得更加容易。例如，它允许开发人员构建一个 MXNet 模型，然后使用 PyTorch 运行该模型进行推理。如图 1 所示，ONNX 已经集成到 PyTorch、MXNet、PaddlePaddle 等。对于尚不直接支持的几个 DL 框架（例如 TensorFlow 和 Keras），ONNX 为其添加了转换器

Historical Frameworks ： 由于 DL 社区的快速发展，许多历史上的 DL 框架不再活跃。例如，PyTorch 已经取代了 Torch [20]。作为最古老的深度学习框架之一，Theano [86] 不再处于维护状态。 Deeplearning4J [85] 是一个基于 Java 和 Scala 的分布式深度学习框架，但是由于缺乏大型开发人员社区而变得不活跃。 Chainer [87] 曾经是动态计算图的首选框架，但被具有相似功能的 MXNet、PyTorch 和 TensorFlow 所取代

3. 深度学习硬件有哪三类

通用硬件： cpu/gpu

深度学习模型最具代表性的通用硬件是图形处理单元（GPU），它通过多核架构实现了高并行性。例如，自 Volta 架构以来，Nvidia GPU 就引入了张量核心。张量核可以并行加速混合精度矩阵乘法和累加计算，这在训练和推理期间广泛用于 DL 模型。与硬件协同优化，NVIDIA 还推出了高度优化的 DL 库和工具，例如 cuDNN [18] 和 TensorRT [73]，以进一步加速 DL 模型的计算

DL模型专用硬件： npt/tpu

专用硬件为深度学习计算完全定制，以将性能和能源效率提高到极致。 DL 应用程序和算法的快速扩展促使许多初创公司开发专用的 DL 硬件（例如 Graphcore GC2、Cambricon MLU270）。此外，传统硬件公司（如英特尔 NNP、高通 Cloud AI 100）和云服务商（如谷歌 TPU、亚马逊 Inferentia、阿里巴巴含光）也在这一领域进行了投资。最著名的专用 DL 硬件是 Google 的 TPU 系列。 TPU 包括矩阵乘法器单元 (MXU)、统一缓冲区 (UB) 和激活单元 (AU)，它们由主机处理器使用 CISC 指令驱动。 MXU 主要由一个脉动阵列组成，该阵列在执行矩阵乘法时针对功率和面积效率进行了优化。与 CPU 和 GPU 相比，TPU 仍然是可编程的，但使用矩阵作为基元而不是向量或标量。 Amazon Inferentia 最近也备受关注。该芯片有四个神经核，专为张量级操作而设计，并且它具有大的片上缓存以避免频繁的主内存访问

神经网络硬件

神经形态芯片使用电子技术来模拟生物大脑。这类代表产品是 IBM 的 TrueNorth 和英特尔的 Loihi。神经形态芯片（例如 TrueNorth）在其人工神经元之间具有非常高的连接性。神经形态芯片还复制了类似于脑组织的结构：神经元可以同时存储和处理数据。传统芯片将处理器和内存分布在不同的位置，但神经形态芯片通常有很多微处理器，每个微处理器都有少量的本地内存。相比 TrueNorth，Loihi 的学习能力更类似于大脑。 Loihi 引入了脉冲时间依赖性突触可塑性模型 (STDP)，这是一种通过突触前和突触后脉冲的相对时间来调节突触强度的机制。然而，神经形态芯片距离大规模商业化生产还很遥远。尽管如此，在计算机科学领域，神经形态芯片可以帮助捕捉被常规深度学习模型忽略的快速、终身学习的过程，而在神经学领域，它们有助于弄清楚大脑的各个部分是如何工作的共同创造思想、感觉甚至意识

4. `dl compiler`的关键组件和技术

1. **High-level IR ： 负责抽象硬件无关的图结构**

为了克服传统编译器采用的 IR 限制 DL 模型中使用的复杂计算的表达的限制，现有的 DL 编译器利用具有特殊设计的高级 IR（称为图形 IR）来进行有效的代码优化。

图 IR 的表示。图 IR 的表示影响图 IR 的表达能力，也决定了 DL 编译器分析图 IR 的方式。

Low-level IR：硬件相关的IR表示方法。

低级 IR 的实现。低级 IR 以比高级 IR 更细粒度的表示形式描述了 DL 模型的计算，这通过提供接口来调整计算和内存访问来实现目标相关的优化。

Frontend Optimizations

构建计算图后，前端应用图级优化。许多优化更容易在图级别识别和执行，因为图提供了计算的全局视图。这些优化只适用于计算图，而不是后端的实现。因此它们是独立于硬件的，可以应用于各种后端目标。前端优化通常由 pass 定义，并且可以通过遍历计算图的节点并执行图转换来应用。前端提供

1）从计算图中捕获特定特征和

2）重写图以进行优化的方法。除了预定义的通行证，开发人员还可以在前端定义自定义的通行证。一旦将 DL 模型导入并转换为计算图，大多数 DL 编译器就可以确定每个操作的输入张量和输出张量的形状。此功能允许 DL 编译器根据形状信息执行优化。

前端优化分为三类：1）节点级优化，2）块级（窥孔，本地）优化，3）数据流级（全局）优化

Backend Optimizations

DL 编译器的后端通常包括各种特定于硬件的优化、自动调整技术和优化的内核库。特定于硬件的优化可以为不同的硬件目标高效地生成代码。然而，自动调整在编译器后端是必不可少的，以减轻手动获取最佳参数配置的工作。此外，高度优化的内核库也广泛用于通用处理器和其他定制的深度学习加速器

DL 编译器的通用设计架构主要包含两部分：编译器前端和编译器后端，如图 2 所示。中间表示 (IR) 分布在前端和后端。通常，IR 是程序的抽象，用于程序优化。具体来说，DL 模型在 DL 编译器中被转换为多级 IR，其中高级 IR 驻留在前端，低级 IR 驻留在后端。基于高级 IR，编译器前端负责与硬件无关的转换和优化。基于低级 IR，编译器后端负责特定于硬件的优化、代码生成和编译。

5. 流行的`dl compiler` 都有哪些，从四个方向说下它们优缺点

流行的DL compiler有： TVM、nGraph、Tensor Comprehension (TC)、Glow 和 XLA。

四个方向分别是： frontend,backend, IR, and optimizations

6. `dl`的研究方向和价值

Dynamic shape and pre/post processing

动态模型在深度学习领域变得越来越流行，其输入形状甚至模型本身在执行过程中可能会发生变化。特别是在 NLP 领域，模型可以接受各种形状的输入，这对 DL 编译器来说是一个挑战，因为数据的形状在运行之前是未知的。现有的 DL 编译器需要更多的研究工作来有效地支持新兴动态模型的动态形状。此外，随着未来的 DL 模型变得更加复杂，它们的整个控制流程可能不可避免地包括复杂的预处理/后处理程序。目前，大多数 DL 编译器都使用 Python 作为其编程语言，当由 Python 解释器执行时，预处理/后处理可能会成为性能瓶颈。现有的深度学习编译器尚未考虑到这种潜在的性能瓶颈。支持 DL 编译器中的整个控制流，可以与 DL 模型一起表达和优化前/后处理，这为模型部署中的性能加速开辟了新的机会

Advanced auto-tuning

现有的自动调整技术专注于优化单个算子。然而，局部最优的组合不会导致全局最优。例如，应用于不同数据布局的两个相邻运算符可以一起调整，而无需在两者之间引入额外的内存转换。此外，随着边缘计算的兴起，执行时间不仅是 DL 编译器的优化目标。在自动调整中还应考虑新的优化目标，例如内存占用和能耗。特别是对于基于 ML 的自动调整技术，有几个方向值得进一步探索。首先，机器学习技术可以应用于自动调整的其他阶段，而不是成本模型。例如，在选择编译器选项和优化计划的阶段，可以使用 ML 技术直接预测可能性并开发算法以确定最终配置。其次，可以基于领域知识改进基于 ML 的自动调整技术。例如，在自动调整技术中结合特征工程（选择特征来表示程序）[99] 可能是实现更好调整结果的潜在方向

Polyhedral model

在深度学习编译器的设计中结合多面体模型和自动调整技术以提高效率是一个很有前途的研究方向。一方面，可以应用自动调优，通过重用前面的方法来最小化多面体 JIT 编译的开销配置。另一方面，多面体模型可以用来进行自动调度，可以减少自动调优的搜索空间。在 DL 编译器中应用多面体模型的另一个挑战是支持稀疏张量。一般来说，稀疏张量的格式（例如 CSF [84]）用不再是线性的索引数组（例如，a[b[i]]）来表示循环索引。这种间接索引寻址会导致非仿射下标表达式和循环边界，从而禁止多面体模型的循环优化 [14, 90]。幸运的是，多面体社区在支持稀疏张量方面取得了进展 [94, 95]，并且集成多面体模型的最新进展可以增加 DL 编译器的性能机会。

Subgraph partitioning

支持子图划分的 DL 编译器可以将计算图划分为多个子图，并且可以以不同的方式对子图进行处理。子图划分为 DL 编译器提供了更多的研究机会。首先，它开辟了集成图形库以进行优化的可能性。以 nGraph 和 DNNL 为例，DNNL 是一个 DL 库，它利用大量高度优化的内核进行图形优化。 DNNL 与 nGraph 的集成使 DNNL 能够加速 nGraph 生成的子图的执行。其次，它开辟了异构和并行执行的可能性。一旦计算图被划分为子图，不同子图的执行可以同时分配给异构硬件目标。以边缘设备为例，它的计算单元可能由 ARM CPU、Mail GPU、DSP 和可能的 NPU 组成。从有效利用所有计算单元的 DL 编译器生成子图可以显着加速 DL 任务。

Quantization

DL 框架中应用的传统量化策略基于一组固定的方案和数据类型，几乎没有针对在不同硬件上运行的代码进行定制。然而，在 DL 编译器中支持量化可以在编译期间利用优化机会来获得更有效的量化策略。例如，Relay [78] 提供了一个量化重写流程，可以为各种方案自动生成量化代码。为了支持量化，DL 编译器需要解决几个挑战。第一个挑战是如何在没有大量工程工作的情况下实现新的量化算子。 AWS 的尝试指出了一个可能的方向，即利用方言的概念，在基本算子上实现新的算子，从而可以重用图级和算子级的优化。第二个挑战是编译期间量化和其他优化之间的相互作用。例如，确定量化的适当阶段以及与算子融合等优化进行协作需要未来的研究调查

Unified optimizations

尽管现有的深度学习编译器在计算图优化和硬件特定优化方面都采用了类似的设计，但每种编译器在某些方面都有自己的优势。缺少一种共享最先进优化的方法，以及跨现有编译器对新兴硬件目标的支持。我们提倡统一现有 DL 编译器的优化，以便可以重用每个 DL 编译器中采用的最佳实践。此外，统一深度学习编译器的优化可以积累强大的力量来影响通用和专用深度学习加速器的设计，并为深度学习编译器和硬件的高效协同设计提供环境。目前，Google MLIR 是朝着这个方向发展的一个很有前景的举措。它提供了多级 IR 的基础设施，并包含 IR 规范和工具包，用于在每个级别跨 IR 执行转换。它还提供灵活的方言，以便每个 DL 编译器都可以为高级和低级 IR 构建其定制的方言。通过跨方言的转换，一个深度学习编译器的优化可以被另一个编译器重用。然而，方言的转变需要进一步的研究努力，以减少对精致设计的依赖。

Differentiable programming

可微编程是一种编程范式，其中程序是完全可微的。用可微分编程范式编写的算法可以自动微分，这对 DL 社区很有吸引力。许多编译器项目都采用了可微分编程，例如 Myia [89]、Flux [40] 和 Julia [13]。不幸的是，现有的深度学习编译器几乎不支持差分编程。对于现有的深度学习编译器来说，支持差分编程是相当具有挑战性的。困难不仅来自数据结构，还来自语言语义。例如，要实现从 Julia 到 XLA HLO IR 的转换，挑战之一 [24] 是 Julia 使用的命令式语言和 XLA 使用的符号语言之间的控制流不同。为了高效地使用 HLO IR，编译器还需要为 Julia 提供操作抽象，以支持 XLA 的特定语义，例如 MapReduce 和广播。此外，Julia 和 XLA 区分语义的差异，也需要编译器设计的重大改变

Privacy protection

在边缘云系统中，DL模型通常被分成两半，每个部分模型分别运行在边缘设备和云服务上，这样可以提供更好的响应延迟和更少的通信带宽消耗。然而，边缘云系统的缺点之一是用户隐私变得容易受到攻击。原因是攻击者可以截获从边缘设备发送到云端的中间结果，然后使用中间结果训练另一个可以揭示偏离原始用户任务的隐私信息的模型。为了保护边缘云系统中的隐私，现有方法提出在中间结果中添加具有特殊统计属性的噪声，这可以降低攻击者任务的准确性，而不会严重降低用户任务的准确性。然而，困难在于确定应该插入噪声的层，这需要大量的劳动来确定最佳层。上述困难为 DL 编译器提供了一个很好的机会来支持隐私保护，因为编译器维护了 DL 模型的丰富信息，可以自动引导跨层的噪声插入

Training support

通常，当前的 DL 编译器对模型训练的支持要少得多。总之，当前的深度学习编译器主要专注于弥合将深度学习模型有效地部署到各种硬件上的差距，因此他们选择推理作为主要优化目标。然而，扩展 DL 编译器的能力以支持模型训练将开辟大量研究机会，例如梯度算子的优化和高阶自动微分。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

深度学习编译器研究报告

深度学习编译器综合研究报告

文章目录

1. 为什么需要DL compiler

2. 当下流行的DL compiler都有哪些

3. 深度学习硬件有哪三类

4. dl compiler的关键组件和技术

5. 流行的dl compiler 都有哪些，从四个方向说下它们优缺点

6. dl的研究方向和价值

你可能感兴趣的:(#,C,C++,深度学习,tensorflow,人工智能)

4. `dl compiler`的关键组件和技术

5. 流行的`dl compiler` 都有哪些，从四个方向说下它们优缺点

6. `dl`的研究方向和价值