夏风喃喃

NVDLA学习笔记（1）

作者：夏风喃喃
参考：http://nvdla.org/index.html

NVIDIA 深度学习加速器（NVDLA）是一个免费和开放的架构，促进设计深度学习推理加速器的标准方法。NVDLA 采用模块化架构，可扩展、高度可配置，旨在简化集成性和便携性。硬件支持广泛的 IoT 设备。

文章目录

NVDLA学习笔记（1）
- NVDLA入门
- - 一. 概述
  - 二. 使用 NVDLA 加速深度学习推理
  - - 2.1 小 NVDLA 模型
    - 2.2 大 NVDLA 模型
  - 三. 硬件架构
  - - 3.1 连接
    - 3.2 组件
    - - 3.2.1 卷积（Convolution）
      - 3.2.2 单数据点处理器（Single Data Point Processor）
      - 3.2.3 平面数据处理器（Planar Data Processor）
      - 3.2.4 跨通道数据处理器（Cross-channel Data Processor）
      - 3.2.5 数据Reshape引擎（Data Reshape Engine）
      - 3.2.6 Bridge DMA
    - 3.3 可配置性
  - 四. 软件设计
  - - 4.1 编译工具：模型创建和编译
    - 4.2 Runtime环境：设备上模型推理
  - 五. NVDLA 系统集成
  - - 5.1 调整问题
    - - 5.1.1 对于任何给定的瞬时所需的工作量，需要什么数学精度？
      - 5.1.2 MAC单位的数量和所需的内存带宽是多少？
      - 5.1.3 是否需要芯片上的SRAM？
    - 5.2 NVDLA的示例面积和性能
    - 5.3 示例平台
    - - 5.3.1 仿真
      - 5.3.2 FPGA
    - 5.4 模型
    - - 5.4.1 Verilog 模型
      - 5.4.2 仿真模型和验证套件
    - 5.5 软件

NVDLA入门

一. 概述

深度学习推理的大部分计算工作基于数学操作，这些操作主要可分为四个部分：卷积，激活，池化和归一化。这些操作具有一些特点，使其特别适合特殊用途的硬件实现，它们的内存访问模式非常可预测，并且很容易并行。NVIDIA深度学习加速器（NVDLA）项目促进了标准化、开放的架构，以满足推理的计算需求。NVDLA 架构既可扩展又高度可配置，模块化设计保持灵活性，简化集成。标准化深度学习加速可促进与大多数现代深度学习网络的互操作性，有助于机器学习的统一规模增长。

NVDLA 硬件提供简单、灵活、稳健的推理加速解决方案。它支持广泛的性能水平和易扩展的应用程序，从更小、对成本敏感的物联网（IoT）设备到面向性能的 IoT 设备。NVDLA 是一套基于开放行业标准的 IP 核心模型，Verilog 模型是 RTL 形式的综合和仿真模型，TLM SystemC 仿真模型可用于软件开发、系统集成和测试。 NVDLA 软件生态系统包括设备内软件堆栈（开源发布的一部分）、构建包含深度学习的新模型的完整训练基础架构，以及将现有模型转换为设备上软件可用的形式的解析器。

二. 使用 NVDLA 加速深度学习推理

NVDLA 引入了模块化架构，旨在简化配置、集成和便携性，它暴露了用于加速核心深度学习推理操作的构建基块。NVDLA 硬件由以下组件组成：

Convolution Core——优化的高性能卷积引擎。
Single Data Processor——用于激活功能的单点查找引擎。
Planar Data Processor——用于池化的平面平均引擎。
Channel Data Processor——用于高级归一化功能的多通道平均引擎。
Dedicated Memory and Data Reshape Engines——用于张量改变形状和复制操作的内存转换加速。

每个块都是分离和独立配置的。例如，无需池化的系统可以完全删除平面平均引擎；或者，需要额外卷积性能的系统可以在不修改加速器中其他单元的情况下，提高卷积单元的性能。每个单元的调度操作权下放给协处理器或CPU；它们在极其精细的调度边界上运行，每个单元独立运行。这种严格管理的调度要求可以作为 NVDLA 子系统的一部分，并添加专门的管理协处理器（"headed"实现），或者此功能可以与主系统处理器（"headless"实现）的更高级别的驱动程序实现融合。这使得相同的 NVDLA 硬件架构能够满足各种实现大小。

NVDLA 硬件使用标准实践与系统其他部分进行接口：一个控制通道实现一个寄存器文件和中断接口，并使用一对标准 AXI 总线接口与内存连接。主内存接口旨在连接到系统的更宽的内存系统，包括系统 DRAM；此内存接口应与系统的 CPU 和 I/O 外设共享。第二个内存接口是可选的，并允许连接到高带宽内存，可以专用于 NVDLA 或计算机视觉子系统。此选项用于异构存储接口，可为在不同类型的主机系统之间扩展提供额外的灵活性。

典型的推理流程始于 NVDLA 管理处理器（无论是"headed"实现中的微控制器，还是"headless"实现中的主CPU）发送一个硬件层的配置，然后发送"activate"命令。如果数据依赖性不排除这种情况，则可以将多个硬件层发送到不同的引擎并同时激活（即，如果存在另一个层，其输入不依赖于上一层的输出）。由于每个引擎的配置寄存器都有双缓冲，因此它还可以捕获第二层的配置，以便在激活层完成后立即开始处理。一旦硬件引擎完成激活任务后，将发送中断给管理处理器以报告完成，然后管理处理器将再次开始处理。这种命令——执行——中断流重复，直到整个网络上的推论完成。

NVDLA 实现通常分为两类：

headless——NVDLA硬件的逐个单元管理发生在主系统处理器上。
headed——将高中断频率的任务委托给与NVDLA子系统紧密耦合的配套微控制器。

注意：NVDLA 的初始开源版本将只提供"headless"模式的软件解决方案，"headed"模式驱动程序将在稍后时间出现。

图1中的小型系统模型（下图）显示了headless NVDLA 实现的示例，而大系统模型显示了headed实现。小型模型表示 NVDLA 实现，用于更具有成本敏感性的目的构建设备。大型系统模型的特点是增加了专用控制协处理器和高带宽 SRAM 以支持 NVDLA 子系统。大型系统模型更面向高性能的 IoT 设备，这些设备可以同时执行许多任务。

2.1 小 NVDLA 模型

小型 NVDLA 模型在以前不可行的领域开辟了深度学习技术。此模型非常适合对成本敏感的互联物联网（IoT）类设备、AI 和自动化导向系统，这些系统具有明确的任务，其中成本、面积和功耗是主要驱动因素。节省（在成本、面积和功耗方面）是通过 NVDLA 可配置资源实现的。神经网络模型可进行预先编译和性能优化，使较大的模型能够"消减"并降低负载复杂性；这反过来又使 NVDLA 实现缩小，其中模型消耗更少的存储空间，并且系统软件加载和处理的时间更少。

这些专用系统通常一次只执行一项任务，因此，在 NVDLA 运行期间牺牲系统性能通常不是一个重要问题。与这些系统相关的相对便宜的上下文切换机（有时是由于处理器架构选择的结果，有时是由于使用 FreeRTOS 等系统进行任务管理）导致主处理器不会因为服务大量 NVDLA 中断而承受过重的负担。这消除了对额外微控制器的需求，主处理器同时执行粗粒式调度和内存分配，以及细粒式的 NVDLA 管理。

通常，遵循小型 NVDLA 模型的系统将不包括可选的第二个内存接口。当整体系统性能不那么重要时，没有高速存储路径的影响不太可能是至关重要的。在此类系统中，系统内存（通常是 DRAM）的耗电量可能低于 SRAM，因此使用系统内存作为计算缓存的功效更高。

2.2 大 NVDLA 模型

当主要强调高性能和多功能性时，大型 NVDLA 模型是更好的选择。面向性能的物联网系统可以在许多不同的网络拓扑中执行推理；因此，这些系统必须保持高度的灵活性。此外，这些系统可能同时执行许多任务，而不是序列化推理操作，因此推理操作不得消耗主机上太多的处理能力。为了满足这些需求，NVDLA 硬件包括用于专用高带宽 SRAM 的第二个（可选）内存接口，并能够与专用控制协处理器（微控制器）连接，以限制主处理器上的中断负载。

在实现时，NVDLA 上高带宽 SRAM 连接到快速内存总线接口的端口。此 SRAM 被 NVDLA 用作缓存；可选地，它可以由系统上其他高性能计算机视觉相关组件共享，以进一步减少主系统内存（Sys DRAM）的流量。

NVDLA 协处理器的要求相当典型；因此，有许多通用处理器是适当的（例如，基于 RISC-V 的 PicoRV32 处理器、ARM Cortex-M 或Cortex-R 处理器，甚至内部微控制器设计）。使用专用协处理器时，主处理器仍处理与管理 NVDLA 相关的某些任务。例如，虽然协处理器负责 NVDLA 硬件的调度和细粒度编程，但主机仍将负责 NVDLA 硬件上的粗粒度调度、NVDLA 内存访问 IOMMU 映射（必要时）、NVDLA 输入数据和固定权重阵列的内存分配以及 NVDLA 上运行的其他系统组件和任务之间的同步。

三. 硬件架构

NVDLA 架构可以两种操作模式进行编程： independent mode和fused mode。

Independent. 独立操作时，每个功能块都配置为执行时间和内容，每个块都执行其分配的任务（类似于深度学习框架中的独立层）。独立操作的开始和结束伴随着分配的块执行内存到内存操作，进出主系统内存或专用 SRAM 内存。
Fused. 融合操作类似于独立操作，但是，某些块可以组装为管道。这可以通过绕过内存往返来提高性能，而是让块通过小型 FIFO 相互通信（即卷积内核可以将数据传递给Single Data Point Processor(SDP)，该处理器可以将数据传递给Planar Data Processor(PDP)，然后传递给Cross-channel Data Processor(CDP)）。

3.1 连接

NVDLA 与系统的其他部分实现了三个主要连接：

Configuration Space Bus (CSB) interface. 此接口是一个同步、低带宽、低功耗、32 位控制总线，设计用于 CPU 访问 NVDLA 配置寄存器。NVDLA 在 CSB 接口中充当从设备。CSB 实现了非常简单的接口协议，因此可以轻松地将其转换为 AMBA、OCP 或具有简单垫片层的任何其他系统总线。
Interrupt interface. NVDLA 硬件包括 1 位级别驱动中断。当任务完成或发生错误时，中断线被断言。
Data Backbone (DBB) interface. DBB 接口连接 NVDLA 和主系统内存子系统。它是一个同步、高速和高度可配置的数据总线。可以指定它具有不同的地址大小、不同的数据大小，并根据系统的要求发出不同大小的请求。数据骨干接口是一个简单的接口协议，类似于 AXI（并且可在符合 AXI 的系统中轻松使用）。

DBB 界面具有可选的第二个连接，当有第二个内存路径可用时，可以使用该连接。此连接在设计上与主 DBB 接口相同，并用于芯片上 SRAM，可提供更高的吞吐量和更低的访问延迟。NVDLA 无需第二个 DBB 接口即可正常工作，不需要此内存接口的系统可以通过删除该接口来节省面积。

3.2 组件

NVDLA 架构中的每个组件都存在，以支持深度神经网络推理中不可或缺的特定操作。以下描述提供了每个块的简要功能概述，包括映射到它们上的 TensorFlow 操作。虽然 TensorFlow 操作是作为示例提供的，但 NVDLA 硬件支持其他深度学习框架。

3.2.1 卷积（Convolution）

卷积操作适用于两组数据：一组离线训练的"权重"（每次推理之间保持不变），另一组输入"特征"数据（随网络输入而变化）。卷积引擎将参数暴露在高效率的硬件上，以映射许多不同大小的卷积。NVDLA 卷积引擎包括优化，以改善性能，而不是天真的卷积实现。支持稀疏的权重压缩可节省内存带宽。内置的 Winograd 卷积支持可提高某些尺寸过滤器的计算效率。批次卷积，可在并行运行多个推理时重复使用权重来节省额外的内存带宽。

为了避免重复访问系统内存，NVDLA 卷积引擎具有内部 RAM，用于权重和输入特征存储，称为 “卷积缓冲器”。此设计大大提高了内存效率，而不是在需要权重或特征的每个独立时间向系统内存控制器发送请求。

卷积单元映射到 TensorFlow 操作，如 .tf.nn.conv2d

3.2.2 单数据点处理器（Single Data Point Processor）

单数据点处理器（SDP）允许将线性和非线性函数应用于单个数据点。这在 CNN 系统中卷积后通常立即使用。SDP 有一个查找表来实现非线性功能，或者对于线性函数，它支持简单的偏置和缩放。此组合可以支持最常见的激活函数，以及其他元素操作，包括 ReLU、PReLU、精密缩放、批次归一化、偏置添加或其他复杂的非线性函数，如sigmoid或tanh函数。

SDP 映射到TensorFlow操作，包括tf.nn.batch_normalization ，tf.nn.bias_add，tf.nn.elu，tf.nn.relu，tf.sigmoid，tf.tanh等等。

3.2.3 平面数据处理器（Planar Data Processor）

平面数据处理器（PDP）支持 CNN 应用程序中常见的特定空间操作。它可以在运行时配置以支持不同的池化组大小，并支持三个池化函数：最大池化、最小池化和平均池化。

PDP 映射到tf.nn.avg_pool, tf.nn.max_pool和tf.nn.pool操作。

3.2.4 跨通道数据处理器（Cross-channel Data Processor）

跨通道数据处理器（CDP）是一个专门单元，旨在应用局部响应归一化（LRN）函数 —— 一种在通道维度上运行的特殊归一化函数，而不是空间维度。

CDP 映射到函数tf.nn.local_response_normalization。

3.2.5 数据Reshape引擎（Data Reshape Engine）

数据Reshape引擎执行数据格式转换（例如，拆分或切片、合并、收缩、变形-转置）。在卷积网络上执行推理的过程中，通常需要重新配置或重新变形内存中的数据。例如，"切片"操作可用于分离图像的不同特征或空间区域，"变形-转置"操作（在反卷积网络中常见）创建的输出数据的尺寸大于输入数据集。

数据Reshape引擎映射到 TensorFlow 操作上，例如tf.nn.conv2d_transpose, tf.concat, tf.slice和tf.transpose。

3.2.6 Bridge DMA

Bridge DMA （BDMA）模块提供数据复制引擎，用于在系统 DRAM 和专用高性能内存接口之间移动数据；这是一个加速路径，以在这两个否则非连接的内存系统间移动数据。

3.3 可配置性

NVDLA 具有广泛的硬件参数，可配置以平衡面积、功耗和性能。以下是这些选项的简短列表。

数据类型。NVDLA 原生地支持其各种功能单元的各种数据类型；可以选择其中的一个子集来节约面积。可以选择的数据类型包括二进制，int4，int8，int16，int32，fp16，fp32和fp64。
输入图像内存格式。NVDLA 可以支持平面图像、半平面图像或其他包装内存格式。这些不同的模式可以启用或禁用以节约面积。
权重压缩。NVDLA 具有通过稀疏存储卷积重量来减少内存带宽的机制。此功能可以禁用以节约面积。
Winograd 卷积。Winograd算法是某些维度卷积的优化。NVDLA 在支持或不支持其的情况下均可构建。
批次卷积。分批是一种节省内存带宽的功能。NVDLA 可以在支持或不支持的情况下构建。
卷积缓冲器大小。卷积缓冲是由许多banks组成的。可以调整banks数量（从2个到32个）和每家bank的规模（从4个KiB到8个KiB）。（通过将这些存储器相乘，可以确定瞬时的卷积缓冲存储器的总量。
MAC 阵列大小。乘累加引擎由两个维度组成。宽度（"C"维度）可从 8 调整到 64，深度（"K"维）可从 4 调整到 64。（创建的乘累加总数可以通过将这两个乘在一起来确定。）
第二个内存接口。NVDLA 可以支持用于高速访问的第二个内存接口，也可以仅使用一个内存接口构建。
非线性激活函数。为了节省面积，可以删除支持非线性激活函数（如sigmoid或 tanh）的查找表。
激活引擎机尺寸。每个周期产生的激活输出数可以从 1 调整到 16。
Bridge DMA 引擎。Bridge DMA 引擎可以去掉以节省面积。
数据整形引擎。可以删除数据整形引擎以节省面积。
池化引擎存在。可以去除池化引擎以节省面积。
池化引擎尺寸。池发引擎可进行调整，以产生每个周期 1 到 4 个输出。
局部响应归一化引擎存在。可以去除局部响应归一化引擎以节省面积。
局部响应归一化引擎尺寸。局部响应归一化引擎可进行调整，以产生每个周期 1 到 4 个输出。
内存接口位宽度。内存接口位宽度可根据外部存储接口的宽度调整至适当大小的内部缓冲。
内存读取延迟容限。内存延迟时间定义为从读取请求到读取数据返回的周期数。可以调整此的容限，这会影响每个读取 DMA 引擎的内部延迟缓冲器大小。

四. 软件设计

NVDLA 拥有完整的软件生态系统来支持它。此生态系统的一部分包括设备上软件堆栈，这是 NVDLA 开源释放的一部分；此外，NVIDIA 将提供完整的训练基础架构，以构建包含深度学习的新模型，并将现有模型转换为 NVDLA 软件可用的形式。一般来说，与 NVDLA 相关的软件分为两组：编译工具（模型转换）和runtime环境（在 NVDLA 上加载和执行网络的run-time软件）。这些的总体流程如下图所示；下面描述它们中的每一个。

4.1 编译工具：模型创建和编译

编译工具包括编译器和解析器。编译器负责创建一系列硬件层，这些层针对给定的 NVDLA 配置进行优化；拥有优化的硬件层网络通过减少模型大小、负载和运行时间来提高性能。编译是一个分门别类的多步骤过程，可分为两个基本组件：解析和编译。解析器可以相对简单；在其最基本的体现中，它可以读取预先训练的Caffe模型，并创建网络的"中间表示"，以传递到编译的下一步。编译器将 NVDLA 实现的解析中间表示和硬件配置作为输入，并生成硬件层网络。这些步骤是离线执行的，并可能在包含 NVDLA 实现的设备上执行。

了解 NVDLA 实现的特定硬件配置非常重要，它使编译器能够为可用的特征生成适当的层。例如，这可能包括在不同的卷积操作模式（如 Winograd 卷积或基本卷积）之间进行选择，或根据可用的卷积缓冲大小将卷积操作拆分为多个较小的小型操作。此阶段还负责量化模型以降低精度，如 8 位或 16 位整数或 16 位浮点，并分配用于权重的内存区域。同一编译工具可用于生成多个不同 NVDLA 配置的操作列表。

4.2 Runtime环境：设备上模型推理

Runtime环境涉及在兼容的 NVDLA 硬件上运行模型。它实际上分为两层：

用户模式驱动（UMD）。用户模式程序的主要接口。分析神经网络后，编译器逐层编译网络，并将其转换为称为 “NVDLA Loadable” 的文件格式。用户模式runtime驱动加载此loadable，并将推理工作提交给“内核模式驱动”。
内核模式驱动（KMD）。由驱动和固件组成，这些驱动和固件可执行 NVDLA 上调度层操作的工作，并编程 NVDLA 寄存器以配置每个功能块。

Runtime执行从存储的网络表示开始；此存储格式称为 “NVDLA loadable” 图像。在loadable的视图中，NVDLA 实现中的每个功能块都由软件中的 “层” 表示；每一层都包含有关其依赖性的信息、它用作输入和输出的内存中的张量以及每个块用于操作的特定配置。层通过依赖性图连接在一起，内核模式驱动（KMD）用于安排每次操作。NVDLA loadable格式在编译器实现和用户模式驱动（UMD）实现中实现标准化。所有符合 NVDLA 标准的实现至少应该能够理解任何 NVDLA loadable图像，即使实现可能没有使用该loadable图像运行推理所需的某些特征。

UMD 具有标准的应用程序编程接口（API），用于处理可加载图像、将输入和输出张量绑定到内存位置以及运行推理。此层以一组定义的数据结构将网络加载到内存中，并以实现定义的方式将其传递给 KMD。例如，在 Linux 上，这可能是一个ioctl()，将数据从用户模式驱动传递到内核模式驱动；在 KMD 运行在与 UMD 相同环境的单一处理系统中，这可能是一个简单的函数调用。

KMD 的主要切入点在内存中接收推理工作，从多个可用工作中选择用于调度（如果在多处理系统上），并将其提交给核心引擎调度器。此核心引擎调度器负责处理 NVDLA 中断、每个函数块上的调度层以及根据上一层任务的完成更新该层的任何依赖关系。调度程序使用依赖性图中的信息来确定后续层何时准备被调度；这允许编译器以优化的方式决定层的调度，并避免不同的KMD实现的性能差异。

UMD 堆栈和 KMD 堆栈都以定义的 API 存在，并且预计将用系统可移植性层包裹。在可移植性层中保持核心实现预计需要的更改相对较少，并在可能需要多个平台上运行 NVDLA 软件堆栈时加快任何努力；在适当的可移植性层到位后，在 Linux 和 FreeRTOS 上应容易编译相同的核心实现。同样，在具有与 NVDLA 紧密耦合的微控制器的 “headed” 实现上，便携式层的存在使得在微控制器上与在没有此类配套处理器的 “headless” 实现中在主 CPU 上运行相同的低级软件成为可能。

五. NVDLA 系统集成

NVDLA 可配置为各种性能级别；选择这些参数取决于将要执行的卷积神经网络（CNN）的要求。本节描述了影响这些参数选择的一些因素，以及它们对系统面积和性能影响的一些考虑。运行每一层所需的时间是数据输入、输出以及执行乘累加（MAC）操作所需的最大时间量。运行整个网络所需的时间等于所有层的总和。选择正确的 MAC 单元数、卷积缓冲器大小和片上 SRAM 大小以达到所需的性能是调整尺寸的最关键步骤。NVDLA 有更多的配置参数用于额外的性能调整，需要仔细考虑，这些参数对总面积的影响较小；它们不应该被配置为出现不必要的瓶颈。

5.1 调整问题

5.1.1 对于任何给定的瞬时所需的工作量，需要什么数学精度？

较大配置中的 NVDLA 面积的大部分由卷积缓冲器和 MAC 单元使用，因此有理由认为这些参数在初始性能/面积权衡分析中是最重要的。深度学习培训通常以 32 位浮点精度进行，但由此产生的网络通常可简化为 8 位整型，而不会显著降低推理质量；然而，在某些情况下，使用 16 位整型或浮点数可能仍可取。

5.1.2 MAC单位的数量和所需的内存带宽是多少？

精度之后，性能和面积的下两个关键参数是 MAC 单位的数量和所需的内存带宽。在配置 NVDLA 时，应仔细考虑这些问题。处理是逐层进行的，因此最佳性能估计也是逐层完成的。对于任何给定层，MAC 吞吐量或内存带宽通常是瓶颈。

所需的 MAC 单位数量相对容易确定。例如，卷积层具有已知的输入和输出分辨率，以及已知的输入和输出特征；卷积内核大小也已知。将这些操作相乘，可提供处理该层的 MAC 操作总数。硬件可以定义为具有一定数量的 MAC 单元；除以 MAC 单元数量所需的操作次数，给出了一层可处理的时钟周期数的下界。

计算所需的内存带宽就不那么琐碎了。在理想情况下，只需要读取输入图像一次，输出图像一次，权重一次，周期的最小数将按每个时钟可读取或书写的样本数除以这些周期的总和。但是，如果卷积缓冲区太小，无法容纳输入和权重集的支持区域，则需要多次通过。例如，如果卷积缓冲区只能容纳四分之一的权重数据，则计算必须分为四个步骤，将输入带宽相乘（即 10MB 的输入内存流量将相乘得到 40MB）。同样，如果缓冲区不能容纳足够的线，用于卷积的支持区域，则卷积也必须分解成水平条。在选择卷积缓冲器大小和调整内存接口大小时，此效应是重要的必须加以考虑。

5.1.3 是否需要芯片上的SRAM？

如果出于电源或性能原因，外部内存带宽处于价格更高的状态，则添加片上 SRAM 会有所帮助。这种 SRAM 可视为二级缓存；它的带宽比主内存高，其带宽是主内存带宽的加倍。芯片上的 SRAM 比更大的卷积缓冲器便宜，后者需要宽端口，并且具有非常严格的计时要求，但在限制卷积缓冲的应用程序中，没有那么大的乘数倍数。（例如，如果一个层的带宽有限，添加一个 SRAM 足以保持整个输入图像，其运行速度是系统 DRAM 速度的两倍，则其性能可以翻倍。但是，如果该层也受到卷积缓冲器大小的限制，则相同数量的内存可能会对系统吞吐量产生更大的乘数。考虑这种权衡的最简单方法是，增加卷积缓冲器大小将有助于减少带宽要求，同时添加片上 SRAM 可以改善可用总带宽。

5.2 NVDLA的示例面积和性能

下表提供了为流行的 ResNet-50 神经网络优化的 NVDLA 配置的估计值。给出的面积数值是估计的综合面积，包括所需的所有内存；实际面积结果将因代工厂和工艺库而异。在此示例中，不使用片上 SRAM。如果可用的 SDRAM 带宽较低，则片上 SRAM 将是有益的。NVDLA 的开源版本具有性能估算工具，可用于探索 NVDLA 设计的空间以及对性能的影响。

以下表中的功耗和性能显示为 1GHz 频率。通过调整电压和频率，给定配置的功耗和性能可能会有所不同。

5.3 示例平台

提供示例平台，允许用户在小型的 SoC 环境中观察、评估和测试 NVDLA。最低 SoC 系统配置包括 CPU、NVDLA 实例、互连和存储器。这些平台可用于软件开发，或作为将 NVDLA 集成到工业实力雄厚的 SoC 的起点。

5.3.1 仿真

NVDLA 开源版本包括一个基于GreenSocs QBox 的仿真平台。在此平台中，QEMU CPU 模型（x86 或 ARMv8）与 NVDLA SystemC 模型相结合，提供一个寄存器精度系统，可以快速开发和调试软件。提供 Linux 内核模式驱动和用户模式测试实用程序，以便在此仿真平台上运行。

5.3.2 FPGA

此示例平台将 NVDLA Verilog 模型映射到 FPGA 上，它提供了一个可综合的在真实设计中例化 NVDLA 的示例。在此平台中，不使用 NVDLA SystemC 模型，软件寄存器直接在真实的 RTL 环境中进行读取和写入执行。这允许有限的循环计数性能评估，也允许针对更大、更复杂的网络更快地测试软件。FPGA 模型仅用于验证，没有努力优化 FPGA 平台的周期时间、设计尺寸或功耗，FPGA 模型的性能无法与其他基于 FPGA 的深度学习加速器直接相比。

FPGA 系统模型使用Amazon EC2 “F1” 环境，这是一个公开可用的标准化 FPGA 系统，可按小时租赁。使用这种模式不需要预先购买专门的硬件或软件；综合软件仅在Amazon EC2环境下以计算时间的成本提供，硬件无需承诺即可访问。由于 FPGA 平台基于 Xilinx，因此迁移到其他 Virtex 系列设备应该相对简单。

5.4 模型

NVDLA IP 核心模型基于开放的行业标准。基础构造的简单化设计和使用有望轻松融入典型的 SoC 设计流程中。

5.4.1 Verilog 模型

Verilog 模型以 RTL 形式提供综合和仿真模型。它有四个功能接口：一个从主接口、一条中断线路和两个主接口，用于内部和外部存储器访问。主机和内存接口非常简单，但需要外部总线适配器连接到现有的 SoC 设计；为方便起见，AXI4 和 TileLink 的样本适配器包含在 NVDLA 开源版本中。NVDLA 开源版本包含示例综合脚本。为了便于在更复杂的系统或更大的 NVDLA 例化进行物理设计，该设计被拆分为分区，每个分区都可以在 SoC 后端流程中独立处理。分区之间的接口可以根据需要重定时，以满足路由要求。

NVDLA 核心在单个时钟域内运行；总线适配器允许时钟域从内部 NVDLA 时钟交叉到总线时钟。同样，NVDLA 也在单一电源域内运行；该设计同时适用于细粒和粗粒功耗门控。如果添加到实现中，SRAM 将以行为模型为建模，并且必须在完整的 SoC 设计中由编译的 RAM 替换。NVDLA 设计要求实现单端口和双端口（一读端口加一写端口）SRAM。

5.4.2 仿真模型和验证套件

NVDLA 包括用于软件开发、系统集成和测试的 TLM2 SystemC 仿真模型。这种模型能够实现比将RTL与信号激励模型结合起来运行更快的仿真。此 SystemC 模型用于全 SoC 仿真环境，如 Synopsys VDK 或提供的 GreenSocs QBox 平台。包括的模型可在与RTL模型相同的轴上进行参数化，以便直接比较和模拟。

仿真模型还可用于 NVDLA testbench和验证套件。基于轻量级trace-player的测试平台适用于简单的综合和构建可靠验证（这将在初始NVDLA版本中提供）。在后续版本中，将会提供一个完整的验证环境，并对每个单元进行广泛的测试。验证套件可用于在流片前提供设计保证，包括验证编译后的RAMs、时钟门控和扫描链插入的更改。这种环境将适合进行更实质性的更改（例如，验证新的NVDLA配置或对现有NVDLA设计的修改）。

5.5 软件

最初的 NVDLA 开源版本包括用于 “headless” 实现的软件，与 Linux 兼容。内核模式驱动和用户模式测试实用程序均以源形式提供，并且可以在未经修改的 Linux 系统之上运行。

你可能感兴趣的:(#,NVDLA,深度学习,神经网络,nvidia,加速器,AI芯片)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST