江中散人

【重识云原生】第三章云存储3.2节——SPDK方案综述

《重识云原生系列》专题索引：

第一章——不谋全局不足以谋一域
第二章计算第1节——计算虚拟化技术总述
第二章计算第2节——主流虚拟化技术之VMare ESXi
第二章计算第3节——主流虚拟化技术之Xen
第二章计算第4节——主流虚拟化技术之KVM
第二章计算第5节——商用云主机方案
第二章计算第6节——裸金属方案
第三章云存储第1节——分布式云存储总述
第三章云存储第2节——SPDK方案综述
第三章云存储第3节——Ceph统一存储方案
第三章云存储第4节——OpenStack Swift 对象存储方案
第三章云存储第5节——商用分布式云存储方案

SPDK技术知识地图：

1 SPDK简介

1.1 存储技术演进背景

SSD正在迅速扩展它在数据中心中的份额，同旋转介质（HHD）相比，当前的闪存在性能、功耗和机架密度上具有明显优势，随着下一代媒介进入市场，这些优势将持续扩大。

集成当前固态介质的用户，例如Intel® SSD DC P3700 Series Non-Volatile Memory Express*(NVMe*) drive，面临的主要挑战是：由于吞吐量和延迟性能比旋转磁盘好得多，存储软件现在占用了更大比例的总处理时间,也就是说，存储软件堆栈的性能和效率对整个存储系统越来越重要。随着存储介质继续发展，它有超越使用它的软件架构的风险，未来几年，存储介质领域将继续以惊人的速度发展。

为帮助存储OEMs（原始设备制造商）和ISVs（独立软件开发商）集成此硬件，英特尔创建了一组drivers和一个完整的end-to-end（端对端）参考存储架构，称为Storage Performance Development Kit（SPDK，存储性能开发套件）。SPDK的目标是通过同时使用Intel的网络、处理和存储技术来突出其卓越的效率和性能。通过运行从芯片开始设计的软件，SPDK证明了无需额外的删除硬件而仅通过使用一些处理器内核和一些NVMe drivers即可轻松实现每秒数百万个I / O。Intel在宽泛的BSD许可下提供了完整的Linux*参考架构源代码，并通过GitHub*分发给社区。可以在spdk.io上找到博客、邮件列表和其他文档。

1.2 什么是SPDK？

性能开发工具包（SPDK）提供了一组工具和库，用于编写高性能，可伸缩的用户模式存储应用程序。它通过使用一些关键技术实现了高性能：

将所有必需的驱动程序移动到用户空间，这样可以避免系统调用并启用应用程序的零拷贝访问。
轮询硬件用于完成而不是依赖中断，这降低了总延迟和延迟差异。
避免I / O路径中的所有锁定，而是依赖于消息传递。
SPDK的基石是用户空间，轮询模式，异步，无锁NVMe驱动程序。这提供了从用户空间应用程序直接到SSD的零拷贝，高度并行访问。驱动程序被编写为带有单个公共头的C库。有关详细信息，请参阅 7.1 NVMe驱动程序。
SPDK还提供了一个完整的块堆栈作为用户空间库，它执行许多与操作系统中的块堆栈相同的操作。这包括统一不同存储设备之间的接口，排队以处理诸如内存不足或I / O挂起以及逻辑卷管理等情况。有关详细信息，请参阅3.6块设备用户指南。
最后，SPDK提供基于这些组件构建的NVMe-oF，iSCSI和vhost服务器，这些服务器能够通过网络或其他进程提供磁盘。NVMe-oF和iSCSI的标准Linux内核启动器与这些目标以及带有vhost的QEMU互操作。与其他实现相比，这些服务器的CPU效率可高达一个数量级。这些目标可用作如何实现高性能存储目标的示例，或用作生产部署的基础。

2 SPDK软件架构概述

SPDK如何工作？通过结合两种关键技术来实现极高的性能:运行在 user level和使用Poll Mode Drivers(PMDs,轮询模式驱动程序)。让我们看看这两个软件工程术语。

首先，根据定义，在用户级别运行设备驱动程序代码意味着驱动程序不在内核中运行。避免内核上下文切换和中断可以节省大量的处理开销，从而可以将更多的时间花费在真实的数据存储。无论存储算法的复杂性如何（删除重复数据，加密，压缩或普通block存储），更少的无用周期都意味着更好的性能和延迟。这并不是说内核会增加不必要的开销，相反，内核增加了与通用计算用例相关的开销，而这些用例可能不适用于专用存储堆栈。SPDK的指导原则是通过消除每个额外的软件开销来源来提供最低的延迟和最高的效率。

其次，PMDs更改了I / O的基本模型。在传统的I / O模型中，应用程序先提交读取或写入请求，然后休眠，在I / O完成后等待中断将其唤醒。而PMDs的工作方式有所不同，应用程序先提交读取或写入请求，然后去做其他工作，每隔一段时间检查一次I / O是否已完成，这避免了使用中断的等待时间和开销，并允许应用程序提高I / O效率。在旋转媒介（磁带和HDD）的时代，中断的开销仅占总I / O时间的一小部分，因此极大地提高了系统的效率。但是，随着固态媒体时代的到来，持续引入低延迟的持久性介质，中断开销已成为整个I / O时间的重要部分。更低延迟的介质只会使这一挑战更加明显。系统已经能够每秒处理数百万个I / O，消除数百万个事务的开销，从而迅速节省了多个内核。数据包和数据块被立即分派，等待时间最少化，从而降低了等待时间，提高了等待时间的一致性（减少了波动）并提高了吞吐量。

SPDK由许多子组件组成，这些子组件相互链接并共享用户级和轮询模式操作的通用元素。创建每个组件都是为了克服创建end-to-end SPDK架构时遇到的特定性能瓶颈。但是，每个组件也可以集成到非SPDK架构中，从而使客户可以利用SPDK的经验和技术来加速自己的软件。

整个spdk开发套件提供了一整套完整的开发库支持。包括：

2.1 硬件驱动层

NVMe驱动：SPDK的基础组件，这个高度优化的无锁驱动程序提供了极好的可扩展性，效率和性能。
Intel® QuickData Technology：也称为Intel® I/O Acceleration Technology（Intel® IOAT，Intel® I / O加速技术），这是内置基于Intel® Xeon®处理器平台中的复制卸载引擎(copy offload引擎)。通过提供用户空间访问，减少了DMA数据移动的阈值，从而更好地利用小型的I/O或NTB。

2.2 后端块设备层

NVMe over Fabrics (NVMe-oF) 启动器:关于NVMe和NVMe-oF的关系，可参考《谈谈关于NVMe和NVMe-oF的那些事》，从程序员的角度来看，本地SPDK NVMe驱动程序和NVMe-oF启动器共享一组通用的API命令，这意味着local/remote复制非常容易启用。
Ceph* RADOS Block Device (RBD)：支持Ceph作为SPDK的后端设备，这可能允许Ceph用作另一个存储层。
Blobstore Block Device：一个由SPDK Blobstore分配的块设备，这是一个虚拟设备，应用于虚机或数据库场景。这些设备享受SPDK基础设施带来的好处，这意味着零锁和极佳的可扩展性能。
Linux* 异步 I/O (AIO): 允许SPDK与HDD之类的内核设备进行交互。

2.3 存储服务层

Block device abstraction layer （bdev，块设备抽象层）：这种通用的块设备抽象层是将存储协议连接到各种设备驱动程序和块设备的粘合剂。还为块层中的其他用户功能（RAID，压缩，删除重复数据等）提供了灵活的API。
Blobstore：为SPDK实现高度简化的类似于文件的语义（非POSIX *）。这可以为数据库，容器，虚拟机（VM）或其他不依赖于POSIX文件系统功能集（例如用户访问控制）的大部分工作负载提供高性能基础。

2.4 存储协议

iSCSI target：实现已建立的以太网块通信规范，效率是内核 LIO（linux IO）的两倍，当前版本默认使用内核TCP/IP栈。
NVMe-oF target：实现新的NVMe-oF规范，尽管它取决于RDMA硬件，但NVMe-oF target 可以为每个CPU核心提供高达40gbps的流量。
vhost-scsi target：KVM/QEMU的一项功能，它利用SPDK NVMe驱动程序，使访客虚拟机（Guest VMs）可以更低延迟地访问存储介质，并减少I/O密集型工作负载的总体CPU负载。

3 SPDK逻辑架构

从流程上来看，spdk有数个子构件组成，包括网络前端、处理框架和存储后端。

前端由DPDK、网卡驱动、用户态网络服务构件组成。DPDK给网卡提供一个高性能的包处理框架；网卡驱动提供一个从网卡到用户态空间的数据快速通道；用户态网络服务则破解TCP/IP包并生成iSCSI命令。

处理框架得到包的内容，并将iSCSI命令翻译为SCSI块级命令。不过，在将这些命令送给后端驱动之前，SPDK提供一个API框架以加入用户指定的功能，即spcial sauce（上图绿框中），例如缓存、去冗、数据压缩、加密、RAID和纠删码计算等，诸如这些功能都包含在SPDK中。不过这些功能仅仅是为了帮助我们模拟应用场景，需要经过严格的测试优化才可使用。

数据到达后端驱动，在这一层中与物理块设备发生交互，即读与写。SPDK包括了几种存储介质的用户态轮询模式驱动：

NVMe设备；
Linux异步IO设备如传统磁盘；
基于块地址的内存应用的内存驱动（如RAMDISKS）；
可以使用Intel I/O加速技术设备；

4 SPDK 应用编程框架设计

SPDK (Storage performance development kit, http://spdk.io) 是由Intel发起、用于加速使用NVMe SSD作为后端存储的应用软件加速库。该软件库的核心是用户态、异步、轮询方式的NVMe驱动。较之内核(诸如Linux Kernel) 的NVMe驱动，它可以大幅度降低NVMe command的延迟 (Latency) ，同时提高单CPU核的IOPS，从而形成一套高性价比的解决方案，例如使用SPDK的vhost解决方案可以应用于HCI (Hyper Converged Infrastructure) 加速虚拟机中的NVMe I/O。

为了实现上述目标，仅仅提供用户态NVMe驱动的一些操作函数或源语是不够的。如果在某些应用场景中使用不当，不仅不能发挥出用户态NVMe驱动的高性能，甚至会导致程序错误。虽然NVMe的底层函数有一些说明，但为了更好地发挥出底层NVMe的性能，SPDK提供了一套编程框架 (SPDK Application Framework)，用于指导软件开发人员基于SPDK的用户态NVMe驱动以及用户态块设备层 (User space Bdev) 构造高效的存储应用。用户有两种选择：(1) 直接使用SPDK应用编程框架实现应用的逻辑；(2) 使用SPDK编程框架的思想，改造应用的编程逻辑，以更好的适配SPDK的用户态NVMe驱动。

总体而言，SPDK的应用框架可以分为以下几部分：(1) 对CPU core和线程的管理；(2) 线程间的高效通信；(3) I/O的的处理模型以及数据路径(data path)的无锁化机制。

4.1 CPU core和线程的管理

SPDK一大宗旨是使用最少的CPU核和线程来完成最多的任务。为此，SPDK在初始化程序时（目前调用spdk_app_start函数）限定使用绑定CPU的哪些核，可以在配置文件或命名行中配置，例如在命令行中使用-c 0x5是指使用core0 和core2来启动程序。通过CPU核绑定函数的亲和性可以限制住CPU的使用，并且在每个核上运行一个thread，该thread在SPDK中被称为Reactor (如Figure 1所示)。目前SPDK的环境库 (ENV) 缺省仍旧使用了DPDK的EAL库来进行管理。总而言之，Reactor thread执行一个函数 (_spdk_reactor_run), 该函数的主体包含一个while (1) {} 功能的函数，直到Reactor的state被改变，例如受到 (spdk_app_stop 的调用)。为了高效，上述循环中也会有一些相应的机制让出CPU资源 (诸如sleep)。这样的机制大多时候会导致CPU使用100%的情况，这点和DPDK比较类似。

换言之，假设一个使用SPDK编程框架的应用运用了两个CPU core，那么每个core上就会启动一个Reactor thread。如此一来，用户怎么执行自己的函数呢？为了解决该问题，SPDK提供了一个Poller的机制，即用户定义函数的分装。SPDK提供的Poller分为两种：(1) 基于定时器的Poller；(2) 非定时器的Poller。SPDK的Reactor thread对应的数据结构(struct spdk_reactor) 有相应的列表来维护Poller的机制。例如，一个链表维护定时器的Poller，一个链表维护非定时器的Poller，并且提供Poller的注册和销毁函数。在Reactor的while循环中，它会不停的check这些Poller的状态，进行相应的调用，用户的函数也因此可以进行相应的调用。由于单个CPU上只有一个Reactor thread，所以同一个Reactor thread 中不需要一些锁的机制来保护资源。当然，位于不同CPU的core上的thread还是需要通信必要。为了解决该问题，SPDK封装了线程间异步传递消息 (Async Messaging Passing) 的方式。

4.2 线程间的高效通信

SPDK放弃使用传统的加锁方式来进行线程间的通信，因为这种方案比较低效。为了使同一个thread只执行自己所管理的资源，SPDK提供了Event (事件调用) 机制。该机制的本质是每个Reactor对应的数据结构 (struct spdk_reactor) 维护了一个Event事件的ring (环)。这个环是多生产者和单消费者 (MPSC： Multiple producer Single Consumer) 的模型，即每个Reactor thread可以接收来自任何其他Reactor thread (包括当前的Reactor Thread) 的事件消息进行处理。目前SPDK中Event ring的缺省实现依赖于DPDK的机制，应该有线性锁的机制，但是相较于线程间采用锁的机制进行同步要高效得多。毫无疑问，Event ring处理的同时也在进行Reactor的函数 (_spdk_reactor_run) 处理。每个Event事件的数据结构 (struct spdk_event) 其实包括了需要执行的函数、加上相应的参数以及要执行的core。简单而言，一个Reactor A 向另外一个Reactor B通信，其实就是需要Reactor B执行函数F(X) (X是相应的参数)。基于上述机制，SPDK就实现了一套比较高效的线程间通信机制。具体例子可以参照SPDK NVMe-oF target内部的一些实现，主要代码位于 (lib/nvmf) 目录。

4.3 I/O处理模型以及数据路径的无锁化

SPDK主要的I/O 处理模型是Run-to-completion，指运行直到全部完成。上述内容中提及，使用SPDK应用框架时，一个CPU core只拥有一个thread，该thread可以执行很多Poller (包括定时和非定时器)。Run-to-completion的宗旨是让一个线程最好执行完所有的任务。显而易见，SPDK的编程框架满足了该需要。如果不使用SPDK应用编程框架，则需要编程者自己注意这个事项。例如，使用SPDK用户态NVMe驱动访问相应的I/O QPair进行读写操作，SPDK 提供了异步读写的函数 (spdk_nvme_ns_cmd_read)，同时检查是否完成的函数 (spdk_nvme_qpair_process_completions)。这些函数的调用应由一个线程完成，不应该跨线程处理。

SPDK 的I/O 路径也采用无锁化机制。当多个thread操作同意SPDK 用户态block device (bdev) 时，SPDK会提供一个I/O channel的概念 (即thread和device的一个mapping关系)。不同的thread 操作同一个device应该拥有不同的I/O channel，每个I/O channel在I/O路径上使用自己独立的资源就可以避免资源竞争，从而去除锁的机制。

5 SPDK针对VM、 iSCSI 、NVMe-oF场景加速方案原理

5.1 vhost target方案简介

5.1.1 I/O虚拟化方案简介

这里我们主要介绍用SPDK vhost target来加速虚拟机中的I/O，在介绍这个加速方案之前，我们先看看主流的I/O设备虚拟化的方案：

纯软件模拟：完全利用软件模拟出一些设备给虚拟机使用，主要的工作可以在Simics、Bochs、纯QEMU解决方案中看到。
半虚拟（Para-Virtualization）：主要是一种frontend-backend的模型，在虚拟机中的Guest OS中使用frontend的驱动，Hypervisor中暴露出backend接口。这种解决方案需要修改Guest OS，或者提供半虚拟化的前端驱动。
硬件虚拟化：主流的方案有SR-IOV、VT-D等，可以把整个设备直接分配给一个虚拟机，或者如果设备支持SR-IOV，就可以把设备的VF（Virtual Function）分配给虚拟机。

对于以上3种虚拟化的解决方案，我们会把重点放在virtio解决方案，即半虚拟化上，因为SPDK的vhost-scsi/blk可以用来加速QEMU中半虚拟化的virtio-scsi/blk。另外针对QEMU中NVMe的虚拟化方案，也给出了vhost-NVMe的加速方案。虽然SPDK vhost-scsi/blk主要是用来加速virtio协议的，SPDK vhost-NVMe用于加速虚拟机中的NVMe协议的，但是这3种加速方案其实可以有机地整合为一个整体的vhost target加速方案。

5.1.1.1 virtio简介

virtio是I/O虚拟化中一种非常优秀的半虚拟化方案，需要在Guest的操作系统中运行virtio设备的驱动程序，通过virtio设备和后端的Hypervisor或用于加速的vhost进行交互。

在QEMU中，virtio设备是QEMU为Guest操作系统模拟的PCI设备，这个设备可以是传统的PCI设备或PCIe设备，遵循PCI-SIG定义的PCI规范，可以具有配置空间、中断配置等功能。目前virtio协议由OASIS（Advanced Open Standards for the Information Society）virtio工作组负责维护，用户可以提交对virtio协议的提案到该工作组进行讨论。PCI设备包括厂商ID和设备ID，virtio向PCI-SIG注册了PCI厂商ID 0x1AF4和设备ID，其中不同的设备ID代表不同的设备类型，如面向存储的virtio-blk和virtio-scsi设备ID分别为0x1001和0x1004。

virtio在QEMU中的总体实现可以分成3层（见下图）：前端是设备层，位于Guest操作系统内部；中间是虚拟队列传输层，Guest和QEMU都包含该层，数据传输及命令下发完成都是通过该层实现的；第3层是virtio后端设备，用于具体落实来自Guest端发送的请求。

5.1.2 vhost加速方案演进

如前所述，virtio后端设备用于具体响应Guest的命令请求。例如，对virtio-scsi设备来讲，该virtio后端负责SCSI命令的响应，QEMU负责模拟该PCI设备，把该SCSI命令响应的模块在QEMU进程之外实现的方案称为vhost。这里同样分为两种实现方式，在Linux内核中实现的叫作vhost-kernel，而在用户态实现的叫作vhost-user。

以virtio-scsi为例，目前主要有3种virtio-scsi后端的解决方案。

5.1.2.1 QEMU virtio-scsi

这个方案是virtio-scsi最早的实现，如下图所示，Guest和QEMU之间通过virtqueue进行数据交换，当Guest提交新的SCSI命令到virtqueue时，根据virtio PCI设备定义，Guest会把该队列的ID写入PCI配置空间中，通知PCI设备有新的SCSI请求已经就绪；之后QEMU会得到通知，基于Guest填写的队列ID到指定的virtqueue获取最新的SCSI请求；最后发送到该模拟PCI设备的后端，这里后端可以是宿主机系统上的一个文件或块设备分区。当SCSI命令在后端的文件或块设备执行完成并返回给virtio-scsi backend模块后，QEMU会向该PCI设备发送中断通知，从而Guest基于该中断完成整个SCSI命令流程。

这个方案存在如下两个严重影响性能的因素：

当Guest提交新的SCSI请求到virtqueue队列时，需要告知QEMU哪个队列含有最新的SCSI命令。
在实际处理具体的SCSI读/写命令时（在hostOS 中），存在用户态到内核态的数据副本。

数据副本影响性能，我们比较好理解，因为存储设备中的数据块相对于网络来说都是大包，但是为什么说Guest提交新的SCSI请求时也严重影响性能呢？根据virtio协议，Guest提交请求到virtqueue时需要把该队列的ID写入PCI配置空间，所以每个新的命令请求都会写入一次PCI的配置空间。在X86虚拟化环境下，Guest中对PCI空间的读/写是特权指令，需要更高级别的权限，因此会触发VMM的Trap，从而导致VM_EXIT事件，CPU需要切换上下文到QEMU进程去处理该事件，在虚拟化环境下，VM_EXIT对性能有重大影响，而且对系统能够支持VM的密度等方面也有影响，所以下面介绍的方案都是基于对这两点的优化来进行的。

5.1.2.2 Kernel vhost-scsi

这个方案是QEMU virtio-scsi的后续演进，基于LIO在内核空间实现为虚拟机服务的SCSI设备。实际上vhost-kernel方案并没有完全模拟一个PCI设备，QEMU仍然负责对该PCI设备的模拟，只是把来自virtqueue的数据处理逻辑拿到内核空间了。

为了实现在内核空间处理virtqueue上的数据，QEMU需要告知内核vhost-scsi模块关于virtqueue的内存信息及Guest的内存映射，这样其实省去了Guest到QEMU用户态空间，再到宿主机内核空间多次数据复制。但是由于内核的vhost-scsi模块并不知道什么时候在哪个队列存在新的请求，所以当Guest生成新的请求到virtqueue队列，再更新完PCI配置空间后，由QEMU负责通知vhost-kernel启动内核线程去处理新的队列请求。这里我们可以看到Kernel vhost-scsi方案相比QEMU virtio-scsi方案在具体的SCSI命令处理时减少了数据的内存复制过程，从而提高了性能。

5.1.2.3 SPDK vhost-user-scsi

这个方案是基于Kernel vhost-scsi的进一步改进，如下图所示，虽然Kernel vhost-scsi方案在数据处理时已经没有数据的复制过程，但是当Guest有新的请求时，仍然需要QEMU通过系统调用通知内核工作线程，这里存在两方面的开销：Guest内核需要更新PCI配置空间，QEMU需要捕获Guest的VMM自陷，然后通知Kernel vhost-scsi工作线程。

SPDK vhost-user-scsi方案消除了这两方面的影响，后端的I/O处理线程在轮询所有的virtqueue，因此不需要Guest在添加新的请求到virtqueue后更新PCI的配置空间。SPDK vhost-user-scsi的后端I/O处理模块轮询机制加上零拷贝技术基本解决了前面我们提到的阻碍QEMU virtio-scsi性能提升的两个关键点。

5.1.3 SPDK vhost-scsi加速方案

使用SPDK vhost-scsi启动一个VM实例的命令如下：

这里其实引入了vhost-user技术里面的两个关键技术实现：指定mem-path意味着QEMU会在Guest OS的内存中创建一个文件，share=on选项允许其他进程访问这个文件，也就意味着能访问Guest OS内存，达到共享内存的目的。字符设备/path/vhost.0是指定的socket文件，用来建立QEMU和后端的Slave target，即SPDK vhost target之间的通信连接。

QEMU Guest和SPDK vhost target是两个独立的进程，vhost-user方案一个核心的实现就是队列在Guest和SPDK vhost target之间是共享的，那么接下来我们就看一下vhost是如何实现这个内存共享的，以及Guest物理地址到主机的虚拟地址是如何转换的。

在vhost-kernel方案中，QEMU使用ioctl系统调用和内核的vhost-scsi模块建立联系，从而把QEMU中模拟的SCSI设备部分传递到了内核态，即内核态对该SCSI设备不是完全模拟的，仅仅负责对virtqueue进行处理，因此这个ioctl的消息主要负责3部分的内容传递：Guest内存映射；Guest Kick Event、vhost-kernel驱动用来接收Guest的消息，当接收到该消息后即可启动工作线程；IRQ Event用于通知Guest的I/O完成情况。同样地，当把内核对virtqueue处理的这个模块迁移到用户态时，以上3个主要部分的内容传递就变成了UNIX Domain socket文件了，消息格式及内容和Kernel的ioctl相比有许多相似和重复的地方。

5.1.4 SPDK vhost-NVMe加速方案

经过上面的描述读者对virtio及vhost应该有了一定的了解，下面我们看一下NVMe的虚拟化是如何实现的。

我们首先看一下virtio和NVMe协议的一个对比情况，virtio和NVMe协议在设计时都采用了相同的环型结构，virtio使用avaiable和used ring作为请求和响应，而NVMe使用提交队列和完成队列作为请求和响应。NVMe读/写的具体流程如下图所示。

QEMU中很早就添加了对NVMe设备的模拟，和QEMU virtio-scsi类似，使用任意的文件来实现具体的NVMe I/O命令，和之前的QEMU virtio-scsi方案相比，QEMU NVMe存在相同的性能瓶颈，在上图的步骤2和步骤8，Guest都要写NVMe PCI配置空间寄存器，因此会存在VMM Trap自陷问题，由于后端主机使用文件来承载I/O命令，同样存在用户态到内核态数据副本的问题。如果要提升性能，那么同样需要解决这两个关键瓶颈。

针对Guest提交命令和完成命令时的写PCI寄存器问题，NVMe 1.3的协议给出了解决方案，即shadow doorbell。

NVMe 1.3强化了对虚拟化的支持，NVMe本身就是非常好的半虚拟化协议接口，针对模拟的控制器增加了对shadow doorbell的支持，如果存在一个NVMe控制器是软件模拟的，那么这个控制器可以告诉Guest这是一个模拟的控制器，将NVMe控制器Identify命令字段Optional Admin Command Support bit 8设置成1，Guest读取到该bit后会针对该模拟控制器为其设置除正常的PCI doorbell以外的shadow doorbell，当有命令下发到控制器的提交队列时，NVMe驱动会首先更新shadow doorbell，基于从后端模拟设备获取到的反馈，来决定是否更新PCI的doorbell，也就是说Guest是否更新PCI doorbell是由模拟设备后端来决定的。

那么我们来看下这个机制是如何工作的。首先协议新增了一个管理命令Doorbell Buffer Config，该命令使用两个独立的4KiB连续内存页面镜像控制器的doorbell寄存器。最大可以支持1024个队列，其中预留1个给管理命令队列，最大可以支持1023个I/O队列。

针对上面提到的另外一个性能瓶颈——内存副本，这里采用和vhost-user-scsi类似的方案。针对虚拟化场景，由于我们的后端存在高性能的物理NVMe控制器及SPDK本身的用户态NVMe驱动，因此对VM中下发的I/O命令，我们通过内存地址转换（Guest物理地址到主机虚拟地址）即可实现VM到NVMe设备端到端的数据零拷贝实现。

实现这个方案存在一个前提，由于物理的NVMe设备需要使用控制器内部的DMA引擎搬移数据，要求所有的I/O命令对应的数据区域都是物理内存连续的，因此这里我们需要使用Linux内核提供的hugetlbfs机制提供连续的物理内存页面。

5.2 SPDK iSCSI Target

SPDK iSCSI Target从2013年开始被开发，最初的框架基于Linux SCSI TGT，但是随着整个项目的进展，为了更好地发挥快速存储设备的性能，进而基于SPDK应用框架进行实现，以AIO、无锁化I/O数据路径等为设计原则，和原来的Linux SCSI TGT有很大的区别。

SPDK iSCSI Target的设计和实现利用了SPDK库的以下模块：应用框架、网络、iSCSI、SCSI、JSON-RPC、块设备和SPDK的设备驱动程序。对于iSCSI Target而言，它使用应用框架启动，并解析相关配置文件以初始化，也能接收和处理JSON-RPC请求，然后构建不同的子系统，如iSCSI、SCSI、块设备等子系统。对于I/O的处理，在网络接收到iSCSI的PDU包后，依次在iSCSI、SCSI、块设备层处理请求，最后由设备驱动程序处理。当I/O返回时，iSCSI Target程序将以相反的顺序处理，即块设备、SCSI、iSCSI、网络层。我们采用运行直到完成的模型，从而达到采用无锁化和异步处理I/O的方式的目的。

5.2.1 SPDK iSCSI Target加速方案设计

1. SPDK iSCSI Target加速设计和实现与其他常见的iSCSI Target实现（LIO、Linux SCSI TGT）相比，SPDK iSCSI Target使用以下几种方法来提高CPU单核的性能。

1）模块化设计

针对不同的功能模块，SPDK创建了多个子系统目录。对于SPDK iSCSI Target，SPDK创建了iSCSI模块，路径为spdk/lib/event/subsystem/iscsi和spdk/lib/iscsi，该模块定义了所有和iSCSI相关的函数和数据结构。在SPDK iSCSI Target运行之前，iSCSI子系统先会被初始化。

在这个过程中，SPDK首先会设置一些iSCSI参数的默认值（如最大连接数等），然后会从配置文件中读取一些全局配置，包括节点名前缀、最大连接数、最大队列深度、ErrorRecoveryLevel等级、NOPInterval等，配置文件没有定义的参数会采用默认值。特别要提到的是，每个CPU核上的最大连接数会在这个阶段设置，该参数对性能的影响较大。

然后，SPDK会初始化内存池，包括PDU池、会话池和任务池。PDU池又包括通用PDU、ImmediateData和DataOut 3种。会话池会根据最大连接数创建。任务池会创建iSCSI任务池。内存池的创建方法主要是调用DPDK rte_mempool_create函数从大页中申请内存，这样做的优点是申请快、使用方便。接下来SPDK会初始化connection，这一步主要是设置共享内存，以及设置一个保存每个core上的connection数量的数组。

以上初始化结束后，SPDK就会初始化将要提到的两个polling group，还会解析portal group、Initiator group和Target node。

2）每个CPU核处理一组iSCSI的连接

根据SPDK应用框架，每个CPU上启动一个Reactor不断地去执行两组Poller，一组基于timer的Poller的列表和一组普通Poller列表。为此SPDK的iSCSI Target在每个core的Reactor上都创建了一个polling group，用于处理这个组里面的所有iSCSI连接。对应于每个polling group，会有两组Poller，它们分别执行spdk_iscsi_poll_group_poll和spdk_iscsi_poll_group_handle_nop。

在解析完portal group配置之后，SPDK iSCSI Target就会在每个portal group中监听socket请求，并注册一个Poller专门用于网络事件监听。如果有socket请求，就会得到一个FD（File Descriptor），然后这个FD会加入epoll的监听，并且创建iSCSI connection。

在创建connection的时候，会初始化一些与iSCSI相关的参数，包括以下内容：NOPINTERVAL（默认是30s，最大是60s），支持的session数目（默认是128个，最大是1024个），每个session最大连接数（默认是2个），每个逻辑core最大连接数（默认是4个），ErrorRecoveryLevel（默认是0）。特别要提到的是，SPDK iSCSI Target会设置接收和发送缓冲大小，这个缓冲用于暂时保存iSCSI命令。同时SPDK会初始化几个链表，用于保存和PDU相关的数据，包括read/write和SNACK PDU列表，R2T任务列表等。在初始化完成之后，SPDK就会把这个connection加入polling group里，开始执行任务。

spdk_iscsi_poll_group_poll主要用于处理socket连接上的请求。通过epoll监听所有FD上定义的事件。目前我们定义的事件是datain，对应的dataptr指向了这个FD对应的iSCSI conneciton。这个Poller在相应的Reactor上会不间断地执行，检查网络事件是否有数据进来。每次循环Poller可以最多处理32个事件，如果有数据进来，则触发每个iSCSI connection的回调函数spdk_iscsi_conn_sock_cb，然后读出每个connection。
执行spdk_iscsi_poll_group_handle_nop的Poller是一个定时器Poller。每隔一秒，这个Poller就会被触发执行这个函数，然后我们设置一个循环来检查每个iSCSI连接上的NOP-Out请求。如果发现有NOP-Out没有被处理，而且时间超过了iSCSI timeout设置的超时时间，SPDK iSCSI Target就会把这个connection状态设置为exiting。如果没有超时，iSCSI Target就会发送NOP-In给iSCSI客户端。

3）基于简单的负载平衡算法

当iSCSI Target使用多个CPU核启动的时候，根据SPDK的应用程序框架，会有多个Reactor，每个Reactor上都会有Poller。因为监听网络事件的acceptor默认运行在一个Reactor的Poller上，所以每个新进入的iSCSI连接都会在acceptor所在的Reactor上运行。如此一来，就会导致所有的CPU core处理的iSCSI连接不均衡。

为此我们设计了一个算法。因为iSCSI的连接有状态的变化，所以当连接从login状态转化为FFPlogin状态FFP（Full Feature Phase）的时候，我们会对iSCSI连接进行迁移，也就是从一个Reactor上执行转入另一个Reactor。没有进入FFP的iSCSI连接不用进行迁移，因为这些iSCSI连接很快会断掉，而且不涉及对后端I/O数据的处理，为此不需要进行迁移。我们会设计一个简单的算法来计算每个Reactor上的iSCSI connection连接数目，然后根据对应的连接的会话等信息，选择一个新的Reactor。迁移的过程相对来讲还是比较复杂的，我们首先会将这个iSCSI连接从当前的polling group中去除（包括有关网络事件的监听），然后加入另外Reactor的polling group中（通过SPDK应用框架提供的线程间通信机制）。

4）零拷贝支持

对于iSCSI读取命令，我们利用零拷贝方法，这意味着缓冲区在SPDK Bdev层中进行分配，并且在将iSCSI datain响应pdus发送到iSCSI启动器后，此缓冲区将被释放。在所有iSCSI读取处理过程中，不存在从存储模块到网络模块的数据复制。

5）iSCSI数据包处理优化

SPDK对读和写的数据包处理都有64KB的限制。当处理读请求大于64KB的时候，SPDK就会创建DATAIN任务队列，同时会设置DATAIN任务数的最大值为64KB。SPDK创建的每个DATAIN任务大小都是64KB。针对写命令，SPDK定义了MaxBustLength为64KB乘以connection的DATAOUT缓冲数。所以在发送R2T时，在R2T中设置的可以接收的数据大小为MaxBustLength和剩余待传输数据中的最小值，以保证对方发过来的数据包符合协议的需求。

6）TCP/IP协议栈优化

SPDK库对TCP/IP的网络处理进行了相应的API封装，这样就可以整合不同的TCP/IP协议栈。目前SPDK库既可以使用内核的TCP/IP协议栈，也可以使用用户态的TCP/IP协议栈进行矢量包处理（Vector Packet Processing，VPP）。

VPP是思科VPP技术的开源版本，一个高性能包处理栈，完全运行于用户态。作为一个可扩展的平台框架，VPP能够提供随时可用的产品级的交换机或路由器功能。

SPDK主要使用了VPP的socket处理，包括socket的创建、监听、连接、接收和关闭。SPDK也会调用VPP的epoll API来创建socket group。在配置SPDK的时候指定VPP的目录路径，就可以使用VPP。所以对SPDK的iSCSI Target来讲，网络的优化可以选择VPP提供的用户态TCP/IP协议栈，然后使用DPDK提供的PMD网卡，就可以实现从网络到后端数据处理的完全零拷贝解决方案。

5.2.2 在Linux环境下配置SPDK iSCSI Target示例

这里我们简单地介绍用配置文件配置一个可用于本机loop模式运行的iSCSI Target示例。

在本机一个shell中，执行以下命令来运行iscsi_tgt：

iscsi.conf配置文件中的参数及section对应的介绍可以在/spdk/etc/spdk/iscsi.conf.in里面找到，其配置文件的内容如下：

在本机另一个shell中，执行以下命令：

执行结果如下，sdc即为刚才找到的Target端设备：

配置fio文件，名为jobfile的配置文件内容如下：

执行fio命令进行读/写操作并测试性能指标，内容如下：

执行iscsiadm命令退出，内容如下：

5.3 SPDK NVMe-oF Target

NVMe协议制定了本机高速访问PCIe SSD的规范，相对于SATA、SAS、AHCI等协议，NVMe协议在带宽、延迟、IOps等方面占据了极大的优势，但是在价格上目前相对来讲还是比较贵的。不过不可否认的是，配置PCIe SSD的服务器已经在各种应用场景中出现，并成为业界的一种趋势。

此外为了把本地高速访问的优势暴露给远端应用，诞生了NVMe-oF协议。NVMe-oF Target是NVMe协议在不同传输网络（transport）上面的延伸。NVMe-oF协议中的transport可以多种多样，如以太网、光纤通道、Infiniband等。当前比较流行的transport实现是基于RDMA的Ethernet transport、Linux Kernel和SPDK的NVMe-oF Target等，另外对于光纤通道的transport，NetApp基于SPDKNVMe-oF Target的代码，实现了基于光纤通道的transport。

NVMe-oF Target严格来讲不是必需品，在没有该软件的时候，我们可以使用iSCSI Target或其他解决方案来替换。由于iSCSI Target比较成熟和流行，我们有必要把NVMe-oF Target与iSCSI Target进行对比，如表所示。

从表中我们可以获得如下信息。

目前NVMe-oF Target在以太网上的实现，需要有支持RDMA功能的网卡，如支持RoCE或iWARP。相比较而言，iSCSI Target更加通用，有没有RDMA功能支持关系不是太大。
标准的NVMe-oF Target主要是为了导出PCIe SSD（并不是说不能导出其他块设备），iSCSI Target则可以导出任意的块设备。从这一方面来讲，iSCSI Target的设计目的无疑更加通用。
NVMe-oF Target是NVMe协议在网络上的扩展，毫无疑问的是如果访问远端的NVMe盘，使用NVMe-oF协议更加轻量级，直接是NVMe-oF→NVMe协议到盘，相反如果使用iSCSI Target，则需要iSCSI→SCSI→NVMe协议到盘。显然在搭载了RNIC + PCIe SSD的情况下，NVMe-oF能发挥更大的优势。

总体而言iSCSI Target更加通用，NVMe-oF Target的设计初衷是考虑性能问题。当然在兼容性和通用性方面，NVMe-oF Target也在持续进步。

兼容已有的网卡：NVMe-oF新的规范中已经加入了基于TCP/IP的支持，这样NVMe-oF就可以运行在没有RDMA支持的网卡上了。已有的网卡就可以兼容支持iSCSI及NVMe-oF协议，意味着当用户从iSCSI迁移到NVMe-oF上时，可以继续使用旧设备。当然从性能方面来讲，必然没有RDMA网卡支持有优势。
后端存储虚拟化：NVMe-oF协议一样可以导出非PCIe SSD，使得整个方案兼容。比如SPDK的NVMe-oF Target提供了后端存储的简单抽象，可以虚拟出相应的NVMe盘。在SPDK中可以用malloc的块设备或基于libaio的块设备来模拟出NVMe盘，把NVMe协议导入SPDK通用块设备的语义中。当然远端看到的依然是NVMe盘，这只是协议上的兼容，性能上自然不能和真实的相匹配，但是这解决了通用性的问题。

如此NVMe-oF协议可以做到与iSCSI一样的通用性。当然在长时间内，NVMe-oF和iSCSI还是长期并存的局面。iSCSI目前已经非常成熟，而NVMe-oF则刚刚开始发展，需要不断地完善，并且借鉴iSCSI协议的一些功能，以支持更多的功能。

SPDK在2016年7月发布了第一款NVMe-oF Target的代码，遵循了NVMe over fabrics相关的规范。SPDK的NVMe-oF Target实现要早于Linux Kernel NVMe-oF Target的正式发布。当然在新Linux发行版都自带NVMe-oF Target的时候，大家就会有一个疑问，我们为什么要使用SPDK的NVMe-oF Target。

SPDK的NVMe-oF Target和内核相比，在单核的性能（Performance/per CPU core）上有绝对的优势：

SPDK的NVMe-oF Target可以直接使用SPDK NVMe用户态驱动封装的块设备，相对于内核所使用的NVMe驱动更具有优势。
SPDK NVMe-oF Target完全使用了SPDK提供的编程框架，在所有I/O的路径上都采用了无锁的机制，为此极大地提高了性能。
对RDMA Ethernet transport的高效利用。SPDK目前对RDMA transport的实现虽然使用标准的RDMA编程库，如libibverbs，但是融入了SPDK的编程框架。从目前来讲，每个分给SPDK的CPU core上运行的Reactor都运行了一个group Poller，这个Poller可以负责处理所有归属这个CPU core处理的连接，这些连接贡献一个RDMA的completion queue，所以在多并发连接的情况下可以极大降低I/O处理的延时。

总的来说，SPDK NVMe-oF Target的实现还是比较复杂的，代码里面包含着异步编程的理念，包括各种回调函数。

SPDK NVMe-oF Target的主程序位于spdk/app/nvmf_tgt。因为NVMe-oF和iSCSI一样都有相应的subsystem（代码位于spdk/lib/event/subsystems/nvmf），只有在配置文件或RPC接口中调用了相应的函数，才会触发相应的初始化工作。这部分代码最重要的函数是nvmf_tgt_advance_state，主要通过状态机的形式来初始化和运行整个NVMe-oF Target系统。另外一部分代码位于spdk/lib/nvmf，主要是处理来自远端的NVMe-oF请求，包括transport层的抽象，以及实际基于RDMA transport的实现。如果读者希望学习SPDK NVMe-oF Target的细节，可以从spdk/lib/event/subsystems/nvmf目录的nvmf_tgt.c中的spdk_nvmf_subsystem_init函数入手。

目前SPDK最新发布的18.04版本中加入了很多对NVMe-oF Target的优化，包括连接的组调度，基于Round Robin的方式在不同的CPU core之间均衡负载，相同core上的连接共享rdma completion queue，等等。

当然目前NVMe-oF Target还在持续地开发迭代过程中，一些重要的feature也提上了日程，如支持TCP/IP的transport。这个工作分为两部分：一部分是支持基于内核TCP/IP的transport，另一部分是和用户态的VPP的TCP/IP进行整合。

6 SPDK使用评估

SPDK并不适合所有的存储架构。这里有一些问题可以帮助您确定SPDK组件是否适合您的架构。

1. 存储系统是基于Linux还是FreeBSD *？

SPDK主要在Linux上经过测试和支持。FreeBSD和Linux都支持硬件驱动程序。

2. 存储系统是否是英特尔®系统架构的硬件平台？

SPDK旨在充分利用英特尔®的平台特性，并针对英特尔®芯片和系统进行了测试和调整。

3. 存储系统的性能路径当前是否在用户模式下运行？

SPDK可以通过在用户空间中运行更多性能路径(performance path)来提高性能和效率。通过将应用程序与SPDK功能（例如NVMe-oF target，启动器或Blobstore）组合在一起，整个数据路径可能在用户空间中运行，从而提高了效率。

4. 系统架构能否将无锁PMD纳入其线程模型？

由于PMD持续在其线程上运行（而不是在未使用时休眠或转让处理器），因此它们具有特定的线程模型要求。

5. 系统当前是否使用DPDK（Data Plane Development Kit，数据平面开发套件）来处理网络数据包工作负载？

SPDK与DPDK共享原语和编程模型，因此当前使用DPDK的客户可能会发现与SPDK的紧密集成很有用。同样，如果客户使用SPDK，则添加DPDK功能进行网络处理可能会带来巨大的机会。

6. 开发团队是否具有专业知识，可以自己理解问题并进行故障排除？

英特尔对该参考软件不承担任何支持义务。尽管英特尔和SPDK周围的开源社区将采取商业上合理的努力来调查未经修改的已发布软件的潜在勘误，但在任何情况下，英特尔均不对客户承担任何提供软件维护或支持的义务。

性能测试中使用的软件和工作负载可能仅针对英特尔微处理器的性能进行了优化。使用特定的计算机系统，组件，软件，操作和功能来测量性能测试（例如SYSmark *和MobileMark *）。这些因素的任何变化都可能导致结果变化。

7 参考链接

SPDK详解_Rudy,Zhao的博客-CSDN博客_spdk架构

浅谈SPDK（一）什么是SPDK_饿狗007的博客-CSDN博客_spdk优势

SPDK官方文档中文版 - 海之心1213 - 博客园

【翻译】SPDK简介 - 程序员大本营

SPDK，软件定义存储的催化剂_TechWeb

SPDK线程模型解析

SPDK 应用编程框架

可实现RSSD云硬盘120万IOPS的SPDK IO路径优化实践_UCloud_TShare的博客-CSDN博客

spdk探秘-----vhost 、ISCSI、 NVMe-oF Target

你可能感兴趣的:(云原生专栏,后台开发专栏,云原生,SPDK,存储,NVMe,SSD)

15、云原生安全的核心原则二进制温柔云原生安全：从理论到实践云原生安全最小权限原则深度防御
云原生安全的核心原则1.引言在当今数字化的世界中，信息安全已成为企业生存和发展的重要组成部分。随着云计算的普及，云原生安全（CloudNativeSecurity）逐渐成为信息安全领域的新焦点。云原生安全不仅继承了传统安全的基本原则，还结合了云计算的独特特点，为企业提供了更高效、更灵活的安全解决方案。本文将深入探讨云原生安全的核心原则，帮助读者理解和掌握这些原则在实际应用中的意义和方法。2.云原生
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
云原生 CAD 让制造业设计协同更便捷大腾智能工业软件 CAD 数字化
随着互联网、云计算技术的突飞猛进，CAD向着网络化、协同化的方向快速发展，云CAD软件逐渐映入人们的眼帘。云原生CAD不仅打破了传统CAD软件对硬件配置的依赖，更以数据驱动的协同创新模式，重塑了制造业的产品研发流程与组织协作形态。云CAD的特征快速灵活部署云CAD的一大优势就是软件部署的灵活性。基于Web浏览器的SaaS化架构，使设计师无需经历冗长的软件安装与版本适配过程。云端统一维护机制确保所有
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
阿里云OSS跨账号迁移过程 IT_狂奔者《玩转Linux终极指南》阿里云云计算对象存储OSS
阿里云OSS跨账号迁移过程关于OSS在线迁移服务的更新说明旧版在线迁移已停止服务，用户需切换至新版在线迁移。与旧版相比，新版在线迁移的主要区别在于身份验证方式的调整。新版不再使用AK/AS（AccessKeyID和AccessKeySecret）进行认证，而是采用了角色授权机制。这一变化旨在提升安全性和简化权限管理。用户需根据新的认证方式进行配置，以确保迁移任务的正常运行。准备工作本文以标准存储进
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
Python的内存管理星辰灬 Python python pycharm
Python的内存管理在Python中，内存管理涉及到一个包含所有Python对象和数据结构的私有堆（heap）。这个私有堆的管理由内部的Python内存管理器（Pythonmemorymanager）保证。Python内存管理器有不同的组件来处理各种动态存储管理方面的问题，如共享、分割、预分配或缓存。内存管理机制动态内存分配：Python使用动态内存分配，这意味着它在运行时动态分配和管理内存，而
Oracle查询超时问题，聊聊思路！ bug菌¹ 全栈Bug调优(实战版)#CSDN问答解惑(全栈版)数据库 oracle java
本文收录于《CSDN问答解答》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述 Oracle在查询超过6秒的sql都会报Socketreadtimedout。我也根据网上的一些资料，在oracleurl后拼接了oracle.net.CONNECT_T
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
多服务器文件本地上传及读取一朵梨花压海棠go 服务器运维
多服务器文件管理系统的实现方案在没有对象存储服务（OSS）的情况下，本文实现了一个基于多台服务器的文件管理系统。系统通过数据库表维护文件存储位置信息，主要功能包括：文件上传：检查文件大小限制，计算MD5值，按日期目录存储文件文件下载：根据ID获取文件实体，返回文件资源流文件去重：通过MD5校验避免重复存储IP管理：记录文件所在服务器IP，便于跨服务器访问系统使用SpringBoot框架实现，数据库
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Linux】环境变量——干货讲解代码程序猿RIP Linux linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、环境变量核心概念1.什么是环境变量？2.环境变量的存储结构3.常见环境变量及作用二、环境变量管理命令1.查看环境变量2.设置环境变量3.删除环境变量4.变量操作技巧三、环境变量在编程中的应用1.C语言获取环境变量的三种方式方法1：main函数参数方法2：extern声明environ方法3：getenv获取特定变量2.环境
C#——数组小袁儿 c#算法数据结构
在C#中，数组是一个存储固定大小、相同类型数据的集合。数组的元素是按顺序排列的，可以通过索引来访问和修改。数组在C#中是引用类型，创建后数组的大小是固定的。1.数组的声明与初始化声明数组在C#中，你可以按照如下方式声明数组：//声明一个整数数组int[]numbers;初始化数组数组有多种初始化方式：//初始化一个包含5个元素的整数数组int[]numbers=newint[5];//初始化时指定
sda剩余的存储空间分配到sda2根目录（/）
sda8:0080G0disk├─sda18:101M0part└─sda28:2040G0part/sr011:013G0rom步骤1：检查分区布局使用lsblk或fdisk确认剩余空间的位置：sudofdisk-l/dev/sda确保剩余空间紧接在sda2分区之后。步骤2：安装必要工具确保已安装cloud-utils和e2fsprogs：sudoapt-getupdate&&sudoapt-g
变幻莫测：CoreData 中 Transformable 类型面面俱到（八）大熊猫侯佩 Apple开发入门 CoreData Transformable Data SwiftData 类型转换 Codable Swift
概述各位似秃似不秃小码农们都知道，在苹果众多开发平台中CoreData无疑是那个最简洁、拥有“官方认证”且最具兼容性的数据库框架。使用它可以让我们非常方便的搭建出App所需要的持久存储体系。不过，大家是否知道在CoreData中还存在一个Transformable类型，它到底是个啥？应用场景有哪些？在最新的SwiftData中有没有对应物？对于开发者又有哪些“见雀张罗”的撸码陷阱和最佳实践呢？在本
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
详解FreeRTOS：FreeRTOS列表和列表项（基础篇—13）不脱发的程序猿详解FreeRTOS FreeRTOS列表和列表项 FreeRTOS RTOS
目录1、列表和列表项是什么？1.1、列表1.2、列表项2、初始化列表和列表项2.1、初始化列表2.2、初始化列表项3、列表项插入3.1、列表项插入过程原理3.2、列表项插入源码4、列表项末尾插入4.1、列表项末尾插入过程原理4.2、列表项末尾插入源码5、删除列表项6、遍历列表7、实验：列表项的插入和删除本篇博文是《详解FreeRTOS》专栏基础篇最后一篇，下篇博文将进入进阶篇阶段。列表和列表项是直
使用虚幻引擎5（UE5）开发游戏的最低配置推荐知1而N UE5-游戏引擎虚幻5最佳实践 ue5 游戏
一、最低系统配置（可运行引擎）组件要求说明来源操作系统Windows1064位（版本20H2或更高）处理器4核CPU（如Inteli5-4590或AMDRyzen51600），主频≥3.0GHz内存8GBRAM（推荐32GB以上，复杂场景需64GB）显卡NVIDIAGTX970（4GB显存）或AMDRadeonR9290（4GB显存）存储100GBSSD（项目文件占用空间随复杂度增长）Direct
基于HTML的悬窗可拖动记事本孤水寒月 html css 前端
基于HTML的悬窗可拖动记事本这款记事本全部使用HTML+CSS+JS实现，可以在浏览器中实现悬浮可拖动的记事本，所有内容存储在浏览器中，清除缓存后将会丢失记事本内容效果展示实现代码Note+×保存删除//拖动逻辑constdraggableWindow=document.getElementById('draggableWindowNote');constdragHeader=doc
116-基于5VLX110T FPGA FMC接口功能验证6U CPCI平台 Anin蓝天（北京太速科技-陈） fpga开发嵌入式硬件图像处理
一、板卡概述本板卡是Xilinx公司芯片V5系列芯片设计信号处理板卡。由一片Xilinx公司的XC5VLX110T-1FF1136/XC5VSX95T-1FF1136/XC5VFX70T-1FF1136芯片组成。FPGA接1片DDR2内存条2GB，32MBNorflash存储器，用于存储程序。外扩SATA、PCI、PCIexpress、千兆网络接口、SFP接口，自定义总线支持最大到266个IO。该
ZYNQ MPSOC PL端DDR4读写--介绍（1） LEEE@FPGA FPGA高速接口开发 fpga开发 DDR4
1DDR4介绍DDR4SDRAM（Double-Data-RateFourthGenerationSynchronousDynamicRandomAccessMemory，简称为DDR4SDRAM），是一种高速动态随机存取存储器，它属于SDRAM家族的存储器产品，提供了相较于DDR3SDRAM更高的运行性能与更低的电压，并被广泛的应用于计算机的运行缓存。DDR4主要特点1)更高频率与带宽起步频率为
数据结构day5——队列和树 LZA185 数据结构数据结构
目录一、队列：先进先出的数据缓冲区队列的核心概念队列的典型应用场景队列的基本操作队列的两种C语言实现方式1.顺序队列（基于数组的实现）2.循环队列（解决假溢出问题）二、树：一对多的层次结构树的基本概念树的存储方式二叉树：最常用的树结构二叉树的定义二叉树的特点特殊的二叉树二叉树的重要特性二叉树的C语言实现与遍历三、总结在数据结构的世界里，队列和树是两种截然不同却又同样重要的结构。队列以其"先进先出"
数据结构day2 LZA185 数据结构数据结构
目录一、Makefile二、检测内存泄漏工具：valgrind2.1valgrind介绍2.2具体使用：valgrind./a.out三、顺序存储的优缺点3.1优点3.2缺点四、线性表的链式存储：4.1链式存储简介4.2关于单向链表的c语言描述4.3单项列表的功能函数一、Makefile关于makefile介绍请查看这篇文章：https://blog.csdn.net/weixin_7208634
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
设计模式之上下文对象设计模式 Code Monkey’s Lab 设计模式设计模式
目录一、模式介绍二、架构设计三、Demo示例四、总结一、模式介绍上下文对象（ContextObject）模式最早由《CoreJ2EEPatterns》第二版提出，其核心目标是在多层或多组件间共享与当前作用域（如一次请求、一次会话、一次业务流程）相关的所有状态和服务，消除各组件对底层环境细节（如协议、线程、本地存储等）的直接依赖，从而提高系统的可复用性、可维护性和可测试性。ContextObject
【Python基础】07 实战：批量视频压缩的实现智算菩萨 python 服务器开发语言
前言在数字化时代，视频内容已成为信息传播的主要载体。无论是个人用户还是企业，都面临着大量视频文件存储和传输的挑战。视频文件通常体积庞大，占用大量存储空间，同时在网络传输时也会消耗大量带宽。因此，一个高效、易用的视频压缩工具变得尤为重要。本文将详细介绍一个基于Python开发的批量视频压缩工具，该工具结合了现代图形界面设计和强大的FFmpeg视频处理能力，为用户提供了一站式的视频压缩解决方案。通过本
# 国产高性能VPX6U模块：飞腾4核/8核处理器助力数据处理与通信
#产品概述今天为大家介绍一款高性能国产VPX6U模块——飞腾4核/8核VPX6U模块。这款产品采用国产飞腾处理器，具备强大的数据处理能力和丰富的接口配置，是军工、通信、存储等领域的理想选择。##核心特点###1.国产飞腾处理器，性能灵活可选-模块兼容FT2000-4或D2000-8两种处理器-用户可根据实际性能需求自由选择-完全国产化方案，安全可控###2.丰富接口配置，多功能应用-万兆以太网、千
【图像去噪】论文精读：Linear Combinations of Patches Are Unreasonably Effective for Single-Image Denoising 十小大深度学习图像处理计算机视觉图像去噪人工智能
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言AbstractI.INTRODUCTIONII.APARAMETRICVIEWOFTWO-STEPNON-LOCALMETHODSFORSINGLE-IMAGEDE
Laravel 阿里云 OSS 视频上传完整方案 phplavarel
一、环境准备1.1安装OSSSDKcomposerrequirealiyuncs/oss-sdk-php1.2环境配置在.env文件中添加：OSS_ACCESS_KEY_ID=你的AccessKeyIdOSS_ACCESS_KEY_SECRET=你的AccessKeySecretOSS_ENDPOINT=oss-cn-hangzhou.aliyuncs.comOSS_BUCKET=你的Bucket
CentOS 6操作系统安装
【版本】选【CentOS664位】【此虚拟机内存】4096【最大磁盘大小】100G上传映像文件CentOS-6.10-x86_64-bin-DVD1中文安装、美国英语式键盘安装将使用哪种设备？【基本存储设备】设置主机名→【配置网络】→【编辑】→勾选【自动连接】→【IPv4设置】手动设置→【应用】【创建自定义布局】→创建【swap】（指定空间大小8192，方法16G法同上）和【/】（文件系统类型ex
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite