jiang4357291

从qemu-virtio到vhost-user

文章目录

一、linux单机存储栈
- 1.1 概览
- 1.2 block layer
- - 1.2.1 io scheduler
  - 1.2.2 block mq
二、计算虚拟化
- 2.1 cpu虚拟化
- 2.2 内存虚拟化
- - 2.2.1 linux内存管理方案
  - 2.2.2 内存虚拟化
- 2.3 qemu-kvm
- - 2.3.1 qemu
  - 2.3.2 kvm
  - 2.3.3 qemu-kvm
三、存储虚拟化
- 3.1 全虚拟化IO
- 3.2 virtio
- - 3.2.1 概述
  - 3.2.2 架构
  - 3.2.3 virtqueue
  - 3.2.4 virtio-blk/virtio-scsi
- 3.3 spdk vhost-user
- - 3.3.1 spdk
  - 3.3.2 基于vhost的加速方案
  - 3.3.3 qemu-virtio vs vhost-user
四、参考

一、linux单机存储栈

1.1 概览

VFS：对用户屏蔽各种文件系统的不同实现，对上层提供统一的接口
单机文件系统(ext4/xfs等)：向下管理块设备，向上对接vfs
- 非direct io：写到page cache，之后由内核定期write back
- direct io：将用户io提交到通用块层
page cache：文件系统高速缓存，用于加速读写过程，Page cache由内存中的物理page组成，其内容对应磁盘上的block。
block layer：处理所有对块设备的请求，核心struct bio，主要是io scheduler和block mq两大模块
块设备驱动：驱动程序可以直接管理块设备的硬件读写，驱动程序收到io请求后会触发执行硬件指令，大部分的磁盘驱动程序都采用DMA的方式去进行数据传输，DMA控制器自行在内存和IO设备间进行数据传送，当数据传送完成再通过中断通知CPU

1.2 block layer

1.2.1 io scheduler

前面说到，block layer提交的io会通过一定的调度算法才会真正写到块设备上，目前linux的io scheduler主要有以下几种：

noop：不调度，所以io请求进入一个FIFO队列后逐个出队执行，如果对应在磁盘上连续的请求，也会适当做一些合并。
deadline：改良的电梯算法，每个请求都有默认超时时间(读500ms，写5s)，当部分请求等待太久后，电梯需要掉头处理这些请求。可见其核心在于保证每个IO请求在一定的时间内一定要被服务到，以此来避免某个请求饥饿。
cfq：类似于进程调度算法里的cfs，为每个请求队列分配一个调度队列和时间片，在调度器分配给进程的时间片内，进程可以将读写请求下发到块设备，时间片消耗完后请求队列将被挂起，等待调度。
不同的scheduler适用于不同的场景，可以通过/sys/block//queue/scheduler查看和更改某块磁盘的调度算法，实际应用中可以根据应用场景进行分析以配置合适的scheduler。
值得一提的是，deadline和cfq等调度算法都是针对机械盘的特点进行了设计和优化的，机械盘的随机访问在磁道寻址上要花费大量时间，因此才会出现这些算法，尽可能在寻道的过程中，能把顺序路过的相关磁道的数据请求都“顺便”处理掉，那么就可以在比较小影响响应速度的前提下，提高整体IO的吞吐量。

1.2.2 block mq

上节说到，block layer中的scheduler都是为了hdd设计的，由于hdd的随机读写性能差，IO操作在Block Layer中会经过复杂的操作才会被执行，此时io的性能瓶颈在于硬件，而不是内核，内核通过引入各种调度算法来最大化利用hdd的能力，此时内核采用的还是一个全局共享的单队列(Request Queue)：

任何io请求都会经过该Request Queue，io的出队、入队、合并、重排等都需要加锁，这个设计在当时并不会成为性能瓶颈，因为：

HDD 很慢，内核互斥访问一个全局队列不会成为系统瓶颈。
CPU 核数较少，锁竞争的情况不严重。
全局一个队列有利于 I/O 优化（合并、重排序）。
但是随着ssd的问世和广泛应用，存储硬件的io能力翻了数倍，此时io的主要瓶颈已经从硬件转移到了内核block sq架构，主要在于以下几个方面：

Request Queue锁竞争(主要瓶颈)：全局单队列共享的设计，在单核hdd的时代，锁竞争的开销并不明显；但是在动辄几十cpu以及数十万iops的ssd下，每个io都需要经过全局Request Queue，锁竞争已经成为了巨大瓶颈
中断：在多数情况下，完成一次IO需要两次中断，一次是存储器件触发的硬件中断，另一次是IPI核间中断用于触发其他cpu上的软中断
Remote Memory Accesses：如果提交IO请求的cpu不是接收硬件中断的cpu且这两个cpu没有共享缓存，那需要访问远端cpu缓存，这会造成了不小的性能损失，特别是在NUMA架构的机器上
面对以上暴露的种种问题，linux内核在3.13版本引入了新机制block multi-queue，在3.19版本更抽象化为了multi-queue block layer。multi-queue机制的核心设计是在多核CPU的情况下，引入了两级的多队列，将单队列的锁竞争分散到多队列中，以更好的平衡IO的工作负载，大幅提高SSD等存储设备的IO效率。

两级多队列设计：
Software Staging Queue：负责 I/O 的调度和优化，队列的配置可以是per cpu core，也可以是per cpu socket；io的调度优化以queue为单位，不会发生跨queue的调度行为，减少了锁竞争
Hardware Dispatch Queue：负责将从 Software Staging Queues 过来的 I/O 请求发送给底层硬件，一般和硬件队列的个数相等，每个硬件队列对应一个派发队列

可以看到，block mq的多个staging queue很大程度上减少了锁竞争，同时由于和cpu core绑定的关系，也避免了remote memory access以及节省了核间中断，因此相比于sq架构很大程度上提升了对存储介质的使用效率。

两级多队列设计：

Software Staging Queue：负责 I/O 的调度和优化，队列的配置可以是per cpu core，也可以是per cpu socket；io的调度优化以queue为单位，不会发生跨queue的调度行为，减少了锁竞争
Hardware Dispatch Queue：负责将从 Software Staging Queues 过来的 I/O 请求发送给底层硬件，一般和硬件队列的个数相等，每个硬件队列对应一个派发队列

可以看到，block mq的多个staging queue很大程度上减少了锁竞争，同时由于和cpu core绑定的关系，也避免了remote memory access以及节省了核间中断，因此相比于sq架构很大程度上提升了对存储介质的使用效率。
实例分析二：多队列场景下fio测试时如何测性能最高？
来看下阿里的essd压测脚本：https://help.aliyun.com/document_detail/65077.html

 cpulist=""
 for ((i=1;i<10;i++))
 do
     list=`cat /sys/block/your_device/mq/*/cpu_list | awk '{if(i<=NF) print $i;}' i="$i" | tr -d ',' | tr '\n' ','`
     if [ -z $list ];then
         break
     fi
     cpulist=${cpulist}${list}
 done
 spincpu=`echo $cpulist | cut -d ',' -f 2-${nu}`
 echo $spincpu
 fio --ioengine=libaio --runtime=30s --numjobs=${numjobs} --iodepth=${iodepth} --bs=${bs} --rw=${rw} --filename=${filename} --time_based=1 --direct=1 --name=test --group_reporting --cpus_allowed=$spincpu --cpus_allowed_policy=split
}

在一个40 core的机器上测试，以上脚本选择的cpu如下，可以看到通过尽可能选择绑定了不同硬件队列的cpu来减少竞争，提升性能。

# cat /sys/block/{dev}/mq/*/cpu_list
0, 8, 16, 20, 28, 36
1, 9, 17, 21, 29, 37
2, 10, 18, 22, 30, 38
3, 11, 19, 23, 31, 39
4, 12, 24, 32
5, 13, 25, 33
6, 14, 26, 34
7, 15, 27, 35

#  echo $spincpu
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16

二、计算虚拟化

简单介绍下cpu和内存的虚拟化：

2.1 cpu虚拟化

操作系统是设计在直接运行在裸硬件设备上的，因此它们自动认为它们完全占有计算机硬件。x86 架构提供四个特权级别给操作系统和应用程序来访问硬件，从Ring3到Ring0优先级依次升高，但大多数现代操作系统都只用到了Ring0和Ring3。

操作系统（内核）需要直接访问硬件和内存，因此它的代码需要运行在最高运行级别 Ring0上，这样它可以使用特权指令，控制中断、修改页表、访问设备等等。
应用程序的代码运行在最低运行级别上Ring3上，不能做受控操作。如果要做，比如要访问磁盘，写文件，那就要通过执行系统调用（函数），执行系统调用的时候，CPU的运行级别会发生从Ring3到Ring0的切换，并跳转到系统调用对应的内核代码位置执行，这样内核就为你完成了设备访问，完成之后再从Ring0返回Ring3。这个过程也称作用户态和内核态的切换。
linux on x86只使用了这两个ring，ring0即kernel mode，ring3即user mode。

因为宿主操作系统是工作在 Ring0 的，客户操作系统就不能也在 Ring0 了，但是它不知道这一点，以前执行什么指令，现在还是执行什么指令，但是没有执行权限是会出错的。所以这时候虚拟机管理程序（VMM）需要避免这件事情发生。虚机怎么通过 VMM 实现 Guest OS 对硬件的访问，根据其原理不同有三种实现技术：
全虚拟化
虚机与硬件完全隔离，虚机的一切指令都由虚拟化软件(也就是Hypervisor或VMM)进行处理，guest os认为自己运行在硬件上。VMM会为GuestOS抽象模拟出它所需要的包括CPU、磁盘、内存、网卡、显卡等抽象硬件资源。
Guest os运行在Ring1，vmm运行在Ring0，所以guest os在执行特权指令时，会触发异常（CPU的机制，没权限的指令会触发异常）， VMM 捕获这个异常，在异常里面做翻译，模拟，最后返回到guest os内。
这种方案的缺点是将原本可直接执行的指令变成了复杂的异常捕捉和指令翻译过程，所以速度太慢。
半虚拟化
修改定制guest os，替换掉不能虚拟化的指令，通过超级调用（hypercall）直接和底层的虚拟化层hypervisor来通讯，hypervisor 同时也提供了超级调用接口来满足其他关键内核操作，比如内存管理、中断和时间保持。修改后的guest os直接运行在Ring0。
这种方案省去了指令的翻译过程，性能接近裸机，缺点是需要对guest os进行修改，guest os知道自己是虚机，而且像windows这种无法改源码的就不支持。
硬件辅助的虚拟化
主要基于Intel的VT和AMD的AMD-V，在硬件层面做了虚拟化的支持。以intel VT为例，为cpu增加了Virtual machine Extensions(即VMX)，开启了VMX后的cpu有root mode和non-root mode两种模式，每种模式都支持Ring 0 ~ Ring 3 共 4 个运行级别。Guest OS运行在非root模式的Ring 0，vmm运行在root模式的Ring0。两种模式可以互相转换，从root模式到非root模式称为VM Entry(像是进入guest)，反之从非root模式到root模式则称为VM Exit(相当于退出vm)。

VMX root模式和没有VT的cpu的正常模式没有什么区别，只是某些制寄存器的写被限制了，而VMX 非root模式则有明显区别，处理器的某些行为被限制住或者被更改以便实现虚拟化，即某些指令或者事件会引起VM Exit。通常情况下，Guest OS的核心指令可以直接下达到计算机系统硬件执行，而不需要经过VMM。当Guest OS执行到特殊指令的时候，系统会切换到VMM，让VMM来处理特殊指令。
硬件辅助的全虚拟化方案，在性能上接近半虚拟化，且不需要修改定制guest os，是现在主流的方案。
3种虚拟化方案的总结对比：

2.2 内存虚拟化

2.2.1 linux内存管理方案

每个进程拥有自己独立的虚拟地址空间，由kernel维护的页表来管理虚拟地址和物理地址的映射
当访问到的虚拟地址page还不在物理内存中时，则产生page fault，通过MMU建立映射关系
此外还有TLB来进行加速

2.2.2 内存虚拟化

几个基本概念：

GVA -> GPA -> HVA -> HPA

GVA - Guest virtual address
GPA - Guest physical address
HVA - Host virtual address
HPA - Host physical address

Guest OS需要使用一个从0开始的、连续的物理地址空间，但是真实的物理地址空间是被Host OS所管理的，因此Guest OS是不能直接在物理内存上加载、运行的，唯一可行的办法是为Guest OS提供一个虚拟的物理内存空间，即GPA。Guest内用户可以看到的内存是Guest OS虚拟化出的GVA。
显然，GVA - GPA 的映射由Guest OS负责维护，而 HVA - HPA 由Host OS负责维护，内存虚拟化的核心是GPA - HVA的映射，GPA-HVA的映射主要有两种方案：

影子页表SPT
纯软件实现，kvm为Guest中的每个页表再额外维护一个影子页表，Guest中原本的页表实际变成了虚拟页表。在Guest中的虚拟内存管理中，Guest的页表基址地址存放在CR3寄存器中，kvm会将 Guest 的页表设置为只读，当 Guest OS 对页表进行修改时就会触发 Page Fault，VM-EXIT 到 kvm，kvm根据GVA 对应的页表项进行访问权限检查，结合错误码进行判断：

如果是 Guest OS 引起的，则将该异常注入回去，Guest OS 将调用自己的缺页处理函数，申请一个 Page，并将 Page 的 GPA 填充到上级页表项中
如果是 Guest OS 的页表和 SPT 不一致引起的，则同步 SPT，根据 Guest 页表和 mmap 映射找到 GPA 到 HVA 的映射关系，然后在 SPT 中增加/更新GVA-HPA表项
总的来说基于SPT的内存虚拟化方案中，kvm截获了Guest相关的修改操作并更新到SPT，而真正装入物理MMU的是SPT；Guest中GVA和GPA之间的转换实际上变成了GVA与HPA的转换，TLB中缓存的也是GVA和HPA的映射。
SPT方案的优缺点如下：
- 优点：Guest内存访问没有额外的地址转换开销。
- 缺点：但是SPT的引入导致每个页表double了，而且进程过多时本身SPT的建立要花费不少时间，带来不小的内存开销，而且还有频繁的vm exit影响性能。
1. intel EPT
  基于硬件支持的内存虚拟化，intel CPU实现了EPT(Extended Page Table，扩展页表)，将GVA到HPA的转换由硬件来完成，具体转换流程为：

1. 在 Guest OS 运行时，处于非root模式的CPU加载guest进程的gCR3
2. guest 访问gCR3，由传统页表实现GVA到GPA的转换
3. 再通过查询EPT完成GPA到HPA的转换

EPT方案下，为每个guest只维护一个EPT，只有cpu处于非root模式下才参与内存地址的转换，guest os的page fault在内部处理，不会exit到vmm，但是如果tlb miss，两级页表的查询会引入大量开销。
综合来看，通过硬件EPT技术，大幅减少了页表更新带来的vm exit，同时也大幅减少了内存虚拟化的难度，虽然也有多级页表查询的开销，但总体来看提升明显，是现在内存虚拟化的主流方案。

2.3 qemu-kvm

上节说到，硬件辅助虚拟化既不用修改guest os保持了很好的兼容性，又有接近半虚拟化的性能，是当前虚拟化领域的大势所趋，而在linux环境下，qemu-kvm则是当前最主流的方案。

2.3.1 qemu

https://www.qemu.org/

qemu(Quick Emulator)是一个开源的虚拟化软件，是主机上的vmm，通过动态二进制转换来模拟CPU，并提供一系列的硬件模型，使guest os认为自己和硬件直接打交道，其实是同QEMU模拟出来的硬件打交道，QEMU再将这些指令翻译给真正硬件进行操作。
qemu自身就是一个完整的虚拟化方案，不需要其他任何组件，但纯qemu的方案效率太低，因此需要加速方案，cpu、内存的虚拟化通过硬件辅助的方式实现，网络、存储的加速在下文中会提到。

2.3.2 kvm

https://www.linux-kvm.org/page/Main_Page

kvm(Kernel Virtual Machine)是Linux on x86上的一个全虚拟化解决方案，主要由两个内核模块组成，kvm.ko提供核心虚拟化功能，kvm-intel.ko或kvm-amd.ko提供硬件虚拟化能力。kvm能够让Linux主机成为一个Hypervisor，kvm只实现cpu和内存的虚拟化，但是需要cpu硬件本身支持虚拟化扩展，也即Intel VT和AMD-V。本质上，KVM是管理虚拟硬件设备的驱动，该驱动使用字符设备/dev/kvm（由KVM本身创建）作为管理接口，主要负责vCPU的创建，虚拟内存的分配，vCPU寄存器的读写以及vCPU的运行。(有关kvm的cpu虚拟化和内存虚拟化会在qemu-kvm中介绍。)
每一个kvm客户机对应一个linux进程，由标准 Linux 调度程序进行调度，每一个vCPU是该进程下的一个子线程，这使得kvm可以使用linux内核的已有功能。
kvm通过硬件辅助虚拟化可以接近物理机的性能，但其本身并不是一个完整的虚拟化方案，只能虚拟化cpu和内存。

2.3.3 qemu-kvm

通过前面的介绍我们可以看到：

从qemu的角度来看：qemu是完整的虚拟化方案，但由于所以指令都要经过qemu转译，导致性能太低
从kvm的角度来看：kvm是借助硬件辅助方案实现虚拟化，性能损失极低，但其只实现了cpu和内存的虚拟化，且其运行在内核空间，用户无法直接和其进行交互，需要依赖用户态的管理工具
可以看到qemu和kvm天然存在着互补关系，因此也就衍生出了一个对两者互相取长补短的方案：qemu-kvm，其主要架构如下图：
- 一个虚拟机对应一个qemu进程
- vcpu线程用于运行guest代码
- 单独的io线程用于管理模拟的设备
- 此外还有其他如处理 event loop，offloaded tasks 等的线程
  
  在qemu-kvm架构下，虚拟机的配置和创建、虚拟设备的模拟、虚机运行时的用户环境和交互等都是由qemu完成的，而在虚机运行状态下，QEMU 会通过 KVM 模块提供的系统调用进入内核，由 KVM 负责将虚拟机置于处理的特殊模式运行。当虚机进行 I/O 操作时，KVM 会从上次系统调用出口处返回 QEMU，由 QEMU 来负责解析和模拟这些设备。
  下面通过一段伪代码来说明qemu-kvm的启动和工作流程：

// 第一步，获取到 KVM 句柄
kvmfd = open("/dev/kvm", O_RDWR);
// 第二步，创建虚拟机，获取到虚拟机句柄。
vmfd = ioctl(kvmfd, KVM_CREATE_VM, 0);
// 第三步，为虚拟机映射内存，还有其他的 PCI，信号处理的初始化。
ioctl(kvmfd, KVM_SET_USER_MEMORY_REGION, &mem);
// 第四步，将虚拟机镜像映射到内存，相当于物理机的 boot 过程，把镜像映射到内存。
// 第五步，创建 vCPU，并为 vCPU 分配内存空间。
ioctl(kvmfd, KVM_CREATE_VCPU, vcpuid);
vcpu->kvm_run_mmap_size = ioctl(kvm->dev_fd, KVM_GET_VCPU_MMAP_SIZE, 0);
// 第五步，创建 vCPU 个数的线程并运行虚拟机。
ioctl(kvm->vcpus->vcpu_fd, KVM_RUN, 0);
// 第六步，线程进入循环，并捕获虚拟机退出原因，做相应的处理。
for (;;) {
    ioctl(KVM_RUN)
    switch (exit_reason) {
        case KVM_EXIT_IO:  /* ... */
        case KVM_EXIT_HLT: /* ... */
    }
}
// 这里的退出并不一定是虚拟机关机，
// 虚拟机如果遇到 I/O 操作，访问硬件设备，缺页中断等都会退出执行，
// 退出执行可以理解为将 CPU 执行上下文返回到 Qemu。

cpu虚拟化
虚机在 KVM 的支持下，被置于VMX的非根模式下执行二进制指令。在非root模式下，所有敏感的二进制指令都被CPU捕捉到，CPU 在保存现场之后自动切换到根模式，由 KVM 决定如何处理(或直接由kvm处理或交由用户态的qemu处理)。
内存虚拟化
在qemu-kvm架构下，GPA是由qemu进行申请，由kvm进行管理的，具体来看：
qemu根据guest的内存大小通过mmap系统调用在本进程的虚拟地址空间中申请对应大小的连续内存块(只是HVA连续)，再通过ioctl的KVM_SET_USER_MEMORY_REGION接口将该内存地址注册到kvm中，由kvm进行维护。其中ioctl传入的参数主要有两个：guest_phys_addr为虚机GPA起始地址，userspace_addr为mmap得到的HVA起始地址。kvm拿到GPA和GVA的起始地址后，就会为当前虚机建立EPT，实现GPA->HPA的映射，同时会为VMM建立HVA->HPA映射。

vm exit发生时，vmm需要能够处理异常，此时vmm获取的是GPA，需要能转换到HPA，由于GPA和HVA的映射关系是qemu维护的，且已经传给了kvm，所以kvm可以通过GPA查询到对应的HVA，再转换到HPA。下图清晰展示了vm和vmm的内存映射关系：

三、存储虚拟化

3.1 全虚拟化IO

qemu是软件实现的全虚拟化方案，在全虚拟化io的架构下，qemu通过本地的镜像文件向guest模拟出硬盘设备，所有guest io对host来说就和其他应用写本地文件一样。

具体来看下完整的io流程：

1. guest 发起io
2. 对PCI空间的读写是特权指令，会触发VM Exit，被kvm的i/o trap code捕获，kvm将io信息放到sharing page，并通知用户态的qemu
3. qemu从共享页中取出io请求，交由硬件模拟代码去处理：io需要经过host文件系统->page cache->block device这套完整的链路
4. qemu完成此次io后，再将结果放回共享页，并通知kvm
5. kvm中的i/o trap code读取sharing page中的操作结果，并将结果返回到客户机中
6. 触发VM Entry，guest再次获取cpu控制权，根据io返回结果进行处理

当 Guest 通过 DMA 访问大块内存时，QEMU 模拟程序不会把操作结果放到 I/O 共享页中，而是通过内存映射的方式将结果直接写到 Guest 的内存中去，然后通过 KVM 告诉Guest 的 DMA 操作完成。
全虚拟化的io方案简单通用，可以模拟各种硬件设备，但性能很差，具体原因有：

io路径过长，且存在多处数据复制
频繁的VMEntry、VMExit，多次上下文切换
由于全虚拟化io的以上缺点，演进出了在性能方面更具优势的半虚拟化io。

3.2 virtio

3.2.1 概述

virtio是一套通用的半虚拟化io框架，提供了在hypervisor之上通用模拟设备IO的抽象，它基于hypervisor导出一组通用的io模拟设备，并基于一组通用api使得这些设备可以在虚机内使用。在virtio的设计中，客户机意识到自己运行在虚拟化环境中，通过virtio标准与hypervisor进行配合，进而达到更好的性能。
Guest 使用 VirtIO devices 最典型的方式是通过 PCI/PCIe 协议，PCI/PCIe 是 QEMU 和 Linux 中成熟且支持良好的总线协议。在物理环境中，PCI/PCIe 硬件设备会使用特定的物理内存地址范围，设备的驱动程序可以通过访问该内存范围来读取或写入设备的寄存器，也可以通过特殊的处理器指令来暴露其配置空间（Configuration Space）。基于这个原理，在虚拟化环境中，Hypevisor 可以通过捕获对该内存范围的访问并执行设备仿真。VirtIO 规范还定义了 PCI 配置空间的布局，因此实现起来非常简单。
virtio起初只是Rusty Russell针对自己的虚拟化方案lguest提出的，如今已经成为半虚拟化io的事实标准。virtio的意义有两个：

为众多虚拟化平台提供了一个统一的io模型，KVM、XEN、VMWare等均可以利用virtio进行io虚拟化
相对于全虚拟化io方案，提升了io性能

3.2.2 架构

virtio是前后端的架构，以qemu-kvm+virtio为例，前端是位于guest os中的kernel module，后端是qemu中的驱动代码。前后端之间通过一个ring buffer进行交互，前端将I/O 请求放到buffer中，后端取出后再进行处理，处理完成后再放回buffer中，一次交互过程可以有多个io。具体ring buffer的组织方式也就是virtqueue。
virtio提供io设备的统一抽象，所以在前端中可以实现各种基于virtio的io设备驱动，如网络virtio_net，硬盘virtio_blk和virtio_scsi。

virtio在linux kernel中的实现：

1. guest 发起io
2. io到达guest os，由kernel中的virtio前端驱动进行处理，将io放到virtio-ring中并通知virtio后端
3. qemu作为virtio后端从virtio-ring中取出io请求并进行处理，可以一次性取出多个io并处理
4. qemu完成此次io后，再将结果放回virtio-ring，并通知virtio前端
5. 客户机virtio前端获取io结果并最终返回给应用

关于virtio-ring在qemu-kvm场景下：
内存虚拟化的时候介绍过，guest的GPA内存空间是由qemu通过mmap进行申请的，virtio-ring便是由前端驱动在GPA空间上申请的，所以当qemu去从中取io请求时，可以直接将GPA转换到对应的HVA；在io完成后又可以将io结果直接写到GPA上，整个virtio-ring的交互过程无需拷贝。
前后端的通知机制：
guest通知qemu通过ioeventfd，qemu通知guest通过irqfd，两者都是通过eventfd实现的。

ioeventfd: 将一个eventfd绑定到一段客户机的地址空间，当guest写这段地址空间时，会触发EPT_MISCONFIGURATION缺页异常，KVM处理时如果发现这段地址落在了已注册的ioeventfd地址区间里，会通过写关联eventfd通知qemu
irqfd: kvm为host通知guest提供的机制，将一个eventfd与一个全局中断号联系起来，当qemu写该eventfd时，kvm作为另一侧被唤醒，接着调用irqfd_inject将对应的中断注入到虚拟机中

             +-------------+                +-------------+
             |             |                |             |
             |             |                |             |
             |   GuestOS   |                |     QEMU    |
             |             |                |             |
             |             |                |             |
             +---+---------+                +----+--------+
                 |     ^                         |    ^
                 |     |                         |    |
             +---|-----|-------------------------|----|---+
             |   |     |                irqfd    |    |   |
             |   |     +-------------------------+    |   |
             |   |  ioeventfd                         |   |
             |   +------------------------------------+   |
             |                   KVM                      |
             +--------------------------------------------+

问题思考:
https://stackoverflow.com/questions/46418131/in-virtio-why-does-guest-notifier-and-host-notifier-use-ioeventfd-and-irqfd-res

总结：基于virtio的半虚拟化io方案，一方面减少了VM Exit和VM Entry(主要优化，VM Exit对性能的影响巨大)，一方面基于vrtio协议，一次可以并行处理多个io，在性能上较之全虚拟化io有明显提升，但要注意其并未缩短io路径，io还是需要经过qemu好host kernel。
最后再回过来看全虚拟化io和半虚拟化io的区别：

3.2.3 virtqueue

virtqueue就是virtio-ring的具体组织形式，virtio的前后端基于virtqueue来实现io传输，每种设备可以有0个或多个virtqueue，每个virtqueue由三部分组成：

+-------------------+--------------------------------+-----------------------+
    | Descriptor Table  |   Available Ring  (padding)    |       Used Ring   |
+-------------------+--------------------------------+-----------------------+

其总体结构如下：

Descriptor Table：存放描述符，每个描述符指向一块buffer
Available Ring：guest driver发起请求时，将在descriptor table中的索引放到avail ring中，后端device不断从中取出并进行消费
Used Ring ：后端device从avail中取出的descriptor并处理完成后，将desc索引放到used ring中
virtio 1.0之前要求这三部分在一块连续内存上，1.0之后则无此要求，只需要各自连续即可。virtio 1.1之后对这三部分的名称也改了，且引入了packed virtqueue，具体变更可参见：
https://www.dpdk.org/wp-content/uploads/sites/35/2018/09/virtio-1.1_v4.pdf

下面介绍主要针对1.0版本的split virtqueue:

Descriptor Table

struct virtq_desc { 
        /* Address (guest-physical). */ 
        le64 addr; 
        /* Length. */ 
        le32 len; 
 
/* This marks a buffer as continuing via the next field. */ 
#define VIRTQ_DESC_F_NEXT   1 
/* This marks a buffer as device write-only (otherwise device read-only). */ 
#define VIRTQ_DESC_F_WRITE     2 
/* This means the buffer contains a list of buffer descriptors. */ 
#define VIRTQ_DESC_F_INDIRECT   4 
        /* The flags as indicated above. */ 
        le16 flags; 
        /* Next field if flags & NEXT */ 
        le16 next; 
};

addr：每个desc，都会对应一个buffer，addr即为此desc对应buffer的地址，地址为GPA
len：buffer的总长度
flags：
- VIRTQ_DESC_F_WRITE表示buffer是write-only的，否则是read-only的；write-only的buffer表示virtio前端希望后端填充的，此desc称为in类型，反之read-only的buffer则是希望后端读取的，称为out类型
- 一次交互不一定只有一个descriptor，可以由多个desc组成一组descriptor chain，后端在读取desc的时候，如果有VIRTQ_DESC_F_NEXT的flag，则表示后面还有descriptor，需要继续读取，此时next就是下一个descriptor；否则当前desc就是descriptor chain中的最后一个
- 通常情况下addr为buffer page，这种descriptor称谓direct desc；但如果有VIRTQ_DESC_F_INDIRECT的flag则该descriptor对应的buffer是一组descriptor list，此为indirect desc
next：配合flag进行使用，要注意的是next并不是GPA，而是下一个descriptor在descriptor table中的索引

Available Ring
Guest driver通过avail ring向device提供buffer，每次将io request转换为一组descriptor chain，并向avail ring中添加一个元素，即avail ring的每一个entry指向一组descriptor chain的头部(Decriptor Table索引)，avail ring只会被driver填写，device读取。
当Guest Driver向Vring中添加buffer时，可以一次添加一个或多个buffer，所有buffer组成一个Descriptor chain，Guest Driver添加buffer成功后，需要将Descriptor chain头部的地址记录到Avail Ring中，让Host端能够知道新的可用的buffer是从VRing的哪个地方开始的。Host查找Descriptor chain头部地址，需要经过两次索引Buffer Adress = Descriptor Table[Avail Ring[last_avail_idx]]，last_avail_idx是Host端记录的Guest上一次增加的buffer在Avail Ring中的位置。Guest Driver每添加一次buffer，就将Avail Ring的idx加1，以表示自己工作在Avail Ring中的哪个位置。当host被通知并取出desc后，此时[last_avail_idx,avial->idx)区间则是要处理的请求。

struct virtq_avail { 
#define VIRTQ_AVAIL_F_NO_INTERRUPT      1 
        le16 flags; 
        le16 idx; 
        le16 ring[ /* Queue Size */ ]; 
        le16 used_event; /* Only if VIRTIO_F_EVENT_IDX */ 
};

flags：限制是否向guest注入中断
idx：表示driver下一个descriptor将要放在avail ring的位置，默认从0开始(单调递增，需要%descriptor table的长度)
ring：一个索引数组，每一个成员对应在descriptor table中表项的下标，代表一个buffer的head。

Used Ring

struct virtq_used { 
#define VIRTQ_USED_F_NO_NOTIFY  1 
        le16 flags; 
        le16 idx; 
        struct virtq_used_elem ring[ /* Queue Size */]; 
        le16 avail_event; /* Only if VIRTIO_F_EVENT_IDX */ 
}; 
 
/* le32 is used here for ids for padding reasons. */ 
struct virtq_used_elem { 
        /* Index of start of used descriptor chain. */ 
        le32 id; 
        /* Total length of the descriptor chain which was used (written to) */ 
        le32 len; 
};

Host device通过used ring归还buffer，其只会被device填写，diver读取。used ring的主体也是一个数组，但不同于avail ring只需要记录索引，used ring由于是存放处理后的结果，所以还需要记录写回的数据长度。

flags：用于限制客户机是否增加buffer后是否通知host
idx：device下次往used ring中添加元素的下标
id：相当于avail ring中的ring成员的value，表示一个used descriptor chain的头部的下标
len：写到该descriptor chain对应的buffer中数据的总长度

3.2.4 virtio-blk/virtio-scsi

基于virtio实现的块设备驱动有两种，virtio-blk和virtio-scsi ：

virtio-blk 是作为 pci 设备挂在 qemu 里面，所以最多只能有16块 virtio-blk 盘；virtio-scsi 作为 scsi 子系统，挂在 scsi 总线上，数量上可以多得多
virtio-scsi 实现了 scsi 的协议，支持scsi命令，复杂度更高一些
virtio-blk的io路径更短，所以性能上略好于virtio-scsi，两者io路径对比：

【virtio-blk】
guest: app -> Block Layer -> virtio-blk
host: QEMU -> Block Layer -> Block Device Driver -> Hardware

【virtio-scsi】
guest: app -> Block Layer -> SCSI Layer -> scsi_mod
host: QEMU -> Block Layer -> SCSI Layer -> Block Device Driver -> Hardware

下面介绍一下virtio-blk的协议细节：
一个virtio-blk的请求格式如下，注意只是逻辑上的表示，实际上并不是有一个virtio_blk_req的结构体定义。

struct virtio_blk_req { 
        // out header
        le32 type; 
        le32 reserved; 
        le64 sector; 
        // buffer
        u8 data[][512]; 
        // in header
        u8 status; 
};

一个virtio_blk_req实际上分为3个部分：

virtio_blk_outhdr
每次请求的前16个字节一定是一个virtio_blk_outhdr，描述了io的类型，优先级，offset等信息；它由一个read-only的descriptor描述，

struct virtio_blk_outhdr
{
    __u32 type; // io的类型
    __u32 ioprio; // io优先级
    __u64 sector; // io offset，以512 bytes的sector为单位，通常后端收到后需要<<9转到以byte为单位
};

type的常用类型有：

enum {
    /* These two define direction. */
    VIRTIO_BLK_T_IN = 0, // 读
    VIRTIO_BLK_T_OUT = 1, // 写

    /* This bit says it's a scsi command, not an actual read or write. */
    VIRTIO_BLK_T_SCSI_CMD = 2,

    /* Cache flush command */
    VIRTIO_BLK_T_FLUSH = 4,

    /* Get device ID command */
    VIRTIO_BLK_T_GET_ID = 8,

    /* Discard command */
    VIRTIO_BLK_T_DISCARD = 11
};

buffer
请求的中间是一个或多个buffer，这些buffer可能是read-only的也可能是write-only的，它们由descriptor chain中间的desc描述。
virtio_blk_inhdr
请求的最后一个字节是virtio_blk_inhdr，用于表示io结果，它由一个write-only的descriptor描述，由device进行填写。

struct virtio_blk_inhdr {
    unsigned char status;
};

下面以两张图来看一次io过程中virtqueue的具体组织形式

host device接收请求
host device完成请求

3.3 spdk vhost-user

virtio半虚拟化io方案解决了频繁vm exit的问题，但是仍未缩短io路径，有待进一步优化，其性能上的瓶颈主要有两个：

guest提交请求到virqueue后，还需要通知qemu
qemu收到io请求并处理时还需要经过一次host上的完整io栈，其中还存在用户态到内核态的拷贝(写本地盘场景)
于是为了进一步优化io性能，spdk vhost方案出现了。

3.3.1 spdk

https://spdk.io/doc/about.html
SPDK是由Intel发起的，用于加速NVMe SSD作为后端存储使用的应用软件加速库。这个软件库的核心是用户态、异步、轮询方式的NVMe驱动。相比内核的NVMe驱动，SPDK可以大幅降低NVMe command的延迟，提高单CPU核的IOps，形成一套高性价比的解决方案。
从目前来讲，SPDK并不是一个通用的适配解决方案。把内核驱动放到用户态，导致需要在用户态实施一套基于用户态软件驱动的完整I/O栈。文件系统毫无疑问是其中一个重要的话题，显而易见内核的文件系统，如ext4、Btrfs等都不能直接使用了。虽然目前SPDK提供了非常简单的文件系统blobfs/blostore，但是并不支持posix接口，为此使用文件系统的应用需要将其直接迁移到SPDK的用户态“文件系统”上，同时需要做一些代码移植的工作，如不使用posix接口，而采用类似AIO的异步读/写方式。

spdk目前有主要以下几种应用场景：

提供块设备接口的后端存储应用，如iSCSI Target、NVMe-oF Target。
对虚拟机中I/O的加速，主要是指在Linux系统下QEMU/KVM作为Hypervisor管理虚拟机的场景，使用vhost交互协议，实现基于共享内存通道的高效vhost用户态Target。如vhost SCSI/blk/NVMe Target，从而加速虚拟机中virtio SCSI/blk及Kernel Native NVMe协议的I/O驱动。其主要原理是减少了VM中断等事件的数目（如interrupt、VM_EXIT），并且缩短了host OS中的I/O栈。
SPDK加速数据库存储引擎，通过实现RocksDB中的抽象文件类，SPDK的blobfs/blobstore目前可以和RocksDB集成，用于加速在NVMe SSD上使用RocksDB引擎，其实质是bypass kernel文件系统，完全使用基于SPDK的用户态I/O栈。此外，参照SPDK对RocksDB的支持，亦可以用SPDK的blobfs/blobstore整合其他的数据库存储引擎。

spdk应用框架：

对CPU core和线程的管理
SPDK的原则是使用最少的CPU核和线程来完成最多的任务。为此SPDK在初始化程序的时候限定使用绑定CPU的哪些核。通过CPU核绑定函数的亲和性，可以限制对CPU的使用，并且在每个核上运行一个thread，这个thread在SPDK中叫作Reactor。
此外，SPDK提供了一个Poller机制。所谓Poller，其实就是用户定义函数的封装。SPDK的Reactor thread对应的数据结构由相应的列表来维护Poller的机制，并且提供Poller的注册及销毁函数。在Reactor的while循环中，会不停地检查这些Poller的状态，并且进行相应的调用。由于单个CPU核上，只有一个Reactor thread，所以同一个Reactor thread中不需要一些锁的机制来保护资源。当然位于不同CPU核上的thread还是有通信的必要的。为此，SPDK封装了线程间异步传递消息（Async Messaging Passing）的功能。
线程间的高效通信
SPDK提供了事件调用（Event）的机制用于线程间进行通信，这个机制的本质是每个Reactor对应的数据结构维护了一个Event事件的环，这个环是多生产者和单消费者（Multiple Producer Single Consumer，MPSC）的模型，意思是每个Reactor thread可以接收来自任何其他Reactor thread（包括当前的Reactor thread）的事件消息进行处理。
目前SPDK中这个Event环的默认实现依赖于DPDK的机制，这个环应该有线性的锁的机制，但是相比较于线程间采用锁的机制进行同步，要高效得多。毫无疑问的是，这个Event环其实也在Reactor的函数_spdk_reactor_run中进行处理。每个Event事件的数据结构包括了需要执行的函数和相应的参数，以及要执行的core。
I/O的处理模型及数据路径的无锁化机制
SPDK主要的I/O处理模型是run to completion，其原则是让一个线程最好执行完所有的任务。

spdk架构
整体的SPDK架构分为三层：

- 最下层为驱动层，管理物理和虚拟设备，还管理本地和远端设备。
- 中间层为通用块层，实现对不同后端设备的支持，提供对上层的统一接口，包括逻辑卷的支持、流量控制的支持等存储服务。这一层也提供了对Blob（Binary Larger Object）及简单用户态文件系统BlobFS的支持。
- 最上层为协议层，包括NVMe协议、SCSI协议等，可以更好地和上层应用相结合。

spdk目前主要的应用场景就是块存储，其通过bdev接口层，统一了块设备的调用方法，使用者只要调用不同的rpc将不同的块设备加到spdk进程中，就可以使用各种bdev，而不用修改代码。
一个很常见的使用spdk的方式是，用户定义自己的bdev，用以访问自己的分布式存储集群。

3.3.2 基于vhost的加速方案

把virtio backend在qemu外实现即为vhost，spdk target对外暴露指定协议的存储服务。下面以virtio-scsi为例，看一下vhost是如何实现加速的。

qemu virtio-scsi
基于virtio的半虚拟化原始方案，guest和qemu之间通过virtqueue实现数据共享和传输，通过ioeventfd和irqfd实现通知。
该方案的缺点前面已经介绍过：

每次io都需要双向通知
io路径仍然过长，如果backend读写的是本地设备，还需要经历host上的完整io栈，需要从用户态拷贝到内核态

spdk vhost-kernel-scsi
qemu virtio-scsi方案的演进，块设备模拟仍然是由qemu来做，只是把virtio backend放到了host kernel中，由kernel去处理virtqueue。
host kernel要处理virtqueue需要知道地址，因此qemu会把virtqueue的内存信息和guest的GPA-HVA的映射告知内核vhost-scsi模块，host kernel直接接收virtqueue中的请求并下发到后端，缩短了io路径，省去了host上用户态到内核态的拷贝。
注：这种方案只有在本地nvme场景下才有优化，针对云盘的bedv做后端和virtio-scsi没有区别。
spdk vhost-user-scsi
vhost-kernel方案相较于virtio-scsi优化了host上的io，但是仍然存在通知的开销，guest需要通知qemu，qemu需要通知host kernel vhost-scsi，于是进一步演进出了vhost-user方案：

整体架构如上图所示，virtio backend仍然在host用户态，但是放到了qemu外部，vhost作为独立进程运行在host用户态，通过hugepage的共享内存和qemu共享vierqueue的地址空间，并通过轮询的方式不断从中取出io请求，再交由bdev进行处理。
这里同样再说一下本地nvme设备和Bytedrive bdev的区别：

本地nvme设备：vhost poll到请求后直接通过用户态的nvme驱动直接将io下发到硬盘了，无需再经过kernel nvme驱动，所以仍然缩短了io路径。且vhost会轮询nvme设备的queue pair，有io完成后也会立刻得知，相较于内核驱动的中断通知更为高效
bytedrive bdev：vhost将请求交由bytedrive bdev，会调用bytedrive sdk从网络发出请求，这点上qemu+virtio也是一样的
当io请求完成后，vhost将io response放到virtqueue中并通过写eventfd通知qemu，之后通过irqfd由kvm注入中断通知guest请求已完成。可以看到响应部分仍然存在中断通知，这部分和qemu-virtio是一样的，但是也可以通过一个poll-mode Virtio driver优化掉。
补充一点，其中的unix socket连接是用于控制面消息传输的，如virtqueue共享内存的建立。

3.3.3 qemu-virtio vs vhost-user

两种方案下guest os内的io路径完全相同，从guest放到virtqueue中之后开始有区别：

  - qemu-virtio：通过ioeventfd通知qemu处理io，io在qemu内部io thread进行处理
  - vhost-user：vhost不断去poll virtqueue，省去了通知的开销

如果是写云盘，之后两者也没有区别，但是vhost-user在线程模型上更具优势；如果是写本地盘，vhost-user的另一个优势：

  - qemu-virtio：在qemu中写本地nvme盘，数据会拷贝到内核，再由内核的nvme驱动写盘，写完后由中断通知内核
  - vhost-user：通过vhost实现的高速nvme驱动，无需拷贝到内核，直接在用户态写盘，同时busy polling nvme盘的queue pair，io完成也不需要中断通知

四、参考

https://www.thomas-krenn.com/en/wiki/Linux_Storage_Stack_Diagram
https://cloud.tencent.com/developer/article/1052883
https://kernel.dk/blk-mq.pdf
https://cloud.tencent.com/developer/article/1425141
https://www.cnblogs.com/sammyliu/p/4543597.html
https://searchservervirtualization.techtarget.com/definition/hardware-assisted-virtualization
https://abelsu7.top/2019/09/02/virtio-in-kvm/
https://blog.linuxplumbersconf.org/2010/ocw/system/presentations/651/original/Optimizing_the_QEMU_Storage_Stack.pdf
https://www.static.linuxfound.org/jp_uploads/JLS2009/jls09_hellwig.pdf
http://docs.oasis-open.org/virtio/virtio/v1.0/virtio-v1.0.html
https://www.cs.cmu.edu/~412/lectures/Virtio_2015-10-14.pdf
https://kernelgo.org/virtio-overview.html
https://www.ozlabs.org/~rusty/virtio-spec/virtio-paper.pdf
https://abelsu7.top/2019/07/07/kvm-memory-virtualization/
https://www.cnblogs.com/yi-mu-xi/p/12544695.html
https://mp.weixin.qq.com/s/wuQ8-pwqb9qXfOt4w3Zviw
https://zhuanlan.zhihu.com/p/68154666
https://www.linux-kvm.org/images/a/a7/02x04-MultithreadedDevices.pdf
http://blog.vmsplice.net/2011/03/qemu-internals-overall-architecture-and.html
https://www.cnblogs.com/qxxnxxFight/p/11050159.html
http://bos.itdks.com/506e078a39b84f8cb06300cff8e00bbc.pdf
https://rootw.github.io/2018/05/SPDK-ioanalyze/
https://rootw.github.io/2018/05/SPDK-iostack/
https://vmsplice.net/~stefan/VHPC%202021%20-%20Bring%20your%20own%20virtual%20devices.pdf

你可能感兴趣的:(存储,linux,linux,云存储)

浪潮 M5系列服务器IPMI无法监控存储RAID卡问题. Songxwn 硬件服务器服务器运维
简介浪潮的M5代服务器，可能有WebBMC无法查看存储RAID/SAS卡状态的情况，可以通过以下方式修改。修改完成后重启BMC即可生效。ESXiIPMITools使用：https://songxwn.com/ESXi8_IPMI/（Linux也可以直接使用）Linux/ESXiIPMITool下载：https://songxwn.com/file/ipmitoolWindows下载：https:/
unblock with ‘mysqladmin flush-hosts‘ 解决方法祈祷平安,加油数据库常见问题 oracle 数据库
MySqlHostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'解决方法环境：linux，mysql5.5.21错误：Hostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'原因：同一个ip在短时间内产
1.计算机处理器架构+嵌入式处理器架构及知识 vv 啊 arm-linux学习 linux 系统架构
目录一：x86-64处理器架构二：Intel80386处理器（i386）1.i3862.i686三：嵌入式Linux知识：1.MinGW2.GNU计划2.1GNU工具链概述此次只分享英特尔和ADM处理器有关于x86的架构，至于嵌入式处理器架构请查看https://en.wikipedia.org/wiki/List_of_ARM_processors一：x86-64处理器架构x86-64，也称为x
linux基础命令（一）运维搬运工 linux linux 服务器 centos
Linux基础命令1、设置主机名1.1、hostname查看主机名[root@ansible~]#cat/etc/hostnameansible或[root@ansible~]#hostnameansible注意：主机名中不允许使用下划线“_”，可以用短横线“-”1.2、hostname临时修改主机名#临时修改直接修改的是内存中的，重启会失效[root@ansible~]#hostnameansi
Redis和MySQL的数据一致性问题思考爱放火的安小妮 Redis MySQL 思考总结 redis mysql 数据库
Redis和MySQL的数据一致性问题思考最近有在反思自己工作。因为自己这边是面向业务的，而且是和商品数据相关的。所以我平时工作中涉及到的最多的就是MySQL和Redis的数据存储。像我们配置商品是把商品配置到MySQL，但是对外toC接口都是直接读取Redis的。所以自然而然就涉及到MySQL和Redis的数据一致性问题。下面就是聊聊我自己对于这个问题的一个思考吧。有问题或者有更好方案的朋友也希
3、JavaWeb-Ajax/Axios-前端工程化-Element 所谓远行Misnearch #JavaWeb 前端 ajax elementui java 前端框架
P34Ajax介绍Ajax:AsynchroousJavaScriptAndXML，异步的JS和XMLJS网页动作，XML一种标记语言，存储数据，作用：数据交换：通过Ajax给服务器发送请求，并获取服务器响应的数据异步交互：在不重新加载整个页面的情况下，与服务器交换数据并实现更新部分网页的技术，例如：搜索联想、用户名是否可用的校验等等。同步与异步：同步：服务器在处理中客户端要处于等待状态，输入域名
docker基础（一）运维搬运工容器-docker docker 容器运维
相关概念介绍Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖到一个可移植的容器中，然后发布到任何流行的linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，互相之间不会有任何接口。Docker有几个重要概念：dockerfile，配置文件，用来生成dockerimagedockerimage，交付部署的最小单元docker命令与API，定义命令与接口，支持第三方系统集
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
『阅读•思考•灵性新苑‖第九辑/358/1001』《冥想》2作者：[印]斯瓦米·拉玛（Swami Rama）译者：刘海凝景熙惟
部分节选当我们仔细审视生活，就会意识到：从幼年开始，我们接受的教育就仅仅止于观察和了解外部世界。从来没人教导过我们，应当如何向内看、发现和了解内在。因此我们在渴望了解别人的同时，对自己而言却依然是一个陌生人。由于缺乏自我了解，我们的人际关系并不那么称心如意，生活中也常常充满了困惑与失望。事实上，常规教育体系只开发了我们大脑的一小部分。而另外负责做梦、睡眠以及用于存储所有经历的无意识领域，仍不为人知
linux安装docker及docker-compose 部署spring boot项目时而有事儿 docker linux docker linux spring boot
linux系统环境：centos5.14本篇描述的是在centos系统版本下安装docker，如果是ubuntu版本，请看这篇文章：linuxubuntu20安装docker和docker-compose-CSDN博客正文：安装docker和docker-compose安装docker---------运行命名等待安装完成遇到选择直接输入yyuminstall-yyum-utilsdevice-m
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
检测usb口HotPlug-netlink cany1000 linux
为了完成内核空间与用户空间通信，Linux提供了基于Socket的NetLink通信机制。SELinux，Linux系统的防火墙分为内核态的netfilter和用户态的iptables，netfilter与iptables的数据交换就是通过Netlink机制完成。下面看一个检测usb口的例子：s32InitUsbHotPlug(void){s32nSockFd=0;//套接字地址structsoc
Linux学习系列之vim编辑器（一） llibertyll linux 学习
vi编辑器的操作模式输入模式—aio等—>命令模式<—：键—末行模式从输入/末行模式切换到命令模式都是需要按ESC键注:a光标后输入，i光标前输入，o直接向下加一行输入，O向上加一行输入在vi编辑器中光标的移动（命令行模式下）键组合（命令）光标的移动$光标移动到当前行的结尾0（零）光标移动到当前行的开始GG光标移动到最后一行gg光标移动到第一行在命令行模式下删除与复制的操作键组合（命令）含义dd删
Django forms组件在飞行-米龙 Django django python 后端
【一】引入【1】实现登陆验证功能（1）需求分析登陆验证需要前后端交互，采用form表单提交数据对数据进行校验用户名必须以英文大写字母开头密码必须大于三位数反馈给用户错误的信息除了反馈错误的信息还有保留原始输入内容（2）后端代码使用user_info_dict字典每次刷新存储存储前端发送的信息存储后端进行验证的信息defhome(request):#每次后刷新这个信息字典user_info_dict
Java中HashMap底层数据结构及主要参数? 山间漫步人生路 java 数据结构开发语言
在Java中，HashMap的底层数据结构主要基于数组和链表，同时在Java8及以后的版本中，当链表长度超过一定阈值时，链表会转换为红黑树来优化性能。这种结构结合了数组和链表的优点，既提供了快速的随机访问，又允许动态地扩展存储桶的大小。HashMap的主要参数包括：初始容量（InitialCapacity）：这是HashMap在创建时设定的桶数组的大小。默认值为16。这个值可以根据预计存储的键值对
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Linux初学（十）shell脚本王依硕 Linux linux 运维服务器
一、for循环1.1循环的格式for变量in列表do代码代码....done循环的逻辑：将列表中的每个元素逐一赋值给变量每赋值一次，do和done之间的代码就会执行一次1.2列表的生成方式方法1：直接给出列表元素【用空格分隔多个元素】133129hahabaidu方法2：用通配符来生成元素/home/a*方法3：用命令来生成元素ls/etc/方法4：用{}展开的形式生成元素{3..7}{a..e}
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
数据库的魅力：深入探索与应用小黄编程快乐屋数据库
数据库的魅力：深入探索与应用在数字化时代，数据库已经成为信息处理和存储的基石。无论是大型企业还是个人开发者，数据库都是不可或缺的工具。本文将带您深入探索数据库的魅力，了解其基本概念、类型以及应用，并分享一些实用的数据库管理技巧。一、数据库的基本概念数据库，简而言之，就是按照一定规则存储、组织和管理数据的仓库。它可以看作是一个电子化的文件柜，用于存储电子化的文件。这些文件按照特定的数据模型组织起来，
Ubuntu下安装Chrome浏览器(简单,使用) Starry-sky(jing) [linux操作系统笔记]chrome 深度学习 linux
下载安装GoogleChrome浏览器deb包极速下载:下载链接32位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb安装sudodpk
【Linux】PyCharm无法启动报错及解决方法不是AI python 软件操作 Linux linux pycharm 运维
一、问题描述如图，笔者试图在Ubuntu18.04虚拟机上运行PyCharm开发工具（已安装，安装过程可以参考我的博客Ubuntu安装PyCharm），无法启动，报错：CannotconnecttoalreadyrunningIDEinstance.Exception:Process2574isstillrunning.报错截图如下：二、解决方法通过报错信息看出，出于某种原因，进程（PID为257
Linux（centos7）部署hive 灯下夜无眠 Linux linux hive 运维 dbeaver hive客户端
前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch.
Linux通过Tuned实现动态调优系统性能星河_赵梓宇 linux 运维服务器
Linux通过Tuned实现动态调优系统性能Tuned简介对于普通用户来说，优化Linux应用环境可能是相当具有挑战性的。它涵盖了各种领域，并且有许多参数需要考虑，比如CPU、存储、缓存策略和内存管理。尽管Linux有默认设置可以处理大多数情况和场景，但是对于高性能、高并发和高可用性系统等特殊场景，需要进行调整。本文讨论的特性是tuned，它是Linux系统中常用的一种调优服务。tuned由两个程
通俗易懂：描述MySQL中SET和ENUM数据类型的异同。大龄下岗程序员 mysql java mysql spring
MySQL中的SET和ENUM数据类型均用于限制字段可接受的值范围，但它们的设计用途和功能特性有所不同：SET类型-SET是一种集合类型，它可以存储一组预定义的离散值，并且在一个SET字段中可以同时存储多个值。-SET字段内的值是互斥的，即同一时间不会存在相同的元素两次，但可以有多个不同的元素组合。-值之间的分隔通常用逗号（,）或其他指定字符。-SET类型的字段最大可以容纳64个不同的成员值。-在
突破编程_C++_C++11新特性（多线程编程的原子操作（2）） breakthrough_01 c++算法
1std::atomic的加载与存储操作加载和存储操作是std::atomic最基础的两种操作。加载操作加载操作是通过load成员函数实现的，它用于从原子变量中读取一个值。这个函数可以确保在读取过程中，不会被其他线程打断。std::atomicatomic_var(10);//初始化一个原子变量，初始值为10intvalue=atomic_var.load();//原子加载操作，将atomic_v
centos7 安装influxdb+telegraf+grafana 监控服务器吕吕-lvlv grafana 服务器运维
influxdbinfluxdb是一个时间序列数据库,所有数据记录都会打上时间戳,适合存储数字类型的内容telegraftelegraf可以用于收集系统和服务的统计数据并发送到influxdbgrafanagrafana是一个界面非常漂亮,可直接读取influxdb数据展示成各种图表的开源可视化web软件安装并启动influxdb数据库vim/etc/yum.repos.d/influxdb.re
操作系统：缓存和内存 number=10086 操作系统缓存操作系统
缓存是什么？缓存是现代CPU的一部分，它使用的是静态随机存储器（SRAM），缓存的读写速度在寄存器和内存之间作为二者的桥梁。为什么使用缓存？因为CPU的处理速度和内存的读写速度差别过大，为了提高CPU利用率在中间使用缓存可以加快数据的获取。缓存为什么比内存更快？内存使用的是动态随机存储器（DRAM），在SRAM中，数据的读写操作只需要控制电路的通断状态，而在DRAM中，数据的读写操作需要通过电容的
【前端学习——js篇】7.函数缓存笔下无竹墨下有鱼前端学习前端学习 javascript
具体见：https://github.com/febobo/web-interview7.函数缓存函数缓存，就是将函数运算过的结果进行缓存本质上就是用空间（缓存存储）换时间（计算过程）常用于缓存数据计算结果和缓存对象。其实现主要通过闭包、柯里化和高阶函数。下面主要介绍下柯里化：①柯里化柯里化（currying)是一种函数式编程的概念，指的是将一个带有多个参数的函数转换成一系列只接受一个参数的函数的
使用Github+PicGo搭建个人图床水煮养乐多
写在开头每个人都需要一个自己的个人图床，什么是图床？图床就是把图片存到服务器上，通过一个公开的链接地址进行访问或者下载平时我们将图片夹杂在文章、文档、公众号、博客当中，一般情况下这样似乎没有任何问题，可试想一下若我们需要同时维护多份，不停地在不同渠道重复上传、编辑，图片也会散落各地，难以维护管理，这时候若有个统一的存储地方就可以很轻松维护。我们将图片直接放到在线静态页面当中的话，在访问时需要等待全
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s