麦兜的学习笔记

深入浅出计算机组成原理04：存储和IO系统

1. 存储器层次结构全景

1.1 关于Cache

1.2 访问层次

1.3 不同存储器访问延时与成本

2. 局部性原理

2.1 时间局部性

2.2 空间局部性

2.3 局部性原理使用实例

3. 高速缓存

3.1 引入Cache的原因

3.2 Cache的管理策略

3.2.1 访问方式

3.2.2 直接映射Cache策略

3.2.3 直接映射Cache数据结构

3.2.4 CPU访问内存步骤

3.3 CPU Cache的写入

3.3.1 写直达（Write-Through）策略

3.3.2 写回（Write-Back）策略

3.4 缓存一致性问题

3.4.1 问题原因

3.4.2 问题场景示例

3.5 缓存一致性解决方案概述

3.5.1 写传播（Write）

3.5.2 事务串行化（Transaction Serialization）

3.6 MESI协议

3.6.1 协议分类

3.6.2 MESI协议

4. 虚拟内存和内存保护

4.1 简单页表

4.1.1 简单页表的实现

4.1.2 地址转换步骤

4.1.3 简单页表的问题

4.2 多级页表（Multi-Level Page Table）

4.2.1 进程地址空间布局

4.2.2 4级页表示例

4.2.3 多级页表的优点

4.2.4 多级页表的缺点

5. 解析TLB和内存保护

5.1 解析TLB

5.1.1 TLB工作原理

5.1.2 TLB存在形式

5.2 内存保护机制

5.2.1 可执行空间保护（Executable Space Protection）

5.2.2 地址空间布局随机化（Address Space Layout Randomization）

6. 总线

6.1 总线设计思路

6.2 总线架构

6.2.1 后端总线与前端总线

6.2.2 前端总线与系统总线

6.2.3 总线线路种类

6.2.4 总线裁决（Bus Arbitration）

7. 输入输出设备

7.1 接口与设备：经典的适配器模式

7.2 CPU如何控制IO设备

7.3 信号和地址：发挥总线的价值

7.3.1 内存映射IO

7.3.2 端口映射IO

8. 理解IO_WAIT

8.1 硬盘IO性能

8.1.1 性能指标实例

8.1.2 IOPS指标

8.2 如何定位IO_WAIT问题

8.2.1 使用top命令查看io_wait消耗的CPU

8.2.2 使用iostat命令查看硬盘读写情况

8.2.3 使用iotop命令查看进程IO操作情况

9. 机械硬盘

9.1 机械硬盘的组成

9.2 机械硬盘的读操作

9.2.1 操作步骤

9.2.2 操作耗时

9.3 机械硬盘性能提升

9.3.1 减少平均延时

9.3.2 减少平均寻道时间

10. SSD硬盘

10.1 SSD & HDD硬盘对比

10.2 SSD读写原理

10.2.1 基本原理

10.2.2 SLC / MLC / TLC / QLC

10.2.3 硬盘结构

10.3 SSD擦写问题

10.3.1 读写与擦除单位

10.3.2 SSD读写生命周期

10.3.3 SSD预留空间

10.4 FTL与磨损均衡问题

10.4.1 磨损均衡问题

10.4.2 FTL的作用

10.5 TRIM指令的引入

10.5.1 操作系统删除文件操作

10.5.2 删除文件导致状态不匹配问题

10.5.3 TRIM命令

10.6 写入放大问题

11. DMA

11.1 DMA原理

11.1.1 DMA的引入

11.1.2 DMAC的角色

11.1.3 DMA传输流程

11.2 零拷贝传输

11.2.1 零拷贝传输原理

12. 数据完整性

12.1 单比特翻转

12.2 奇偶校验

12.3 海明码

12.3.1 概述

12.3.2 海明码冗余信息

12.3.3 海明码纠错原理

12.3.4 海明码编码方式

13. 分布式计算

1. 存储器层次结构全景

1.1 关于Cache

1. Cache由SRAM构成

2. L1 Cache一般位于CPU核心内部，每个CPU核心都有属于自己的L1 Cache，通常分为指令缓存和数据缓存

3. L2 Cache同样每个CPU核心都有，不过通常不在CPU核心内部，所以L2 Cache的访问速度比L1 Cache稍慢（如果仅有L1 & L2两层，则L2 Cache一般是共享的）

4. L3 Cache通常是多个CPU核心共用，尺寸更大，但访问速度也更慢

说明：在Linux中可以通过lscpu命令查看Cache的层次结构

1.2 访问层次

1. CPU并不直接访问每种存储设备，而是每种存储设备只和他相邻的存储设备交互

2. 各个存储器只和相邻一层的存储设备交互，并随着一层层向下，存储器的容量逐层增大，访问速度逐层减慢，而单位存储成本也逐层下降，这就构成了存储器的层次结构

1.3 不同存储器访问延时与成本

说明：存储器层次结构就是要解决性能、容量和成本的矛盾，使得我们既能享受Cache的速度，又能享受内存 & 硬盘巨大的容量和低廉的价格

这就要求我们能利用好不同层次的存储器的访问原理和特性

2. 局部性原理

为了既能享受Cache的速度，又能享受内存 & 硬盘巨大的容量和低廉的价格，就需要根据局部性原理（Principle of Locality）来指定管理和访问数据的策略

而局部性原理包括时间局部性（temporal locality）和空间局部性（spatial locality）

2.1 时间局部性

时间局部性是指如果一个数据被访问了，那么他在短时间内还会被再次访问

2.2 空间局部性

空间局部性是指如果一个数据被访问了，那么和他相邻的数据也会很快被访问

2.3 局部性原理使用实例

根据局部性原理，可以将访问次数多的数据放在贵但是快的内存中，将访问次数少的数据放在慢但是大的硬盘中

在服务端软件开发中，通常将数据放在数据库中，而服务端系统遇到的第一个性能瓶颈，往往就发生在访问数据库时。此时可以通过Redis或Memcache在数据库之前提供一层缓存的数据，来缓解数据库面临的压力，提升服务端的程序性能

说明1：LRU缓存算法的使用

根据局部性原理，我们将用户访问过的数据加载到内存中，一旦内存已满，就需要将最长时间没有在内存中被访问过的数据从内存中移走，此时使用的就是LRU（Least Recently Used）缓存算法

说明2：LRU缓存命中率

访问的数据中，可以在内存缓存中找到的比例，是缓存策略的重要指标

3. 高速缓存

3.1 引入Cache的原因

1. 引入Cache是为了弥补CPU性能和内存访问性能越来越大的差距

2. 根据摩尔定律，CPU的速度每年增长60%，而内存的速度每年只增长7%，目前一次内存访问大约需要120个CPU cycle，即CPU和内存的访问速度有120倍的差距

3. 因此CPU需要执行的指令、需要访问的数据都在速度不到自身1%的内存中，所以无法实际使用CPU的性能

4. 引入Cache后，内存中的指令 & 数据会被加载到L1 ~ L3 Cache中。在各类基准测试（Benchmark）和实际应用场景中，CPU Cache的命中率通常能达到95%以上。即在95%的情况下，CPU只需访问L1 ~ L3 Cache获取指令和数据，而无需访问内存

3.2 Cache的管理策略

3.2.1 访问方式

1. 现代CPU进行数据读取时，无论数据是否已经存储在Cache中，都会首先访问Cache。只有当CPU在Cache中找不到数据时，才会去访问内存，并将读取到的数据写入Cache

2. 当时间局部性原理起作用后，这个最近刚被访问的数据会很快再次被访问，此时Cache中已有该数据，CPU则无需花费时间访问内存

3. CPU从内存中读取数据到Cache是以Cache Line为单位，在日常使用的Intel PC中，Cache Line通常是64B

3.2.2 直接映射Cache策略

直接映射Cache（Direct Mapped Cache）是最简单的Cache管理策略，他确保任何一个内存块（block）的地址始终映射到一个固定的CPU Cache Line

这种映射关系，通常用求余运算来实现。假设有0 ~ 31号共32个内存块，同时有0 ~ 7号共8个Cache Line，我们通过对8求余的方式，将32个内存块映射到固定的Cache Line中

上图中，Block 5 / 13 / 21 / 29均会被映射到Cache Line 5

说明1：CPU访问内存数据，是一小块一小块数据来读取的，而不是按字节

说明2：实际计算中，通常将Cache Line的个数设置为2的N次方，这样在计算取模时，可以直接取地址的低N位

以上图为例，因为共有8（2^3）个Cache Line，直接取出第21号内存块的低3位，即可得到对应的Cache Line索引

说明3：除了直接映射Cache，还有全相连Cache（Fully Associative Cache）和组相连Cache（Set Associative Cache）策略，现代CPU通常使用组相连Cache策略

3.2.3 直接映射Cache数据结构

Cache数据结构同时涉及内存地址的划分和Cache Line中存储的内容，下面逐一说明

注意：这里的内存地址是一个物理地址，虚拟地址仅在软件层面存在，是由各级页表索引与最后一级的offset构成

3.2.3.1 索引（Index）

1. 只有内存地址划分中有

2. 内存地址中的索引字段用于将内存块映射到Cache Line

3.2.3.2 组标记（Tag）

1. 内存地址中的高位作为组标记使用，可标识出映射到同一个Cache Line中的不同内存块

2. Cache Line中存储组标记是为了标识当前在Cache Line中的是哪个内存块的数据

3. 参考上文的示例，由于索引本身反映了地址低位信息，所以组标记只需要记录地址的高位（e.g. 10101中的低3位为Index，高2位位Tag）

3.2.3.3 有效位（Valid Bit）

1. 只有Cache Line中存储

2. 用于标识Cache Line中的数据是否有效，如果有效位为0，则无论其中的组标记和实际数据是什么，CPU都会访问内存，重新加载数据

3.2.3.4 实际数据（Date Block）

1. 只有Cache Line中存储

2. 就是从内存块中读取的数据

3.2.3.5 偏移量（offset）

1. 只有内存地址划分中有

2. CPU在读取数据时，并不是读取一整个内存块，而是读取一个他需要的数据片段，这样的数据，称作CPU中的一个字（Word）

3. 内存地址中的偏移量用于在Data Block中索引对应的字

说明：此处可见CPU读取内存都是按字对齐的

3.2.4 CPU访问内存步骤

假设内存中的数据已经在Cache中

1. 根据内存地址的低位，计算在Cache中的索引

2. 判断Cache Line的有效位，确认Cache中的数据是有效的

3. 对比内存地址的高位和Cache Line中的组标记，确认Cache Line中的数据就是要访问的内存数据

4. 根据内存地址的偏移量，从Data Block中读取希望读到的字

说明：如果CPU发现Cache中的数据是无效的，或者不是要访问的内存块，则会访问内存，并将对应的内存块数据更新到Cache Line中，同时更新Cache Line的有效位和组标记

3.3 CPU Cache的写入

3.3.1 写直达（Write-Through）策略

3.3.1.1 写入流程

1. 在write-through策略中，每次数据都要写入到主内存中

2. 写入前，先判断数据是否已经存在Cache中，如果数据已存在Cache中，则将数据写入Cache再写入内存；如果数据不在Cache中，则只写入内存

3.3.1.2 特性

1. write-through策略非常直观

2. 因为始终要将数据写入内存，所以速度慢

3.3.2 写回（Write-Back）策略

3.3.2.1 写入流程

1. 通常只更新Cache，只有在需要把Cache中的脏数据交换出去时，才将数据同步到内存中

2. 如果发现要写入的数据在Cache中，则只更新Cache，同时将Cache标记为脏（Dirty）。所谓脏，就是指此时Cache中的数据和内存不一致

3. 如果发现要写入的数据对应的Cache中当前存储的是其他内存块的数据，则判断该Cache是否为脏

① 如果是脏的，则先将该Cache中的数据写回内存，然后将当前要写入数据对应的内存数据加载到Cache中，之后将修改写入Cache，并将其标记为脏

② 如果不是脏的，说明对应内存块的数据被加载到Cache后没有被修改过，此时直接放弃Cache中的数据即可，直接进行后续的内存加载与写入Cache操作

4.1.2.2 特性

1. 在缓存经常会命中的情况下，性能更好

2. 使用write-back策略后，在加载内存数据到Cache时，也要多出同步脏Cache的操作。如果在加载内存数据到Cache时，发现该Cache为脏，则需要先将当前Cache中的数据写回到内存，之后才能加载数据覆盖掉Cache

说明：在上述需要写回的场景中，都是脏的且有效的Cache Line，如果Cache Line本身是无效的，则无需写回

3.4 缓存一致性问题

3.4.1 问题原因

因为CPU的每个核有各自的Cache，互相之间的操作又是各自独立的，所以会带来缓存一致性问题（Cache Coherence）

3.4.2 问题场景示例

1. 假设出于性能考虑，对Cache的写操作使用写回策略

2. CPU1将修改的数据写入CPU1的Cache Line，并将其标记为dirty，但是这个更新的信息只出现在CPU1的Cache中，并没有同步到CPU2的Cache中，此时就出现了缓存一致性问题

3.5 缓存一致性解决方案概述

为了解决缓存不一致问题，就需要一种机制来同步不同核心之间的缓存数据，这种机制至少要满足写传播和事务串行化两个条件

3.5.1 写传播（Write）

写传播是指一个CPU核心更新了自己的Cache，必须能够传播到其他节点的Cache Line中

3.5.2 事务串行化（Transaction Serialization）

事务串行化是指一个CPU核心里面的读取和写入操作，在其他节点看来，顺序是一样的。要在CPU Cache中实现事务串行化，需要做到如下2点，

1. 一个CPU核心对于数据的操作，需要同步通信给其他CPU核心（即先要满足写传播）

2. 如果两个CPU核心里有同一个数据的Cache，那么对于这个Cache数据的更新，需要有一个"锁"的概念，只有拿到了对应Cache Block的"锁"之后，才能进行对应数据更新

说明：事务串行化示例

假设CPU1想将变量的值改为6000，而CPU2在稍后差不多的时间想将变量值改为5000，如果只有写传播而没有事务串行化，CPU3和CPU4看到的变化顺序就可能不一致

而满足事务串行化时，CPU1先获得Cache Block的锁进行操作，CPU2后操作，所以所有核心（包括发起操作的CPU1 & 2）看到的变化都是变量值先变成6000，后变成5000

说明：总线嗅探（Bus Snooping）机制

① 要解决缓存一致性问题，首先要解决多个CPU核心之间的数据传播问题，其中最常见的解决方案是总线嗅探

② 总线嗅探机制就是把所有读写请求都通过总线（Bus）广播给所有的CPU核心，然后让各个核心去嗅探这些请求，并根据本地的情况进行响应

3.6 MESI协议

3.6.1 协议分类

3.6.1.1 写失效（Write Invalidate）协议

1. 在写失效协议中，只有一个CPU核心负责写入数据，其他核心只是同步读取到这个写入。写入的核心在将数据写入Cache之后，会通过总线广播一个失效请求给其他所有CPU核心

2. 其他的CPU核心会根据该请求判断自己是否有对应的Cache Line，如果有的话，将其标记为失效

3.6.1.2 写广播（Write Broad case）协议

1. 在写广播协议中，一个写入请求广播到所有的CPU核心，同时更新各个核心中的Cache

2. 因为不仅需要在总线上传输操作信号和地址信号，还要传输数据内容，所以写广播需要占用更多的总线带宽

3.6.2 MESI协议

3.6.2.1 概述

1. MESI协议是基于写失效的、支持写回策略的缓存一致性协议

2. MESI协议不仅可以用在CPU Cache之间，也可以广泛用于各种需要使用缓存，同时缓存之间需要同步的场景下

3.6.2.2 4种Cache Line状态

MESI协议就是得名于增加的4种Cache Line标记（需要额外的2bit存储），

1. M（Modified）：已修改

该Cache Line被加载到CPU的Cache中，并且被修改过（dirty），即与内存中的数据不一致，该Cache Line中的数据需要在未来的某个时间点写回（write-back）内存

2. E（Exclusive）：独占

① 该Cache Line只被加载到当前CPU的Cache中，且是干净的

② 由于其他的CPU核心并没有加载对应的数据到自己的Cache中，此时向独占的Cache Block写入数据无需通知其他核

3. S（Shared）：共享

① 在独占状态下的Cache Line如果收到一个来自于总线的读取对应Cache的请求，就会转换为共享状态，此时另一个CPU核心也将对应的Cache Block从内存加载到自己的Cache中

② 在共享状态下，因为同样的数据在多个CPU核心的Cache中都有，当某个核想要更新Cache时就不能直接修改，而是要先向所有的其他CPU核心广播一个请求，要求先把其他CPU核心里面的Cache都变成无效状态，让后再更新当前Cache中的数据

③ 这个广播动作一般称作RFO（Request For Ownership），也就是获取当前对应Cache Block数据的所有权

4. I（Invalidated）：失效

该Cache Line无效

3.6.2.3 MESI状态转换

下面列表说明上面的状态机如何转换，

当前状态	事件	行为	下一个状态
I（Invalid）	Local Read	1. 如果其他Cache没有这份数据，本Cache从内存中加载数据，Cache Line状态变为E 2. 如果其他Cache有这份数据，且状态为M，则将数据写回内存，本Cache再从内存中取数据，两个Cache Line的状态都变为S 3. 如果其他Cache有这份数据，且状态为S或者E，本Cache从内存中取数据，这些Cache Line状态均变为S	E / S
	Local Write	从内存中取数据，在Cache中修改，Cache Line状态变为M；如果其他Cache有这份数据且状态为M，则先要将数据更新到内存（也就是写回）如果其他Cache有这份数据，则其他Cache的Cache Line状态变为I	M
	Remote Read	既然是Invalid，其他核的操作与其无关	I
	Remote Write	既然是Invalid，其他核的操作与其无关	I
E（Exclusive）	Local Read	从Cache中取数据，状态不变	E
	Local Write	修改Cache的数据，状态变为M	M
	Remote Read	数据和其他CPU核共用，状态变为S	S
	Remote Write	数据被修改，本Cache Line不能再使用，状态变为I	I
S（Shared）	Local Read	从Cache中取数据，状态不变	S
	Local Write	修改Cache中的数据，状态变为M，其他核共享的Cache Line状态变为I	M
	Remote Read	状态不变	S
	Remote Write	数据被修改，本地Cache Line不能再使用，状态变为I	I
M（Modified）	Local Read	从Cache读取数据，状态不变	M
	Local Write	修改Cache中的数据，状态不变	M
	Remote Read	本地Cache Line中的数据被写入内存，使其他核能使用到最新的数据，状态变为S	S
	Remote Write	本地Cache Line中的数据被写入内存，使其他核能使用到最新的数据，由于其他核会修改这行数据，本地Cache Line状态变为I	I

说明：分析MESI状态转换时一定要注意多CPU视角，要区分local和remote两个操作来源，以及不同CPU Cache Line的状态（对应同一个Cache Block的Cache Line）

参考资料：

【并发编程】MESI--CPU缓存一致性协议

4. 虚拟内存和内存保护

4.1 简单页表

4.1.1 简单页表的实现

1. 页表（Page Table）用来实现虚拟页到物理页的映射

2. 引入分页机制后，内存地址被划分为页号（Directory）和偏移量（Offset），页表保存的就是虚拟页号和物理页号之间的映射关系

3. 同一个页中的内存，在物理上是连续的

4. 以32位系统中，页大小4KB为例，高20位作为虚拟页号，即页表索引；低12位作为页内偏移

4.1.2 地址转换步骤

1. 将虚拟内存地址划分为页号和偏移量的组合

2. 从页表中查询出虚拟页号对应的物理页号

3. 使用物理页号加上偏移量，就得到了物理内存地址

4.1.3 简单页表的问题

简单页表虽然逻辑简单很好理解，但是会占用大量内存。仍然以32位系统 + 4KB页为例，每个页表需要占用2^20（页表项个数） * 4（每个页表项大小） = 4MB内存

考虑到每个进程都有自己的页表，随着进程数量的增加，使用简单页表方案消耗的内存将急剧增加

说明：为何每个页表都要映射完整的4GB空间 ?

你可能会有疑问，很多进程使用的地址空间并没有4GB，为何页表要完整映射整个地址空间 ?

这个其实和进程的地址空间布局有关，在Linux中，进程的代码段、数据段、堆从进程地址空间的低地址处开始；而栈从进程地址空间的高地址处开始，所以即使地址空间中间未使用的部分也占据了页表空间，即使不建立页表

只有进程地址空间完全从低地址用起，才可能省去高地址页表所占据的内存

4.2 多级页表（Multi-Level Page Table）

4.2.1 进程地址空间布局

1. 整个进程的地址空间通常是"两头实、中间空"，在程序运行时，栈的空间从高地址向低地址发展；而堆的空间从低地址向高地址发展

2. 因此虚拟内存占用的地址空间通常是两段连续的空间，而不是完全随机散落的内存地址，而多级页表特别适合这样的内存地址分布

4.2.2 4级页表示例

1. 多级页表将简单级页表的页号部分拆分为多个索引字段，分别用于索引各级页表

2. 4 / 3 / 2级索引寻址到的都是一张页表的起始地址，供下级索引使用

3. 1级页索引寻址到的则是物理页起始地址，偏移量就是在该页中寻址

4. 多级页表相当于一个多叉树的数据结构，所以也称之为页表树（Page Table Tree），因为虚拟内存地址分布的连续性，树的很多第一层节点的指针就是空的，也就是不需要对应的3 / 2 / 1级页表，也就节省了页表占用的内存

4.2.3 多级页表的优点

多级页表最大的好处就是可以减少页表占用的内存，下面给出一个示例，假设场景如下，

1. 32位系统 + 4KB页

2. 4级页表索引，每级5bit

3. 使用从0地址开始的4MB和最高地址的4MB内存

分析：根据上述假设，每个4级页表项可以映射128MB空间（2^27），每个3级页表项可以映射4MB空间（2^22），每个2级页表项可以映射128KB空间（2^17），每个1级页表项可以映射4KB空间（1页）；而每张页表需要占用128B（2^5 * 4B）

由于需要占用最高和最低的2个4MB空间，所以需要消耗如下页表，

1. 1个4级页表（填充其中最高和最低2个页表项，每个进程都需要一个4级页表）

2. 2个3级页表（最高地址和最低地址范围各一张）

3. 每个3级页表项能映射4MB空间，也就是需要1个2级页表 + 32（2^5）个1级页表

所以总页表需要（1 + 2 + 2 * （1 + 32）） = 69个页表，总计69 * 128 = 8832B内存，相较于简单页表的4MB内存大为减少

说明1：在计算页表消耗量时，只要需要占用页表中的一个表项，就需要这张页表，但是只是需要这部分内存，并不是每个表项都要填充

说明2：其实如果填满整个进程地址空间，多级页表需要的内存比简单页表还多（因为多了上级页表），只是绝大多数进程都不会占用如此多的空间

4.2.4 多级页表的缺点

1. 使用多级页表后，每次地址转换需要多次访问内存中的页表，增加了访问内存的开销，而访问内存比访问Cache慢很多

2. 多级页表虽然节约了内存空间，但是带来了时间上的开销，是一种以时间换空间的策略

3. 解决该问题就需要引入TLB，用于加速地址转换

5. 解析TLB和内存保护

5.1 解析TLB

5.1.1 TLB工作原理

TLB也是利用局部性原理进行工作，刚完成的虚拟页到物理页的转换关系可能很快就会用到，所以我们将地址转换信息缓存下来。下次进行地址转换时，先查找缓存中是否存在对应的地址转换信息，如果有的话，则无需反复访问内存中的页表进行地址转换

5.1.2 TLB存在形式

1. TLB的全称为地址变换高速缓冲（Translation-Look Buffer），这块缓存存放了之前已经进行过地址转换的查询结果。这样当同样的虚拟地址需要进行地址转换时，可以直接在TLB中查询结果

2. TLB和Cache类似，可以分为指令TLB（ITLB）和数据TLB（DTLB）。同时也可以根据大小进行分级，变成L1、L2这样多层的TLB

3. TLB和Cache一样，也需要脏标记这样的标志位来实现写回策略

5.2 内存保护机制

5.2.1 可执行空间保护（Executable Space Protection）

可执行空间保护就是对于一个进程使用的内存，只把其中的指令部分设置为可执行的，其他部分，比如数据部分，不给予可执行权限

5.2.2 地址空间布局随机化（Address Space Layout Randomization）

原先的进程内存布局是固定的，任何第三方很容易知道指令 / 数据 / 堆 / 栈的位置。而地址空间布局随机化，就是让这些区域的位置不再固定，在内存空间中随机分配这些进程不同部分所在的内存空间地址

6. 总线

6.1 总线设计思路

1. 总线设计思路的核心是为了减少多个模块之间交互的复杂性和耦合度，以下图为例，要通信的设备之间不再两两建立通路，而是通过公用的总线发送信息

2. 总线就是一组线路，CPU、内存以及输入输出设备都通过这组线路进行相互通信

6.2 总线架构

6.2.1 后端总线与前端总线

1. CPU中有一个快速的本地总线（Local Bus）和一个速度相对较慢的前端总线（Front-side Bus），我们称之为双独立总线（Dual Independent Bus，DIB）

2. 本地总线用来和高速缓存通信

3. 前端总线用来和内存以及输入输出设备通信

4. 有时会将本地总线称作后端总线（Back-side Bus），用于和前端总线对应起来

6.2.2 前端总线与系统总线

1. 前端总线就是系统总线

2. 系统总线在接入一个IO桥接器（IO Bridge）之后，一边接入内存总线，用于CPU和内存通信；一边接入IO总线，用来连接IO设备

3. 在真实的计算机中，总线层次更加复杂，根据不同的设备，还会分成独立的PCI总线、ISA总线等

6.2.3 总线线路种类

1. 数据线（Data Bus）

用来传输实际的数据信息

2. 地址线（Address Bus）

用来确定数据传输的目的地，是内存的某个位置，还是某个IO设备

3. 控制线（Control Bus）

用来控制总线的访问

6.2.4 总线裁决（Bus Arbitration）

1. 尽管总线减少了设备之间的耦合，降低了系统设计的复杂度，但是总线不能同时给多个设备提供通信功能

2. 而总线是多个设备公用的，因此需要一个机制，用于决定总线的使用权，这种机制就是总线裁决

7. 输入输出设备

7.1 接口与设备：经典的适配器模式

1. 大部分的输入输出设备都由两个部分组成，第一个是他的接口（Interface），第二个才是实际的IO设备（Actual IO device）。输入输出设备并不是直接接入到总线上和CPU通信，而是通过接口，用接口连接到总线上，再通过总线和CPU通信

2. 接口电路中有对应的状态寄存器、命令寄存器、数据寄存器、数据缓冲区和设备内存等。接口电路通过总线和CPU通信，接收来自CPU的命令（操作命令寄存器）和数据（操作数据寄存器）

而接口电路中的控制电路，再解码接收到的命令，实际去操作对应的硬件设备

3. 在CPU一侧，看到的并不是一个个特定的设备，而是一个个内存地址或端口地址，CPU只是向这些地址传输数据或读取数据，所需要的指令和操作内存地址的指令没有本质区别

通过软件层面对于传输的命令数据的定义，而不是提供特殊的指令，来实际操作对应的IO设备

说明1：除了内置在主板上的接口之外，有些接口可以集成在设备上。例如IDE硬盘，设备的接口电路在设备上，而不在主板上，需要通过一个线缆把集成了接口的设备连接到主板上去

说明2：将接口和实际设备分离，有利于计算机走向开放架构。例如用户可以单独升级IO设备，而无需更换整台计算机；设备制造商也只需要根据接口的控制协议来设计各种外设

7.2 CPU如何控制IO设备

无论是内置在主板上的接口，还是集成在设备上的接口，除了三类寄存器之外，还有对应的控制电路。正是通过这个控制电路，CPU才能通过向接口电路传输信号，来控制实际的硬件

7.3 信号和地址：发挥总线的价值

7.3.1 内存映射IO

1. 内存映射IO（Memory-Mapped IO，MMIO）

2. 在MMIO模式中，计算机会将IO设备的各个寄存器以及IO设备内部的内存地址都映射到主内存地址空间。主内存地址空间中，会给不同的IO设备预留内存地址

3. CPU想要和这些IO设备通信时，就向这些地址发送数据，之后地址信息和数据信息就会通过总线发送到IO设备接口

4. IO设备接口通过监控总线，将CPU发送来的信息接入设备中相应的寄存器或内存

7.3.2 端口映射IO

1. 端口映射IO（Port-Mapped IO，PMIO）

2. PMIO的通信方式与MMIO的区别在于，PMIO访问的设备地址不在内存地址空间中，而是一个专门的端口，这个端口就是和CPU通信的一个抽象概念

3. 使用PMIO需要专门的IO设备通信指令，RISC架构一般只支持MMIO；X86架构同时支持MMIO和PMIO，下图中显卡资源的示例中，就同时包含了MMIO和PMIO的访问方式

8. 理解IO_WAIT

8.1 硬盘IO性能

8.1.1 性能指标实例

上图为一块PCIE接口的三星SSD硬盘的AS SSD测试结果，我们借此说明2个硬盘IO性能指标，

1. 响应时间（Response Time）

即上图中的Acc.time，表示程序发起一个硬盘的操作请求，到这个请求返回的时间

2. 数据传输率（Data Transfer Rate）

在上图中Seq为连续读写的数据传输率，4K为随机读写4KB大小数据的数据传输率，可见二者差别非常大

在实际的应用开发中，服务器承受的并发访问，更多的是随机读写，而不是顺序读写

8.1.2 IOPS指标

1. IOPS指每秒读写的次数，也就是每秒输入输出操作的次数

2. 以上节硬盘的随机读取为例，假设每次读取4KB数据，则每秒可以支持约10000次随机读取

3. 由于硬盘实际支持的随机读写IOPS与CPU主频差距悬殊，所以会存在IO_WAIT问题，也就是CPU需要等待IO操作完成才能进行下一步的操作

8.2 如何定位IO_WAIT问题

8.2.1 使用top命令查看io_wait消耗的CPU

top命令输出中的wa指标表示CPU等待IO完成操作花费的时间占CPU的百分比

8.2.2 使用iostat命令查看硬盘读写情况

iostat命令除了显示io_wait占用CPU时间的百分比，还显示了硬盘的读写情况，其中的tps就是上文所说的IOPS指标，而KB_read/s和KB_wrtn/s则对应了数据传输率指标

8.2.3 使用iotop命令查看进程IO操作情况

注意：使用iotop命令需要sudo权限

iotop命令可以显示不同进程的IO使用情况

9. 机械硬盘

9.1 机械硬盘的组成

1. 盘面（Disk Platter）

实际存储数据的盘片，数据存储在盘面的磁性涂层上

2. 磁头（Drive Head）

① 磁头从盘面读取数据，然后通过电信号传输给控制电路与接口

② 通常一个盘面上会有2个磁头，分别在盘面的正反面；而一块硬盘也不止一个盘面，而是上写堆叠了多个盘面

3. 悬臂（Actuator Arm）

在一定范围内，将磁头定位到盘面上的某个特定磁道

4. 磁道（Track）

磁道是盘面上不同半径的同心圆，悬臂只是控制读取哪个磁道上的数据

5. 扇区（Sector）和柱面（Cylinder）

磁道被划分为一个个扇区，上下平行的盘面的相同扇区构成一个柱面

说明：机械硬盘转速

机械硬盘转速的单位为RPM，也就是每分钟旋转圈数（Rotations Per Minute），常见的机械硬盘转速为5400 / 7200 / 10000 / 15000转

9.2 机械硬盘的读操作

9.2.1 操作步骤

从机械硬盘读取数据分为2个步骤，

1. 将盘面旋转到某个位置，在这个位置上，悬臂可以定位到整个盘面的某个子区间，一般将这个区间称作几何扇区（Geometrical Sector），即在集合位置上，所有扇区都可以被悬臂访问到

2. 将悬臂移动到特定磁道的特定扇区，读取数据

9.2.2 操作耗时

对机械硬盘的一次随机访问，需要的时间由2个部分构成

1. 平均延时（Average Latency）

旋转盘面，将几何扇区对准悬臂位置的时间。在随机情况下，平均找到一个几何扇区需要旋转半圈盘面

以7200转的机械硬盘为例，每秒可以旋转240个半圈，所以平均延时为，

1s / 240 = 4.17ms

2. 平均寻道时间（Average Seek Time）

在盘面旋转之后，悬臂定位到扇区的时间，目前机械硬盘的平均寻道时间为4 ~ 10ms

所以7200转机械硬盘一次随机访问的耗时为8 ~ 14ms，据此可计算出IOPS，

1s / 8ms = 125 IOPS或1s / 14ms = 71 IOPS

说明：顺序存放数据可以提升读写性能

如果尽可能将数据存放在一个柱面上，则只需要旋转一次盘面，进行一次寻道，就可以读写同一个垂直空间上的多个盘面的数据

9.3 机械硬盘性能提升

9.3.1 减少平均延时

1. 平均延时与机械硬盘转速相关，所以提升转速即可减少平均延时

2. 高转速（10000或15000转）的机械硬盘更加昂贵

9.3.2 减少平均寻道时间

1. 通过软件格式化，只使用1/2或1/4的磁道，也就是只使用1/2或1/4的存储容量，就可以将平均寻道时间变为原来的1/2或1/4

2. 仍以上文中的7200转机械硬盘为例，如果只使用1/4的磁道，IOPS如下，

1s / (4.17ms + 9ms / 4) = 155.8 IOPS

可见IOPS提升了1倍，与15000转的机械硬盘性能相当。虽然此时可用容量只有原来的1/4，但是相同容量的的15000转机械硬盘贵了不止4倍，所以还是划算的

10. SSD硬盘

10.1 SSD & HDD硬盘对比

1. SSD硬盘各项读写性能均优于HDD硬盘

2. SSD硬盘的最大缺点在于耐用性差，如果需要频繁地重复写入删除数据，HDD硬盘的性价比就比SSD硬盘高很多

而SSD硬盘的耐用性差，又与他的工作原理相关

10.2 SSD读写原理

10.2.1 基本原理

SSD硬盘的存储原理可以抽象为电容 + 电压计，通过向电容充电达到不同的电压，来标识不同的数据值

10.2.2 SLC / MLC / TLC / QLC

根据每个存储颗粒能记录的比特位个数，SSD硬盘分为SLC（Single-Level Cell） / MLC（Multi-Level Cell） / TLC（Triple-Level Cell） / QLC（Quad-Level Cell），他们分别可以在一个电容中存储1 / 2 / 3 / 4个比特位

说明1：如果只使用SLC，存储密度太低，就会导致存储容量上不去，因此才有了MLC / TLC / QLC

说明2：电容中能存储的比特位越多，充电与读取数据时对精度的要求就更高，这会导致充电和读取速度更慢，所以QLC的SSD读写速度比SLC的慢好几倍

说明3：电容中能存储的比特位越多，可擦除次数越少，使用寿命也越短

SLC可以擦除约10W次，MLC只能擦除1W次，而TLC和QLC只能擦除几千次

10.2.3 硬盘结构

目前新的大容量SSD硬盘均采用3D封装，内部由多个裸片（Die）堆叠构成，在裸片中又划分了平面、块和页

10.3 SSD擦写问题

10.3.1 读写与擦除单位

1. SSD硬盘读写以页为单位，一个页通常大小为4KB

2. 在写入之前必须要先擦除，而不能覆写

3. SSD硬盘擦除以块为单位，SSD的使用寿命就是每个块的擦除次数

10.3.2 SSD读写生命周期

1. 对于整个block被标记为数据已删除的区域，可以进行擦除，以便继续写入数据

2. 如果红色空洞过多，就要进行类似"磁盘碎片整理"的操作。但是这种操作不能太主动、太频繁，因为SSD的擦除次数是有限的

10.3.3 SSD预留空间

从SSD的读写生命周期可见，SSD硬盘的容量是用不满的，因为总会有一些红色空洞，所以生产SSD的厂商会预留一部分空间，专门用来做"磁盘碎片整理"的工作

一块标称240GB的SSD硬盘，通常实际有256GB空间，此处多出来的16GB空间就是预留空间（Over Provisioning）

说明：根据SSD硬盘的原理，SSD硬盘特别适合读多写少的应用，因此适合作为系统盘适用。如果用SSD作为下载盘，则会缩短适用寿命

10.4 FTL与磨损均衡问题

10.4.1 磨损均衡问题

1. 操作系统与常用软件部分在安装后，一般只有读的需求，很少擦除

2. 对于日常开发代码部分，会不断新增文件并修改已有文件，因为SSD没有覆写功能，这个过程实际上在反复写入新的文件，然后将原来的文件存储区域标记为逻辑上删除的状态

3. 当SSD中空闲块不足时，就会用"磁盘碎片整理"的方式进行擦除。这样反复擦除就会导致日常开发代码部分出现坏块，而操作系统区域没有损坏，这块硬盘的可用容量就变小了

10.4.2 FTL的作用

1. FTL（Flash Translation Layer）闪存转换层实现在SSD controller中

2. FTL中存放了逻辑块地址（Logical Block Address，LBA）到物理块地址（Physical Block Address，PBA）的映射关系

3. 操作系统对SSD硬盘的读写请求都要经过FTL，所以FTL中能够记录每个物理块被擦除的次数。如果一个物理块被擦除的次数较多，FTL可以将这个物理块挪到一个擦写次数少的物理块上，但是逻辑块无需改变，操作系统无需知道该变化，这就实现了磨损均衡（Wear-Leveling）

10.5 TRIM指令的引入

10.5.1 操作系统删除文件操作

1. 操作系统在删除一个文件时，只是在操作系统逻辑层将inode中的元数据清空，并没有在物理层面删除该文件

2. 由于将inode中的元数据清空，则inode指向的存储空间在操作系统中就被标记为可以写入

3. 这种删除逻辑在机械硬盘上没有问题，因为后续的文件可以覆写这些存储空间；但是SSD硬盘不能覆写，这种处理就有问题

10.5.2 删除文件导致状态不匹配问题

1. 由于SSD硬盘不支持覆写，而操作系统删除文件时不会将信息同步给SSD逻辑层，因此只有当新写入的文件尝试写入已删除文件占用的存储空间时，才会将该位置标记为逻辑上已删除

2. 在此之前，SSD硬盘仍认为这些存储空间有效，在进行磨损均衡时，就会搬运很多已经删除的数据。这样既消耗了SSD性能，也缩短了SSD的使用寿命

10.5.3 TRIM命令

1. 目前的操作系统与SSD controller均支持TRIM命令

2. TRIM命令在文件被删除时，让操作系统通知SSD硬盘，将对应的逻辑快标记为已删除

10.6 写入放大问题

1. 虽然SSD硬盘存储空间被占用得越来越多，写入新数据时可能需要进行"磁盘碎片清理"操作，因此从应用层看来只写入了少量数据，但是经过FTL后可能需要搬运大量数据

2. 实际的闪存写入的数据量 / 系统通过FTL写入的数据量 = 写入放大

写入放大倍数越多，意味着实际的SSD性能越差

说明：要解决写入放大问题，需要在后台定时进行垃圾回收，在硬盘比较空闲时完成搬运数据、擦除数据、留出空白块的工作，而不是等实际数据写入时再进行

11. DMA

11.1 DMA原理

11.1.1 DMA的引入

1. IO设备数据传输是在IO设备与内存之间传输数据

2. 轮询与中断的传输方式中，都是CPU实现数据的传输。由于CPU主频远高于内存与IO设备，因此会存在io_wait现象

3. 直接内存访问（Direct Memory Access，DMA）技术的引入，目的是将CPU从IO设备数据传输中解放出来

说明：即使是基于中断的IO传输，数据也是由CPU控制传输的。因为IO设备通过中断向CPU发送的是控制信号，而不是数据内容。即IO设备只能通知CPU此处有数据要传输，最终数据仍然由CPU完成传输

11.1.2 DMAC的角色

1. 在进行内存和IO设备的数据传输时，不再通过CPU来控制数据传输，而是直接通过DMA控制器（DMA Controller，DMAC）控制

2. DAMC本身是一个特殊的IO设备，对于CPU而言，他是一个从设备；对于硬盘等IO设备来说，他是一个主设备

11.1.3 DMA传输流程

1. CPU作为主设备，向DMAC设备发起请求。发起请求通过设置DMAC的寄存器实现，需要设置如下信息，

① 源地址的初始值及传输时的地址增减方式

② 目的地址的初始值及传输时的地址增减方式

③ 要传输的数据长度

2. 设置完成后，DMAC进入空闲状态（idle）

3. 如果要从硬盘向内存传输数据，硬盘会向DMAC发起一个数据传输请求。这个请求并不是通过总线，而是通过一个额外的连线

4. DMAC通过一个额外的连线响应这个申请

5. DMAC向硬盘的接口发起总线读的传输请求，数据就从硬盘中读取到了DMAC的控制器中

6. DMAC再向内存发起总线写的传输请求，将数据写入内存

7. DMAC反复进行⑤、⑥的操作，直到DMAC的寄存器中设置的数据长度传输完成

8. 数据传输完成后，DMAC重新回到空闲状态

11.2 零拷贝传输

11.2.1 零拷贝传输原理

假设要从磁盘读取数据然后发送到网络上，传统的方式如下，

read(filefd, buf, len);

send(socket, buf, len);

这里共涉及4次数据传输，其中2次是DMA传输，2次是CPU传输

零拷贝传输则是取消2次CPU传输，

其中第2次的传输是根据socket的描述符信息，直接将数据从读缓冲区传输到网卡的缓冲区中

11.2.2 Linux零拷贝传输实例

在Linux中，可以使用sendfile函数实现零拷贝传输

#include 

ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

以下为不使用零拷贝传输的代码及程序运行耗时，其中outfile为一个10MB大小的全零文件

char buf[4096];



int main(void)

{

    int outfd;

    int infd;

    int ret;

   

    outfd = open("outfile", O_RDONLY);

    printf("outfd = %d\n", outfd);

   

    infd = open("infile", O_WRONLY | O_CREAT);

    printf("infd = %d\n", infd);

   

    while ((ret = read(outfd, buf, 4096)) > 0) {

        write(infd, buf, ret);

    }

   

    close(outfd);

    close(infd);

    return 0;

}

以下为使用零拷贝传输的代码及程序运行耗时，可见性能有很大提高

int main(void)

{

    int outfd;

    int infd;

    int ret;

    int len;

   

    outfd = open("outfile", O_RDONLY);

    printf("outfd = %d\n", outfd);

   

    infd = open("infile", O_WRONLY | O_CREAT);

    printf("infd = %d\n", infd);

   

    len = lseek(outfd, 0, SEEK_END);

    printf("outfile len = %d\n", len);

   

    lseek(outfd, 0, SEEK_SET);

    sendfile(outfd, infd, NULL, len);

   

    close(outfd);

    close(infd);

    return 0;

}

12. 数据完整性

12.1 单比特翻转

1. 单比特翻转（Single-Bit Flip）是在内存中发生的硬件错误

2. 单比特翻转是一个随机现象，无法稳定复现

3. 可以使用ECC内存（Error-Correcting Code memory，纠错内存）避免单比特翻转问题

12.2 奇偶校验

1. 奇偶校验思路简单，将内存中的N个比特作为一组，然后用额外的一位记录校验码，以偶校验为例，示例如下，

2. 奇偶校验的计算非常快，通过O(N)的时间复杂度算法就可以计算出校验码

3. 奇偶校验只能检测出奇数个位的错误

4. 奇偶校验只能发现错误，不能纠正错误

说明：纠错码和纠删码

① 校验码只是检错码（Error Detecting Code）

② 如果要纠正错误就需要使用纠错码（Error Correcting Code）

③ 纠错码的升级版本叫纠删码（Erasure Code），不仅能纠正错误，还能够在错误不能纠正时直接将数据删除

ECC内存、网络传输和硬盘RAID等技术中，都利用了纠错码和纠删码的相关技术

12.3 海明码

12.3.1 概述

1. 海明码作为一种纠错码，需要冗余信息才能判断出错的比特位，并将其改正

2. ECC内存就是使用海明码进行纠错

3. 海明码只能纠正某一个比特位的错误，必须认识到纠错码的纠错能力是有限的

12.3.2 海明码冗余信息

以7-4海明码为例，说明海明码所需的冗余信息

1. 7-4海明码是指实际有效数据为7位，校验位为4位

2. 4位校验码可以表示2^4 = 16个不同的数，也就是可以标识15种错误情况（还有一种情况就是正确的情况）

3. 之所以需要具备15种错误情况，是因为传输过程中，不仅数据位会出错，校验位也可能出错，所以7-4海明码共有11位数据要传输，就需要4位校验码

同时也可以得出，4位校验码最多可以覆盖11位数据位

4. 如果数据位有K位，校验位有N位，那么需要满足如下不等式，

K + N <= 2^N - 1

常见海明码校验码位数如下表所示，

12.3.3 海明码纠错原理

以4-3海明码为例，说明海明码的纠错原理

1. 计算校验位值时，确保只要有一个数据位出错，就至少有2个校验位不一致，且校验位不一致的组合方式不同

如上图所示，如果d1位出错，则p1 & p2校验位就会不一致；d2位出错，则是p1 & p3校验位不一致

2. 纠错时逆向判断，根据校验位的错误情况，判断出错的比特位

12.3.4 海明码编码方式

以7-4海明码说明编码方式，步骤如下图所示

1. 将要传输的数据位与校验位总和编号，之后从左到右选择2^n幂作为校验位，此处就是第1 / 2 / 4 / 8位

之所以选择2^n幂作为校验位，是因为这些位只有一个比特位为1，这点在后续的编码和校验中非常重要

2. 计算各个校验位的值

p1选择编号bit[0] = 1的数据位计算

p2选择编号bit[1] = 1的数据位计算

p3选择编号bit[2] = 1的数据位计算

p4选择编号bit[5] = 1的数据位计算

这样计算出的校验值就具备的如下特征，

① 如果只有1bit校验位出错，则只涉及校验位

② 如果只有1bit数据位出错，则至少有2个校验位不一致，且组合不重叠

说明：海明距离

① 对于2个二进制数，他们之间有差异的位数，称为海明距离

② 所谓进行一位纠错，就是所有和我们要传输的数据的海明距离为1的数，都能被纠正回来

③ 任何实际要传输的数，海明距离至少为3，这样一旦出现1比特错误，就能知道应该被纠正到哪个数值

13. 分布式计算

1. 分布式计算需要引入负载均衡（Load Balancer）组件，进行流量分配

2. 通过消息传递（Message Passing）而不是共享内存（Shared Memory）的方式让多台不同的计算机协同工作

3. 负载均衡能够通过健康检测（Health Check）发现故障的服务器没有响应，就可以自动将所有流量切换到其他服务器，这个操作叫做故障转移（Failover）

你可能感兴趣的:(计算机体系结构,计算机体系结构)

CPU 指令集架构复杂指令集架构（CISC）和精简指令集架构（RISC） ARM、MIPS、RISC-V和Alpha 指令集架构（Instruction Set Architecture，ISA） EwenWanW AGI 架构 arm开发 risc-v
CPU指令集架构CPU指令集架构是计算机体系结构中与程序设计有关的重要部分。它定义了计算机如何执行和操作指令，是计算机执行程序的基础。指令集架构包括基本数据类型、指令集、寄存器、寻址模式、存储体系、中断、异常处理以及外部IO等多个方面。在CPU指令集架构中，主要有两种类型：复杂指令集架构（CISC）和精简指令集架构（RISC）。复杂指令集架构（CISC）的设计目标是尽可能将任务一次性完成，因此它的
CISC和RISC指令集 TENET- ARM架构架构嵌入式指令集
文章目录1.指令集2.CISC（复杂指令集计算）3.RISC（精简指令集计算）4.RISC的设计初衷5.CISC和RISC流程对比CISC（复杂指令集计算）的实现RISC（精简指令集计算）的实现比较与总结6.CISC与RISC指令对比7.RISC-V1.指令集指令集（InstructionSet）是计算机处理器（CPU）能够识别和执行的所有指令的集合。它是计算机体系结构的一个关键组成部分，定义了处
CSP知识点(人物) IZGRI c++
1958年9月12日，基尔比研制出世界上第一块集成电路，成功实现了把电子管器件集成在一块半导体材料上的构想。2000年，基尔比因发布集成电路而荣获诺贝尔物理学奖。最早提出计算机体系结构的人是冯诺依曼，他提出计算机应该具有五大部件，分别为存储器、运算器、控制器、输入设备和输出设备。其中，控制器和运算器又称CPU，是冯诺依曼计算机体系结构的核心，其他部件都是通过CPU进行通信的。1936年，数学家图灵
《C++内存对齐探秘：优化性能的关键步骤》程序猿阿伟 c++java jvm
在C++编程的深邃世界中，内存对齐是一个常常被忽视却又至关重要的概念。它不仅影响着程序的性能，还与硬件的高效运作紧密相连。让我们一同深入探索如何在C++中进行内存对齐，揭开这一神秘面纱，为我们的编程之旅增添强大的性能优化武器。一、什么是内存对齐内存对齐是指将数据安排在特定的内存地址上，以满足硬件的访问要求。在现代计算机体系结构中，内存访问通常是以特定的字节数为单位进行的，例如4字节、8字节等。如果
并发问题的根源：CPU/内存/IO设备的速度差异码上一元并发编程 java 多线程
CPU、内存、IO设备的速度差异程序整体的性能取决于最慢的操作—读写IO设备为了合理利用CPU的高性能，平衡三者的速度差异，计算机体系结构、操作系统、编译程序做了以下优化：CPU增加了缓存，以均衡与内存的速度差异；操作系统增加了进程、线程，以分时复用CPU，进而均衡CPU与I/O设备的速度差异；编译程序优化指令执行顺序，使得缓存能够更加合理的利用。并发程序的问题根源1.缓存导致的可见性问题单核时代
【jvm】栈顶缓存技术王佑辉 jvm jvm
目录1.说明2.技术背景3.技术原理4.应用场景5.优势与局限5.1优势5.2局限1.说明1.栈顶缓存技术（Top-of-StackCaching，简称ToS）。2.是一种在计算机体系结构中用于提高指令执行性能的优化技术。3.通常与流水线处理器（pipelining）相关，旨在减少数据冒险（datahazards）和控制冒险（controlhazards）,从而提升处理器的执行效率。4.栈顶缓存技
C++竞赛初阶L1-14-第六单元-数组(31~33课)541: T456471 计算书费麓小墨哥 c++免费文章 c++开发语言青少年编程算法数据结构
题目内容下面是一个图书的单价表：计算概论28.9元/本数据结构与算法32.7元/本数字逻辑45.6元/本C++程序设计教程78元/本人工智能35元/本计算机体系结构86.2元/本编译原理27.8元/本操作系统43元/本计算机网络56元/本JAVA程序设计65元/本依次给定每种图书购买的数量，编程计算应付的总费用。输入格式输入一行，含10个非负整数，每两个整数之间有一个空格。第i个整数表示要购买上述
CPU内部结构窥探·「8」--ARMv8的流水线机制冬大大计算机体系结构计算机体系结构 CPU 流水线机制
ARMv8流水线机制分析引言在现代计算机体系结构中，流水线技术是提升处理器性能的重要手段。ARMv8架构作为一款广泛应用于移动设备、嵌入式系统以及服务器中的高效处理器，其流水线机制尤为重要。本文将深入分析ARMv8的流水线机制，探讨其工作原理、设计特点以及优化策略。什么是流水线？流水线是一种将指令执行过程分解为若干个阶段，并使这些阶段能够并行执行的技术。每个阶段完成指令的一部分工作，从而提高整体指
计算机体系结构详解：冯·诺依曼与哈佛体系欢迎交流计算机组成原理嵌入式硬件
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、冯·诺依曼体系结构背景与发展核心特点：优缺点应用领域二、哈佛体系结构三、总结与比较一、冯·诺依曼体系结构背景与发展冯·诺依曼体系结构，又称为普林斯顿体系结构，得名于20世纪40年代中期的约翰·冯·诺依曼及其团队。这一体系结构奠定了现代电子计算机的基本框架，至今仍是大多数计算机系统的核心设计基础。核心特点：数据与指令共享内存
算法部署优化工程师面试题整理发狂的小花 C/C++面试宝典算法面试性能优化计算机视觉
原文来自【知乎-高性能计算方向面试问题总结】个人简介：一个全栈工程师的升级之路！个人专栏：C/C++面试整理CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录整体情况简介高性能计算基础AI框架知识算法题一些比较零碎的问题推荐参考资料整体情况简介面试中的问题基本上分成以下几类：基础的八股文：C/C++，OS，计算机体系结构等。这一部分略，网上已经有很多总结了。高性能计算基础知识：这一部分是
哈佛结构和冯诺依曼结构 UPUPUPEveryday 嵌入式单片机单片机 stm32 嵌入式硬件 mcu
哈佛结构和冯诺依曼结构的联系和区别哈佛结构和冯诺依曼结构是计算机体系结构中两种常见的组织方式，它们有一些联系和区别。联系：数据和指令的存储方式：哈佛结构和冯诺依曼结构都将数据和指令存储在计算机的存储器中，但它们的存储方式略有不同。运算方式：哈佛结构和冯诺依曼结构在进行运算时都采用类似的算法和操作。区别：存储器的划分方式：哈佛结构将指令存储器和数据存储器分开存储，每个存储器有独立的地址空间；而冯诺依
java多线程——并发数据不一致java中的解决方案台风天赋 java多线程多线程 java 并发编程
多线程并发编程线程安全主要是由于多线程并发、同时操作共享变量导致的数据不一致。至于共享变量，需要涉及到计算机体系结构的内容：因为现代计算机都一般是设置了两级甚至三级cache。以两级cache为例：假设此时有两个CUP，线程1 线程2 | | v v CUP1 CUP2 | | v v Cache1-1 Cache2-1 | V 公用c
【软考中级备考笔记】计算机体系结构 lyx7762 笔记软考计算机组成原理
计算机体系结构2月19日–天气：阴转小雪1.冯诺依曼计算机体系结构冯诺依曼将计算机分为了五大部分，分别是：控制器：主要负责协调指令到执行运算器：负责算数和逻辑运算存储器：负责存储在指令执行过程中产生的一些中间变量输出输出设备：用于接收用户输入并将结果显示给用户冯诺依曼计算机体系结构由一下特点：冯·诺依曼计算机主要由五大部件组成，分别是：运算器、控制器、存储器、输入设备和输出设备；冯诺依曼体系结构的
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——计算机体系结构沐风—云端行者研究生复试—面试——速记资料软件工程考研计算机体系结构计算机人工智能
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍3.计算机体系结构1.基本概念2.指令与寻址3.输入输出系统、贮存体系现代：存储器为中心冯诺依曼：运算器为中心段页式：三次段式或页式：两次4.流水技术原理瓶颈段不能被分割6.互联网络
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——JAVA 沐风—云端行者研究生复试—面试——速记资料 java 软件工程开发语言考研
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍1.Java1.==和equals的区别比较基本数据类型是比较的值，引用数据类型是比较两个是不是同一个对象，也就是引用是否指向同一个对象，地址是否相同，equals本质上也是，但是可以重写这个方法，比如String和Integer类。2.为什么重写equals要重写hashcode？我个人
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——数据库沐风—云端行者研究生复试—面试——速记资料软件工程数据库考研计算机
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍4.数据库1.B+树相对于B树的区别及优势B树中有重复元素，B树没有重复元素B树种每个节点都存储了key和data，B+树内节点去掉了其中指向数据(datarecord)的指针，使得每个节点中可以存放更多的key，意味着树的高度可以被压缩B+树的叶子节点是链表形式，可以更方便的进行顺序遍历
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——自我介绍（英文）沐风—云端行者研究生复试—面试——速记资料软件工程人工智能考研
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍自我介绍英文自我介绍英文第一段：Goodafternoon,dearprofessors,thankyouforthechancetointroducemyself.MynameisYanZhenXing,andIamafinalyearstudentatChongqingUniversi
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——计算机网络沐风—云端行者研究生复试—面试——速记资料计算机网络软件工程考研
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍2.计算机网络1.TCP如何解决丢包和乱序？序列号：TCP所传送的每段数据都有标有序列号，避免乱序问题发送端确认应答、超时重传：解决丢包问题滑动窗口：避免速度过快或多慢丢包和乱序问题2.cookie和session的区别HTTP是无状态的，一次请求完成，不会持久化请求与相应的信息。为了保存
CPU是如何工作的？什么是冯·诺依曼架构和哈弗架构？车载系统攻城狮嵌入式软件开发 /C语言架构嵌入式硬件单片机
《嵌入式工程师自我修养/C语言》系列——CPU是如何工作的？什么是冯·诺依曼架构和哈弗架构？一、CPU内部结构及工作原理1.1CPU的结构1.2CPU工作流程举例二、计算机体系结构2.1冯·诺依曼架构2.2哈弗架构三、总结快速学习嵌入式开发其他基础知识？>>>>>>>>>返回专栏总目录《嵌入式工程师自我修养/C语言》>>>>>一文帮你快速区分常用存储器！>>>>>一文帮你快速区分常用存储器！>>>
软件评测师学习笔记-计算机体系结构分类 Go_Viola
Flynn分类记忆方法：S：singleI：instructionM：MultipleD：data
STM32-寄存器和HAL库以及如何使用 nownow_ stm32 嵌入式硬件单片机
在电子工程领域，“寄存库”和“HAL库”都是与微控制器（MCU）编程紧密相关的概念。寄存器（Register）含义：在电子工程领域，特别是计算机体系结构和微控制器设计中，寄存器是一种非常小的、快速的存储设备，它位于处理器的内部，用于暂时存储数据或指令地址。寄存器是CPU（中央处理器）内部的一部分，可以直接由CPU访问，因此读写速度非常快。作用：寄存器在电子系统中扮演着关键角色，它们用于存储CPU操
软考09-上午题-计算机体系结构 ruleslol 软考中级学习笔记
一、RISC和CISC一个处理器支持的指令，和指令的字节集编码，称为其：指令集体系结构ISA。1-1、指令集发展的两种途径RISC：精简指令集计算机CISC：复杂指令集计算机1-2、RISC和CISC的区别1-3、真题真题1：真题2：真题3：真题4：真题5：真题6：二、指令流水线2-1、指令的控制方式顺序方式重叠方式流水线方式2-2、指令流水线5条指令的执行时间：（0.1+0.2+0.3）+4*0
使用 C++23 从零实现 RISC-V 模拟器（1）：最简CPU everystep_ c++23 risc-v
本节实现一个最简的CPU，最终能够解析add和addi两个指令。如果对计算机组成原理已经有所了解可以跳过下面的内容直接看代码实现。完整代码在这个分支：lab1-cpu-add，本章节尾有运行的具体指令。1.冯诺依曼结构冯·诺依曼结构是现代计算机体系结构的基础，由约翰·冯·诺依曼在1945年提出。这种结构也称为冯·诺依曼体系结构，其核心特点是将程序指令和数据存储在同一个读写存储器（内存）中，计算机的
计算机体系结构曹元_
计算机体系结构是指那些对程序员可见的系统属性，还包括设计思想与体系结构。今天课课就来和大家分享这篇文章，全面概述了计算机体系结构。要认真阅读~计算机体系结构（ComputerArchitecture）是程序员所看到的计算机的属性，即概念性结构与功能特性。按照计算机系统的多级层次结构，不同级程序员所看到的计算机具有不同的属性。一般来说，低级机器的属性对于高层机器程序员基本是透明的，通常所说的计算机体
汇编程序设计与计算机体系结构,《汇编程序设计与计算机体系结构：软件工程师教程》 —2.8　作业... 当回忆牵手未来汇编程序设计与计算机体系结构
2.8作业2.8.1内存有这样一个算式：taxableIncome=salary-exempts-percent401k/100*salary，其中的变量salary=50000，exempts=7000，percent401k=4.5。在配有IntelCorei7处理器的系统中，taxableIncome的值在内存中是怎样表示的？假设该值是从0x013A32A8h这一地址开始存放的。2.8.2指
计算机体系结构期末复习流程大纲华东设计之美计算机体系结构计算机体系结构
1.存储器和cache存储器的容量、速度与价格之间的要求是相互矛盾的，速度越快，没bit位价格越高，容量越大，速度越慢，目前主存一般有DRAM构成。处理器CPU访问存储器的指标：延迟时间（Latency）——单次存储器的访问时间：存储器访问时间>>处理器时钟周期；带宽(Bandwidth)——单位时间对存储器的访问次数：如果每条指令的执行需要m次访存操作，总计每条指令需要m+1次存储器访问（包括1
软考中级-数据库系统工程师复习大纲亦清尘软考计算机网络网络基础知识数据结构经验分享算法
上午考题一、计算机系统知识计算机系统基础计算机体系结构安全性可靠性与系统性能评测多媒体基础逻辑运算二、程序语言基础知识三、数据结构与算法线性结构（线性表）线性结构（栈和队列）数组和矩阵数和二叉树图排序算法查找算法四、操作系统知识进程管理存储管理设备管理文件与作业管理五、网络基础知识计网与网络硬件概述OSI模型与TCP/IP协议Internet基础信息安全与网
libnuma 及底层实现 phone1126 linux kernel
libnuma是一个用于Linux系统的NUMA（非一致性内存访问）API。libnuma提供了一组函数和工具，用于管理和优化NUMA系统中的内存分配和访问。NUMA是一种计算机体系结构，其中多个处理器和内存模块通过高速互联网络连接在一起。在NUMA系统中，每个处理器都有自己的本地内存，但也可以访问其他处理器的内存。libnuma的主要功能包括以下几个方面：1.内存分配：libnuma提供了一些函
计算机科学导论第五版第二章答案,(计算机科学导论第2章答案.docx weixin_39894932 计算机科学导论第五版第二章答案
(计算机科学导论第2章答案第2章计算机体系结构与组织习题(答案)一．选择题1．D2．D3．D4．D5．C6．B7．A8．C9．A10．C11．A12．C13．C14．C15．A16．A17．B18．A二．简答题1．试简单叙述计算机采用二进制的原因。答：计算机只认识二进制编码形式的指令和数据。因此，包括数字、字符、声音、图形、图像等信息都必须经过某种方式转换成二进制的形式，才能提供给计算机进行识别和
嵌入式系统设计师教程素数之恋嵌入式硬件
1计算机系统基础知识1.1嵌入式计算机系统概述1.2数据表示1.2.1进位计数制及转换1.2.2数值型数据的表示1.2.3其他数据的表示1.2.4校验码1.3算术运算和逻辑运算1.3.1算术运算1.3.2逻辑运算1.4计算机硬件组成及主要部件功能1.4.1中央处理单元1.4.2存储器1.4.3总线1.4.4输入/输出控制1.5计算机体系结构1.6可靠性与系统性能评测基础知识1.6.1计算机可靠性1
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多