zdy0_2004

关于现代CPU，程序员应当更新的知识

从1980年代以来，CPU有哪些新变化？这些变化又是如何影响程序员的？本文将会为你解答这些问题。

原文链接：http://danluu.com/new-cpu-features/
作者：Dan Luu

有人在Twitter上谈到了自己对CPU的认识：

我记忆中的CPU模型还停留在上世纪80年代：一个能做算术、逻辑、移位和位操作，可以加载，并把信息存储在记忆体中的盒子。我隐约意识到了各种新发展，例如矢量指令（SIMD），新CPU还拥有了虚拟化支持（虽然不知道这在实际使用中意味着什么）。

我错过了哪些很酷的发展呢？有什么是今天的CPU可以做到而去年还做不到的呢？那两年，五年或者十年之前的CPU又如何呢？我最感兴趣的事是，哪些程序员需要自己动手才能充分利用的功能（或者不得不重新设计编程环境）。我想，这不该包括超线程/SMT，但我并不确定。我也对暂时CPU做不到但是未来可以做得到的事感兴趣。

本文内容除非另有说明，都是指在x86和Linux环境下。历史总在重演，很多x86上的新事物，对于超级计算机、大型机和工作站来说已经是老生常谈了。

现状

杂记

现代CPU拥有更宽的寄存器，可寻址更多内存。在上世纪80年代，你可能已经使用过8位CPU，但现在肯定已在使用64位CPU。除了能提供更多地址空间，64位模式（对于32位和64位操作通过x867浮点避免伪随机地获得80位精度）提供了更多寄存器和更一致的浮点结果。自80年代初已经被引入x86的其他非常有可能用到的功能还包括：分页/虚拟内存，pipelining和浮点运算。

本文将避免讨论那些写驱动程序、BIOS代码、做安全审查，才会用到的不寻常的底层功能，如APIC/x2APIC，SMM或NX位等。

内存/缓存（Memory / Caches）

在所有话题中，最可能真正影日常编程工作的是内存访问。我的第一台电脑是286在，那台机器上，一次内存访问可能只需要几个时钟周期。几年前，我使用奔腾4，内存访问需要花费超过400时钟周期。处理器比内存的发展速度快得多，对于内存较慢问题的解决方法是增加缓存，如果访问模式可被预测，常用数据访问速度更快，还有预取——预加载数据到缓存。

几个周期与400多个相比，听起来很糟——慢了100倍。但一个对64位（8字节）值块读取并操作的循环，CPU聪明到能在我需要之前就预取正确的数据，在3Ghz处理器上，以约22GB/s的速度处理，我们只丢了8％的性能而不是100倍。

通过使用小于CPU缓存的可预测内存访问模式和数据块操作，在现代CPU缓存架构中能发挥最大优势。如果你想尽可能高效，这份文件是个很好的起点。消化了这100页PDF文件后，接下来，你会想熟悉系统的微架构和内存子系统，以及学习使用类似likwid这样的工具来分析和测验应用程序。

TLBs

芯片里也有小缓存来处理各种事务，除非需要全力实现微优化，你并不需要知道解码指令缓存和其他有趣的小缓存。最大的例外是TLB——虚拟内存查找缓存（通过x86上4级页表结构完成）。页表在L1数据缓存，每个查询有4次，或16个周期来进行一次完整的虚拟地址查询。对于所有需要被用户模式内存访问的操作来说，这是不能接受的，从而有了小而快的虚拟地址查找的缓存。

因为第一级TLB缓存必须要快，被严重地限制了尺寸。如果使用4K页面，确定了在不发生TLB丢失的情况下能找到的内存数量。x86还支持2MB和1GB页面；有些应用程序会通过使用较大页面受益匪浅。如果你有一个长时间运行，且使用大量内存的应用程序，很值得研究这项技术的细节。

乱序执行/序列化（Out of Order Execution / Serialization）

最近二十年，x86芯片已经能思考执行的次序（以避免因为一个停滞资源而被阻塞）。这有时会导致很奇怪的表现。x86非常严格的要求单一CPU，或者外部可见的状态，像寄存器和记忆体，如果每件事都在按照顺序执行都必须及时更新。

这些限制使得事情看起来像按顺序执行，在大多数情况下，你可以忽略OoO（乱序）执行的存在，除非要竭力提高性能。主要的例外是，你不仅要确保事情在外部看起来像是按顺序执行，实际上在内部也要真的按顺序。

一个你可能关心的例子是，如果试图用rdtsc测量一系列指令的执行时间，rdtsc将读出隐藏的内部计数器并将结果置于edx和eax这些外部可见的寄存器。

假设我们这样做：

foo
rdtsc
bar
mov %eax, [%ebx]
baz

其中，foo，bar和baz不去碰eax，edx或[%ebx]。跟着rdtsc的mov会把eax值写入内存某个位置，因为eax外部可见，CPU将保证rdtsc执行后mov才会执行，让一切看起来按顺序发生。

然而，因为rdtsc，foo或bar之间没有明显的依赖关系，rdtsc可能在foo之前，在foo和bar之间，或在bar之后。甚至只要baz不以任何方式影响移mov，令也可能存在baz在rdtsc之前执行的情况。有些情况下这么做没问题，但如果rdtsc被用来衡量foo的执行时间就不妙了。

为了精确地安排rdtsc和其他指令的顺序，我们需要串行化所有执行。如何准确的做到？请参考英特尔的这份文档。

内存/并发（Memory / Concurrency）

上面提到的排序限制意味着相同位置的加载和存储彼此间不能被重新排序，除此以外，x86加载和存储有一些其他限制。特别是，对于单一CPU，不管是否是在相同的位置，存储不会与之前的负载一起被记录。

然而，负载可以与更早的存储一起被记录。例如：

mov 1, [%esp]
mov [%ebx], %eax

执行起来就像：

mov [%ebx], %eax
mov 1, [%esp]

但反之则不然——如果你写了后者，它永远不能像你前面写那样被执行。

你可能通过插入串行化指令迫使前一个实例像写起来一样来执行。但是这需要CPU序列化所有指令这会非常缓慢，因为它迫使CPU要等到所有指令完成串行化后才能执行任何操作。如果你只关心加载/存储顺序，另外还有一个 mfence指令只用于序列化加载和存储。

本文不打算讨论memory fence，lfence和sfence，但你可以在这里阅读更多关于它们的内容。

单核加载和存储大多是有序的，对于多核，上述限制同样适用；如果core0在观察core1，就可以看到所有的单核规则适用于core1的加载和存储。然而如果core0和core1相互作用，不能保证它们的相互作用也是有序的。

例如，core0和core1通过设置为0的eax和edx开始，core0执行:

mov 1, [_foo]
mov [_foo], %eax
mov [_bar], %edx

而core1执行

mov 1, [_bar]
mov [_bar], %eax
mov [_foo], %edx

对于这两个核来说， eax必须是1，因为第一指令和第二指令相互依赖。然而，eax有可能在两个核里都是0，因为core0的第三行可能在core1没看到任何东西时执行，反之亦然。

memory barriers序列化一个核心内的存储器访问。Linus对于使用memory barriers而不是使用locking有这样一段话：

不用locking的真正代价最终不可避免。通过使用memory barriers自以为聪明的做事几乎总是错误的前奏。在所有可以发生在十多种不同架构并且有着不同的内存排序的情况下，缺失一个小小的barrier真的很难让你理清楚…事实上，任何时候任何人编了一个新的锁定机制，他们总是会把它弄错。

而事实证明，在现代的x86处理器上，使用locking来实现并发通常比使用memory barriers代价低，所以让我们来看看锁。

如果设置_foo为0，并有两个线程执行incl (_foo)10000次——一个单指令同一位置递增20000次，但理论上结果可能2。搞清楚这一点是个很好的练习。

我们可以用一段简单的代码试验:

#include <stdlib.h>
#include <thread>

#define NUM_ITERS 10000
#define NUM_THREADS 2

int counter = 0;
int *p_counter = &counter;

void asm_inc() {
  int *p_counter = &counter;
  for (int i = 0; i < NUM_ITERS; ++i) {
    __asm__("incl (%0) \n\t" : : "r" (p_counter));
  }
}

int main () {
  std::thread t[NUM_THREADS];
  for (int i = 0; i < NUM_THREADS; ++i) {
    t[i] = std::thread(asm_inc);
  }
  for (int i = 0; i < NUM_THREADS; ++i) {
    t[i].join();
  }
  printf("Counter value: %i\n", counter);
  return 0;
}

用clang++ -std=c++11 –pthread在我的两台机器上编译得到的分布结果如下：

不仅得到的结果在运行时变化，结果的分布在不同的机器上也是不同。我们永远没到理论上最小的2，或就此而言，任何低于10000的结果，但有可能得到10000和20000之间的最终结果。

尽管incl是个单独的指令，但不能保证原子性。在内部，incl是后面跟一个add后再跟一个存储的负载。在cpu0里的一个增加有可能偷偷的溜进cpu1里面的负载和存储之间执行，反之亦然。

英特尔对此的解决方案是少量的指令可以加lock前缀，以保证它们的原子性。如果我们把上面代码的incl改成lock incl，输出始终是20000。

为了使序列有原子性，我们可以使用xchg或cmpxchg, 它们始终被锁定为比较和交换的基元。本文不会详细描它是如何工作的，但如果你好奇可以看这篇David Dalrymple的文章。

为了使存储器的交流原子性，lock相对于彼此在global是有序的，而且加载和存储对于锁不会被重新排序相。对于内存排序严格的模型，请参考x86 TSO文档。

在C或C++中：

local_cpu_lock = 1;
// .. 做些重要的事 ..
local_cpu_lock = 0;

编译器不知道local_cpu_lock = 0不能被放在重要的中间部分。Compiler barriers与CPU memory barriers不同。由于x86内存模型是比较严格，一些编译器的屏障在硬件层面是选择不作为，并告诉编译器不要重新排序。如果使用的语言比microcode，汇编，C或C++抽象层级高，编译器很可能没有任何类型的注释。

内存/移植（Memory / Porting）

如果要把代码移植到其他架构，需要注意的是，x86也许有着今天你能遇到的任何架构里最强的内存模式。如果不仔细思考，它移植到有较弱担保的架构（PPC，ARM，或Alpha），几乎肯定得到报错。

考虑Linus对这个例子的评论：

CPU1         CPU2
---- ---- if (x == 1) z = y; y = 5; mb(); x = 1;

…如果我读了Alpha架构内存排序保证正确，那么至少在理论上，你真的可以得到Z = 5

mb是memory barrier（内存屏障）。本文不会细讲，但如果你想知道为什么有人会建立这样一个允许这种疯狂行为发生的规范，想一想成产成本上升打垮DEC之前，其芯片快到可以在相同的基准下通过仿真运行却比x86更快。对于为什么大多数RISC-Y架构做出了当时的决定请参见关于Alpha架构背后动机的论文。

顺便说一句，这是我很怀疑Mill架构的主要原因。暂且不论关于是否能达到他们号称的性能，仅仅在技术上出色并不是一个合理的商业模式。

内存/非临时存储/写结合存储器（Memory / Non-Temporal Stores / Write-Combine Memory）

上节所述的限制适用于可缓存（即“回写（write-back）”或WB）存储器。在此之前，只有不可缓存（UC）内存。

一个关于UC内存有趣的事情是，所有加载和存储都被设计希望能在总线上加载或存储。对于没有缓存或者几乎没有板载缓存的处理器，这么做完全合理。

内存/NUMA

非一致内存访问（NUMA），即对于不同处理器来说，内存访问延迟和带宽各有不同。因为NUMA或ccNUMA如此普遍，以至于是被默认为采用的。

这里要求的是共享内存的线程应该在同一个socket上，内存映射I/O重线程应该确保它与最接近的I/O设备的socket对话。

曾几何时，只有内存。然后CPU相对于内存速度太快以致于人们想增加一个缓存。缓存与后备存储器（内存）不一致是一个坏消息，因此缓存必须保持它坚持着什么的信息，所以它才知道是否以及何时它需要向后备存储写东西。

这不算太糟糕，而一旦你获得了两个有自己缓存的核心，情况就变复杂了。为了保持作为无缓存的情况下相同的编程模型，缓存必须相互之间以及与后备存储器是一致的。由于现有的加载/存储指令在其API中没有什么允许他们说“对不起!这个加载因为别的cpu在使用你想用的地址而失败了” ，最简单的方式是让每个CPU每次要加载或存储东西的时候发一个信息到总线上。我们已经有了这个两个CPU都可以连接的内存总线，所以只要要求另一个CPU在其数据缓存有修改时做出回复（并失去相应的缓存行）。

在大多数情况下，每个CPU只涉及其他CPU不关心的数据，所以有一些浪费的总线流量。但不算糟糕，因为一旦CPU拿出一条消息说“你好！我要占有这个地址并修改数据”，可以假定在其他的CPU要求前完全拥有该地址，虽然不是总会发生。

对于4核CPU，依然可以工作，虽然字节浪费相比有点多。但其中每个CPU对其他每一个CPU的响应失败比例远远超出4个CPU总和，既因为总线被饱和，也因为缓存将得到饱和（缓存的物理尺寸/成本是以同时的读和写数量 O(n^2) ，并且速度与大小负相关）。

这个问题“简单”的解决方法是有一个单独的集中目录记录所有的信息，而不是做N路的对等广播。反正因为现在我们正在一个芯片上包2-16个内核，每个芯片(socket)对每个核的缓存状态有个单一目录跟踪是很自然的事。

不仅解决了每个芯片的问题，而且需要通过某种方式让芯片相互交谈。不幸的是，当我们扩展这些系统即使对于小型系统总线速度也快到真的很难驱动一个信号远到连接一堆芯片和都在一条总线上的记忆体。最简单的解决办法就是让每个插座都拥有一个存储器区域，所以每一个socket并不需要被连接到的存储器每一个部分。因为它很明确哪个目录拥有特定的一段内存，这也避免了目录需要一个更高级别的目录的复杂性。

这样做的缺点是，如果占用一个socket并且想要一些被别的socket拥有的memory，会有显著的性能损失。为简单起见，大多数“小”（<128核）系统使用环形总线，因此性能损失的不仅仅是通过一系列跳转达到memory付出的直接延迟/带宽处罚，他也用光了有限的资源（环状总线）和减慢了其他socekt的访问速度。

理论上来讲，OS会透明处理，但往往低效。

Context Switches/系统调用（Syscalls）

在这里，syscall是指Linux的系统调用，而不是x86的SYSCALL或者SYSENTER指令。

所有现代处理器具有一个副作用是，Context Switches代价昂贵，这会导致系统调用代价高昂。Livio Soares和Michael Stumm的论文对此做了详细讨论。我在下文将用一些他们的数据。下图为Xalan上的酷睿i7每一个时钟可以多少指令（IPC）：

系统调用的14000周期后，代码仍不是全速运行。

下面是几个不同的系统调用的足迹表，无论是直接成本（指令和周期），还是间接成本（缓存和TLB驱逐的数量）。

有些系统调用引起了40多次的TLB回收！对于具有64项D-TLB的芯片，几乎扫荡光了TLB。缓存回收不是毫无代价。

系统调用的高成本是人们对于高性能的代码转而进行使用脚本化的系统调用（例如epoll, 或者recvmmsg)究其原因，人们需要高性能I/O经常使用用户空间的I/O stack。Context Switches的成本就是为什么高性能的代码往往是一个核心一个线程（甚至是固定线程上一个单线程），而不是每个逻辑任务一个线程的原因。

这种高代价也是VDSO在后面驱动，把一些简单的不需要任何升级特权的系统调用放进简单的用户空间库调用。

SIMD

基本上所有现代的x86 CPU都支持SSE，128位宽的向量寄存器和指令。因为要完成多次相同的操作很常见，英特尔增加了指令，可以让你像为2个64位块一样对128位数据块操作，或者4个32位的块，8个16位块等。ARM用不同的名字（NEON）支持同样的事情，而且支持的指令也很相似。

通过使用SIMD指令获得了2倍，4倍加速这是很常见的，如果你已经有了一个计算繁重的工作这绝对值得期待。
编译器足够到可以分辨常见的可以实现矢量化模式的简单的代码，就像下面代码，会自动使用现代编译器的向量指令:

for (int i = 0; i < n; ++i) { sum += a[i]; }

但是，如果你不手写汇编语言，编译器经常会产生非优化的代码，特别是对SIMD代码，所以如果你很关心尽可能的得到最佳性能，你就要看看反汇编并检查你编译器的优化错误。

电源管理

有现代CPU都有很多花哨的电源管理功能用来在不同的场景优化电源使用。这些的结果是“跑去闲置”，因为尽可能快的完成工作，然后让CPU回去睡觉是最节能的方式。

尽管有很多做法已经被证明进行特定的微优化可以对电源消耗有利，但把这些微优化应用在实际的工作负载中通常会比预期的收益小。

GPU/GPGPU

相比其他部分我不是很够资格来谈论这些。幸运的是，Cliff Burdick自告奋勇地写了下面这节:

2005年之前，图形处理单元（GPU）被限制在一个只允许非常有限硬件控制量的API。由于库变得更加灵活，程序员开始使用处理器处理更常用的任务，如线性代数例程。GPU的并行架构可以通过发射数百并发线程在大量的矩阵块中工作。然而，代码必须使用传统的图形API，并仍被限制于可以控制多少硬件。Nvidia和ATI注意到了这点并发布了可以使显卡界外的人更熟悉的API来获得更多的硬件访问的框架。该库得到了普及，今天的GPU同CPU一起被广泛用于高性能计算（HPC）。

相比于处理器，GPU硬件主要有几个差别，概述如下：

处理器

在顶层，一个GPU处理器包含一个或多个数据流多重处理器（SMs）。现代GPU的每个流的多重理器通常包含超过100个浮点单元，或在GPU的世界通常被称为核。每个核心通常主频在800MHz左右，虽然像CPU一样，具有更高的时钟频率但较少内核的处理器也存在。GPU的处理器缺乏自己同行CPU的许多特色，包括更大的缓存和分支预测。在核的不同层，SMs，和整体处理器之间，通讯变得越来越慢。出于这个原因，在GPU上表现良好的问题通常是高度平行的，但有一些数据能够在小数目的线程间共用。我们将在下面的内存部分解释为什么。

内存（Memory）

现代GPU内存被分为3类：全局内存，共享内存和寄存器。全局存储器是GDDR通常GPU盒子上广告宣称约为2-12GB大小，并具有通过300-400GB /秒的速度。全局存储器在处理器上的所有SMS所有线程都能被访问，并且也是内存卡上最慢的类型。共享内存，正如其名所指，是同一个SM中的所有线程之间共享内存。它通常至少是全局储蓄器两倍的速度，但对不同SM的线程之间是不被允许进行访问的。寄存器很像在CPU上的寄存器，他们是GPU上访问数据最快的方式，但它们只在每个本地线程，数据对于其他正在运行的不同线程是不可见的。共享内存和全局内存对他们如何能够被访问都有很严格的规定，对不遵守这些规则的行为有严重性能下降的处罚。为了达到上述吞吐量，内存访问必须在同线程组间线程之间完整的合并。类似于CPU读入一个单一的缓存行，如果对齐合适的话，GPU对于单一的访问可以有缓存行可以服务一个组里的所有线程。然而，最坏的状况是一组里所有线程访问不同的缓存行，每个线程都要求一个独立的记忆体读。这通常意味着缓存行中的数据不被线程使用，并且存储器的可用吞吐量下降。类似的规则同样适用于共享内存，有一些例外，我们将不在这里涵盖。

线程模型（Threading Model）

GPU线程在一个单指令多线程(SIMT)方式下运行，并且每个线程以组的形式在硬件中以预定义大小（通常32）运行。这最后一部分有很多的影响;该组中的每个线程必须同一时间在同一指令下工作。如果任何一组中的线程的需要从他人那里获得代码的发散路径（例如一个if语句）的代码，所有不参与该分支的线程会到该分支结束才能开始。作为一个简单的例子：

if (threadId < 5) {
   // Do something
}
// Do More

在上面的代码中，这个分支会导致我们的32个线程中的27组暂停执行，直到分支结束。你可以想象，如果多组线程运行这段代码，整体性能会因大部分的内核处于闲置状态将受到很大打击。只有当线程整组被锁定才能使硬件允许交换另外一组的核来运行。

接口（Interfaces）

现代GPU必须有一个CPU同CPU和GPU内存之间进行数据复制的发送和接收，并启动GPU并且编码。在最高吞吐量的情况下，一个有着16个通道的PCIe 3.0总线可达到约13-14GB / s的速度。这可能听起来很高，但相对于存在GPU本身的内存速度，他们慢了一个数量级。事实上，图形处理器变得更强大以致于PCIe总线日益成为一个瓶颈。为了看到任何GPU超过CPU的性能优势，GPU的必须装有大量的工作，以使GPU需要运行的工作的时间远远的高于数据发送与接收的时间。

较新的GPU具备一些功能可以动态的在GPU代码里分配工作而不需要再回到CPU推出的GPU代码中动态的工作，而无需返回到CPU，单目前他的应用相当有局限性。

GPU结论

由于CPU和GPU之间主要的架构差异，很难想象任何一个完全取代另一个。事实上，GPU很好的补充了CPU的并行工作，使CPU可以在GPU运行时独立完成其他任务。AMD公司正在试图通过他们的“非均相体系结构”（HSA）合并这两种技术，但用现有的CPU代码，并决定如何将处理器的CPU和GPU部分分割开来将是一个很大的挑战，不仅仅对于处理器来说，对于编译器也是。

虚拟化

除非你正在编写非常低级的代码直接处理虚拟化，英特尔植入的虚拟化指令通常不是你需要思考的问题。

同那些东西打交道相当混乱，可以从这里的代码看到。即使对于那里展示的非常简单的例子，设置起用Intel的VT指令来启动一个虚拟客户端也需要大约1000行低阶代码。

虚拟内存

如果你看一下Vish的VT代码，你会发现有一块很好的代码专门用于页表/虚拟内存。这是另一个除非你正在编写操作系统或其他低级别的系统代码你不必担心的“新”功能。使用虚拟内存比使用分段存储器更简单，但本文暂且讨论到这里。

SMT/超线程（Hyper-threading）

超线程对于程序员来说大部分是透明的。一个典型的在单核上启用SMT的增速是25％左右。对于整体吞吐量来说是好的，但它意味着每个线程可能只能获得其原有性能的60％。对于您非常关心单线程性能的应用程序，你可能最好禁用SMT。虽然这在很大程度上取决于工作量，而且对于任何其他的变化，你应该在你的具体工作负载运行一些基准测试，看看有什么效果最好。

所有这些复杂性添加到芯片（和软件）的一个副作用是性能比曾经预期的要少了很多;对特定硬件基准测试的重要性相对应的有所回升。

人们常常用“计算机语言基准游戏”作为证据来说一种语言比另一种速度更快。我试着自己重现的结果，用我的移动Haswell（相对于在结果中使用的服务器Kentsfield），我得到的结果可以达到高达2倍的不同（相对速度）。即使在同一台机器上运行同一个基准，Nanthan Kurz 最近向我指出一个例子 gcc -O3 比 gcc –O2 慢25％改变对C ++程序的链接顺序可导致15％的性能变化。评测基准的选定是个难题。

分行（Branches）

传统观念认为使用分支是昂贵的，并且应该尽一切（大多数）的可能避免。在Haswell上，分支的错误预测代价是14个时钟周期。分支错误预测率取决于工作量。在一些不同的东西上使用 perf stat （bzip2，top，mysqld，regenerating my blog），我得到了在0.5％和4％之间的分支错误预测率。如果我们假设一个正确的预测的分支费用是1个周期，这个平均成本在.995 * 1 + .005 * 14 = 1.065 cycles to .96 * 1 + .04 * 14 = 1.52 cycles之间。这不是很糟糕。

从约1995年来这实际上夸大了代价，由于英特尔加入条件移动指令，使您可以在无需一个分支的情况下有条件地移动数据。该指令曾被Linus批判的令人难忘的，这给了它一个不好的名声，但是相比分支，使用cmos更有显著的加速这是相当普遍的额外分支成本的一个现实中的例子是使用整数溢出检查。当使用bzip2来压缩一个特定的文件，那会增加约30％的指令数量（所有的增量从额外分支指令得来），这导致1％的性能损失。

不可预知的分支是不好的，但大部分的分支是可以预见的。忽略分支的费用直到你的分析器告诉你有一个热点在如今是非常合理的。CPUs在过去十年中执行优化不好代码方面变好了很多，而且编译器在优化代码方面也变得更好，这使得优化分支变成了不良的使用时间，除非你试图在一些代码中挤出绝对最佳表现。

如果事实证明这就是你所需要做的，你最好还是使用档案导引优化而不是试图手动去搞这个东西。

如果你真的必须用手动做到这一点，有些编译器指令你可以用来表示一个特定分支是否有可能被占用与否。现代CPU忽略了分支提示说明，但它们可以帮助编译器更好得布局代码。

对齐（Alignment）

经验告诉我们应该拉长struct，并确数据对齐。但在Haswell的芯片上，几乎任何你能想到的任何不跨页的单线程事情的误配准为零。有些情况下它是有用的，但在一般情况下，这是另一种无关紧要的优化因为CPU已经变得在执行不优良代码时好了很多。它无好处的增加了内存占用的足迹也是有一点害处。

而且，不要把事情页面对齐或以其他方式排列到大的界限，否则会破坏缓存性能。

自修改代码（Self-modifying code）

这是另外一个目前已经不怎么有意义的优化了。使用自修改代码以减少代码量或增加性能曾经有意义，但由于现代的缓存倾向于拆分他们的L1指令和数据缓存，在一个芯片的L1缓存之间修改运行的代码需要昂贵的通信。

未来

下面是一些可能的变化，从最保守的推测到最大胆的推测。

事务内存和硬件锁Elision （Transactional Memory and Hardware Lock Elision）

IBM已经在他们自己的POWER芯片中有这些功能。英特尔尝试着把这些东西加到Haswell，但因为一个报错被禁用了。

事务内存支持正如它听起来这样：事务的硬件支持。通过三个新的指令xbegin、xend和xabort。

xbegin开始一个新的事务。一个冲突（或xabort）使处理器（包括内存）的架构状态回滚到在xbegin的状态之前.如果您使用的是通过库或语言支持的事务内存，这对你来说应该透明的。如果你正在植入库支持，你就必须弄清楚如何将有有限的硬件缓冲区大小限制的硬件支持转换成抽象的事务。

本文打算讨论Elision硬件锁，在本质上，它被植入的机制与用于实现事务内存的机制非常相似，而且它是被设计来加快基于锁的代码。如果你想利用HLE，看看这个文档。

快速I/O（Fast I/O）

对于存储和网络来说,I/O带宽正在不断上升，I/O延迟正在下降。问题是，I/O通常是通过系统调用完成。正如我们所看到的，系统调用的相对额外费用一直在往上走。对于存储和网络，答案是转移到用户模式的I/O堆栈。

黑硅（Dark Silicon）/系统级芯片

晶体管规模化一个有趣的副作用是我们可以把很多晶体管包进一个芯片上，但它们产生如此多的热量，如果你不希芯片融化，普通晶体管大多数时间不能开关。

这样做的结果把包括大量时间不使用的专用硬件变得更有意义。一方面，这意味着我们得到各种专用指令，如PCMP和ADX。但这也意味着，我们正把整个曾经不集成在芯片上的设备与芯片集成。包括诸如GPU和（用于移动设备）无线电。

与硬件加速的趋势相结合，这也意味着企业设计自己的芯片，或者至少自己芯片的部分变得更有意义。通过收购PA Semi公司，苹果公司已经走出了很远。首先，加入少量定制的加速器给停滞不前的标准的ARM架构，然后添加自定义加速器给他们自己定制的架构。由于正确的定制硬件和基准和系统设计深思熟虑的结合，iPhone 4比我的旗舰级Android手机反应还稍快，这个旗舰机比iPhone 4新了很多年，并且具有更快的处理器以及更大的内存。

亚马逊挑选了原Calxeda的团队的一部分，并雇用了一个足够大小的硬件设计团队。Facebook也已经挑选了ARM SoC的专家，并与高通公司在某些事情展开合作。Linus也有纪录在案的发言，“我们将在各个方面看到更多的专用硬件” 等等。

结论

x86芯片已经拥有了很多新的功能和非常有用的小特性。在大多数情况下，要利用这些优势你不需要知道它们具体是什么。真正的底层通常由库或驱动程序隐藏了起来，编译器将尝试照顾其余部分。例外是，如果你真的要写底层代码，这种情况下世界上已经变得更加混乱，或者如果你想在你的代码里获得绝对的最佳表现，就会更加怪异。

有些事似乎必然在未来发生。但过往的经验却又告诉我们，大多数的预测是错误的，所以谁又知道呢？

译者：Ted，新加坡Realtek软件工程师，从事WiFi等芯片研发，嵌入式系统软件设计及开发，物联网方面等工作。

你可能感兴趣的:(其他)

Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
其二十八尾喵
你知道吗？图片发自App我今天知道了你有喜欢的人，不是我。心空空的，整个人都不是我的了。可，怎么办？还是要好好的活着，毕竟你喜欢的人，我不能杀，可是我可以杀其他喜欢你的人呀！也罢，此生无缘，来世再见。鱼干
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
厉国刚：新闻学与传播学到底有何区别微观大道
厉国刚：新闻学与传播学到底有何区别头几天，有人在知乎上问我：新闻学与传播学到底有何区别。他是一位想要跨专业考研的学生，对新闻传播学学科可谓了解甚少，甚至一头雾水，想要让我帮他解释解释。在研究生学硕层面，新闻传播学是一级学科，分成新闻学、传播学这两个二级学科。有些高校，还自设了广告学、出版发行学等其他二级学科，但从官方角度，新闻传播学一级学科下，正统的就是那两个二级学科。招生时，一般会按一级学科招，
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
如何培养兴趣绽蕊向阳
今天读李笑来的书《与时间做朋友》，读到有关兴趣部分，深有感触。书中提到，好多人说对某事没有兴趣，实际上是没有能力把这件事做好，做这件事时的感受很不好，有挫败感，每个人对自己不擅长做不好的事情，都本能的容易逃避，所以就以为自己对这件事不感兴趣，他们真正感兴趣的是其他事情。可事实上，出现这种感觉应该仅仅是因为还没有开始做那件事情，也还没有在那件事情上遭受挫折而已。其实，很多人真的放弃原来做的事情，转去
戴容容中原焦点团队.网络初级第33期,坚持分享第19天 2022年3月9日 TessDai
《每个人眼中的世界都是不同的》“一千个人眼里有一千个哈姆雷特”世界是多元的,每个人都有自己的道理,人人按照自己的理解去看待这个世界的人和物.我们如此,其他人也是如此.因此,任何事情,我们要放下自己以为的真理,去理解他人认为的真理,只有同频方能共振.孩子在慢慢长大的过程中慢慢学会独立,甚至对抗.尤其当孩子处于青春期的时候,他们开始有很多自己独立的想法,和一些特立独行的做法,家长常常会觉得不可思议,觉
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
每时每刻都是开始2019-03-09 Action熊猫
过去有多少想了无数遍要做的，但实际并没有做到的。以没时间，或其他种种自己认为可以接受的理由，看着一天走啦，一月去啦，又是一年。最后笑一笑，新年不是来了吗！重新开始...如果在过去的365天里，每次醒来，都没能开始，那新年来了，又如何呢？何不把人生的每时每刻都作为起点，不等待，不期盼，不自欺，让每时每刻都在开始中...。
2022-02-15 百味人生摆渡人
习惯她和他在谈恋时，就吵架，有时吵的还很厉害，不像其他恋人，恋爱期间有说不完的情话，享受不尽的温情，珍惜在一块的每一分每一秒。分手也分了无数次，不知怎的，就是没有分开。不见面时，特想见面，见了面时，说不了几句，又就开始吵，吵的次数多了，连他们自己也说不清值不值得吵，为什么吵。她妈妈说，这孩子从小就性格倔强。他爸爸说，这孩子从小就性格固执。想想其实也没什么大事。为吃什么吵为穿什么吵为说什么吵……日子
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
淘陶居老袁藏品东海堂
【造像艺术】文化遗产•汉地木造像的区域特征、古代精品造像欣赏。。。。。。（来源：蠢牛/颜旭茂）原创2016-06-12作者：作者：蠢牛（颜旭茂）木造像的地位一直挺尴尬的。国外大型博物馆的木造像基本都是宋元以前的，明代只藏极品。国内也就故宫、国博和上博有能力弄几尊宋木，山西省博貌似只有一尊顶级的明代菩萨能拿得出手，其他木雕大省的博物馆再怎么也应当展示些明清木雕吧，总比同时代那什么坛坛罐罐更有艺术性。
【创客文案社】第三期写手招募筱瑶123
创客文案社第三期写手招募开始了。要求：1：注册一个月以上2：本身热爱写作3：有时间参与接单投稿参与方式：可以关注公众号：写作灵感；也可以通过其他转发文章的文友帮忙拉入群；也可以简信我。参与之后的文友，会先进入新人班，进行基本的试稿与培训，先接一些比较简单的单子；在这里可以一边赚钱，一边学习。不知不觉，来三四个月了，也发现了很多很有意思的现象。1：在上写一篇文章，基本都是几毛钱，多的也不过几块钱的收
中国广电永久9元流量套餐！性价比最高流量卡套餐介绍！优惠攻略官
中国广电是中国最大的传媒集团之一，其推出的流量套餐备受消费者青睐。中国广电最实惠的流量套餐不仅价格亲民，而且提供了优质的网络体验。首先，中国广电的流量套餐价格实惠，适合不同消费者的需求。无论是短期的日租卡还是长期有效的月租卡，用户都可以根据自己的实际情况选择适合自己的套餐。而且，流量的价格相对于其他运营商的套餐来说更加合理，给用户提供了更大的选择空间。☞大流量卡套餐「→点这免费申请办理」或者截图扫
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
Python编程 - 初识面向对象易辰君 Python核心编程 python 开发语言
目录前言一、面向对象二、类和对象（一）类简介定义类（二）对象简介创建对象（三）总结三、实例属性和实例方法（一）实例属性创建的基本语法使用示例（二）实例方法定义实例方法的基本语法调用示例方法的示例（三）总结四、类中的self（一）基本概念（二）作用访问实例属性调用其他实例方法在构造函数中初始化对象（三）总结五、__init__方法（一）__init__方法的特点（二）基本语法（三）示例（四）总结前言
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
wandb一直上传解决方案行业边缘的摸鱼怪 bug解决方案服务器 linux 服务器
问题描述运行带有wandb的代码时，虽然可以实现及时同步非常方便，但当设置错参数或其他原因不得不使用ctrl+C停止运行时，总会出现wandb一直上传个不停的现象，给在同一终端重新运行新的代码造成困难。解决方案运行以下代码把wandb的进程直接杀死。psaux|grepwandb|grep-vgrep|awk'{print$2}'|xargskill-9参考链接[CLI]:Ctrl+Ctokill
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不