雪靡

SIMD补充指令集架构类型指令集介绍

文章目录

SIMD
指令集架构类型
- CISC的产生、发展和现状
- RISC的产生、发展和现状
- IA-64（EPIC）产生、发展和现状
- RISC与　IA-64(EPIC)相比
指令集介绍
- 一、X86
- 二、X64
- 三、ARM
- 四、SSE指令集
- 五、SSE2指令集
- 六、SSE3指令集
- 七、SSE4指令集
- 八、3D Now!扩展指令集
- 九、EM64T指令集
- 十、RISC指令集
- 十一、3DNow!+指令集
- 十二、AVX指令集
Intel指令手册地址：https://software.intel.com/sites/landingpage/IntrinsicsGuide/

之前在《游戏引擎架构》中SIMD类型部分不清楚。
这次抽空补充学习一下。

SIMD

先来段代码对比：

代码功能为
$\sqrt{(a^2 + b^2)}$

* 其中：a,b,res均为数组。

void normal(float data1[], float data2[], int len, float out[])
{
	int i;
	for (i = 0; i < len; i++)
	{
		out[i] = sqrt(data1[i]* data1[i] + data2[i] * data2[i]);
	}
}
void simd(float *data1, float *data2, int len, float out[])
{
	assert(len % 4 == 0);
	__m128 *a,*b,*res,t1,t2,t3;// = _mm256_set_ps(1, 1, 1, 1, 1, 1, 1, 1);
	int i,tlen = len/4;

	a = (__m128*)data1;
	b = (__m128*)data2;
	res = (__m128*)out;
	for (i = 0; i < tlen; i++)
	{
		
		t1 = _mm_mul_ps(*a, *a);
		t2 = _mm_mul_ps(*b, *b);
		t3 = _mm_add_ps(t1, t2);
		*res = _mm_sqrt_ps(t3);
		a++;
		b++;
		res++;
	}
}
void simd256(float* data1, float* data2, int len, float out[])
{
	assert(len % 8 == 0);
	__m256* a, * b, * res, t1, t2, t3;// = _mm256_set_ps(1, 1, 1, 1, 1, 1, 1, 1);
	int i, tlen = len / 8;

	a = (__m256*)data1;
	b = (__m256*)data2;
	res = (__m256*)out;
	for (i = 0; i < tlen; i++)
	{

		t1 = _mm256_mul_ps(*a, *a);
		t2 = _mm256_mul_ps(*b, *b);
		t3 = _mm256_add_ps(t1, t2);
		*res = _mm256_sqrt_ps(t3);
		a++;
		b++;
		res++;
	}
}

问题规模：16*10000000

函数	运行时间（s)
normal	1.414000
simd	0.357000
simd256	0.119000

本来我在这里想用__m512，结果报错：Illegal Instruction。原因为缺少AVX512指令。桌面端缺少AVX512指令，只有服务器上才有。

这里使用CPUZ软件检测，笔者电脑上支持的指令集为MMX,SSE,SSE2,SSE3,SSE3,SSE4.1,SSE4.2,EM64T,VT-X,AES,AVX,AVX2,FMA3

CentOS输入cat /proc/cpuinfo即可查看CPU信息。以下是我腾讯云服务器信息。

SIMD（single-instruction, multiple-data）是一种使用单道指令处理多道数据流的CPU执行模式，即在一个CPU指令执行周期内用一道指令完成处理多个数据的操作。

支持指令fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm art rep_good nopl extd_apicid eagerfpu pni pclmulqdq ssse3 fma cx16 sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw retpoline_amd vmmcall fsgsbase bmi1 avx2 smep bmi2 rdseed adx smap clflushopt sha_ni xsaveopt xsavec xgetbv1 arat

指令集架构类型

CISC的产生、发展和现状

一开始，计算机的指令系统只有很少一些基本指令，而其他的复杂指令全靠软件编译时通过简单指令的组合来实现。
举个最简单的例子：一个a乘以b的操作就可以转换为a个b相加来做，这样就用不着乘法指令了。当然，最早的指令系统就已经有乘法指令了，这是为什么呢？因为用硬件实现乘法比加法组合来得快得多。

由于那时的计算机部件相当昂贵，而且速度很慢，为了提高速度，越来越多的复杂指令被加入了指令系统中。

但是，很快又有一个问题：一个指令系统的指令数是受指令操作码的位数所限制的，如果操作码为8位，那么指令数最多为256条（2的8次方）。
那么怎么办呢？指令的宽度是很难增加的，聪明的设计师们又想出了一种方案：操作码扩展。前面说过，操作码的后面跟的是地址码，而有些指令是用不着地址码或只用少量的地址码的。那么，就可以把操作码扩展到这些位置。
举个简单的例子：如果一个指令系统的操作码为2位，那么可以有00、01、10、11四条不同的指令。现在把11作为保留，把操作码扩展到4位，那么就可以有00、01、10、1100、1101、1110、1111七条指令。其中1100、1101、1110、1111这四条指令的地址码必须少两位。
然后，为了达到操作码扩展的先决条件：减少地址码，设计师们又动足了脑筋，发明了各种各样的寻址方式，如基址寻址、相对寻址等，用以最大限度的压缩地址码长度，为操作码留出空间。

就这样，慢慢地，CISC指令系统就形成了，大量的复杂指令、可变的指令长度、多种的寻址方式是CISC的特点，也是CISC的缺点：因为这些都大大增加了解码的难度，而在现在的高速硬件发展下，复杂指令所带来的速度提升早已不及在解码上浪费点的时间。除了个人PC市场还在用x86指令集外，服务器以及更大的系统都早已不用CISC了。x86仍然存在的唯一理由就是为了兼容大量的x86平台上的软件。

在CISC微处理器中，程序的各条指令是按顺序串行执行的，每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢。

RISC的产生、发展和现状

RISC（Reduced Instruction Set Computing，精简指令集）。

1975年，IBM的设计师John Cocke研究了当时的IBM370CISC系统，发现其中占总指令数仅20%的简单指令却在程序调用中占了80%，而占指令数80%的复杂指令却只有20%的机会用到。由此，他提出了RISC的概念。

复杂的指令系统必然增加微处理器的复杂性，使处理器的研制时间长，成本高。并且复杂指令需要复杂的操作，必然会降低计算机的速度。基于上述原因，20世纪80年代RISC型CPU诞生了，相对于CISC型CPU ,RISC型CPU不仅精简了指令系统，还采用了一种叫做“超标量和超流水线结构”，大大增加了并行处理能力（并行处理并行处理是指一台服务器有多个CPU同时处理。并行处理能够大大提升服务器的数据处理能力。部门级、企业级的服务器应支持CPU并行处理技术）。也就是说，架构在同等频率下，采用RISC架构的CPU比CISC架构的CPU性能高很多，这是由CPU的技术特征决定的

RISC体系结构和设计思想是80年代初出现的，RISC与CISC指令系统是完全不同，完全决裂的指令系统。
它的基本思路是：抓住CISC指令系统指令种类太多(其中80%以上都是程序中很少使用的指令)、指令格式不规范、寻址方式太多的缺点(例如，VAX 780的指令操作类型超过1000种，而Alpha只有不到50种指令)，通过减少指令种类、规范指令格式和简化寻址方式，大量利用寄存器间操作，大大简化处理器的结构、优化VLSI器件使用效率，从而大幅度地提高处理器性能、并行处理能力和性价比。

到80年代后期，RISC技术已经发展成为支持高端服务器系统的主流技术，各厂商纷纷推出了32位RISC微处理器。（如：IBM的PowerPC和Power2，Sun的SPARC，HP的PA-RISC 7000和MIPS的R系列等。）
基于32位RISC芯片的产品在取得了很大的成功，应用日益广泛、软件大量积累、在市场上也产生巨大的影响。

后来，Alpha作为64位RISC技术的领头羊，开创了64位RISC计算的新时代。
各主要厂商也都在90年代先后推出了自己的64位RISC微处理器（包括：IBM的Power和PowerPC系列、HP的PA-RISC 8000系列、Sun的UltraSPARC系列和MIPS的R10K系列等）。在此期间，Alpha始终保持了性能领先的地位。

由于RISC指令集自身的优势，64位RISC微处理器主要在高端服务器领域和高端企业市场上运用。

事实证明，RISC是成功的。80年代末，各公司的RISC CPU如雨后春笋般大量出现，占据了大量的市场。到了90年代，Intel推出了Pentium处理器,从Pentium pro构架开始，也开始使用一种混合的CISC/RISC构架（注意：这里X86架构上有改变,但仍然是IA-32,是32位处理器，直到AMD推出了X86-64及Intel跟随推出IA-32e之后，才有64位技术）。

RISC的最大特点是指令长度固定，指令格式种类少，寻址方式种类少，大多数是简单指令且都能在一个时钟周期内完成，易于设计超标量与流水线，寄存器数量多，大量操作在寄存器之间进行。

IA-64（EPIC）产生、发展和现状

IA-64 (Intel Architechure-64，英特尔64位体系架构)
EPIC (EPIC–Explicitly Parallel Instruction Computing；显性并行指令计算)

到90年代末，32位芯片的“霸主”Intel宣布与HP合作推出64位IA-64体系结构的处理器。
Inter和HP从1994年开始合作开发新型的64位芯片，它们选择了一个与大多数RISC微处理器大不相同的方向，推出了一种新的64位指令系统体系结构IA-64。它们把这一体系结构称为EPIC(显性并行指令计算)。

EPIC既不是RISC也不是CISC，它实质上是一种吸收了两者长处体系结构。IA-64的EPIC体系结构又在这两者教训基础上另辟蹊径。
EPIC与Cydrome公司(一个80年代走向失败的小巨型机公司)的VLIW体系结构 (Very Long Instruction Word,超长指令集架构)有一定程度的相象之处。

IA-64（EPIC）架构的处理器，目前只应用在Intel的Itanium（安腾）处理器（目前最高端的处理器）上，基于它专为要求苛刻的企业和技术应用而设计，是瞄准高端企业市场的。

Intel 和HP合作开发的IA-64 EPIC体系结构安腾系列的先进性和开放性以及发展潜力，它将要取代64位RISC芯片成为未来系统设计和企业应用的主流平台。

RISC与　IA-64(EPIC)相比

64位RISC和IA-64(EPIC)架构的CPU，主要是应用在要求苛刻的技术应用和企业的高端服务器平台上。
IA-64CPU（安腾）可以说是目前最高端的处理器，基于IA-64先进性和开放性以及发展潜力，它必将要取代64位RISC芯片成为未来系统设计和企业应用的主流平台。
但这向CPU历史上的技术革命，基于其技术架构、成本等各方面的因素，发展到主流民用市场的话，还有非常长的路要走。

【来源】：https://blog.csdn.net/gftygff/article/details/86769126

指令集介绍

一、X86

是微处理器执行的计算机语言指令集，指一个intel通用计算机系列的标准编号缩写，也标识一套通用的计算机指令集合，属于CISC。

1.1、简介

X86指令集是美国Intel公司为其第一块16位CPU(i8086)专门开发的，美国IBM公司1981年推出的世界第一台PC机中的CPU i8088(i8086简化版)使用的也是X86指令，同时电脑中为提高浮点数据处理能力而增加的X87芯片系列数学协处理器则另外使用X87指令，以后就将X86指令集和X87指令集统称为X86指令集。虽然随着CPU技术的不断发展，Intel陆续研制出更新型的i80386、i80486直到今天的Pentium Ⅲ(以下简为PⅢ)系列，但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源，所以Intel公司所生产的所有CPU仍然继续使用X86指令集，所以它的CPU仍属于X86系列。另外除Intel公司之外，AMD和Cyrix等厂家也相继生产出能使用X86指令集的CPU，由于这些CPU能运行所有的为Intel CPU所开发的各种软件，所以电脑业内人士就将这些CPU列为Intel的CPU兼容产品。由于Intel X86系列及其兼容CPU都使用X86指令集，所以就形成了今天庞大的X86系列及兼容CPU阵容。当然在目前的台式(便携式)电脑中并不都是使用X86系列CPU。

1.2、特点

x86 是一种为了便于编程和提高记忆体访问效率的芯片设计体系，包括两大主要特点：一是使用微代码，指令集可以直接在微代码记忆体里执行，新设计的处理器，只需增加较少的电晶体就可以执行同样的指令集，也可以很快地编写新的指令集程式;二是拥有庞大的指令集，x86拥有包括双运算元格式、寄存器到寄存器、寄存器到记忆体以及记忆体到寄存器的多种指令类型，为实现复杂操作，微处理器除向程序员提供类似各种寄存器和机器指令功能外，还通过存于只读存储器(ROM)中的微程序来实现极强的功能，微处理器在分析完每一条指令之后执行一系列初级指令运算来完成所需的功能。

1.3、优缺点

优点：x86指令体系的优势体现在能够有效缩短新指令的微代码设计时间，允许实现CISC体系机器的向上兼容，新的系统可以使用一个包含早期系统的指令集合。另外微程式指令的格式与高阶语言相匹配，因而编译器并不一定要重新编写。

缺点：

通用寄存器规模小，x86指令集只有8个通用寄存器，CPU大多数时间是在访问存储器中的数据，影响整个系统的执行速度。而RISC系统往往具有非常多的通用寄存器，并采用了重叠寄存器窗口和寄存器堆等技术，使寄存器资源得到充分的利用
解码器影响性能表现，解码器的作用是把长度不定的x86指令转换为长度固定的类似于RISC的指令，并交给RISC内核。解码分为硬件解码和微解码，对于简单的x86指令只要硬件解码即可，速度较快，而遇到复杂的x86指令则需要进行微解码，并把它分成若干条简单指令，速度较慢且很复杂。
寻址范围小，约束用户需要。
单个指令长度不同，运算能力强大，不过相对来说结构复杂，很难将CISC全部硬件集成在一颗芯片上。

1.4、汇编指令

数据传送指令
数据传送指令
逻辑运算指令
串操作指令
控制转移指令
处理器控制指令
保护方式指令

二、X64

又叫“x86-64”，简称为“x64”，是64位微处理器架构及其相应指令集的一种，也是Intel x86架构的延伸产品，也是属于CISC。

2.1、简介

“x86-64”1999由AMD设计，AMD首次公开64位集以扩充给IA-32，称为x86-64（后来改名为AMD64）。其后也为英特尔所采用，现时英特尔称之为“Intel 64”，在之前曾使用过Clackamas Technology (CT)、IA-32e及EM64T。外界多使用"x86-64"或"x64"去称呼此64位架构，从而保持中立，不偏袒任何厂商。

2.2、特点

主要是与X86兼容，既有支持64位通用暂存器、64位整数及逻辑运算，以及64位虚拟地址。设计人员也为架构作出不少改进，部份重大改变如下：新增暂存器，地址阔度加长，“禁止运行”比特 (NX-bit): AMD64其中一个特色是拥有“禁止运行”（No-Execute, NX）的比特，可以防止蠕虫病毒以缓冲器满溢的方式来进行攻击（也称：缓存溢出攻击，Buffer Overflow）。

2.3、优缺点

由于源自X86,都是CSIC，所以具有X86差不多的缺点，跟X86比较，有如下优势：

64位寻址空间
扩展的寄存器组
开发者熟悉的命令集
可以在64位结构的操作系统上运行32位程序
可以直接使用32位操作系统

2.4、汇编指令

基本跟X86一样，大多数X86指令在X64的64位模式下是有效的。在64位模式不常使用的指令不在支持。如：BCD码算术指令。

三、ARM

曾称进阶精简指令集机器（Advanced RISC Machine）更早称作Acorn RISC Machine，是一个32位精简指令集（RISC）处理器架构。还有基于ARM设计的派生产品，重要产品包括Marvell的XScale架构和德州仪器的OMAP系列。ARM家族占比所有32位嵌入式处理器的75%，成为占全世界最多数的32位架构。是为了提高处理器运行速度而设计的芯片体系，它的关键技术在于流水线操作即在一个时钟周期里完成多条指令。属于RISC。

3.1、简介

一颗主要用于路由器的Conexant ARM处理器是Acorn电脑公司（Acorn Computers Ltd）于1983年开始的开发计划。这个团队由Roger Wilson和Steve Furber带领，着手开发一种新架构，类似进阶的MOS Technology 6502处理器。Acorn有一大堆建构在6502架构上的电脑，因此能设计出一颗类似的芯片即意味着对公司有很大的优势。团队在1985年时开发出ARM1 Sample版，而首颗"真正"的产能型ARM2于次年量产。ARM2具有32位的数据总线、26位的寻址空间，并提供64 Mbyte的寻址范围与16个32-bit的暂存器。这些暂存器其中有一颗做为（word大小）程式计数器，其前面6 bits和后面2 bits用来保存处理器状态标记（Processor Status Flags）。ARM2可能是全世界最简单实用的32位微处理器，其仅容纳了30,000个晶体管（相较于Motorola六年后的68000其包含了70,000颗）。主要应用于工控/嵌入式和手持设备等领域。

3.2、特点

ARM指令集架构的主要特点：一是体积小、低功耗、低成本、高性能;二是大量使用寄存器且大多数数据操作都在寄存器中完成，指令执行速度更快;三是寻址方式灵活简单，执行效率高;四是指令长度固定，可通过多流水线方式提高处理效率。

3.3、优缺点

体积小，低功耗，低成本，高性能；
支持 Thumb （ 16 位） /ARM （ 32 位）双指令集，能很好的兼容 8 位 /16 位器件；大量使用寄存器，指令执行速度更快；大多数数据操作都在寄存器中完成；
寻址方式灵活简单，执行效率高；
指令长度固定；
流水线处理方式
Load_store结构：在RISC中，所有的计算都要求在寄存器中完成。而寄存器和内存的通信则由单独的指令来完成。而在CSIC中，CPU是可以直接对内存进行操作的。

3.4、汇编指令

算数和逻辑指令
比较指令
跳转指令
移位指令
程序状态字访问指令存
储器访问指令

3.5 主要的指令集体系结构版本：

ARMv1：该版本的原型机是ARM1，没有用于商业产品。
ARMv2：对V1版进行了扩展，包含了对32位结果的乘法指令和协处理器指令的支持。
ARMv3：ARM公司第一个微处理器ARM6核心是版本3的，它作为IP核、独立的处理器、具有片上高速缓存、MMU和写缓冲的集成CPU。
ARMv4：当前应用最广泛的ARM指令集版本。
ARM7TDMI、ARM720T、ARM9TDMI、ARM940T、ARM920T、Intel的StrongARM等是基于ARMv4T版本。
ARMv5：ARM9E-S、ARM966E-S、ARM1020E、ARM 1022E以及XScale是ARMv5TE的。ARM9EJ-S、ARM926EJ-S、ARM7EJ-S、ARM1026EJ-S是基于ARMv5EJ的。ARM10也采用。
其中后缀意义如下：
E：增强型DSP指令集。包括全部算法和16位乘法操作。
J：支持新的Java。
ARMv6：采用ARMv6核的处理器是ARM11系列。
ARM1136J(F)-S基于ARMv6主要特性有SIMD、Thumb、Jazelle、DBX、(VFP)、MMU。
ARM1156T2(F)-S基于ARMv6T2 主要特性有SIMD、Thumb-2、(VFP)、MPU。
ARM1176JZ(F)-S基于ARMv6KZ 在 ARM1136EJ(F)-S 基础上增加MMU、TrustZone。
ARM11 MPCore基于ARMv6K 在ARM1136EJ(F)-S基础上可以包括1-4 核SMP、MMU。
ARMv7：Cortex-A,Cortex-M,Cortex-R
ARMv7提供了三个概要文件:

ARMv7-A ：
- 实现具有多种模式的传统ARM体系结构。
- 支持基于内存管理单元(MMU)的虚拟内存系统体系结构(VMSA)。
- ARMv7-A实现可以称为VMSAv7实现。支持ARM和Thumb指令集。
ARMv7-R ：实时配置文件
- 实现具有多种模式的传统ARM体系结构。
- 支持基于内存保护单元(MPU)的受保护内存系统体系结构(PMSA)。
- ARMv7-R实现可以称为PMSAv7实现。支持ARM和Thumb指令集。
ARMv7-M ：在ARMv7-M体系结构参考手册中描述的微控制器配置文件:
- 实现一个为低延迟中断处理设计的程序员模型，使用寄存器的硬件堆栈和对用高级语言编写中断处理程序的支持。
- 实现ARMv7 PMSA的变体。
- 支持ARM和Thumb指令集。
ARMv8：ARMv8架构包含两个执行状态：AArch64和AArch32。AArch64执行状态针对64位处理技术，引入了一个全新指令集A64；而AArch32执行状态将支持现有的ARM指令集。ARMv7架构的主要特性都将在ARMv8架构中得以保留或进一步拓展，如：TrustZone技术、虚拟化技术及NEON advanced SIMD技术，等。
ARMv9：？？？

ARM处理器内核

架构	处理器家族
ARMv1	ARM1
ARMv2	ARM2、ARM3
ARMv3	ARM6、ARM7
ARMv4	StrongARM、ARM7TDMI、ARM9TDMI
ARMv5	ARM7EJ、ARM9E、ARM10E、XScale
ARMv6	ARM11、ARM Cortex-M
ARMv7	ARM Cortex-A、ARM Cortex-M、ARM Cortex-R
ARMv8	Cortex-A35、Cortex-A50系列[14]、Cortex-A72、Cortex-A73

家族	架构	内核	特色	缓存 (I/D)/MMU	常规 MIPS 于 MHz	应用
ARM1	ARMv1	ARM1		无
ARM2	ARMv2	ARM2	Architecture 2 加入了MUL（乘法）指令	无	4 MIPS @ 8MHz	Acorn Archimedes，Chessmachine
ARMv2a	ARM250	Integrated MEMC (MMU)，图像与IO处理器。Architecture 2a 加入了SWP和SWPB（置换）指令。	无，MEMC1a	7 MIPS @ 12MHz	Acorn Archimedes
ARM3	ARMv2a	ARM2a	首次在ARM架构上使用处理器缓存	均为4K	12 MIPS @ 25MHz	Acorn Archimedes
ARM6	ARMv3	ARM610	v3 架构首创支援定址32位元的内存（针对26位元）	均为4K	28 MIPS @ 33MHz	Acorn Risc PC 600，Apple Newton
ARM7	ARMv3
ARM7TDMI	ARMv4T	ARM7TDMI(-S)	三级流水线	无	15 MIPS @ 16.8 MHz	Game Boy Advance，Nintendo DS，iPod
ARM710T		均为8KB, MMU	36 MIPS @ 40 MHz	Acorn Risc PC 700，Psion 5 series，Apple eMate 300
ARM720T		均为8KB, MMU	60 MIPS @ 59.8 MHz	Zipit
ARM740T		MPU
ARMv5TEJ	ARM7EJ-S	Jazelle DBX	无
StrongARM	ARMv4
ARM8	ARMv4
ARM9TDMI	ARMv4T	ARM9TDMI	五级流水线	无
ARM920T		16KB/16KB, MMU	200 MIPS @ 180 MHz	Armadillo，GP32，GP2X（第一颗内核）, Tapwave Zodiac（Motorola i. MX1）
ARM922T		8KB/8KB, MMU
ARM940T		4KB/4KB, MPU		GP2X（第二颗内核）
ARM9E	ARMv5TE	ARM946E-S		可变动，tightly coupled memories, MPU		Nintendo DS，Nokia N-Gage Conexant 802.11 chips
ARM966E-S		无缓存，TCMs		ST Micro STR91xF，包含Ethernet [1]
ARM968E-S		无缓存，TCMs
ARMv5TEJ	ARM926EJ-S	Jazelle DBX	可变动，TCMs, MMU	220 MIPS @ 200 MHz	移动电话：Sony Ericsson（K, W系列）,明基西门子（x65 系列和新版的）
ARMv5TE	ARM996HS	无振荡器处理器	无缓存，TCMs, MPU
ARM10E	ARMv5TE	ARM1020E	(VFP)，六级流水线	32KB/32KB, MMU
ARM1022E	(VFP)	16KB/16KB, MMU
ARMv5TEJ	ARM1026EJ-S	Jazelle DBX	可变动，MMU or MPU
XScale	ARMv5TE	80200/IOP310/IOP315	I/O处理器
80219			400/600MHz	Thecus N2100
IOP321			600 BogoMips @ 600 MHz	Iyonix
IOP33x
IOP34x	1-2核，RAID加速器	32K/32K L1, 512K L2, MMU
PXA210/PXA250	应用处理器，七级流水线			Zaurus SL-5600
PXA255		32KB/32KB, MMU	400 BogoMips @ 400 MHz	Gumstix，Palm Tungsten E2
PXA26x			可达 400 MHz	Tungsten T3
PXA27x			800 MIPS @ 624 MHz	HTC Universal、Zaurus SL-C1000、3000、3100、3200、Dell Axim x30、x50和 x51 系列
PXA800(E)F
Monahans			1000 MIPS @ 1.25 GHz	Mavell PXA300/PXA310/PXA320, Max frequency : PXA300@624Mhz, PXA310/PXA320@806Mhz
PXA900				Blackberry 8700, Blackberry Pearl (8100)
IXC1100	Control Plane Processor
IXP2400/IXP2800
IXP2850
IXP2325/IXP2350
IXP42x				NSLU2
IXP460/IXP465
ARM11	ARMv6	ARM1136J(F)-S	SIMD, Jazelle DBX, (VFP)，八级流水线	可变动，MMU	?? @ 532-665MHz (i.MX31 SoC)	Nokia N93，Zune，Nokia N800
ARMv6T2	ARM1156T2(F)-S	SIMD, Thumb-2, (VFP)，九级流水线	可变动，MPU
ARMv6KZ	ARM1176JZ(F)-S	SIMD, Jazelle DBX, (VFP)	可变动，MMU+TrustZone
ARMv6K	ARM11 MPCore	1-4核对称多处理器，SIMD, Jazelle DBX, (VFP)	可变动，MMU
Cortex-A (32 bit)	ARMv7-A	Cortex-A7			1.75 DMIPS/MHz 1 GHz到1.2GHz	全志a31、MediaTek MT6589,MT6572
Cortex-A8	Application profile, VFP, NEON, Jazelle RCT, Thumb-2, 13-stage pipeline	可变动 (L1+L2), MMU+TrustZone	2.0 DMIPS/MHz 从600 MHz到超过1 GHz	Texas Instruments OMAP3、Apple A4
Cortex-A9			2.50 DMIPS @ 1GHz	Apple A5、Apple A5X、MediaTek MT6577,MT6575、Rockchip RK3088,RK3188, VIA Elite-E1000
Cortex-A12			大约3.00 DMIPS @ 1.4GHz 28nm	预估等同Apple A6、Apple A6X水平。
Cortex-A15	Thumb-2 TrustZone® NEON DSP & SVFPv4		从3.50 DMIPS到超过4.0 DMIPS @ 从1.4MHz到超过2.5GHz	Tegra 4 Exynos5250
Cortex-A9 MPCore
Cortex-R	ARMv7-R	Cortex-R4(F)	Embedded profile, (FPU)	可变动缓存，MMU可选配	600 DMIPS	Broadcom is a user
Cortex-M	ARMv7-M	Cortex-M3	Microcontroller profile	无缓存，(MPU)	120 DMIPS @ 100MHz	Luminary Micro[2] 微控制器家族
ARMv6-M	Cortex-M0
Cortex-M1
ARMv7-ME	Cortex-M4		Optional 8 region MPU with sub regions and background region	1.25 DMIPS/MHz

四、SSE指令集

Streaming SIMD Extensions

由于MMX指令并没有带来3D游戏性能的显著提升，1999年Intel公司在[Pentium III](https://baike.baidu.com/item/Pentium III)CPU产品中推出了数据流单指令序列扩展指令（SSE）。SSE兼容MMX指令，它可以通过SIMD（单指令多数据技术）和单时钟周期并行处理多个浮点来有效地提高浮点运算速度。在MMX指令集中,借用了浮点处理器的8个寄存器，这样导致了浮点运算速度降低。而在SSE指令集推出时，Intel公司在Pentium III CPU中增加了8个128位的SSE指令专用寄存器。而且SSE指令寄存器可以全速运行，保证了与浮点运算的并行性。

五、SSE2指令集

在Pentium 4 CPU中，Intel公司开发了新指令集SSE2。这一次新开发的SSE2指令一共144条，包括浮点SIMD指令、整形SIMD指令、SIMD浮点和整形数据之间转换、数据在MMX寄存器中转换等几大部分。其中重要的改进包括引入新的数据格式，如：128位SIMD整数运算和64位双精度浮点运算等。为了更好地利用高速缓存。另外，在Pentium 4中还新增加了几条缓存指令，允许程序员控制已经缓存过的数据。

六、SSE3指令集

相对于SSE2，SSE3又新增加了13条新指令，此前它们被统称为pni(prescott new instructions)。13条指令中，一条用于视频解码，两条用于线程同步，其余用于复杂的数学运算、浮点到整数转换和SIMD浮点运算。

七、SSE4指令集

SSE4又增加了50条新的增加性能的指令，这些指令有助于编译、媒体、字符/文本处理和程序指向加速。

SSE4指令集将作为Intel公司未来“显著视频增强”平台的一部分。该平台的其他视频增强功能还有Clear Video技术（CVT）和统一显示接口（UDI）支持等，其中前者是对ATi AVIVO技术的回应，支持高级解码、后处理和增强型3D功能。

八、3D Now!扩展指令集

2010年AMD官方宣布放弃3DNow!指令集！

1996年，Intel Pentium处理器率先加入了MMX指令集，极大地提高了多媒体处理能力，但仅支持整数运算，浮点运算仍然要使用传统的x87协处理器指令。随后在1998年，AMD推出了包含21条新指令的3DNow!指令集*(据说是3D No Waiting!的缩写)*，并用于其K6-2处理器，使之成为第一个能够执行浮点SIMD指令的x86处理器，实现了x86架构下最快的浮点单元，四倍于x87协处理器。

3DNow!指令集赢得了业界的广泛支持，包括微软DX7都对其进行了优化，AMD处理器的游戏性能得以第一次超越Intel，K6-2和随后的K6-III成为市场上的热门产品。

1999年，AMD Athlon处理器发布，3DNow!指令集也增加了5条新指令，成为扩展3DNow!，但是同年Intel又推出了SSE指令集，在提供3DNow!几乎所有功能的同时大大提高了单精度浮点处理速度，还完全支持IEEE754标准，3DNow!优势不再。

之后主流操作系统和软件都开始支持SSE指令集并为其优化，AMD 2000年的新款Athlon处理器(代号雷鸟)中也加入了SSE。之后的时间里，AMD开始致力于AMD64架构的开发，SIMD指令集方面则跟随Intel，连续添加了SSE2、SSE3，不再改进3DNow!。

九、EM64T指令集

Intel公司的EM64T（Extended Memory 64 Technology）即64位内存扩展技术。该技术为服务器和工作站平台应用提供扩充的内存寻址能力，拥有更多的内存地址空间，可带来更大的应用灵活性，特别有利于提升音频视频编辑、CAD设计等复杂工程软件及游戏软件的应用。常说的64位指的是AMD公司出的64位CPU，而EM64T则是Intel公司按照自己的意思理解出来的64位，也就是和AMD公司的64位对应的另一种叫法。

十、RISC指令集

RISC指令集是以后高性能CPU的发展方向。它与传统的CISC(复杂指令集)相对。相比而言，RISC的指令格式统一，种类比较少，寻址方式也比复杂指令集少。使用RISC指令集的体系结构主要有ARM、MIPS。

十一、3DNow!+指令集

在原有的指令集基础上，增加到52条指令，其中包含了部分SSE指令，该指令集主要用于新型的AMD CPU上。

十二、AVX指令集

Intel AVX指令集在SIMD计算性能增强的同时也沿用了的MMX/SSE指令集。不过和MMX/SSE的不同点在于增强的AVX指令，从指令的格式上就发生了很大的变化。x86(IA-32/Intel 64)架构的基础上增加了prefix(Prefix)，所以实现了新的命令，也使更加复杂的指令得以实现，从而提升了x86 CPU的性能。

AVX并不是x86 CPU的扩展指令集，可以实现更高的效率，同时和CPU硬件兼容性也更好，并且也有着足够的扩展空间，这都和其全新的命令格式系统有关。更加流畅的架构就是AVX发展的方向，换言之，就是摆脱传统x86的不足，在SSE指令的基础上AVX也使SSE指令接口更加易用。

针对AVX的最新的命令编码系统，Intel也给出了更加详细的介绍，其中包括了大幅度扩充指令集的可能性。比如Sandy Bridge所带来的融合了乘法的双指令支持。从而可以更加容易地实现512bits和1024bits的扩展。而在2008年末到2009年推出的meniikoaCPU“Larrabee(LARAB)”处理器，就会采用AVX指令集。从地位上来看AVX也开始了Intel处理器指令集的新篇章。

Intel指令手册地址：https://software.intel.com/sites/landingpage/IntrinsicsGuide/

你可能感兴趣的:(硬件架构,cpu,simd,cisc,risc,arm)

Animal Farm（13）云手a
Napoleonwasalarge，ratherfierce【adj.凶猛的；猛烈的；暴躁的】-lookingBerkshireboar，theonlyBerkshireonthefarm，notmuchofatalker，butwithareputation【n.名声，名誉；声望】forgettinghisownway.Snowballwasamorevivacious【】adj.活泼的；快活的
【华为OD机试真题 Python语言】132、任务调度 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题任务调度
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述现有一个CPU和一些任务需要处理，已提前获知每个任务的任务ID、优先级、所需执行时间和到达时间。CPU同时只能运行一个任务，请编写一个[任务调度]
操作系统系统面试常问(进程、线程、协程相关知识) 程序猿莫悔面试 linux 职场和发展
进程、线程和协程的区别和联系进程定义资源分配和调度的基本单位线程定义程序执行的基本单位协程定义用户态的轻量级线程，线程内部调度的基本单位进程切换情况进程切换时，操作系统会保存当前进程的CPU状态（如寄存器、页表等），并加载新进程的保存状态到CPU线程切换情况保存和设置程序计数器、少量寄存器和栈的内容协程切换情况先将寄存器上下文和栈保存，等切换回来的时候再进行恢复线程拥有资源CPU资源、内存资源、文
从宿主机到虚拟机，云环境下主机端IO路径的变化数据存储张存储技术从入门到精通 php 开发语言
前文我们对云计算的整体架构进行了介绍，并且了解到云计算的核心是虚拟化技术。这里的虚拟化技术包括计算虚拟化、网络虚拟化和存储虚拟化等技术。以基于Linux操作系统的虚拟化为例，通常在物理机上安装Linux操作系统和虚拟化软件，然后基于虚拟化软件创建虚拟机，并在虚拟机中按照操作系统。简而言之，虚拟化可以认为是通过软件虚拟出CPU、内存和硬盘等硬件，并在其上运行操作系统，具体如下图所示。添加图片注释，不
网络大提速，RDMA，IB，iWrap 数据存储张存储技术从入门到精通 php 服务器开发语言
本章第一节介绍的存储设备方面的创新解决了CPU访问存储设备的性能问题。但在实际的业务当中，数据的传输除了在节点内部的CPU与存储设备间外，节点之间也存在数据传输的需求。本节我们就介绍在网络传输方面是如何提速的。在介绍新的网络技术之前，我们看看传统网络是如何传输数据的，比如我们常见的以太网。当节点0向节点1发送数据时，其整个数据处理的流程如下图所示，可以看到其过程还是比较复杂的。在节点0，应用程序首
Android编译系统——Kati执行过程（十一） c小旭 android 系统编译
在Android构建系统中，SoongUI是Soong构建框架的入口点。通过前面的学习我们知道，在执行make兼容模式编译时，soong_ui会调用ckati来将传统的Android.mk和其他Makefile文件转换为Ninja构建文件（如build-aosp_arm.ninja和build-aosp_arm-package.ninja）。这些.ninja文件随后会被ninja工具调用以进行真正
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
Prometheus搭建和 Node_Exporter搭建强_子 prometheus
1.Prometheus和Node_Exporter的关系●Prometheus:是一个开源的监控和告警工具，能够从各种数据源（如NodeExporter）拉取指标，并存储这些指标。它提供了一个强大的查询语言（PromQL），可以用来分析和可视化监控数据。●Node_Exporter:是Prometheus的一个官方插件，用于收集主机系统的硬件和操作系统级别的指标（如CPU使用率、内存使用情况、磁
Linux部署Milvus数据库及Attu UI工具完全指南
一、准备工作1.1环境要求操作系统：Ubuntu20.04/Debian11/CentOS7+硬件配置：至少8GB内存，4核CPU，50GB磁盘空间网络要求：可访问互联网（用于拉取Docker镜像）1.2安装Docker和DockerCompose1.2.1安装Dockersudoapt-getupdatesudoapt-getinstall-ydocker.iosudosystemctlstar
筑牢网络安全防线：DDoS/CC 攻击全链路防护技术解析白山云北诗网络安全行业知识 web安全 ddos 安全高防cdn cc防护
当服务器带宽突然飙升至满负荷，业务系统瞬间瘫痪；当应用服务器CPU占用率持续99%，legitimate用户无法正常访问——这些场景背后，往往是DDoS或CC攻击的冲击。据2024年全球网络安全报告显示，DDoS攻击平均持续时间达4.5小时，单次攻击给企业造成的直接损失超80万元，而CC攻击因隐蔽性强，识别难度更高，已成为应用层威胁的主要来源。构建全链路防护体系，是企业抵御这类攻击的核心保障。一、
阿里云2核4G配置的云服务器多少钱？如何购买更优惠？阿里云最新优惠和活动汇总
阿里云服务器2核4G配置是阿里云服务器中的一个热门配置，是个人用户普通企业用户搭建网站时比较喜欢购买的配置，下面给大家详细说下这个配置的价格、性能及如何选择。一、阿里云2核4G配置多少钱？这里说的2核是指云服务器的cpu核数为2核，4G表示的是云服务器内存为4G，CPU内存比1:2，这个配比是一个黄金配比，一般不会照成cpu或内存资源的浪费，用来搭建个人博客、论坛社区、小型电商网站、企业官网都是可
大模型部署的整体架构 flyair_China 人工智能云计算架构
一、大模型部署架构1.1部署架构大模型部署的整体架构是一个多层次、软硬件协同的系统工程，旨在解决模型规模庞大、计算资源密集、延迟敏感等挑战。1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e显存带宽达3.35TB/s）。异构计算：CPU+GPU/
Linux 交叉编译分享 Mr_-G 编程入门 Linux 底层软件开发 linux 运维服务器交叉编译嵌入式底层软件
一、交叉编译的基本概念与应用场景1.1交叉编译的定义交叉编译是指在一个操作系统平台上编译出能在另一个不同架构或操作系统平台上运行的程序的过程。通俗地说，就是"在A机器上编译出能在B机器上运行的程序"，其中A和B的硬件架构、操作系统可能完全不同。在传统的本地编译中，编译环境与运行环境是一致的，例如在x86_64的Linux系统上编译并运行程序。而交叉编译的核心特点在于编译环境与目标运行环境的分离，这
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
英伟达：要取代我？其实CUDA也支持RISC-V EEPW电子产品世界 risc-v
第五届RISC-V中国峰会于2025年7月16至19日在上海张江科学会堂隆重举办，在峰会的圆桌讨论中，主持人曾经提出这样一个问题：你认为RISC-V未来会取代GPU吗？在现场观众投票中，支持会取代的现场观众占据将近半数。不过在随后的主题演讲中，英伟达副总裁FransSijstermanns特别提到了英伟达在自家的计算平台实现了RISC-V应用处理器部署。在做这次演讲准备的时候，FransSijst
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
浅谈RS232、RS422、RS485、LVDS总线仰望天空—永强 IO总线
浅谈RS232、RS422、RS485、LVDS总线在了解三种总线前，笔者认为应该先明白总线的分类，这样对总线有更清晰的概念一．总线的概念和分类：1.对总线可以分为片内总线、片间总线、系统总线、外总线片内总线：是微处理器等芯片内部各功能单元的连线（例CPU与片内存储的总线）片间总线：是微处理器等向外引出的总线（例处理器与DDR连接的总线）系统总线：主板上扩展卡与扩展卡之间连接的总线：（例如电脑两个
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
嵌入式硬件篇---继电器 Atticus-Orion 嵌入式硬件篇嵌入式硬件继电器
继电器是一种通过小电流控制大电流的电磁开关，广泛应用于自动化控制、电力系统和电子设备中。以下从工作原理、应用场景和电路特点三个方面详细介绍：一、工作原理继电器本质是电磁控制的机械式开关，核心部件包括：线圈（Coil）：通电时产生磁场。铁芯（IronCore）：增强磁场强度。衔铁（Armature）：受磁场吸引动作的金属部件。触点（Contacts）：由衔铁控制通断的开关。工作过程：线圈不通电：衔铁
关于校准 ARM 开发板时间的步骤和常见问题：我应该是RTC电池没电了才导致我设置了重启开发板又变回去2025年的时间
1、在控制台中输入以下命令，设置当前时间：date-s"2025-07-2119:05:00"2、在控制台中输入以下命令，将当前时间写入硬件时钟：hwclock-w3、重启开发板，让系统读取硬件时钟中的时间：reboot4、在控制台中输入以下命令，查看当前时间是否正确：date如果时间正确，说明校准成功。如果时间不正确，可以重复以上步骤进行校准。开发板重启后时间变回2015年，通常是以下几类原因导
【嵌入式开发——ARM】2ARM汇编指令芒果柚 arm开发汇编 c语言嵌入式硬件
intel和ARM公司都有自己的指令集，也就是说对应的汇编格式是不同的，不过好在目前基本很少在汇编语言层面编程了，最次也是在C语言级编程，要不说C语言是高级语言呢，很多人觉得难，无非是指针觉得头疼，但其实指针是个极其好用而且不难的工具，其本质就是地址，这也帮助C语言天然契合嵌入式，对指针有困惑的同学，可以翻看我之前的博客，专门有一篇介绍指针。虽然我们编程用的是C语言，实际在编译代码时，最终还是要先
鸿蒙开发进阶（HarmonyOS ）短距离通信的BLE蓝牙扫描实践案例你我皆是牛马星人 OpenHarmony 鸿蒙开发 HarmonyOS 1024程序员节华为 harmonyos 鸿蒙 android 前端 ui
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）场景描述蓝牙是一种短距的无线通讯技术，可实现固定设备、移动设备之间的数据交换
MYOJ_8515:CSP初赛题单4:计算机软件 Jayfeather松鸦羽_sch CSP初赛题目算法 c++
更多初赛题单请参见题目整理CSP初赛题目整理题单，谢谢。题目描述1.[J-2015-3]操作系统的作用是()。A.把源程序译成目标程序B.便于进行数据管理C.控制和管理系统资源D.实现硬件之间的连接答案：C解析：操作系统（OperatingSystem，简称OS）是管理计算机硬件与软件资源的系统软件，其主要功能包括：处理器管理（CPU调度）内存管理（分配和回收内存）设备管理（管理输入/输出设备）文
线上故障排查神器！用strace和ftrace揪出系统调用的“幕后黑手“ 悠悠12138 运维
前几天凌晨2点，我又被监控报警给吵醒了。服务器CPU飙到90%，但是top看了半天也找不到罪魁祸首。这种时候，就得请出我们运维人员的两大法宝了——strace和ftrace。说实话，刚开始接触这两个工具的时候，我也是一脸懵逼。什么系统调用、内核跟踪，听起来就很高大上的样子。但是用多了你就会发现，这玩意儿简直就是排查问题的神器！今天就跟大家分享一下我这些年用下来的一些心得。先说说系统调用这个东西你可
pigz更快的压缩和解压工具老率的IT私房菜
pigz(parallelimplementationofgzip)是一个并行执行的压缩工具，解压缩比gzip快，同时CPU消耗是gzip的好几倍，在对短时间内CPU消耗较高不受影响的场景下，可以使用pigz。环境Centos7RAM:2GB,CPU:4vcpus安装#安装epel扩展源[root@localhost~]#wget-O/etc/yum.repos.d/epel-7.repohttp
Blender 云渲染高效流程：渲染 101 集群加速实战渲染101专业云渲染 blender houdini 分布式服务器 maya
一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画，帧间延迟控制在0.5秒内，迭代效率提升300%插件无缝衔接：自动适配GeoNodes节点树、Hair粒子系统，流体模拟缓存文件完整同步✅效率与成本双突破二、5步上云流程（新手友好版）文件预处
基于 MySQL 8.0.40 MGR 与 ProxySQL 的高可用集群部署实践 derek2026 部署实践 mysql 数据库
构建高可用MySQL8.0.40集群：MGR+ProxySQL实战指南一、部署架构图流量路径：应用→ProxySQL（DNS解析ProxySQLIP）→MySQLMGR集群二、环境准备1.系统要求**操作系统:**CentOS7.x服务器配置3台节点（建议最小配置：4核CPU/8GB内存/100GB磁盘）网络互通（关闭防火墙或开放端口：3306,33081,6032,6033节点规划节点1:192
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
sql优化之延迟关联 ycllycll mysql sql 数据库
具体看这个文章，写得非常不错：mysql优化：覆盖索引（延迟关联）-一枝花算不算浪漫-博客园看完后思考：1.业务相关的表规范上都要设置递增的主键字段，便于后续优化2.很多时候sql查询的性能瓶颈基本都在io上而不是cpu，所以才会这么优化，尽量在sql的where条件后都走主键，不要让sql走回表操作3.博客中改造的sql比较适合大表跟小表的关联情形
APatch - 新一代Android内核Root解决方案
项目简介APatch是一款创新的Android内核级Root解决方案，具有以下核心特点：基于内核补丁技术实现Root权限管理支持类似Magisk的模块系统(APM)提供内核模块功能(KPM)，允许向内核注入任意代码兼容Android内核版本3.18-6.1仅支持ARM64架构设备APatch依赖于KernelPatch核心引擎，其UI界面和模块系统部分代码源自KernelSU。功能特性核心功能内核
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

SIMD补充 指令集架构类型 指令集介绍