landv

[golang]golang 汇编

https://lrita.github.io/2017/12/12/golang-asm/#why

在某些场景下，我们需要进行一些特殊优化，因此我们可能需要用到golang汇编，golang汇编源于plan9，此方面的介绍很多，就不进行展开了。我们WHY和HOW开始讲起。

golang汇编相关的内容还是很少的，而且多数都语焉不详，而且缺乏细节。对于之前没有汇编经验的人来说，是很难理解的。而且很多资料都过时了，包括官方文档的一些细节也未及时更新。因此需要掌握该知识的人需要仔细揣摩，反复实验。

WHY

我们为什么需要用到golang的汇编，基本出于以下场景。

算法加速，golang编译器生成的机器码基本上都是通用代码，而且优化程度一般，远比不上C/C++的gcc/clang生成的优化程度高，毕竟时间沉淀在那里。因此通常我们需要用到特殊优化逻辑、特殊的CPU指令让我们的算法运行速度更快，如sse4_2/avx/avx2/avx-512等。
摆脱golang编译器的一些约束，如通过汇编调用其他package的私有函数。
进行一些hack的事，如通过汇编适配其他语言的ABI来直接调用其他语言的函数。
利用//go:noescape进行内存分配优化，golang编译器拥有逃逸分析，用于决定每一个变量是分配在堆内存上还是函数栈上。但是有时逃逸分析的结果并不是总让人满意，一些变量完全可以分配在函数栈上，但是逃逸分析将其移动到堆上，因此我们需要使用golang编译器的go:noescape 将其转换，强制分配在函数栈上。当然也可以强制让对象分配在堆上，可以参见这段实现。

HOW

使用到golang会汇编时，golang的对象类型、buildin对象、语法糖还有一些特殊机制就都不见了，全部底层实现暴露在我们面前，就像你拆开一台电脑，暴露在你面前的是一堆PCB、电阻、电容等元器件。因此我们必须掌握一些 go ABI的机制才能进行golang汇编编程。

go汇编简介

这部分内容可以参考:

寄存器

go 汇编中有4个核心的伪寄存器，这4个寄存器是编译器用来维护上下文、特殊标识等作用的：

FP(Frame pointer): arguments and locals
PC(Program counter): jumps and branches
SB(Static base pointer): global symbols
SP(Stack pointer): top of stack

所有用户空间的数据都可以通过FP(局部数据、输入参数、返回值)或SB(全局数据)访问。通常情况下，不会对SB/FP寄存器进行运算操作，通常情况以会以SB/FP作为基准地址，进行偏移解引用等操作。

SB

而且在某些情况下SB更像一些声明标识，其标识语句的作用。例如：

TEXT runtime·_divu(SB), NOSPLIT, $16-0 在这种情况下，TEXT、·、SB共同作用声明了一个函数 runtime._divu，这种情况下，不能对SB进行解引用。
GLOBL fast_udiv_tab<>(SB), RODATA, $64 在这种情况下，GLOBL、fast_udiv_tab、SB共同作用，在RODATA段声明了一个私有全局变量fast_udiv_tab，大小为64byte，此时可以对SB进行偏移、解引用。
CALL runtime·callbackasm1(SB) 在这种情况下，CALL、runtime·callbackasm1、SB共同标识，标识调用了一个函数runtime·callbackasm1。
MOVW $fast_udiv_tab<>-64(SB), RM 在这种情况下，与2类似，但不是声明，是解引用全局变量 fast_udiv_tab。

FB

FP伪寄存器用来标识函数参数、返回值。其通过symbol+offset(FP)的方式进行使用。例如arg0+0(FP)表示第函数第一个参数其实的位置（amd64平台），arg1+8(FP)表示函数参数偏移8byte的另一个参数。arg0/arg1用于助记，但是必须存在，否则无法通过编译。至于这两个参数是输入参数还是返回值，得对应其函数声明的函数个数、位置才能知道。如果操作命令是MOVQ arg+8(FP), AX的话，MOVQ表示对8byte长的内存进行移动，其实位置是函数参数偏移8byte 的位置，目的是寄存器AX，因此此命令为将一个参数赋值给寄存器AX，参数长度是8byte，可能是一个uint64，FP 前面的arg+是标记。至于FP的偏移怎么计算，会在后面的go函数调用中进行表述。同时我们还可以在命令中对FP的解引用进行标记，例如first_arg+0(FP)将FP的起始标记为参数first_arg，但是 first_arg只是一个标记，在汇编中first_arg是不存在的。

PC

实际上就是在体系结构的知识中常见的pc寄存器，在x86平台下对应ip寄存器，amd64上则是rip。除了个别跳转之外，手写代码与PC寄存器打交道的情况较少。

SP

SP是栈指针寄存器，指向当前函数栈的栈顶，通过symbol+offset(SP)的方式使用。offset 的合法取值是 [-framesize, 0)，注意是个左闭右开的区间。假如局部变量都是8字节，那么第一个局部变量就可以用localvar0-8(SP) 来表示。

但是硬件寄存器中也有一个SP。在用户手写的汇编代码中，如果操作SP寄存器时没有带symbol前缀，则操作的是硬件寄存器SP。在实际情况中硬件寄存器SP与伪寄存器SP并不指向同一地址，具体硬件寄存器SP指向哪里与函数

但是：

对于编译输出(go tool compile -S / go tool objdump)的代码来讲，目前所有的SP都是硬件寄存器SP，无论是否带 symbol。

我们这里对容易混淆的几点简单进行说明：

伪SP和硬件SP不是一回事，在手写代码时，伪SP和硬件SP的区分方法是看该SP前是否有symbol。如果有 symbol，那么即为伪寄存器，如果没有，那么说明是硬件SP寄存器。
伪SP和FP的相对位置是会变的，所以不应该尝试用伪SP寄存器去找那些用FP+offset来引用的值，例如函数的入参和返回值。
官方文档中说的伪SP指向stack的top，是有问题的。其指向的局部变量位置实际上是整个栈的栈底（除caller BP 之外），所以说bottom更合适一些。
在go tool objdump/go tool compile -S输出的代码中，是没有伪SP和FP寄存器的，我们上面说的区分伪SP 和硬件SP寄存器的方法，对于上述两个命令的输出结果是没法使用的。在编译和反汇编的结果中，只有真实的SP寄存器。
FP和Go的官方源代码里的framepointer不是一回事，源代码里的framepointer指的是caller BP寄存器的值，在这里和caller的伪SP是值是相等的。

注: 如何理解伪寄存器FP和SP呢？其实伪寄存器FP和SP相当于plan9伪汇编中的一个助记符，他们是根据当前函数栈空间计算出来的一个相对于物理寄存器SP的一个偏移量坐标。当在一个函数中，如果用户手动修改了物理寄存器SP的偏移，则伪寄存器FP和SP也随之发生对应的偏移。例如

// func checking()(before uintptr, after uintptr)
TEXT ·checking(SB),$4112-16
        LEAQ x-0(SP), DI         //
        MOVQ DI, before+0(FP)    // 将原伪寄存器SP偏移量存入返回值before

        MOVQ    SP, BP           // 存储物理SP偏移量到BP寄存器
        ADDQ    $4096, SP        // 将物理SP偏移增加4K

        LEAQ x-0(SP), SI
        MOVQ    BP, SP           // 恢复物理SP，因为修改物理SP后，伪寄存器FP/SP随之改变，
                                 // 为了正确访问FP，先恢复物理SP
        MOVQ SI, cpu+8(FP)       // 将偏移后的伪寄存器SP偏移量存入返回值after
        RET
                                 // 从输出的after-before来看，正好相差4K

通用寄存器

在plan9汇编里还可以直接使用的amd64的通用寄存器，应用代码层面会用到的通用寄存器主要是: rax, rbx, rcx, rdx, rdi, rsi, r8~r15这14个寄存器，虽然rbp和rsp也可以用，不过bp和sp会被用来管理栈顶和栈底，最好不要拿来进行运算。plan9中使用寄存器不需要带r或e的前缀，例如rax，只要写AX即可:

 
     MOVQ $101, AX = mov rax, 101 
    

下面是通用通用寄存器的名字在 IA64 和 plan9 中的对应关系:

X86_64	rax	rbx	rcx	rdx	rdi	rsi	rbp	rsp	r8	r9	r10	r11	r12	r13	r14	rip
Plan9	AX	BX	CX	DX	DI	SI	BP	SP	R8	R9	R10	R11	R12	R13	R14	PC

控制流

对于函数控制流的跳转，是用label来实现的，label只在函数内可见，类似goto语句：

next:
  MOVW $0, R1
  JMP  next

指令

使用汇编就意味着丧失了跨平台的特性。因此使用对应平台的汇编指令。这个需要自行去了解，也可以参考GoFunctionsInAssembly 其中有各个平台汇编指令速览和对照。

文件命名

使用到汇编时，即表明了所写的代码不能够跨平台使用，因此需要针对不同的平台使用不同的汇编代码。go编译器采用文件名中加入平台名后缀进行区分。

比如sqrt_386.s sqrt_amd64p32.s sqrt_amd64.s sqrt_arm.s

或者使用+build tag也可以，详情可以参考go/build。

函数声明

首先我们先需要对go汇编代码有一个抽象的认识，因此我们可以先看一段go汇编代码：

TEXT runtime·profileloop(SB),NOSPLIT,$8-16
  MOVQ    $runtime·profileloop1(SB), CX
  MOVQ    CX, 0(SP)
  CALL    runtime·externalthreadhandler(SB)
  RET

此处声明了一个函数profileloop，函数的声明以TEXT标识开头，以${package}·${function}为函数名。如何函数属于本package时，通常可以不写${package}，只留·${function}即可。·在mac上可以用shift+option+9 打出。$8表示该函数栈大小为8byte，计算栈大小时，需要考虑局部变量和本函数内调用其他函数时，需要传参的空间，不含函数返回地址和CALLER BP（这2个后面会讲到）。 $16表示该函数入参和返回值一共有16byte。当有NOSPLIT标识时，可以不写输入参数、返回值占用的大小。

那我们再看一个函数：

TEXT ·add(SB),$0-24
  MOVQ x+0(FP), BX
  MOVQ y+8(FP), BP
  ADDQ BP, BX
  MOVQ BX, ret+16(FP)
  RET

该函数等同于：

 
     func add(x, y int64) int64 { return x + y } 
    

该函数没有局部变量，故$后第一个数为0，但其有2个输入参数，1个返回值，每个值占8byte，则第二个数为24(3*8byte)。

全局变量声明

以下就是一个私有全局变量的声明，<>表示该变量只在该文件内全局可见。全局变量的数据部分采用DATA symbol+offset(SB)/width, value格式进行声明。

DATA divtab<>+0x00(SB)/4, $0xf4f8fcff  // divtab的前4个byte为0xf4f8fcff
DATA divtab<>+0x04(SB)/4, $0xe6eaedf0  // divtab的4-7个byte为0xe6eaedf0
...
DATA divtab<>+0x3c(SB)/4, $0x81828384  // divtab的最后4个byte为0x81828384
GLOBL divtab<>(SB), RODATA, $64        // 全局变量名声明，以及数据所在的段"RODATA"，数据的长度64byte

 
     GLOBL runtime·tlsoffset(SB), NOPTR, $4 // 声明一个全局变量tlsoffset，4byte，没有DATA部分，因其值为0。
                                       // NOPTR 表示这个变量数据中不存在指针，GC不需要扫描。

类似RODATA/NOPTR的特殊声明还有：

NOPROF = 1 (For TEXT items.) Don’t profile the marked function. This flag is deprecated.
DUPOK = 2 It is legal to have multiple instances of this symbol in a single binary. The linker will choose one of the duplicates to use.
NOSPLIT = 4 (For TEXT items.) Don’t insert the preamble to check if the stack must be split. The frame for the routine, plus anything it calls, must fit in the spare space at the top of the stack segment. Used to protect routines such as the stack splitting code itself.
RODATA = 8 (For DATA and GLOBL items.) Put this data in a read-only section.
NOPTR = 16 (For DATA and GLOBL items.) This data contains no pointers and therefore does not need to be scanned by the garbage collector.
WRAPPER = 32 (For TEXT items.) This is a wrapper function and should not count as disabling recover.
NEEDCTXT = 64 (For TEXT items.) This function is a closure so it uses its incoming context register.

局部变量声明

局部变量存储在函数栈上，因此不需要额外进行声明，在函数栈上预留出空间，使用命令操作这些内存即可。因此这些局部变量没有标识，操作时，牢记局部变量的分布、内存偏移即可。

宏

在汇编文件中可以定义、引用宏。通过#define get_tls(r) MOVQ TLS, r类似语句来定义一个宏，语法结构与C语言类似；通过#include "textflag.h"类似语句来引用一个外部宏定义文件。

go编译器为了方便汇编中访问struct的指定字段，会在编译过程中自动生成一个go_asm.h文件，可以通过#include "go_asm.h"语言来引用，该文件中会生成该包内全部struct的每个字段的偏移量宏定义与结构体大小的宏定义，比如：

 
     type vdsoVersionKey struct { version string verHash uint32 } 
    

会生成宏定义：

 
     #define vdsoVersionKey__size 24
#define vdsoVersionKey_version 0
#define vdsoVersionKey_verHash 16

在汇编代码中，我们就可以直接使用这些宏：

MOVQ vdsoVersionKey_version(DX) AX
MOVQ (vdsoVersionKey_version+vdsoVersionKey_verHash)(DX) AX

比如我们在runtime包中经常会看见一些代码就是如此：

    MOVQ    DX, m_vdsoPC(BX)
    LEAQ    ret+0(SP), DX
    MOVQ    DX, m_vdsoSP(BX)

我们可以通过命令go tool compile -S -asmhdr dump.h *.go来导出相关文件编译过程中会生成的宏定义。

地址运算

字段部分引用自《plan9-assembly-完全解析》：

地址运算也是用 lea 指令，英文原意为Load Effective Address，amd64 平台地址都是8个字节，所以直接就用LEAQ就好：

LEAQ (BX)(AX*8), CX
// 上面代码中的 8 代表 scale
// scale 只能是 0、2、4、8
// 如果写成其它值:
// LEAQ (BX)(AX*3), CX
// ./a.s:6: bad scale: 3
// 整个表达式含义是 CX = BX + (AX * 8)
// 如果要表示3倍的乘法可以表示为:
LEAQ (AX)(AX*2), CX // => CX = AX + (AX * 2) = AX * 3

// 用 LEAQ 的话，即使是两个寄存器值直接相加，也必须提供 scale
// 下面这样是不行的
// LEAQ (BX)(AX), CX
// asm: asmidx: bad address 0/2064/2067
// 正确的写法是
LEAQ (BX)(AX*1), CX


// 在寄存器运算的基础上，可以加上额外的 offset
LEAQ 16(BX)(AX*1), CX
// 整个表达式含义是 CX = 16 + BX + (AX * 8)

// 三个寄存器做运算，还是别想了
// LEAQ DX(BX)(AX*8), CX
// ./a.s:13: expected end of operand, found (

其余MOVQ等表达式的区别是，在寄存器加偏移的情况下MOVQ会对地址进行解引用：

 
     MOVQ (AX), BX   // => BX = *AX 将AX指向的内存区域8byte赋值给BX
MOVQ 16(AX), BX // => BX = *(AX + 16)

MOVQ AX, BX     // => BX = AX 将AX中存储的内容赋值给BX，注意区别

buildin类型

在golang汇编中，没有struct/slice/string/map/chan/interface{}等类型，有的只是寄存器、内存。因此我们需要了解这些类型对象在汇编中是如何表达的。

`(u)int??/float??`

uint32就是32bit长的一段内存，float64就是64bit长的一段内存，其他相似类型可以以此类推。

`int/unsafe.Pointer/unint`

在32bit系统中int等同于int32，uintptr等同于uint32，unsafe.Pointer长度32bit。

在64bit系统中int等同于int64，uintptr等同于uint64，unsafe.Pointer长度64bit。

byte等同于uint8。rune等同于int32。

string底层是StringHeader 这样一个结构体，slice底层是SliceHeader 这样一个结构体。

`map`

map是指向hmap 的一个unsafe.Pointer

`chan`

chan是指向hchan 的一个unsafe.Pointer

`interface{}`

interface{}是eface 这样一个结构体。详细可以参考深入解析GO

go函数调用

通常函数会有输入输出，我们要进行编程就需要掌握其ABI，了解其如何传递输入参数、返回值、调用函数。

go汇编使用的是caller-save模式，因此被调用函数的参数、返回值、栈位置都需要由调用者维护、准备。因此当你需要调用一个函数时，需要先将这些工作准备好，方能调用下一个函数，另外这些都需要进行内存对其，对其的大小是sizeof(uintptr)。

我们将结合一些函数来进行说明：

无局部变量的函数

注意:其实go函数的栈布局在是否有局部变量时，是没有区别的。在没有局部变量时，只是少了局部变量那部分空间。在当时研究的时候，未能抽象其共同部分，导致拆成2部分写了。

对于手写汇编来说，所有参数通过栈来传递，通过伪寄存器FP偏移进行访问。函数的返回值跟随在输入参数后面，并且对其到指针大小。amd64平台上指针大小为8byte。如果输入参数为20byte。则返回值会在从24byte其，中间跳过4byte用以对其。

 
     func xxx(a, b, c int) (e, f, g int) { e, f, g = a, b, c return } 
    

该函数有3个输入参数、3个返回值，假设我们使用x86_64平台，因此一个int占用8byte。则其函数栈空间为：

 
     高地址位
                ┼───────────┼
                │  返回值g   │
                ┼───────────┼
                │  返回值f   │
                ┼───────────┼
                │  返回值e   │
                ┼───────────┼
                │  参数之c   │
                ┼───────────┼
                │  参数之b   │
                ┼───────────┼
                │  参数之a   │
                ┼───────────┼     <-- 伪FP
                │ 函数返回地址│
                ┼───────────┼     <-- 伪SP 和 硬件SP
低地址位
 
    

各个输入参数和返回值将以倒序的方式从高地址位分布于栈空间上，由于没有局部变量，则xxx的函数栈空间为 0，根据前面的描述，该函数应该为：

 
     #include "textflag.h"

TEXT ·xxx(SB),NOSPLIT,$0-48
   MOVQ a+0(FP), AX           // FP+0  为参数a，将其值拷贝到寄存器AX中
   MOVQ AX, e+24(FP)          // FP+24 为返回值e，将寄存器AX赋值给返回值e
   MOVQ b+8(FP), AX           // FP+8  为参数b
   MOVQ AX, f+32(FP)          // FP+24 为返回值f
   MOVQ c+16(FP), AX          // FP+16 为参数c
   MOVQ AX, g+40(FP)          // FP+24 为返回值g
   RET                        // return
 
    

然后在一个go源文件(.go)中声明该函数即可

 
     func xxx(a, b, c int) (e, f, g int) 
    

有局部变量的函数

当函数中有局部变量时，函数的栈空间就应该留出足够的空间：

 
     func zzz(a, b, c int) [3]int{ var d [3]int d[0], d[1], d[2] = a, b, c return d } 
    

当函数中有局部变量时，我们就需要移动函数栈帧来进行栈内存分配，因此我们就需要了解相关平台计算机体系的一些设计问题，在此我们只讲解x86平台的相关要求，我们先需要参考：

Where the top of the stack is on x86
Stack frame layout on x86-64
x86 Assembly Guide

其中讲到x86平台上BP寄存器，通常用来指示函数栈的起始位置，仅仅其一个指示作用，现代编译器生成的代码通常不会用到BP寄存器，但是可能某些debug工具会用到该寄存器来寻找函数参数、局部变量等。因此我们写汇编代码时，也最好将栈起始位置存储在BP寄存器中。因此在amd64平台上，会在函数返回值之后插入8byte来放置CALLER BP寄存器。

此外需要注意的是，CALLER BP是在编译期由编译器插入的，用户手写代码时，计算framesize时是不包括这个 CALLER BP部分的，但是要计算函数返回值的8byte。是否插入CALLER BP的主要判断依据是:

函数的栈帧大小大于0

下述函数返回true

 
       func Framepointer_enabled(goos, goarch string) bool { return framepointer_enabled != 0 && goarch == "amd64" && goos != "nacl" } 
      

此处需要注意，go编译器会将函数栈空间自动加8，用于存储BP寄存器，跳过这8字节后才是函数栈上局部变量的内存。逻辑上的FP/SP位置就是我们在写汇编代码时，计算偏移量时，FP/SP的基准位置，因此局部变量的内存在逻辑SP的低地址侧，因此我们访问时，需要向负方向偏移。

实际上，在该函数被调用后，编译器会添加SUBQ/LEAQ代码修改物理SP指向的位置。我们在反汇编的代码中能看到这部分操作，因此我们需要注意物理SP与伪SP指向位置的差别。

 
     高地址位
          ┼───────────┼
          │  返回值g   │
          ┼───────────┼
          │  返回值f   │
          ┼───────────┼
          │  返回值e   │
          ┼───────────┼
          │  参数之c   │
          ┼───────────┼
          │  参数之b   │
          ┼───────────┼
          │  参数之a   │
          ┼───────────┼    <-- 伪FP
          │ 函数返回地址│
          ┼───────────┼
          │ CALLER BP │
          ┼───────────┼    <-- 伪SP
          │  变量之[2] │    <-- d0-8(SP)
          ┼───────────┼
          │  变量之[1] │    <-- d1-16(SP)
          ┼───────────┼
          │  变量之[0] │    <-- d2-24(SP)
          ┼───────────┼    <-- 硬件SP
低地址位
 
    

图中的函数返回地址使用的是调用者的栈空间，CALLER BP由编辑器“透明”插入，因此，不算在当前函数的栈空间内。我们实现该函数的汇编代码：

 
     #include "textflag.h"

TEXT ·zzz(SB),NOSPLIT,$24-48    // $24值栈空间24byte，- 后面的48跟上面的含义一样，
                                // 在编译后，栈空间会被+8用于存储BP寄存器，这步骤由编译器自动添加
   MOVQ    $0, d-24(SP)         // 初始化d[0]
   MOVQ    $0, d-16(SP)         // 初始化d[1]
   MOVQ    $0, d-8(SP)          // 初始化d[2]
   MOVQ    a+0(FP), AX          // d[0] = a
   MOVQ    AX, d-24(SP)         //
   MOVQ    b+8(FP), AX          // d[1] = b
   MOVQ    AX, d-16(SP)         //
   MOVQ    c+16(FP), AX         // d[2] = c
   MOVQ    AX, d-8(SP)          //
   MOVQ    d-24(SP), AX         // d[0] = return [0]
   MOVQ    AX, r+24(FP)         //
   MOVQ    d-16(SP), AX         // d[1] = return [1]
   MOVQ    AX, r+32(FP)         //
   MOVQ    d-8(SP), AX          // d[2] = return [2]
   MOVQ    AX, r+40(FP)         //
   RET                          // return
 
    

然后我们go源码中声明该函数：

 
     func zzz(a, b, c int) [3]int 
    

汇编中调用其他函数

在汇编中调用其他函数通常可以使用2中方式：

JMP 含义为跳转，直接跳转时，与函数栈空间相关的几个寄存器SP/FP不会发生变化，可以理解为被调用函数复用调用者的栈空间，此时，参数传递采用寄存器传递，调用者和被调用者协商好使用那些寄存传递参数，调用者将参数写入这些寄存器，然后跳转到被调用者，被调用者从相关寄存器读出参数。具体实践可以参考1。
CALL 通过CALL命令来调用其他函数时，栈空间会发生响应的变化(寄存器SP/FP随之发生变化)，传递参数时，我们需要输入参数、返回值按之前将的栈布局安排在调用者的栈顶(低地址段)，然后再调用CALL命令来调用其函数，调用CALL命令后，SP寄存器会下移一个WORD(x86_64上是8byte)，然后进入新函数的栈空间运行。下图中return addr(函数返回地址)不需要用户手动维护，CALL指令会自动维护。

下面演示一个CALL方法调用的例子：

 
     func yyy(a, b, c int) [3]int { return zzz(a, b, c) } 
    

该函数使用汇编实现就是：

TEXT ·yyy0(SB), $48-48
   MOVQ a+0(FP), AX
   MOVQ AX, ia-48(SP)
   MOVQ b+8(FP), AX
   MOVQ AX, ib-40(SP)
   MOVQ c+16(FP), AX
   MOVQ AX, ic-32(SP)
   CALL ·zzz(SB)
   MOVQ z2-24(SP), AX
   MOVQ AX, r2+24(FP)
   MOVQ z1-16(SP), AX
   MOVQ AX, r1+32(FP)
   MOVQ z1-8(SP), AX
   MOVQ AX, r2+40(FP)
   RET

然后在go文件中声明yyy0，并且在main函数中调用：

 
     func yyy0(a, b, c int) [3]int //go:noinline func yyy1(a, b, c int) [3]int { return zzz(a, b, c) } func main() { y0 := yyy0(1, 2, 3) y1 := yyy1(1, 2, 3) println("yyy0", y0[0], y0[1], y0[2]) println("yyy1", y1[0], y1[1], y1[2]) } 
    

在函数yyy0的栈空间分布为：

 
     高地址位
          ┼───────────┼
          │ 返回值[2]  │    <-- r2+40(FP)
          ┼───────────┼
          │ 返回值[1]  │    <-- r1+32(FP)
          ┼───────────┼
          │ 返回值[0]  │    <-- r2+24(FP)
          ┼───────────┼
          │  参数之c   │    <-- c+16(FP)
          ┼───────────┼
          │  参数之b   │    <-- b+8(FP)
          ┼───────────┼
          │  参数之a   │    <-- a+0(FP)
          ┼───────────┼    <-- 伪FP
          │ 函数返回地址│    <-- yyy0函数返回值
          ┼───────────┼
          │ CALLER BP │
          ┼───────────┼    <-- 伪SP
          │ 返回值[2]  │    <-- z1-8(SP)
          ┼───────────┼
          │ 返回值[1]  │    <-- z1-16(SP)
          ┼───────────┼
          │ 返回值[0]  │    <-- z2-24(SP)
          ┼───────────┼
          │  参数之c   │    <-- ic-32(SP)
          ┼───────────┼
          │  参数之b   │    <-- ib-40(SP)
          ┼───────────┼
          │  参数之a   │    <-- ia-48(SP)
          ┼───────────┼    <-- 硬件SP
低地址位
 
    

其调用者和被调用者的栈关系为（该图来自plan9 assembly 完全解析）：

 
     
                                       caller
                                 +------------------+
                                 |                  |
       +---------------------->  --------------------
       |                         |                  |
       |                         | caller parent BP |
       |           BP(pseudo SP) --------------------
       |                         |                  |
       |                         |   Local Var0     |
       |                         --------------------
       |                         |                  |
       |                         |   .......        |
       |                         --------------------
       |                         |                  |
       |                         |   Local VarN     |
                                 --------------------
 caller stack frame              |                  |
                                 |   callee arg2    |
       |                         |------------------|
       |                         |                  |
       |                         |   callee arg1    |
       |                         |------------------|
       |                         |                  |
       |                         |   callee arg0    |
       |      SP(Real Register)  ----------------------------------------------+   FP(virtual register)
       |                         |                  |                          |
       |                         |   return addr    |  parent return address   |
       +---------------------->  +------------------+---------------------------    <-------------------------------+
                                                    |  caller BP               |                                    |
                                                    |  (caller frame pointer)  |                                    |
                                     BP(pseudo SP)  ----------------------------                                    |
                                                    |                          |                                    |
                                                    |     Local Var0           |                                    |
                                                    ----------------------------                                    |
                                                    |                          |
                                                    |     Local Var1           |
                                                    ----------------------------                            callee stack frame
                                                    |                          |
                                                    |       .....              |
                                                    ----------------------------                                    |
                                                    |                          |                                    |
                                                    |     Local VarN           |                                    |
                                  SP(Real Register) ----------------------------                                    |
                                                    |                          |                                    |
                                                    |                          |                                    |
                                                    |                          |                                    |
                                                    |                          |                                    |
                                                    |                          |                                    |
                                                    +--------------------------+    <-------------------------------+

                                                              callee
 
    

此外我们还可以做一些优化，其中中间的临时变量，让zzz的输入参数、返回值复用yyy的输入参数、返回值这部分空间，其代码为：

TEXT ·yyy(SB),NOSPLIT,$0-48
   MOVQ pc+0(SP),          AX            // 将PC寄存器中的值暂时保存在最后一个返回值的位置，因为在
                                         // 调用zzz时，该位置不会参与计算
   MOVQ AX,                ret_2+40(FP)  //
   MOVQ a+0(FP),           AX            // 将输入参数a，放置在栈顶
   MOVQ AX,                z_a+0(SP)     //
   MOVQ b+8(FP),           AX            // 将输入参数b，放置在栈顶+8
   MOVQ AX,                z_b+8(SP)     //
   MOVQ c+16(FP),          AX            // 将输入参数c，放置在栈顶+16
   MOVQ AX,                z_c+16(SP)    //
   CALL ·zzz(SB)                         // 调用函数zzz
   MOVQ ret_2+40(FP),      AX            // 将PC寄存器恢复
   MOVQ AX,                pc+0(SP)      //
   MOVQ z_ret_2+40(SP),    AX            // 将zzz的返回值[2]防止在yyy返回值[2]的位置
   MOVQ AX,                ret_2+40(FP)  //
   MOVQ z_ret_1+32(SP),    AX            // 将zzz的返回值[1]防止在yyy返回值[1]的位置
   MOVQ AX,                ret_1+32(FP)  //
   MOVQ z_ret_0+24(SP),    AX            // 将zzz的返回值[0]防止在yyy返回值[0]的位置
   MOVQ AX,                ret_0+24(FP)  //
   RET                                   // return

整个函数调用过程为：

 
     高地址位
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │  返回值[2] │           │  函数返回值  │          │     PC     │
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │  返回值[1] │           │zzz返回值[2] │          │zzz返回值[2] │
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │  返回值[0] │           │zzz返回值[1] │          │zzz返回值[1] │
            ┼───────────┼  =调整后=> ┼────────────┼ =调用后=> ┼────────────┼
            │   参数之c  │           │zzz返回值[0] │          │zzz返回值[0] │
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │   参数之b  │           │   参数之c   │          │   参数之c   │
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │  参数之a   │  <-- FP   │   参数之b   │  <-- FP  │   参数之b   │
            ┼───────────┼           ┼────────────┼          ┼────────────┼
            │  函数返回值 │  <-- SP   │   参数之a   │  <-- SP  │   参数之a   │  <--FP
            ┼───────────┼           ┼────────────┼          ┼────────────┼
                                                            │  函数返回值  │  <--SP  zzz函数栈空间
                                                            ┼────────────┼
                                                            │ CALLER BP  │
                                                            ┼────────────┼
                                                            │  zzz变量之2 │
                                                            ┼────────────┼
                                                            │  zzz变量之1 │
                                                            ┼────────────┼
                                                            │  zzz变量之0 │
                                                            ┼────────────┼
低地址位
 
    

然后我们可以使用反汇编来对比我们自己实现的汇编代码版本和go源码版本生成的汇编代码的区别：

我们自己汇编的版本：

TEXT main.yyy(SB) go/asm/xx.s
  xx.s:31               0x104f6b0               488b0424                MOVQ 0(SP), AX
  xx.s:32               0x104f6b4               4889442430              MOVQ AX, 0x30(SP)
  xx.s:33               0x104f6b9               488b442408              MOVQ 0x8(SP), AX
  xx.s:34               0x104f6be               48890424                MOVQ AX, 0(SP)
  xx.s:35               0x104f6c2               488b442410              MOVQ 0x10(SP), AX
  xx.s:36               0x104f6c7               4889442408              MOVQ AX, 0x8(SP)
  xx.s:37               0x104f6cc               488b442418              MOVQ 0x18(SP), AX
  xx.s:38               0x104f6d1               4889442410              MOVQ AX, 0x10(SP)
  xx.s:39               0x104f6d6               e865ffffff              CALL main.zzz(SB)
  xx.s:40               0x104f6db               488b442430              MOVQ 0x30(SP), AX
  xx.s:41               0x104f6e0               48890424                MOVQ AX, 0(SP)
  xx.s:42               0x104f6e4               488b442428              MOVQ 0x28(SP), AX
  xx.s:43               0x104f6e9               4889442430              MOVQ AX, 0x30(SP)
  xx.s:44               0x104f6ee               488b442420              MOVQ 0x20(SP), AX
  xx.s:45               0x104f6f3               4889442428              MOVQ AX, 0x28(SP)
  xx.s:46               0x104f6f8               488b442418              MOVQ 0x18(SP), AX
  xx.s:47               0x104f6fd               4889442420              MOVQ AX, 0x20(SP)
  xx.s:48               0x104f702               c3                      RET

go源码版本生成的汇编：

TEXT main.yyy(SB) go/asm/main.go
  main.go:20            0x104f360               4883ec50                        SUBQ $0x50, SP
  main.go:20            0x104f364               48896c2448                      MOVQ BP, 0x48(SP)
  main.go:20            0x104f369               488d6c2448                      LEAQ 0x48(SP), BP
  main.go:20            0x104f36e               48c744247000000000              MOVQ $0x0, 0x70(SP)
  main.go:20            0x104f377               48c744247800000000              MOVQ $0x0, 0x78(SP)
  main.go:20            0x104f380               48c784248000000000000000        MOVQ $0x0, 0x80(SP)
  main.go:20            0x104f38c               488b442458                      MOVQ 0x58(SP), AX
  main.go:21            0x104f391               48890424                        MOVQ AX, 0(SP)
  main.go:20            0x104f395               488b442460                      MOVQ 0x60(SP), AX
  main.go:21            0x104f39a               4889442408                      MOVQ AX, 0x8(SP)
  main.go:20            0x104f39f               488b442468                      MOVQ 0x68(SP), AX
  main.go:21            0x104f3a4               4889442410                      MOVQ AX, 0x10(SP)
  main.go:21            0x104f3a9               e892020000                      CALL main.zzz(SB)
  main.go:21            0x104f3ae               488b442418                      MOVQ 0x18(SP), AX
  main.go:21            0x104f3b3               4889442430                      MOVQ AX, 0x30(SP)
  main.go:21            0x104f3b8               0f10442420                      MOVUPS 0x20(SP), X0
  main.go:21            0x104f3bd               0f11442438                      MOVUPS X0, 0x38(SP)
  main.go:22            0x104f3c2               488b442430                      MOVQ 0x30(SP), AX
  main.go:22            0x104f3c7               4889442470                      MOVQ AX, 0x70(SP)
  main.go:22            0x104f3cc               0f10442438                      MOVUPS 0x38(SP), X0
  main.go:22            0x104f3d1               0f11442478                      MOVUPS X0, 0x78(SP)
  main.go:22            0x104f3d6               488b6c2448                      MOVQ 0x48(SP), BP
  main.go:22            0x104f3db               4883c450                        ADDQ $0x50, SP
  main.go:22            0x104f3df               c3                              RET

经过对比可以看出我们的优点:

没有额外分配栈空间
没有中间变量，减少了拷贝次数
没有中间变量的初始化，节省操作

go源码版本的优点：

对于连续内存使用了MOVUPS命令优化，（此处不一定是优化，有时还会劣化，因为X86_64不同指令集混用时，会产生额外开销）

我们可以运行一下go benchmark来比较一下两个版本，可以看出自己的汇编版本速度上明显快于go源码版本。

 
     go test -bench=. -v -count=3
goos: darwin
goarch: amd64
BenchmarkYyyGoVersion-4        100000000            16.9 ns/op
BenchmarkYyyGoVersion-4        100000000            17.0 ns/op
BenchmarkYyyGoVersion-4        100000000            17.1 ns/op
BenchmarkYyyAsmVersion-4       200000000            10.1 ns/op
BenchmarkYyyAsmVersion-4       200000000             7.90 ns/op
BenchmarkYyyAsmVersion-4       200000000             8.01 ns/op
PASS
ok      go/asm    13.005s
 
    

回调函数/闭包

 
     var num int func call(fn func(), n int) { fn() num += n } func basecall() { call(func() { num += 5 }, 1) } 
    

如上面所示，当函数(call)参数中包含回调函数(fn)时，回调函数的指针通过一种简介方式传入，之所以采用这种设计也是为了照顾闭包调用的实现。接下来简单介绍一下这种传参。当一个函数的参数为一个函数时，其调用者与被调用者之间的关系如下图所示：

 
                                            caller
                                 +------------------+
                                 |                  |
       +---------------------->  --------------------
       |                         |                  |
       |                         | caller parent BP |
       |           BP(pseudo SP) --------------------
       |                         |                  |
       |                         |   Local Var0     |
       |                         --------------------
       |                         |                  |
       |                         |   .......        |
       |                         --------------------
 caller stack frame              |                  |
       |                         |   Local VarN     |      ┼────────────┼
       |                         |------------------|      │    ....    │  如果是闭包时，可
       |                         |                  |      ┼────────────┼  以扩展该区域存储
       |                         |   callee arg1(n) |      │    ....    │  闭包中的变量。
       |                         |------------------|      ┼────────────┼
       |                         |                  | ---->│ fn pointer │  间接临时区域
       |                         |   callee arg0    |      ┼────────────┼
       |      SP(Real Register)  ----------------------------------------------+   FP(virtual register)
       |                         |                  |                          |
       |                         |   return addr    |  parent return address   |
       +---------------------->  +------------------+---------------------------    <-------------------------------+
                                                    |  caller BP               |                                    |
                                                    |  (caller frame pointer)  |                                    |
                                     BP(pseudo SP)  ----------------------------                                    |
                                                    |                          |                                    |
                                                    |     Local Var0           |                                    |
                                                    ----------------------------                                    |
                                                    |                          |
                                                    |     Local Var1           |
                                                    ----------------------------                            callee stack frame
                                                    |                          |
                                                    |       .....              |
                                                    ----------------------------                                    |
                                                    |                          |                                    |
                                                    |     Local VarN           |                                    |
                                  SP(Real Register) ----------------------------                                    |
                                                    |                          |                                    |
                                                    |                          |                                    |
                                                    +--------------------------+    <-------------------------------+

                                                              callee
 
    

在golang的ABI中，关于回调函数、闭包的上下文由调用者(caller-basecall)来维护，被调用者(callee-call)直接按照规定的格式来使用即可。

调用者需要申请一段临时内存区域来存储函数(func() { num+=5 })的指针，当传递参数是闭包时，该临时内存区域开可以进行扩充，用于存储闭包中捕获的变量，通常编译器将该内存区域定义成型为struct { F uintptr; a *int }的结构。该临时内存区域可以分配在栈上，也可以分配在堆上，还可以分配在寄存器上。到底分配在哪里，需要编译器根据逃逸分析的结果来决定；
将临时内存区域的地址存储于对应被调用函数入参的对应位置上；其他参数按照上面的常规方法放置；
使用CALL执行调用被调用函数(callee-call)；
在被调用函数(callee-call)中从对应参数位置中取出临时内存区域的指针存储于指定寄存器DX(仅针对amd64平台)
然后从DX指向的临时内存区域的首部取出函数(func() { num+=5 })指针，存储于AX(此处寄存器可以任意指定)
然后在执行CALL AX指令来调用传入的回调函数。
当回调函数是闭包时，需要使用捕获的变量时，直接通过集群器DX加对应偏移量来获取。

下面结合几个例子来理解：

例一

 
     func callback() { println("xxx") } func call(fn func()) { fn() } func call1() { call(callback) } func call0() 
    

其中call0函数可以用汇编实现为：

TEXT ·call0(SB), $16-0           # 分配栈空间16字节，8字节为call函数的入参，8字节为间接传参的'临时内存区域'
	LEAQ	·callback(SB), AX    # 取·callback函数地址存储于'临时内存区域'
	MOVQ	AX, fn-8(SP)         #
	LEAQ	fn-8(SP), AX         # 取'临时内存区域'地址存储于call入参位置
	MOVQ	AX, fn-16(SP)        #
	CALL	·call(SB)            # 调用call函数
	RET

注意：如果我们使用go tool compile -l -N -S来获取call1的实现，可以的得到：

TEXT    "".call1(SB), ABIInternal, $16-0
    MOVQ    (TLS), CX
    CMPQ    SP, 16(CX)
    JLS     55
    SUBQ    $16, SP
    MOVQ    BP, 8(SP)
    LEAQ    8(SP), BP
    FUNCDATA        $0, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
    FUNCDATA        $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
    FUNCDATA        $3, gclocals·9fb7f0986f647f17cb53dda1484e0f7a(SB)
    PCDATA  $2, $1
    PCDATA  $0, $0                 # 以上是函数编译器生成的栈管理，不用理会
    LEAQ    "".callback·f(SB), AX  # 这部分，貌似没有分配'临时内存区域'进行中转，
    PCDATA  $2, $0                 # 而是直接将函数地址赋值给call的参数。然后按
    MOVQ    AX, (SP)               # 照这样写，会出现SIGBUS错误。对比之下，其猫
    CALL    "".call(SB)            # 腻可能出现在`callback·f`上，此处可能包含
    MOVQ    8(SP), BP              # 一些隐藏信息，因为手写汇编采用这种格式是会
    ADDQ    $16, SP                # 编译错误的。
    RET

例二

 
     func call(fn func(), n int) { fn() } func testing() { var n int call(func() { n++ }, 1) _ = n } 
    

其生成的汇编为：

TEXT	testing.func1(SB), NOSPLIT|NEEDCTXT, $16-0  # NEEDCTXT标识闭包
	MOVQ	8(DX), AX                               # 从DX+8偏移出取出捕获参数n的指针
	INCQ	(AX)                                    # 对参数n指针指向的内存执行++操作，n++
	RET

TEXT	testing(SB), NOSPLIT, $56-0
	MOVQ	$0, n+16(SP)             # 初始化栈上临时变量n
	XORPS	X0, X0                   # 清空寄存器X0
	MOVUPS	X0, autotmp_2+32(SP)     # 用X0寄存器初始化栈上临时空间，该空间是分配给闭包的临时内存区域
	LEAQ	autotmp_2+32(SP), AX     # 取临时内存区域指针到AX
	MOVQ	AX, autotmp_3+24(SP)     # 不知道此步有何用意，liveness？
	TESTB	AL, (AX)
	LEAQ	testing.func1(SB), CX    # 将闭包函数指针存储于临时内存区域首部
	MOVQ	CX, autotmp_2+32(SP)
	TESTB	AL, (AX)
	LEAQ	n+16(SP), CX             # 将临时变量n的地址存储于临时内存区域尾部
	MOVQ	CX, autotmp_2+40(SP)
	MOVQ	AX, (SP)                 # 将临时内存区域地址赋值给call函数入参1
	MOVQ	$1, 8(SP)                # 将立即数1赋值给call函数入参2
	CALL	call(SB)                 # 调用call函数
	RET

# func call(fn func(), n int)
TEXT	call(SB), NOSPLIT, $8-16
	MOVQ	"".fn+16(SP), DX     # 取出临时区域的地址到DX
	MOVQ	(DX), AX             # 对首部解引用获取函数指针，存储到AX
	CALL	AX                   # 调用闭包函数
	RET

直接调用C函数(FFI)

我们都知道CGO is not Go，在go中调用C函数存在着巨大额外开销，而一些短小精悍的C函数，我们可以考虑绕过CGO机制，直接调用，比如runtime包中vDSO的调用、fastcgo、rustgo等。要直接调用C函数，就要遵循C的ABI。

amd64 C ABI

在调用C函数时，主流有2种ABI：

Windows x64 C and C++ ABI主要适用于各Windows平台
System V ABI主要适用于Solaris, Linux, FreeBSD, macOS等。

在ABI规定中，涉及内容繁多，下面简单介绍一下System V ABI中参数传递的协议：

当参数都是整数时，参数少于7个时，参数从左到右放入寄存器: rdi, rsi, rdx, rcx, r8, r9
当参数都是整数时，参数为7个以上时，前6个与前面一样，但后面的依次从右向左放入栈中，即和32位汇编一样

H(a, b, c, d, e, f, g, h);
=>
a->%rdi, b->%rsi, c->%rdx, d->%rcx, e->%r8, f->%r9
h->8(%esp)
g->(%esp)
CALL H
如果参数中包含浮点数时，会利用xmm寄存器传递浮点数，其他参数的位置按顺序排列
常用寄存器有16个，分为x86通用寄存器以及r8-r15寄存器
通用寄存器中，函数执行前后必须保持原始的寄存器有3个：是rbx、rbp、rsp
rx寄存器中，最后4个必须保持原值：r12、r13、r14、r15（保持原值的意义是为了让当前函数有可信任的寄存器，减小在函数调用过程中的保存/恢复操作。除了rbp、rsp用于特定用途外，其余5个寄存器可随意使用。）

issue#20427

由于该issue的存在，通常goroutine的栈空间很小，很可能产生栈溢出的错误。解决的方法有：

直接切换到g0栈，g0栈是系统原生线程的栈，通常比较大而且与C兼容性更好，切换g0栈的方式可以参考fastcgo中的实现，但是这有着强烈的版本依赖，不是很推荐；
调用函数自身声明一个很大的栈空间，迫使goroutine栈扩张。具体参考方法可以参考rustgo，该方法不能确定每一个C函数具体的栈空间需求，只能根据猜测分配一个足够大的，同时也会造成比较大的浪费，也不推荐；
使用runtime·systemstack切换到g0栈，同时摆脱了版本依赖。具体方法可以参考numa。

编译/反编译

因为go汇编的资料很少，所以我们需要通过编译、反汇编来学习。

 
     // 编译
go build -gcflags="-S"
go tool compile -S hello.go
go tool compile -l -N -S hello.go // 禁止内联 禁止优化 // 反编译 go tool objdump   
    

总结

了解go汇编并不是一定要去手写它，因为汇编总是不可移植和难懂的。但是它能够帮助我们了解go的一些底层机制，了解计算机结构体系，同时我们需要做一些hack的事时可以用得到。

比如，我们可以使用go:noescape来减少内存的分配：

很多时候，我们可以使函数内计算过程使用栈上的空间做缓存，这样可以减少对内存的使用，并且是计算速度更快：

 
     func xxx() int{
	var buf [1024]byte
	data := buf[:]
	// do something in data
}
 
    

但是，很多时候，go编译器的逃逸分析并不让人满意，经常会使buf移动到堆内存上，造成不必要的内存分配。这是我们可以使用sync.Pool，但是总让人不爽。因此我们使用汇编完成一个noescape函数，绕过go编译器的逃逸检测，使buf不会移动到堆内存上。

// asm_amd64.s
#include "textflag.h"

TEXT ·noescape(SB),NOSPLIT,$0-48
        MOVQ    d_base+0(FP),   AX
        MOVQ    AX,     b_base+24(FP)
        MOVQ    d_len+8(FP),    AX
        MOVQ    AX,     b_len+32(FP)
        MOVQ    d_cap+16(FP),AX
        MOVQ    AX,     b_cap+40(FP)
        RET

 
     //此处使用go编译器的指示
//go:noescape
func noescape(d []byte) (b []byte) func xxx() int { var buf [1024]byte data := noescape(buf[:]) // do something in data // 这样可以确保buf一定分配在xxx的函数栈上 } 
    

c2goasm

当我们需要做一些密集的数列运算或实现其他算法时，我们可以使用先进CPU的向量扩展指令集进行加速，如sse4_2/avx/avx2/avx-512等。有些人觉得通常可以遇不见这样的场景，其实能够用到这些的场景还是很多的。比如，我们常用的监控采集go-metrics库，其中就有很多可以优化的地方，如SampleSum、SampleMax、SampleMin这些函数都可以进行加速。

但是，虽然这些方法很简单，但是对于汇编基础很弱的人来说，手写这些sse4_2/avx/avx2/avx-512指令代码，仍然是很困难的。但是，我们可以利用clang/gcc这些深度优化过的C语言编译器来帮我们生成对于的汇编代码。

所幸，这项工作已经有人帮我们很好的完成了，那就是c2goasm。c2goasm可以将C/C++编译器生成的汇编代码转换为golang汇编代码。在这里，我们可以学习该工具如何使用。它可以帮助我们在代码利用上sse4_2/avx/avx2/avx-512等这些先进指令。但是这些执行需要得到CPU的支持。因此我们先要判断使用的CPU代码是否支持。

注意c2goasm中其中有很多默认规则需要我们去遵守：

我们先需要使用clang将c源文件编译成汇编代码clang_c.s（该文件名随意）；
然后我们可以使用c2goasm将汇编代码clang_c.s转换成go汇编源码xxx.s；
我们每使用c2goasm生成一个go汇编文件xxx.s之前，我们先添加一个对应的xxx.go的源码文件，其中需要包含xxx.s中函数的声明。
当c源码或者clang_c.s源码中函数名称为func_xxx时，经过c2goasm转成的汇编函数会增加_前缀，变成_func_xxx，因此在xxx.go中的函数声明为_func_xxx。要求声明的_func_xxx函数的入参个数与原来C源码中的入参个数相等，且为每个64bit大小。此时go声明函数中需要需要使用slice/map时，需要进行额外的转化。如果函数有返回值，则声明对应的go函数时，返回值必须为named return，即返回值需要由()包裹，否则会报错：Badly formatted return argument ....
如果我们需要生成多种指令的go汇编实现时，我们需要实现对应的多个c函数，因此我们可以使用c的宏辅助我们声明对应的c函数，避免重复的书写。

在linux上，我们可以使用命令cat /proc/cpuinfo |grep flags来查看CPU支持的指令集。但是在工作环境中，我们的代码需要在多个环境中运行，比如开发环境、和生产环境，这些环境之间可能会有很大差别，因此我们希望我们的代码可以动态支持不同的CPU环境。这里，我们可以用到intel-go/cpuid，我们可以实现多个指令版本的代码，然后根据运行环境中CPU的支持情况，选择实际实行哪一段逻辑：

 
     package main

import ( "fmt" "github.com/intel-go/cpuid" ) func main() { fmt.Println("EnabledAVX", cpuid.EnabledAVX) fmt.Println("EnabledAVX512", cpuid.EnabledAVX512) fmt.Println("SSE4_1", cpuid.HasFeature(cpuid.SSE4_1)) fmt.Println("SSE4_2", cpuid.HasFeature(cpuid.SSE4_2)) fmt.Println("AVX", cpuid.HasFeature(cpuid.AVX)) fmt.Println("AVX2", cpuid.HasExtendedFeature(cpuid.AVX2)) }

然后，我们可以先使用C来实现这3个函数：

 
     #include 
/* 我们要实现3中指令的汇编实现，因此我们需要生成3个版本的C代码，此处使用宏来辅助添加后缀，避免生成的函数名冲突 */
#if defined ENABLE_AVX2
#define NAME(x) x##_avx2
#elif defined ENABLE_AVX
#define NAME(x) x##_avx
#elif defined ENABLE_SSE4_2
#define NAME(x) x##_sse4_2
#endif

int64_t NAME(sample_sum)(int64_t *beg, int64_t len) { int64_t sum = 0; int64_t *end = beg + len; while (beg < end) { sum += *beg++; } return sum; } int64_t NAME(sample_max)(int64_t *beg, int64_t len) { int64_t max = 0x8000000000000000; int64_t *end = beg + len; if (len == 0) { return 0; } while (beg < end) { if (*beg > max) { max = *beg; } beg++; } return max; } int64_t NAME(sample_min)(int64_t *beg, int64_t len) { if (len == 0) { return 0; } int64_t min = 0x7FFFFFFFFFFFFFFF; int64_t *end = beg + len; while (beg < end) { if (*beg < min) { min = *beg; } beg++; } return min; }  
    

然后使用clang生成三中指令的汇编代码：

 
     clang -S -DENABLE_SSE4_2 -target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -msse4 lib/sample.c -o lib/sample_sse4.s clang -S -DENABLE_AVX -target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -mavx lib/sample.c -o lib/sample_avx.s clang -S -DENABLE_AVX2 -target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=1000 -fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -mavx2 lib/sample.c -o lib/sample_avx2.s  
    

注意:此处目前有一个待解决的问题issues8，如果谁指定如何解决，请帮助我一下。使用clang生成的AVX2汇编代码，其中局部变量0x8000000000000000/0x7FFFFFFFFFFFFFFF会被分片到RODATA段，并且使用32byte对其。使用c2goasm转换时，会生成一个很大的全局变量(几个G…，此处会运行很久)。目前的解决方式是，将生成

.LCPI1_0:
	.quad	-9223372036854775808    # 0x8000000000000000
	.section	.rodata,"a",@progbits
	.align	32
.LCPI1_1:
	.long	0                       # 0x0
	.long	2                       # 0x2
	.long	4                       # 0x4
	.long	6                       # 0x6
	.zero	4
	.zero	4
	.zero	4
	.zero	4
	.text
	.globl	sample_max_avx2

改为：

.LCPI1_0:
        .quad   -9223372036854775808    # 0x8000000000000000
        .quad   -9223372036854775808    # 0x8000000000000000
        .quad   -9223372036854775808    # 0x8000000000000000
        .quad   -9223372036854775808    # 0x8000000000000000
        .section        .rodata,"a",@progbits
.LCPI1_1:
        .long   0                       # 0x0
        .long   2                       # 0x2
        .long   4                       # 0x4
        .long   6                       # 0x6
        .zero   4
        .zero   4
        .zero   4
        .zero   4
        .text
        .globl  sample_max_avx2
        .align  16, 0x90
        .type   sample_max_avx2,@function

另一处同理，具体修改后的结果为：sample_avx2.s

回归正题，添加对应的go函数声明，我们要生成的三个go汇编文件为：sample_sse4_amd64.s，sample_avx_amd64.s和sample_avx2_amd64.s，因此对应的三个go文件为：sample_sse4_amd64.go，sample_avx_amd64.go和sample_avx2_amd64.go。其中声明的go函数为下面，我们挑其中一个文件说，其他两个类似：

 
     package sample

import "unsafe" // 声明的go汇编函数，不支持go buildin 数据类型，参数个数要与c实现的参数个数相等，最多支持14个。 //go:noescape func _sample_sum_sse4_2(addr unsafe.Pointer, len int64) (x int64) //go:noescape func _sample_max_sse4_2(addr unsafe.Pointer, len int64) (x int64) //go:noescape func _sample_min_sse4_2(addr unsafe.Pointer, len int64) (x int64) // 因为我们希望输入参数为一个slice，则我们在下面进行3个封装。 func sample_sum_sse4_2(v []int64) int64 { x := (*slice)(unsafe.Pointer(&v)) return _sample_sum_sse4_2(x.addr, x.len) } func sample_max_sse4_2(v []int64) int64 { x := (*slice)(unsafe.Pointer(&v)) return _sample_max_sse4_2(x.addr, x.len) } func sample_min_sse4_2(v []int64) int64 { x := (*slice)(unsafe.Pointer(&v)) return _sample_min_sse4_2(x.addr, x.len) }

有了这些函数声明，我们就可以使用c2goasm进行转换了：

 
     c2goasm -a -f lib/sample_sse4.s sample_sse4_amd64.s
c2goasm -a -f lib/sample_avx.s sample_avx_amd64.s
c2goasm -a -f lib/sample_avx2.s sample_avx2_amd64.s  
    

然后我们添加一段初始化逻辑，根据CPU支持的指令集来选择使用对应的实现：

 
     import (
	"math" "unsafe" "github.com/intel-go/cpuid" ) var ( // SampleSum returns the sum of the slice of int64. SampleSum func(values []int64) int64 // SampleMax returns the maximum value of the slice of int64. SampleMax func(values []int64) int64 // SampleMin returns the minimum value of the slice of int64. SampleMin func(values []int64) int64 ) func init() { switch { case cpuid.EnabledAVX && cpuid.HasExtendedFeature(cpuid.AVX2): SampleSum = sample_sum_avx2 SampleMax = sample_max_avx2 SampleMin = sample_min_avx2 case cpuid.EnabledAVX && cpuid.HasFeature(cpuid.AVX): SampleSum = sample_sum_avx SampleMax = sample_max_avx SampleMin = sample_min_avx case cpuid.HasFeature(cpuid.SSE4_2): SampleSum = sample_sum_sse4_2 SampleMax = sample_max_sse4_2 SampleMin = sample_min_sse4_2 default: // 纯go实现 SampleSum = sampleSum SampleMax = sampleMax SampleMin = sampleMin } }

此时我们的工作就完成了，我们可以使用go test的benchmark来进行比较，看看跟之前的纯go实现，性能提升了多少：

 
     name         old time/op  new time/op  delta
SampleSum-4   519ns ± 1%    53ns ± 2%  -89.72%  (p=0.000 n=10+9)
SampleMax-4   676ns ± 2%   183ns ± 2%  -73.00%  (p=0.000 n=10+10)
SampleMin-4   627ns ± 1%   180ns ± 1%  -71.27%  (p=0.000 n=10+9)

我们可以看出，sum方法得到10倍的提升，max/min得到了3倍多的提升，可能是因为max/min方法中每次循环中都有一次分支判断的原因，导致其提升效果不如sum方法那么多。

完整的实现在lrita/c2goasm-example

RDTSC精确计时

在x86架构的CPU上，每个CPU上有一个单调递增的时间戳寄存器，可以帮助我们精确计算每一段逻辑的精确耗时，其调用代价和计时精度远远优于time.Now()，在runtime中有着广泛应用，可以参考runtime·cputicks的实现。在但是对于指令比较复杂的函数逻辑并不适用于此方法，因为该寄存器时与CPU核心绑定，每个CPU核心上的寄存器可能并不一致，如果被测量的函数比较长，在运行过程中很可能发生CPU核心/线程的调度，使该函数在执行的过程中被调度到不同的CPU核心上，这样测量前后取到的时间戳不是来自于同一个寄存器，从而造成比较大的误差。

还要注意的是RDTSC并不与其他指令串行，为了保证计时的准确性，需要在调用RDTSC前增加对应的内存屏障，保证其准确性。

参考

A Quick Guide to Go’s Assembler
解析 Go 中的函数调用
A Manual for the Plan 9 assembler
Golang中的Plan9汇编器
GoFunctionsInAssembly
plan9 assembly 完全解析
InfluxData is Building a Fast Implementation of Apache Arrow in Go Using c2goasm and SIMD
RDTSC指令

你可能感兴趣的:([golang]golang 汇编)

golang的编译过程分析
转载自：https://halfrost.com/go_command/引言Go语言这两年在语言排行榜上的上升势头非常猛，Go语言虽然是静态编译型语言，但是它却拥有脚本化的语法，支持多种编程范式(函数式和面向对象)。Go语言最最吸引人的地方可能是其原生支持并发编程(语言层面原生支持和通过第三方库支持是有很大区别的)。Go语言的对网络通信、并发和并行编程的支持度极高，从而可以更好地利用大量的分布式和
Golang 数据库缓存策略：减少 SQL 查询次数
Golang数据库缓存策略：减少SQL查询次数关键词：Golang、数据库缓存、SQL查询次数、缓存策略、性能优化摘要：本文主要探讨了在Golang中使用数据库缓存策略来减少SQL查询次数的相关技术。通过深入讲解缓存的核心概念、算法原理、实际应用场景等内容，帮助读者理解如何利用缓存优化数据库性能。同时，结合具体的代码案例，详细展示了在Golang中实现缓存策略的方法，最后分析了未来的发展趋势与面临
什么是java IT界小新学姐
Java属于一种计算机语言，计算机语言的种类非常多，总的来说可以分成机器语言、汇编语言、高级语言三大类。Java是一种高级计算机语言。Java是由SunMicrosystems在1995年首先发布的编程语言和计算平台。有许多应用程序和Web站点只有在安装Java后才能正常工作，而且这样的应用程序和Web站点日益增多。Java快速、安全、可靠。从笔记本电脑到数据中心，从游戏控制台到科学超级计算机，从
java语言程序设计基础篇课后答案第八版_Java语言程序设计-基础篇-第八版-复习题-第一章...
1.1计算机是一种电子装置，存储和处理数据。一台计算机包括硬件和软件。在一般情况下，硬件是可以看到的计算机的物理方面的，而软件是无形的指令，控制硬件和它的工作。1.2一台计算机的硬件包括一个CPU，高速缓存，内存，硬盘，软盘，显示器，打印机，通信设备。1.3机器语言是每个计算机中内置的一组基本指令。汇编语言是一种低级别的编程语言，是用一个助记符来表示各机器语言指令。高级程序设计语言是像英语那样的易
CAS中的ABA问题
一、什么是CAS?CAS（compareandset）操作是多线程环境处理并发的原子操作，更新一个值前先比较，如果与预期值一样则更新，否则失败。CAS底层是通过汇编层面的原语调用cpu指令实现的，同时结合了内存屏障，具体依赖CPU的指令，如cmpxchg指令（X86架构）二、什么是ABA问题？现有线程t1和线程t2，共享变量str="A"①首先读取str，那么t1中缓存值为A，t2中缓存值也为A，
深入解析Battelle/movfuscator项目的后处理技术邹滢朦
深入解析Battelle/movfuscator项目的后处理技术项目概述Battelle/movfuscator是一个独特的编译器项目，它能够将C代码转换为仅使用MOV指令的汇编代码。而其后处理器(post-processor)组件则提供了更多强大的功能扩展，可以将这些汇编代码进一步转换为使用特定指令集的版本，实现更深层次的代码混淆和优化。后处理器工作原理后处理器的工作流程分为以下几个关键步骤：首
汇编 Call 指令运行原理详解：从跳转机制到堆栈操作杰_happy 汇编汇编单片机 stm32
函数参数传递参数传递一般有三种方式：通过内存（一般是堆栈）传递整形参数可以通过寄存器传递浮点数参数可以通过浮点寄存器传递堆栈传递所谓通过堆栈传递参数，就是调用函数的一方，将参数逐个压入堆栈中，然后由函数从堆栈中取出使用。使用堆栈的好处是不用污染寄存器，而且可以传递的参数个数基本不限。但缺点是需要读写内存。众所周知，读写内存比读写寄存器要慢的多，这就使人想到用寄存器进行传递参数会大大提高效率。在wi
gcc 源码分析：从IR-RTL 到汇编输出
在完成了IR-RTL的优化与寄存器分配后就来到汇编代码的输出：实现如下：classpass_final:publicrtl_opt_pass{public:pass_final(gcc::context*ctxt):rtl_opt_pass(pass_data_final,ctxt){}/*opt_passmethods:*/unsignedintexecute(function*)finalov
使用内联汇编实现CAS操作（含详细讲解）（Charon）汇编
在多线程环境下，如何安全地更新共享变量，一直是一个重要的话题。今天，我们通过一段使用内联汇编实现的CAS（CompareAndSwap）代码，深入学习它的原理和用法。完整示例代码如下：#include//标准输入输出头文件#include//pthread多线程编程相关头文件#include//usleep函数需要的头文件#defineTHREAD_COUNT10//定义线程数量为10volati
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
Golang map m0_67393686 java golang java 数据结构后端 apache
前言哈希表是一种巧妙并且实用的数据结构。它是一个无序的key/value对的集合，其中所有的key都是不同的，然后通过给定的key可以在常数时间复杂度内检索、更新或删除对应的value。在Go语言中，一个map就是一个哈希表的引用，map类型可以写为map[K]V，其中K和V分别对应key和value。map中所有的key都有相同的类型，所有的value也有着相同的类型，但是key和value之间
【go基础】4.基本数据结构之map 喝醉的小喵 go语言原理 golang 数据结构哈希算法后端
目录哈希表map-主要思想-特点-哈希函数-数据结构-map初始化-mapvalue为什么不能寻址-map为什么是无序的-map为什么是o(1)的-开发时应注意的哈希表map理解Golang哈希表Map的原理|Go语言设计与实现彻底理解GolangMap-知乎-主要思想1、桶map的底层存储结构式hmap,里面有一个桶数组，所有kv都是存在这些桶里的，每个桶的结构是bmap每个桶中最多可以存8个k
map数据结构在Golang中是无序的，并且键值对的查找效率较高的原因
map，map在Go语言中是无序的，是因为在Go语言中，map基于哈希表实现，它的遍历顺序依赖于哈希表内部存储状态，对并发编程的潜在影响包括可能引发数据一致性问题，也就是并发度写实易导致读到不一样的数据或遍历出错；还会导致结果可重复性的问题，即每次运行程序得到的依赖遍历顺序的计算结果可能不同。map的键值对查找效率高是由于：（1）哈希表的时间复杂度，哈希表的平均复杂度为O（1），最欢情况下为O（n
Golang 数据类型有哪些？
一个完整的项目需要更复杂的逻辑，不是简单的“Hello世界”可相比的。这些逻辑通过变量、常量、类型、函数方法、接口、结构体组成，这节课我就将带你认识它们，让你的Go语言程序变得更加生动。内置类型值类型boolint(32or64),int8,int16,int32,int64uint(32or64),uint8(byte),uint16,uint32,uint64float32,float64st
深入解析Golang中的defer机制：从cch123/golang-notes看实现原理
深入解析Golang中的defer机制：从cch123/golang-notes看实现原理golang-notesGosourcecodeanalysis(zh-cn)项目地址:https://gitcode.com/gh_mirrors/go/golang-notes前言在Go语言中，defer语句是一种非常实用的特性，它允许我们在函数返回前执行某些操作。本文将基于cch123/golang-n
Golang defer 的编译器实现细节 Golang编程笔记 golang 开发语言后端 ai
Golangdefer的编译器实现细节：从语法糖到运行时的全链路解析关键词：Go语言、defer、编译器优化、运行时、延迟执行摘要：本文将深入解析Go语言中defer关键字的底层实现细节。我们将从defer的基础用法出发，逐步拆解编译器如何将defer语法转换为机器可执行的代码，并结合Go编译器的优化历史（如开放编码优化）、运行时关键结构体（_defer）以及实际汇编代码，揭示defer从“语法糖
探索 Golang 与 Docker 集成的无限可能 Golang编程笔记 golang docker 开发语言 ai
探索Golang与Docker集成的无限可能关键词：Golang、Docker、容器化、微服务、云原生、镜像优化、CI/CD摘要：本文将带你走进Golang与Docker集成的奇妙世界。我们会从“为什么需要这对组合”讲起，用生活故事类比核心概念，拆解Go静态编译与Docker容器化的“天作之合”，通过实战案例演示如何用Docker高效打包Go应用，并探讨它们在云原生时代的无限可能。无论你是Go开发
Golang类型断言在反射中的应用：深入源码分析 Golang编程笔记 Golang编程笔记 golang 网络服务器 ai
Golang类型断言在反射中的应用：深入源码分析关键词：Golang、类型断言、反射、运行时、接口、类型系统、源码分析摘要：本文深入探讨Golang中类型断言与反射机制的底层关联，通过解析Go运行时源码和反射包实现，揭示类型断言在反射场景中的核心作用。从接口类型的内存布局出发，分析类型断言的两种实现形式（安全断言与暴力断言）在反射API中的具体应用，结合实际案例演示如何通过反射动态获取类型信息并进
以下哪种类型在Golang中不是内置类型？小高Baby@ go
A.intB.stringC.structD.array首先，内置类型是指不需要引入任何关于这些数据类型的包，就可以引用的数据类型。那么，内置类型主要包括基本类型，复合类型，控制并发，高级抽象，特殊类型。基本类型包括，整型，浮点型，布尔型，字符串，复数型（complex64，complex128）复合型包括，数组，切片，map，slice控制通道，channel高级抽象包括，interface，f
Go中使用wire进行统一依赖注入管理卜锦元 golang 高可用性编程语言 golang 开发语言后端
前言本文通过代码示例，详细的讲述了在Golang中如何通过goole/wire来进行项目整体的依赖注入管理的管理和维护，通过wire为我们的项目依赖树有一个统一维护的地方，全局统一管理依赖。wire最大的价值正是在复杂项目里，把依赖关系集中在一个地方（通常是wire.go），做到：全局统一管理依赖编译期安全（不像fx在运行期才报错）避免到处写构造&注入逻辑，让模块更专注业务wire管理目录的方式其
c语言变长数组与数组越界保护嵌入式er. Linux应用开发 c语言
文章目录1.定长数组的使用2.定长数组的栈空间3.变长数组的使用4.变长数组的栈空间5数组越界保护在c99协议标准中，增加了变长数组(VLA)这一特性，本文旨在从汇编的角度来理解其原理，并且简单阐述下数组越界保护的内容。在此顺带说一下自己对c语言学习的理解，关于常规的表达式、语法等不做阐述，主要对一些复杂的关键字或者特性的学习方式作以自己的感悟。如：c语言中对const、static、变长数组等的
C语言笔记
学习笔记仅供参考基础介绍程序就是一组计算机能识别的指令，计算机的一切操作都是由程序控制的。人和计算机都能识别的语言就是就是计算机语言，计算机工作是基于二进制的。计算机能直接识别的二进制代码就是机器指令，机器指令的集合就是机器语言。机器语言与人们习惯使用的语言差别太大，所以人们创造出了符号语言，计算机不能直接识别符号语言的指令，需要汇编程序软件将符号语言指令转成机器指令(二进制代码)。机器语言与汇编
golang的defer hwg985 Golang golang 开发语言后端
文章目录把defer想象成"临时便签"用生活例子理解：更直观的对比：**没有defer的代码：****有defer的代码：**执行时机的详细说明：关键理解点：用计时器例子：把defer想象成"临时便签"当你写defer时，Go会把这个函数调用写在一张"便签"上，等到当前函数结束时，再执行这些便签上的内容。用生活例子理解：func回家(){fmt.Println("1.进门")deferfmt.Pr
brpc中的bthread_jump_fcontext汇编函数到底发生了什么？
我们之前讲了brpc中的bthread创建，分配和切换。那么在切换过程中，brpc中的bthread_jump_fcontext汇编函数到底发生了什么？我们来非常具体地讲一讲。函数签名intptr_tbthread_jump_fcontext(bthread_fcontext_t*ofc,//%rdi:输出参数，保存源上下文指针bthread_fcontext_tnfc,//%rsi:输入参数，目
golang的各种原生类型之间赋值是原子的吗无用程序员~ Linux应用编程 golang 开发语言后端
原始代码我在项目里写了这样一段代码packageid2nameimport("time")typeId2Namestruct{mmap[int]string}funcNew()(*Id2Name,error){m,err:=getId2NameMap()iferr!=nil{returnnil,err}ins:=&Id2Name{m:m,}goins.reload()returnins,nil}f
Go - 项目收藏
1、谷歌官方维护了一个基于go语言的开源项目列表：https://github.com/golang/go/wiki/Projects2、[知乎网]有哪些值得学习的Go语言开源项目？3、[知乎用户：hackstoic]看过awesome-go项目，汇总了很多go开源项目。但是awesome-go收集了太全了，而且每个项目没有描述。因此我自己根据go语言中文社区提供的资料，还有互联网企业架构设计中的
Golang中的panic 后端go
前言Golang中当程序发生致命异常时（比如数组下标越界，注意这里的异常并不是error），Golang程序会panic（运行时恐慌）。当程序发生panic时，程序会执行当前栈中的defer函数列表。然后打印引发panic的具体信息，最后进程退出，本篇文章我们一起探讨Golang中的panic以及如何利用defer和recover来恢复这种致命的异常分析造成panic堆栈信息go体验AI代码助手代
Golang基础笔记十之goroutine和channel
本文首发于公众号：Hunter后端原文链接：Golang基础笔记十之goroutine和channel这一篇介绍Golang里的goroutine和channel通道。以下是本篇笔记目录：goroutinechannelgoroutine与channel的使用1、goroutinegoroutine是一种轻量级线程（用户态线程），由Go运行时管理而非操作系统，它是Go并发模型的核心，能高效处理大量
在Golang中序列化JSON字符串的教程后端go
Marshal递归地遍历接口的值。如果遇到的值实现了Marshaler接口，并且不是一个nil指针，Marshal会调用它的MarshalJSON方法来产生JSON。Golang序列化JSON字符串要在Golang中序列化JSON字符串，请使用json.Marshal()函数。Golangjson.Marshal()函数返回接口的JSON编码。请看下面的代码。go体验AI代码助手代码解读复制代码/
汇编语言:基于x86处理器第一章习题解答「已注销」 Linux 内核资深专家 arm
汇编语言习题解答习题解答1.1.3本节回顾习题解答1.1.3本节回顾1、汇编器和链接器是如何一起工作的？汇编程序要转化为可执行程序，需要先译码后组合。这是因为一个完整的汇编程序常常是由多个文件构成，先用汇编器将每一个文件中的汇编代码转化为机器语言后，链接器再把这些文件组合成一个可执行程序。2、学习汇编语言如何能提高你对操作系统的理解？可用汇编语言验证操作系统的理论知识，从而更深刻的掌握操作系统3、
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio