一. 程序的本质
软件\程序的执行过程
当软件\程序运行的时候会先把软件\程序的数据装载进内存,然后CPU再从内存中读取数据,当然CPU也会往内存中写数据,CPU根据读取到的指令再控制计算机打开显示器、打开音响等等。
CPU包含三个部分,分别是寄存器、运算器、控制器
通常,CPU会先将内存中的数据存储到寄存器中,然后再对寄存器中的数据进行运算,因为这样效率比较高。
如下图,假设内存中有块红色内存空间的值是3,现在想把它的值加1,并将结果存储到蓝色内存空间
CPU首先会将红色内存空间的值放到rax寄存器中:movq 红色内存空间, %rax
然后让rax寄存器与1相加:addq $0x1, %rax
最后将值赋值给内存空间:movq %rax, 蓝色内存空间
二. 编程语言的发展
机器语言:由0和1组成 ->
汇编语言(Assembly Language):用符号代替了0和1,比机器语言便于阅读和记忆 ->
高级语言:C\C++\Java\JavaScript\Python等,更接近人类自然语言
例如同样的操作使用三种语言实现:
操作:将寄存器BX的内容送入寄存器AX
机器语言:1000100111011000
汇编语言:movw %bx, %ax
高级语言:ax = bx;
我们编写的代码是如何运行到计算机上的?
- 汇编语言与机器语言一一对应,每一条机器指令都有与之对应的汇编指令
- 汇编语言可以通过编译得到机器语言,机器语言可以通过反汇编得到汇编语言
- 高级语言可以通过编译得到汇编语言\机器语言,但汇编语言\机器语言几乎不可能还原成高级语言(因为⾼级语⾔的写法太多了)
三. 汇编语言的种类
汇编语言的种类:
8086汇编(16bit)
x86汇编(32bit)
x64汇编(64bit)
ARM汇编(嵌入式、移动设备)
......
x86、x64汇编根据编译器的不同,有2种书写格式:
Intel:Windows派系
AT&T :Unix派系
作为iOS开发工程师,最主要的汇编语言是:
AT&T汇编 -> iOS模拟器
ARM汇编 -> iOS真机设备
因为我们的Demo大部分都是命令行项目,是直接在Mac上运行的,所以这里讲的都是AT&T汇编 。
四. 常见的汇编指令
我们主要看AT&T,Intel平台只是作比较,左边一列指令要求掌握。
AT&T汇编:
- %rax表示寄存器,r是register寄存器的意思
- 操作是把左边送到右边
- 赋值的时候如果左边是常数就是把常数赋值到右边,如果左边是地址就是把地址指向的东西赋值到右边。
- movq -0x18(%rbp), %rax 和 leaq -0x18(%rbp), %rax 的区别?
由于movq是内存赋值,所以movq -0x18(%rbp), %rax 是将%rbp-0x18这个内存地址的东西赋值到rax寄存器。(相当于深拷贝)
leaq是取内存地址,leaq -0x18(%rbp), %rax 是将%rbp-0x18这个地址值赋值到rax寄存器。(相当于浅拷贝) - jump 0x4001002 跳转,代表跳转到内存地址为0x4001002的汇编代码里面执行,中间的指令全部跳过。(每一条汇编指令都有内存地址)
- call 0x4001002 函数跳转,call后面一般跟函数地址,一般和pushq(函数开始)、retq(函数结束)配合使用,跳到某个函数执行,执行完毕后继续回来执行代码,中间的指令不跳过。
- jump/call *%rdx 跳转 当地址是变化的时候,jump/call后面可能不是直接跟一个地址,而是一个寄存器,这时候 jump/call *%rdx 代表跳转到rdx寄存器存放的地址的汇编代码里面执行。(间接跳转)
- 可能你也发现了,同样的mov指令,AT&T比Intel多了一个q,其实这个q是操作数长度。比如movq $0xa 0x110 是将a放到内存地址为110的位置,但是用多大的内存空间存放,就取决于q。如果是q代表在110位置后面留64位(8字节)存放a,如果是b就是留1字节存放a。
五. 寄存器
有16个常用寄存器:
rax、rbx、rcx 、rdx、rsi、rdi、rbp、rsp
r8、r9、r10、r11、r12、r13、r14、r15
寄存器的具体用途:
rax、rdx常作为函数返回值使用
rdi、rsi、rdx、rcx、r8、r9等寄存器常用于存放函数参数
rsp、rbp用于栈操作
rip作为指令指针
rip存储着CPU下一条要执行的指令的地址
一旦CPU读取一条指令,rip会自动指向下一条指令(存储下一条指令的地址)
x86汇编(32bit) 32位时代,常用寄存器能存32位,也就是4个字节。
x64汇编(64bit) 64位时代,常用寄存器能存64位,也就是8个字节。
只要是r开头的都是64位寄存器,8字节。e开头的都是32位寄存器,4字节。
那么寄存器是如何兼容的呢?
如下图,看第一行:
最外面是rax寄存器占用8字节(64位),它会拿出自己最低4字节(32位)当作eax寄存器使用,eax也拿出自己最低2字节(16位)当作ax寄存器使用,ax寄存器又砍成两半,分别将高8位和低8位当作ah和al寄存器来使用(其实ah中的h是high的意思,al中的l是low的意思)。
总结:
r开头:64bit,8字节
e开头:32bit,4字节
ax、bx、cx等:16bit,2字节
ah、al、bh、bl等:8bit,1字节
六. lldb常用指令
1. 读写常用指令
读取寄存器的值:
register read/格式
register read/x
修改寄存器的值:
register write 寄存器名称 数值
register write rax 0 (将0写入到rax寄存器里面)
读取内存中的值:
x/数量-格式-字节大小 内存地址
x/3xw 0x0000010
(x就是memory read的意思)
修改内存中的值:
memory write 内存地址 数值
memory write 0x0000010 10
格式:
x是16进制,f是浮点,d是十进制
字节大小:
b – byte 1字节
h – half word 2字节
w – word 4字节
g – giant word 8字节
expression 表达式:
可以简写:expr 表达式
expression $rax
expression $rax = 1
po 表达式:
print 表达式
po/x $rax
po (int)$rax
2. lldb调试常用指令
lldb调试常用指令其实在Xcode里面都有,如下图:
第一个:Continue program execution 跳过这个断点,继续执行程序
第二个:Step over 如果断点在函数上面,把函数当做整体跳过,一句一句往下执行 (快捷指令:n)
第三个:Step into 如果断点在函数上面,会进入函数,一句一句往下执行 (快捷指令:s)
第四个:Step out 跳出来,对应step into
thread step-over、next、n
单步运⾏,把子函数当做整体⼀步执⾏(源码级别)
thread step-in、step、s
单步运⾏,遇到子函数会进⼊子函数(源码级别)
thread step-inst-over、nexti、ni
单步运⾏,把子函数当做整体⼀步执⾏(汇编级别)
thread step-inst、stepi、si
单步运⾏,遇到子函数会进⼊子函数(汇编级别)
thread step-out、finish
直接执⾏完当前函数的所有代码,返回到上一个函数(遇到断点会卡住)
可以看出:n和ni,s和si功能都一样,只不过n和s是调试代码级别的,ni和si是调试汇编级别的。
func test() {
var a = 3
var b = a + 1
print(b)
}
test () //断点
n、s是一行一行代码执行(可能很多行汇编),ni、si是一行一行汇编执行,n遇到函数会跳过,s遇到函数会进去,这四个指令用的最多,一定要掌握。
七. 规律
内存地址格式为:0x4bdc(%rip),一般是全局变量,全局区(数据段)
内存地址格式为:-0x78(%rbp),一般是局部变量,栈空间
内存地址格式为:0x10(%rax),一般是堆空间
八. 什么是LLDB
LLDB是Mac OS X上Xcode的默认调试器,⽀持在桌⾯和iOS设备和模拟器上调试C,Objective-C和C ++。
LLDB是下⼀代⾼性能调试器,它构建为⼀组可重⽤的组件,可以⾼度利⽤较⼤的LLVM项⽬中的现有库,例如Clang表达式解析器和LLVM反汇编程序。
LLDB项⽬中的所有代码都是在标准LLVM许可证下提供的,这是⼀种开源的“BSD⻛风格”许可证
我理解LLDB 是 low level debugger 的缩写,就是和LLVM⼀起配的。