今天我们讲讲golang中panic异常,以及recover对异常的捕获,由于panic、recover、defer之间非常亲密,所以今天就放在一起讲解,这里会涉及到一些defer的知识,有兴趣可以看我的另一篇关于defer的文章 Golang中defer的实现原理.
Go的类型系统会在编译时捕获很多错误,但有些错误只能在运行时检查,如数组访问越界、 空指针引用等。这些运行时错误会引起painc异常。
一般而言,当panic异常发生时,程序会中断运行,并立即执行在该goroutine中被延迟的函数(defer 机制)。随后,程序崩溃并输出日志信息。
不是所有的panic异常都来自运行时,直接调用内置的panic函数也会引发panic异常
接下来,我们通过其汇编码尝试找出内置函数panic()的底层实现。
注意:我会把源码中每个方法的作用都注释出来,可以参考注释进行理解。
先编写一段简单的代码,并保存在panic.go文件中
func main() {
panic("err")
}
然后使用以下命令编译代码:
go tool compile -S panic.go
0x0024 00036 (panic.go:10) PCDATA $2, $1
0x0024 00036 (panic.go:10) PCDATA $0, $0
0x0024 00036 (panic.go:10) LEAQ type.string(SB), AX
0x002b 00043 (panic.go:10) PCDATA $2, $0
0x002b 00043 (panic.go:10) MOVQ AX, (SP)
0x002f 00047 (panic.go:10) PCDATA $2, $1
0x002f 00047 (panic.go:10) LEAQ "".statictmp_0(SB), AX
0x0036 00054 (panic.go:10) PCDATA $2, $0
0x0036 00054 (panic.go:10) MOVQ AX, 8(SP)
0x003b 00059 (panic.go:10) CALL runtime.gopanic(SB)
我们可以看到panic()函数调用被替换成了runtime.gopanic()函数
看函数之前,我们先来看一下panic的结构体
runtime\runtime2.go:_panic
type _panic struct {
argp unsafe.Pointer // 指向在panic下运行的defer的参数的指针
arg interface{} // panic的参数
link *_panic // 链接到更早的panic,新panic添加到表头
recovered bool // 该panic是否被recover
aborted bool // 该panic是否强制退出
}
接着,我们再来分析runtime.gopanic()函数
runtime\panic.go
func gopanic(e interface{}) {
//获取当前goroutine
gp := getg()
...
//生成一个新的panic结构
var p _panic
p.arg = e
//指向更早的panic
p.link = gp._panic
//绑定到goroutine
gp._panic = (*_panic)(noescape(unsafe.Pointer(&p)))
atomic.Xadd(&runningPanicDefers, 1)
//循环goroutine中的defer链表
for {
d := gp._defer
if d == nil {
break
}
//如果defer已经被调用
//如果该defer已经由较早的panic或者Goexit使用(表示引发了新的panic)
//则从链表中去除这个panic,之前的panic或Goexit将不会继续运行。
if d.started {
if d._panic != nil {
d._panic.aborted = true
}
d._panic = nil
d.fn = nil
gp._defer = d.link
//释放该defer
freedefer(d)
//跳过循环,继续下一个defer
continue
}
// 将defer标记已调用,但保留在列表中
//这样 traceback 在栈增长或者 GC 的时候,能够找到并更新 defer 的参数栈帧
// 并用 reflectcall 执行 d.fn
d.started = true
//记录在 defer 中发生的 panic
//如果在 defer 的函数调用过程中又发生了新的 panic,那个 panic 会在链表中找到 d
// 然后标记 d._panic(指向当前的 panic) 为 aborted 状态。
d._panic = (*_panic)(noescape(unsafe.Pointer(&p)))
p.argp = unsafe.Pointer(getargp(0))
//执行defer后面的fn,如果有recover()函数会执行recover
reflectcall(nil, unsafe.Pointer(d.fn), deferArgs(d), uint32(d.siz), uint32(d.siz))
p.argp = nil
// reflectcall 并没有 panic,移除 d
if gp._defer != d {
throw("bad defer entry in panic")
}
//清空defer
d._panic = nil
d.fn = nil
//下一个defer
gp._defer = d.link
// trigger shrinkage to test stack copy. See stack_test.go:TestStackPanic
//GC()
//defer语句下一条语句的地址
pc := d.pc
//获取rsp寄存器的值的指针
//必须是指针,以便在堆栈复制期间进行调整
sp := unsafe.Pointer(d.sp)
//释放defer
freedefer(d)
//如果panic被recover
//会在gorecove 函数中已经修改为 true ,等会我们在讲
if p.recovered {
//统计
atomic.Xadd(&runningPanicDefers, -1)
//下一个panic
gp._panic = p.link
// 已标记已中止的panic,q且保留在g.panic列表中。
//从列表中删除它们。
for gp._panic != nil && gp._panic.aborted {
gp._panic = gp._panic.link
}
//处理完所有panic
if gp._panic == nil { // 必须用信号完成
gp.sig = 0
}
// Pass information about recovering frame to recovery.
//将有关恢复帧的信息传递给recovery函数
//通过之前传入的 sp 和 pc 恢复
gp.sigcode0 = uintptr(sp)
gp.sigcode1 = pc
mcall(recovery)
throw("recovery failed") // mcall should not return
}
}
// ran out of deferred calls - old-school panic now
// Because it is unsafe to call arbitrary user code after freezing
// the world, we call preprintpanics to invoke all necessary Error
// and String methods to prepare the panic strings before startpanic.
preprintpanics(gp._panic)
//致命错误,终止程序
fatalpanic(gp._panic) // should not return
*(*int)(nil) = 0 // not reached
}
接着,我们再来看看它是如何通过recovery函数回复的
func recovery(gp *g) {
// Info about defer passed in G struct.
sp := gp.sigcode0
pc := gp.sigcode1
// d's arguments need to be in the stack.
if sp != 0 && (sp < gp.stack.lo || gp.stack.hi < sp) {
print("recover: ", hex(sp), " not in [", hex(gp.stack.lo), ", ", hex(gp.stack.hi), "]\n")
throw("bad recovery")
}
//让这个 defer 结构体的 deferproc 位置的调用重新返回
// 这次将返回值修改为 1
gp.sched.sp = sp
gp.sched.pc = pc
gp.sched.lr = 0
gp.sched.ret = 1
//直接跳回到deferreturn那里去
gogo(&gp.sched)
}
我们再来总结一下整个流程:
通常来说,不应该对panic异常做任何处理,但有时,也许我们可以从异常中恢复,至少我们 可以在程序崩溃前,做一些操作。比如说:当web服务器遇到不可预料的严重问题时,在崩溃前应该将所有的连接关闭,服务器甚至可以将异常信息反馈到客户端,帮助调试。
如果在defer函数中调用了内置函数recover,并且定义该defer语句的函数发生了panic异常,recover会使程序从panic中恢复,并返回panic value。导致panic异常的函数不会继续运行,但能正常返回。在未发生panic时调用recover,recover会返回nil。
func main() {
defer func() {
recover()
}()
panic("err")
}
类似于下面这种情况是不可以的:
func main() {
recover()
panic("触发异常")
}
func main() {
defer func() {
if r := MyRecover(); r != nil {
fmt.Println(r)
}
}()
panic("err")
}
func MyRecover() interface{} {
fmt.Println("recover")
return recover()
}
func main() {
defer func() {
defer func() {
if r := recover(); r != nil {
fmt.Println(r)
}
}()
}()
panic("err")
}
如果我们直接在 defer 语句中调用 MyRecover 函数又可以正常工作了:
func main() {
//正常捕获
defer MyRecover()
panic("err")
}
func MyRecover() interface{} {
fmt.Println("recover")
return recover()
}
但是,如果 defer 语句直接调用 recover 函数,依然不能正常捕获异常:
func main() {
// 无法捕获异常
defer recover()
panic("err")
}
必须要和有异常的栈帧只隔一个栈帧, recover 函数才能正常捕获异常。换言之, recover 函数捕获的是祖父一级调用函数栈帧的异常(刚好可以跨越一层 defer 函数)!
同时,为了避免不加区分的panic被恢复,可能导致系统漏洞的问题,最安全的做饭,就是对不同的错误类型分别处理
接下来,我们通过底层源码来看看它是如何做到这些限制的:
runtime\panic.go
func gorecover(argp uintptr) interface{} {
gp := getg()
p := gp._panic
//必须存在panic
//非runtime.Goexit();
//panic还未被恢复
//argp == uintptr(p.argp)
//p.argp是最顶层的延迟函数调用的参数指针,argp是调用recover函数的参数地址,通常是defer函数的参数地址
//如果两者相等,说明可以被恢复,这也是为什么recover必须跟在defer后面且recover 函数捕获的是祖父一级调用函数栈帧的异常的原因
if p != nil && !p.goexit && !p.recovered && argp == uintptr(p.argp) {
//将recovered 标志改为true
p.recovered = true
return p.arg
}
return nil
}
gorecover函数比较简单,就是将recovered设为true,说明已经defer后面的函数包含recover