tigerdanceonbyte

go语言学习笔记（四）：调度器基础-爬上那座山

调度器概述

调度器初始化

第一个goroutine,main goroutine的创建

第一个goroutine,main goroutine的调度

非main goroutine的创建、退出以及调度循环

调度策略

调度时机

爬

调度器概述

调度的本质，即线程上下文在CPU中的切换，内核调度器负责对内核线程的调度，Go调度器做的，也是相似的工作，负责goroutine的调度。

重要的全局变量：

allgs       []*g    // 所有g的列表  
allm        *m      // 所有m的链表
allp        []*p    // 所有p的列表
ncpu        int32   // cpu核数
gomaxprocs  int32   // p个数环境变量
sched       schedt  // 调度器对象
m0          m       // 主线程对应的m
g0          g       // m0的g0

stack结构体：

type stack struct {
     lo uintptr  // 指向内存低地址
     hi uintptr  // 指向内存高地址
}

gobuf结构体：

type gobuf struct {
    sp    uintptr           // 保存CPU的rsp寄存器值
    pc    uintptr           // 保存CPU的rip寄存器值
    g     guintptr          // 此gobuf指向的g
    ctxt  unsave.pointer    // 此gobuf的上下文
    ret   sys.Uintreg       // 系统调用返回值
    lr    uintptr           // 
    bp    uintptr           // 保存CPU的rbp寄存器值
}

g结构体：

type g struct {  
    stack        stack     // 记录goroutine使用的栈 
    stackguard0  uintptr   // 用于栈大小的伸缩
    stackguard1  uintptr   // 用于栈大小的伸缩
    ...
    m            *m        // 记录goroutine当前绑定的m
    sched        gobuf     // 记录goroutine寄存器相关值
    ...
    schedlink    guintptr  // 指向全局链表中下一个g
    ...
    preempt      bool      // 抢占标志
    ...
}

p结构体：

type p struct {
    lock         mutex          // 锁
    status       uintptr        // 当前p状态
    link         puintptr       // 指向全局p链表下一个P
    schedtick    uint32         // p被m关联次数自增变量
    syscalltick  uint32         // p被系统调用次数自增变量
    m            muintptr       // 当前p关联的m
    ...
    runqhead     uint32         // 本地可运行g列表头
    runqtail     uint32         // 本地可运行g列表尾
    runq         [256]guintptr  // 本地可运行g列表   
    runnextg     uintptr        // 下一个将要运行的g
    ...
}

m结构体：

type m struct {
    g0         *g          // 指向当前内核线程使用的栈，大概取了64k，用于执行Go调度器代码
    tls        [6]uintptr  // 用于实现线程本地存储
    mstartfn   func()      // 
    curg       *g          // 当前m正在运行的g
    p          puintptr    // 当前m关联的p
    nextp      puintptr    // 预关联的p
    oldp       puintptr    // 上次关联的p
    spinnig    bool        // 自旋态
    blocked    bool        // 锁
    park       note        //
    alllink    *m          // 指向下一个m
    schedlink  muintptr    // 所有m的一个链表
    thread     uintptr     // 当前操作系统线程ID
    freelink   *m          // 空闲m链表
    ...
}

schedt结构体：

type schedt struct {
    goidgen       uint64    //
    lastpoll      uint64    // 
    lock          mutex     // 锁
    midle         muintptr  // m空闲链表
    nmidle        int32     // 空闲m个数
    nmidlelocked  int64     // 空闲m被锁住个数
    mnext         int64     // 已创建m的个数的下一个m的ID
    maxmcount     int32     // m最大个数
    nmsys         int64     // 系统线程对应的m未死锁的个数
    nmfreed       uint32    // 已经休眠的m的个数
    ngsys         uint32    // 系统线程正在运行的未死锁的g的个数
    pidle         puintptr  // p的空闲链表
    npidle        uint32    // 空闲p的个数
    nmspinning    uint32    // 自旋m的个数
    runq          gQueue    // 全局可运行g队列
    runqsize      int32     // 全局可运行g队列中g的个数
    gFree struct {          // 已经退出的g的链表
        lock     mutex
        stack    gList
        noStack  gList
        n        int32
    }
    ...
}

调度器初始化

下面从调度器的初始化开始，逐步分析go语言调度器在goroutine的一生中所扮演的重要角色。

任何一门编译型语言所编写的程序在被操作系统加载运行起来都会顺序经历下面几个阶段：

1.从磁盘上把可执行程序加载到内存里

2.创建进程和主线程

3.为主线程分配栈空间

4.把由用户在命令行输入的参数拷贝到主线程的栈

5.把主线程放入操作系统的运行队列等待被调度执行起来

在主线程第一次被调度起来执行第一条指令以前，主线程的函数栈如下图所示：

在Linux中用命令go build 编译程序，可得到可执行程序，然后用gdb调试，可以得到程序的入口为runtime/rt0_linux_amd64.s文件的第八行，可以看到程序执行的第一条指令：

TEXT _rt0_amd64_linux(SB),NOSPLIT,$-8
    JMP _rt0_amd64(SB)

_rt0_amd64 这个符号的定义在runtime/asm_amd64.s 文件中：

TEXT _rt0_amd64(SB),NOSPLIT,$-8
    MOVQ   0(SP), DI// argc 
    LEAQ   8(SP), SI// argv
    JMP    runtime·rt0_go(SB)

前两行指令把操作系统内核传递过来的参数argc和argv数组的地址分别放在DI和SI寄存器中，第三行指令跳转到 rt0_go 去执行，rt0_go函数完成了go程序启动时的所有初始化工作，下面我们把其中关键的地方拿出来看看。

初始化g0：

MOVQ  $runtime·g0(SB), DI     
LEAQ  (-64*1024+104)(SP), BX
MOVQ  BX, g_stackguard0(DI) 
MOVQ  BX, g_stackguard1(DI) 
MOVQ  BX, (g_stack+stack_lo)(DI)
MOVQ  SP, (g_stack+stack_hi)(DI)

上面这段代码在主线程栈上给g0划分了一块大概64k大小的空间。

主线程绑定m0：

LEAQ runtime·m0+m_tls(SB), DI  //DI=&m0.tls，取m0的tls成员的地址到DI寄存器
CALL runtime·settls(SB)        //调用settls设置线程本地存储，settls函数的参数在DI寄存器中

//验证settls是否可以正常工作，如果有问题则abort退出程序
get_tls(BX)         //获取fs段基地址并放入BX寄存器,get_tls的代码由编译器生成
MOVQ $0x123, g(BX)  //把整型常量0x123拷贝到fs段基地址偏移-8的内存位置，也就是m0.tls[0] =0x123
MOVQ runtime·m0+m_tls(SB), AX
CMPQ AX, $0x123     //检查m0.tls[0]的值是否是通过线程本地存储存入的0x123来验证tls功能是否正常
JEQ 2(PC)
CALL runtime·abort(SB) //如果线程本地存储不能正常工作，退出程序

首先调用settls函数初始化主线程的线程本地存储(TLS)，把m0与主线程关联在一起，然后验证TLS功能是否正常，如果不正常则直接abort退出程序。

下面我们详细来详细看一下settls函数是如何实现线程私有全局变量的：

TEXT runtime·settls(SB),NOSPLIT,$32
ADDQ $8, DI       // ELF wants to use -8(FS)

MOVQ DI, SI
MOVQ $0x1002, DI  // ARCH_SET_FS
MOVQ $SYS_arch_prctl, AX
SYSCALL

CMPQ AX, $0xfffffffffffff001
JLS 2(PC)
MOVL $0xf1, 0xf1  // crash
RET

通过arch_prctl系统调用把m0.tls[1]的地址设置成了fs段的段基址。CPU中有个叫fs的段寄存器与之对应，而每个线程都有自己的一组CPU寄存器值，操作系统在把线程调离CPU运行时会帮我们把所有寄存器中的值保存在内存中，调度线程起来运行时又会从内存中把这些寄存器的值恢复到CPU，这样，在此之后，工作线程代码就可以通过fs寄存器来找到m.tls。

g0和m0互相绑定：

// set the per-goroutine and per-mach "registers"
get_tls(BX)
LEAQ runtime·g0(SB), CX
MOVQ CX, g(BX) 
LEAQ runtime·m0(SB), AX

MOVQ CX, m_g0(AX)  // save m->g0 = g0
MOVQ AX, g_m(CX)   // save g0->m = m0

首先把g0的地址放入主线程的线程本地存储中，然后把m0和g0绑定在一起，这样，之后在主线程中通过get_tls()，g()这两个函数就可以获取到g0，通过g0的m成员又可以找到m0，于是这里就实现了m0和g0与主线程之间的关联。

初始化m0：

MOVL 16(SP), AX        // AX = argc
MOVL AX, 0(SP)         // argc放在栈顶
MOVQ 24(SP), AX        // AX = argv
MOVQ AX, 8(SP)         // argv放在SP + 8的位置
CALL runtime·args(SB)  //处理操作系统传递过来的参数

CALL runtime·osinit(SB)     // 全局变量 ncpu = CPU核数
CALL runtime·schedinit(SB)  // 调度系统初始化

到调度系统初始化函数里看一看：

func schedinit() {
    //getg函数在源代码中没有对应的定义，由编译器插入类似下面两行代码
    //get_tls(CX) 
    //MOVQ g(CX), BX
    _g_ := getg() // _g_ = &g0
    ......
   //设置最多启动10000个操作系统线程，也是最多10000个M
    sched.maxmcount=10000
    ......
    mcommoninit(_g_.m) //初始化m0
    ......
    sched.lastpoll = uint64(nanotime())
    procs := ncpu 
    if n, ok: = atoi32(gogetenv("GOMAXPROCS")); ok && n > 0 {
        procs = n
    }
    if procresize(procs) != nil {//创建和初始化全局变量allp
        throw("unknown runnable goroutine during bootstrap")
    }
    ......
}

schedinit函数除了初始化m0和p，还设置了全局变量sched的maxmcount成员为10000，限制最多可以创建10000个操作系统线程出来工作。

下面具体看看m0是如何初始化的：

func mcommoninit(mp*m) {
    _g_ := getg() 
 
    // g0 stack won't make sense for user (and is not necessary unwindable).
    if _g_ != _g_.m.g0 {  
        callers(1, mp.createstack[:])
    }
 
    lock(&sched.lock)
    if sched.mnext + 1 < sched.mnext {
        throw("runtime: thread ID overflow")
    }
    mp.id = sched.mnext
    sched.mnext++
    checkmcount() 
 
    mp.fastrand[0] = 1597334677*uint32(mp.id)
    mp.fastrand[1] = uint32(cputicks())
    if mp.fastrand[0]|mp.fastrand[1] ==0{
        mp.fastrand[1] =1
    }
 
    //创建用于信号处理的gsignal，只是简单的从堆上分配一个g结构体对象,然后把栈设置好就返回了
    mpreinit(mp)
    if mp.gsignal!=nil {
        mp.gsignal.stackguard1=mp.gsignal.stack.lo+_StackGuard
    }
 
    //把m挂入全局链表allm之中
    // Add to allm so garbage collector doesn't free g->m
    // when it is just in a register or thread-local storage.
    mp.alllink = allm
 
    // NumCgoCall() iterates over allm w/o schedlock,
    // so we need to publish it safely.
    atomicstorep(unsafe.Pointer(&allm), unsafe.Pointer(mp))
    unlock(&sched.lock)
 
    // Allocate memory to hold a cgo traceback if the cgo call crashes.
    if iscgo || GOOS == "solaris" || GOOS == "windows" {
        mp.cgoCallers = new(cgoCallers)
    }
}

下面继续调用procresize函数创建和初始化p结构体对象，这里只看和调度器初始化相关的部分：

func procresize(nprocsint32) *p {
    old := gomaxprocs
    ......
   // Grow allp if necessary.
   if nprocs > int32(len(allp)) { 
        // Synchronize with retake, which could be running
        // concurrently since it doesn't run on a P.
        lock(&allpLock)
        if nprocs <= int32(cap(allp)) {
            allp = allp[:nprocs]
        } else { 
            nallp:=make([]*p, nprocs)
            // Copy everything up to allp's cap so we
            // never lose old allocated Ps.
            copy(nallp, allp[:cap(allp)])
            allp=nallp
        }
        unlock(&allpLock)
    }
 
    // initialize new P's
    for i := int32(0); i= 0; i-- {
        p := allp[i]
        if _g_.m.p.ptr() == p {
            continue
        }
        p.status = _Pidle
        if runqempty(p) {
            pidleput(p)
        } else {
            ......
        }
    }
    ......
    return runnablePs
}

函数代码比较长，但并不复杂，总结一下这个函数的主要流程：

使用make([]*p, nprocs)初始化全局变量allp，即allp = make([]*p, nprocs)
循环创建并初始化nprocs个p结构体对象并依次保存在allp切片之中
把m0和allp[0]绑定在一起，即m0.p = allp[0], allp[0].m = m0
把除了allp[0]之外的所有p放入到全局变量sched的pidle空闲队列之中

到这里，调度器相关的初始化工作就基本结束了，这个时候整个调度器相关的各组成部分之间的联系如下图所示：

第一个goroutine,main goroutine的创建

go程序真正意义上的第一个goroutine，是用来跑runtime.main()函数的，由运行时代码生成，当调度器完成初始化时，schedinit完成调度系统初始化后，返回到rt0_go函数中开始调用newproc() 创建一个新的goroutine用于执行mainPC所对应的runtime·main函数.

# create a new goroutine to start program
MOVQ  $runtime·mainPC(SB), AX
PUSHQ  AX         
PUSHQ  $0
CALL  runtime·newproc(SB)
POPQ  AX
POPQ  AX

# start this M
CALL  runtime·mstart(SB) 

CALL  runtime·abort(SB)  // mstart should never return
RET

DATA  runtime·mainPC+0(SB)/8,$runtime·main(SB)
GLOB  Lruntime·mainPC(SB),RODATA,$8

下面看看runtime.newprocs函数：

func newproc(siz int32, fn *funcval) {
    argp := add(unsafe.Pointer(&fn), sys.PtrSize)

    gp:= getg() 
    
    pc := getcallerpc()
    
    systemstack(func() {
        newproc1(fn, (*uint8)(argp), siz, gp, pc)
    })
}

在当前goroutine函数栈上存放fn函数的地址的地址加8的位置存放的是fn函数的第一个参数，以此类推，因为fn要在接下来新创建的goroutine的函数栈上执行，所以要把fn的参数拷贝到新goroutine栈上，这就是为什么需要指定siz的缘故。而systemstack函数的作用是从当前栈切换到g0栈执行作为参数的函数.

接下来看newproc1函数：

// Create a new g running fn with narg bytes of arguments starting
// at argp. callerpc is the address of the go statement that created
// this. The new g is put on the queue of g's waiting to run.
func newproc1(fn *funcval, argp *uint8, narg int32, callergp *g, callerpc uintptr) {
    _g_ := getg()
    ......
    _p_ := _g_.m.p.ptr()
    newg := gfget(_p_)
    if newg == nil {
        newg = malg(_StackMin)
        casgstatus(newg, _Gidle, _Gdead) 
        allgadd(newg)  // publishes with a g->status of Gdead so GC scanner doesn't look at uninitialized stack.
    }
    ......
    totalSize := 4*sys.RegSize+uintptr(siz) +sys.MinFrameSize  // extra space in case of reads slightly beyond frame
    totalSize += -totalSize&(sys.SpAlign-1)                    // align to spAlign
    sp := newg.stack.hi-totalSize
    spArg := sp
    ......
    if narg > 0 {
        memmove(unsafe.Pointer(spArg), unsafe.Pointer(argp), uintptr(narg))
    }
    memclrNoHeapPointers(unsafe.Pointer(&newg.sched), unsafe.Sizeof(newg.sched))
    
    newg.sched.sp = sp
    newg.stktopsp = sp
   
    newg.sched.pc = funcPC(goexit) + sys.PCQuantum  // +PCQuantum so that previous instruction is in same function
    newg.sched.g = guintptr(unsafe.Pointer(newg))
 
    gostartcallfn(&newg.sched, fn)

    newg.gopc = callerpc 
    newg.ancestors = saveAncestors(callergp)
    newg.startpc = fn.fn
    ......
    casgstatus(newg, _Gdead, _Grunnable)
    ......
    runqput(_p_, newg, true)
    ......
}

newproc1函数首先在堆上按照_StackMin大小为新的goroutine申请了一块栈空间，然后设置新的goroutine的gobuf结构体对象的成员变量，这里需要注意的是pc的值一开始被设置成goexit函数的第二条指令的地址，是为了在gostartcallfn函数中调用gostartcall函数时伪装fn函数是被goexit函数调用的，使得goroutine中fn函数执行完毕后能够返回来goexit的第二条指令执行剩下的清理工作。

下面我把gostartcallfn和gostartcall函数列出来，你可以自己看一看他的实现：

// adjust Gobuf as if it executed a call to fn
// and then did an immediate gosave.
func gostartcallfn(gobuf *gobuf, fv *funcval) {
    var fn unsafe.Pointer
    if fv != nil {
       fn = unsafe.Pointer(fv.fn) 
    } else {
        fn = unsafe.Pointer(funcPC(nilfunc))
    }
    gostartcall(gobuf, fn, unsafe.Pointer(fv))
}

// adjust Gobuf as if it executed a call to fn with context ctxt
// and then did an immediate gosave.
func gostartcall(buf *gobuf, fn, ctxt unsafe.Pointer) {
    sp := buf.sp
    if sys.RegSize > sys.PtrSize {
        sp -= sys.PtrSize
        *(*uintptr)(unsafe.Pointer(sp)) = 0
    }
    sp -= sys.PtrSize
    *(*uintptr)(unsafe.Pointer(sp)) = buf.pc
    buf.sp = sp
    buf.pc = uintptr(fn)
    buf.ctxt = ctxt
}

这时，主线程状态大概如下图所示：

第一个goroutine,main goroutine的调度

从newproc返回到rt0_go，继续往下执行mstart：

func mstart() {
    _g_ := getg() 
 
    osStack := _g_.stack.lo == 0
    if osStack {
        // Initialize stack bounds from system stack.
        // Cgo may have left stack size in stack.hi.
        // minit may update the stack bounds.
        size := _g_.stack.hi
        if size == 0 {
            size = 8192 * sys.StackGuardMultiplier
        }
        _g_.stack.hi = uintptr(noescape(unsafe.Pointer(&size)))
        _g_.stack.lo = _g_.stack.hi - size + 1024
    }
    // Initialize stack guards so that we can start calling
    // both Go and C functions with stack growth prologues.
    _g_.stackguard0 = _g_.stack.lo + _StackGuard
    _g_.stackguard1 = _g_.stackguard0
     
    mstart1()
 
    // Exit this thread.
    if GOOS == "windows" || GOOS == "solaris" || GOOS == "plan9" || GOOS == "darwin" || GOOS == "aix" {
        // Window, Solaris, Darwin, AIX and Plan 9 always system-allocate
        // the stack, but put it in _g_.stack before mstart,
        // so the logic above hasn't set osStack yet.
        osStack = true
    }
    mexit(osStack)
}

主线程启动调度循环之时mstart基本就相当于调用mstart1函数，下面看mstart1函数：

func mstart1() {
    _g_ := getg() 

    if _g_ != _g_.m.g0 {
        throw("bad runtime·mstart")
    }
 
    // Record the caller for use as the top of stack in mcall and
    // for terminating the thread.
    // We're never coming back to mstart1 after we call schedule,
    // so other calls can reuse the current frame.
    save(getcallerpc(), getcallersp())
    asminit() 
    minit()  // 与信号相关的初始化
 
    // Install signal handlers; after minit so that minit can
    // prepare the thread to be able to handle the signals.
    if _g_.m == &m0 { 
        mstartm0()  // 信号相关的初始化
    }
 
    if fn := _g_.m.mstartfn; fn != nil { 
        fn()
    }
 
    if _g_.m != &m0 {
        acquirep(_g_.m.nextp.ptr())
        _g_.m.nextp = 0
    }
     
    // schedule函数永远不会返回
    schedule()
}

mstart1函数最重要的工作莫过于调用save函数把mstart函数调用mstart1函数时CALL指令压栈的返回地址保存在了g0.sched.pc里，把mstart函数调用mstart1函数时的栈顶地址保存在了g0.sched.sp里，这样g0每次被调用时都是从固定的sp和pc开始，重用g0的栈，使g0栈在调度循环中也不会溢出。下面可以自己看看save函数内部的代码：

func save(pc, sp uintptr) {
    _g_ := getg()
 
    _g_.sched.pc = pc 
    _g_.sched.sp = sp 
    _g_.sched.lr = 0
    _g_.sched.ret = 0
    _g_.sched.g = guintptr(unsafe.Pointer(_g_))
    // We need to ensure ctxt is zero, but can't have a write
    // barrier here. However, it should always already be zero.
    // Assert that.
    if _g_.sched.ctxt != nil {
        badctxt()
    }
}

save函数执行完成后，返回到mstart1继续其它跟m相关的一些初始化，完成这些初始化后则调用调度系统的核心函数schedule()完成goroutine的调度，之所以说它是核心，原因在于每次调度goroutine都是从schedule函数开始的：

func schedule() {
    _g_ := getg()  
    ......
    var gp *g 
    ...... 
    if gp == nil {
        // Check the global runnable queue once in a while to ensure fairness.
        // Otherwise two goroutines can completely occupy the local runqueue
        // by constantly respawning each other.
        if _g_.m.p.ptr().schedtick%61 == 0 && sched.runqsize > 0 {
            lock(&sched.lock)
            gp = globrunqget(_g_.m.p.ptr(), 1) 
            unlock(&sched.lock)
        }
    }
    if gp == nil {
        gp, inheritTime = runqget(_g_.m.p.ptr())
        if gp != nil && _g_.m.spinning {
            throw("schedule: spinning with local work")
        }
    }
    if gp == nil {
        gp, inheritTime = findrunnable() // blocks until work is available
    }
    .....
    execute(gp, inheritTime) 
}

schedule函数通过调用globrunqget()和runqget()函数分别从全局运行队列和当前工作线程的本地运行队列中选取下一个需要运行的goroutine，如果这两个队列都没有需要运行的goroutine则通过findrunnalbe()函数从其它p的运行队列中盗取goroutine，一旦找到下一个需要运行的goroutine，则调用excute函数从g0切换到该goroutine去运行，下面我们来看看execute函数是如何把从运行队列中找出来的goroutine调度到CPU上运行的：

func execute(gp *g, inheritTime bool) {
    _g_ := getg()
    casgstatus(gp, _Grunnable, _Grunning) 
    ......
    _g_.m.curg = gp
    gp.m = _g_.m
    ......
    gogo(&gp.sched)
}

execute函数将当前找到的goroutine的状态更改为_Grunning并与当前线程绑定的m绑定，然后调用gogo函数完成从g0到_g_.m.curg上的真正切换：

TEXT runtime·gogo(SB), NOSPLIT, $16-8
    #buf = &gp.sched
    MOVQ    buf+0(FP), BX     # BX = buf
    
    #gobuf->g --> dx register
    MOVQ    gobuf_g(BX), DX   # DX = gp.sched.g
    
    #下面这行代码没有实质作用，检查gp.sched.g是否是nil，如果是nil进程会crash死掉
    MOVQ    0(DX), CX         # make sure g != nil
    
    get_tls(CX) 
    
    #把要运行的g的指针放入线程本地存储，这样后面的代码就可以通过线程本地存储
    #获取到当前正在执行的goroutine的g结构体对象，从而找到与之关联的m和p
    MOVQ    DX, g(CX)
    
    #把CPU的SP寄存器设置为sched.sp，完成了栈的切换
    MOVQ    gobuf_sp(BX), SP  # restore SP
    
    #下面三条同样是恢复调度上下文到CPU相关寄存器
    MOVQ    gobuf_ret(BX), AX
    MOVQ    gobuf_ctxt(BX), DX
    MOVQ    gobuf_bp(BX), BP
    
    #清空sched的值，因为我们已把相关值放入CPU对应的寄存器了，不再需要，这样做可以少gc的工作量
    MOVQ    $0, gobuf_sp(BX)  # clear to help garbage collector
    MOVQ    $0, gobuf_ret(BX)
    MOVQ    $0, gobuf_ctxt(BX)
    MOVQ    $0, gobuf_bp(BX)
    
    #把sched.pc值放入BX寄存器
    MOVQ    gobuf_pc(BX), BX
    
    #JMP把BX寄存器的包含的地址值放入CPU的IP寄存器，于是，CPU跳转到该地址继续执行指令，
    JMP    BX

最终，CPU开始从runtime.mainPC的代码开始在main goroutine的栈上执行：

// The main goroutine.
func main() {
    g := getg() 
    ......
    // Max stack size is 1 GB on 64-bit, 250 MB on 32-bit.
    // Using decimal instead of binary GB and MB because
    // they look nicer in the stack overflow failure message.
    if sys.PtrSize == 8 {
        maxstacksize = 1000000000
    } else {
        maxstacksize = 250000000
    }
 
    // Allow newproc to start new Ms.
    mainStarted = true
 
    if GOARCH != "wasm" { // no threads on wasm yet, so no sysmon
        systemstack(func() {
            //创建监控线程，该线程独立于调度器，不需要跟p关联即可运行，我们后续再做分析
            newm(sysmon, nil)
        })
    } 
    ......
    //调用runtime包的初始化函数，由编译器实现
    runtime_init() // must be before defer
 
    // Record when the world started.
    runtimeInitTime = nanotime()
 
    gcenable()  //开启垃圾回收器
    ......
    // main包的初始化函数，也是由编译器实现，会递归的调用我们import进来的包的初始化函数
    fn := main_init  // make an indirect call, as the linker doesn't know the address of the main package when laying down the runtime
    fn()
    ...... 
    // 调用main.main函数
    fn = main_main // make an indirect call, as the linker doesn't know the address of the main package when laying down the runtime
    fn() 
    ......
    // 进入系统调用，退出进程，可以看出main goroutine并未返回，而是直接进入系统调用退出进程了
    exit(0)
     
    // 保护性代码，如果exit意外返回，下面的代码也会让该进程crash死掉
    for {
        var x *int32
        *x = 0
    }
}

从上述流程可以看出，runtime.main执行完main包的main函数之后就直接调用exit系统调用结束进程了，它并没有返回到调用它的函数，其实runtime.main是main goroutine的入口函数，并不是直接被调用的，而是在schedule()->execute()->gogo()这个调用链的gogo函数中用汇编代码直接跳转过来的，所以从这个角度来说，goroutine确实不应该返回，没有地方可返回啊！可是从前面的分析中我们得知，在创建goroutine的时候已经在其栈上放好了一个返回地址，伪造成goexit函数调用了goroutine的入口函数，这里怎么没有用到这个返回地址啊？其实那是为非main goroutine准备的，非main goroutine执行完成后就会返回到goexit继续执行，而main goroutine执行完成后整个进程就结束了，这是main goroutine与其它goroutine的一个区别，这时，主线程的状态大致如下：

非main goroutine的创建、退出以及调度循环

使用关键字go + func() {} 可以创建一个非main goroutine，相关步骤在这里就省略了，看看主要的，我们说main goroutine退出时会直接执行exit系统调用退出整个进程，而非main goroutine退出时则会进入goexit函数完成最后的清理工作，返回时直接返回到了goexit的第二条指令：CALL runtime·goexit1(SB)，该指令继续调用goexit1函数：

// Finishes execution of the current goroutine.
func goexit1() {
    if raceenabled { 
        racegoend()
    }
    if trace.enabled { 
        traceGoEnd()
    }
    mcall(goexit0)
}

goexit1函数通过调用mcall从当前运行的g2 goroutine切换到g0，然后在g0栈上调用和执行goexit0这个函数：

TEXT runtime·mcall(SB), NOSPLIT, $0-8
    # 取出参数的值放入DI寄存器，它是funcval对象的指针，此场景中fn.fn是goexit0的地址
    MOVQ  fn+0(FP), DI

    get_tls(CX)
    MOVQ  g(CX), AX  # AX = g，某个非main goroutine 

    # mcall返回地址放入BX
    MOVQ  0(SP), BX  # caller's PC

    # 保存g的调度信息，因为我们要从当前正在运行的g切换到g0
    MOVQ  BX, (g_sched+gobuf_pc)(AX)  # g.sched.pc = BX，保存g的rip
    LEAQ  fn+0(FP), BX                # caller's SP  
    MOVQ  BX, (g_sched+gobuf_sp)(AX)  # g.sched.sp = BX，保存g的rsp
    MOVQ  AX, (g_sched+gobuf_g)(AX)   # g.sched.g = g
    MOVQ  BP, (g_sched+gobuf_bp)(AX)  # g.sched.bp = BP，保存g的rbp

    # switch to m->g0 & its stack, call fn
    #下面三条指令主要目的是找到g0的指针
    MOVQ  g(CX), BX     # BX = g
    MOVQ  g_m(BX), BX   # BX = g.m
    MOVQ  m_g0(BX), SI  # SI = g.m.g0

    # 此刻，SI = g0， AX = g，所以这里在判断g是否是g0，如果g == g0则一定是哪里代码写错了
    CMPQ  SI, AX# if g == m->g0 call badmcall
    JNE  3(PC)
    MOVQ  $runtime·badmcall(SB), AX
    JMP  AX

    # 把g0的地址设置到线程本地存储之中
    MOVQ  SI, g(CX)

    # 恢复g0的栈顶指针到CPU的rsp积存，这一条指令完成了栈的切换，从g的栈切换到了g0的栈
    MOVQ  (g_sched+gobuf_sp)(SI), SP  # rsp = g0->sched.sp

    # AX = g
    PUSHQ  AX        # fn的参数g入栈 
    MOVQ  DI, DX     # DI是结构体funcval实例对象的指针，它的第一个成员才是goexit0的地址
    MOVQ  0(DI), DI  # 读取第一个成员到DI寄存器
    CALL  DI  #调用goexit0(g)
    POPQ  AX
    MOVQ  $runtime·badmcall2(SB), AX
    JMP  AX
    RET

从g栈切换到g0栈之后，下面开始在g0栈执行goexit0函数，该函数完成最后的清理工作：

func goexit0(gp*g) {
    _g_ := getg()  
 
    casgstatus(gp, _Grunning, _Gdead)
    if isSystemGoroutine(gp, false) {
        atomic.Xadd(&sched.ngsys, -1)
    }
    
    // 清空g保存的一些信息
    gp.m = nil
    locked := gp.lockedm != 0
    gp.lockedm = 0
    _g_.m.lockedg = 0
    gp.paniconfault = false
    gp._defer = nil  // should be true already but just in case.
    gp._panic = nil  // non-nil for Goexit during panic. points at stack-allocated data.
    gp.writebuf = nil
    gp.waitreason = 0
    gp.param = nil
    gp.labels = nil
    gp.timer = nil
    ......
    // Note that gp's stack scan is now "valid" because it has no stack.
    gp.gcscanvalid=true

    // g->m = nil, m->currg = nil 解绑g和m之关系
    dropg()
    ......

    // g放入p的freeg队列，方便下次重用，免得再去申请内存，提高效率
    gfput(_g_.m.p.ptr(), gp)
    ......

    schedule()
}

到这里这个非main goroutine的生命周期就结束了，工作线程再次调用了schedule函数进入新一轮的调度循环：

schedule()->execute()->gogo()->某个非main goroutine执行的函数->goexit()->goexit1()->mcall()->goexit0()->schedule()

调度策略

schedule函数分三步分别从各运行队列中寻找可运行的goroutine：

第一步，从全局运行队列中寻找goroutine。为了保证调度的公平性，每个工作线程每经过61次调度就需要优先尝试从全局运行队列中找出一个goroutine来运行，这样才能保证位于全局运行队列中的goroutine得到调度的机会。全局运行队列是所有工作线程都可以访问的，所以在访问它之前需要加锁。

第二步，从工作线程本地运行队列中寻找goroutine。如果不需要或不能从全局运行队列中获取到goroutine则从本地运行队列中获取。

第三步，从其它工作线程的运行队列中偷取goroutine。如果上一步也没有找到需要运行的goroutine，则调用findrunnable从其他工作线程的运行队列中偷取goroutine，findrunnable函数在偷取之前会再次尝试从全局运行队列和当前线程的本地运行队列中查找需要运行的goroutine。

从全局运行队列中获取goroutine的globrunqget函数：

// Try get a batch of G's from the global runnable queue.
// Sched must be locked.
func globrunqget(_p_ *p, max int32) *g {
    if sched.runqsize == 0 { 
        return nil
    }
 
    // 根据p的数量平分全局运行队列中的goroutines
    n := sched.runqsize / gomaxprocs + 1
    if n > sched.runqsize { 
        n = sched.runqsize
    }
    if max > 0 && n > max {
        n = max   
    }
    if n > int32(len(_p_.runq)) / 2 {
        n = int32(len(_p_.runq)) / 2  
    }
 
    sched.runqsize -= n
 
    // 直接通过函数返回gp，其它的goroutines通过runqput放入本地运行队列
    gp := sched.runq.pop()  
    n--
    for ; n > 0; n-- {
        gp1 := sched.runq.pop()  
        runqput(_p_, gp1, false)  
    }
    return gp
}

从工作线程本地运行队列中获取goroutine的runqget函数：

func runqget(_p_ *p) (gp *g, inheritTime bool) {
    // If there's a runnext, it's the next G to run.
    for {
        next := _p_.runnext 
        if next == 0 {
            break
        }
        if _p_.runnext.cas(next, 0) {
            return next.ptr(), true
        }
    }
 
    for {
        // load-acquire, synchronize with other consumers
        h := atomic.LoadAcq(&_p_.runqhead)
        t := _p_.runqtail
        if t == h {
            return nil, false
        }
        gp := _p_.runq[h%uint32(len(_p_.runq))].ptr()
        // cas-release, commits consume
        if atomic.CasRel(&_p_.runqhead, h, h+1) {
            return gp, false
        }
    }
}

这里首先需要注意的是不管是从runnext还是从循环队列中拿取goroutine都使用了cas操作，这里的cas操作是必需的，因为可能有其他工作线程此时此刻也正在访问这两个成员，从这里偷取可运行的goroutine。

其次，代码中对runqhead的操作使用了atomic.LoadAcq和atomic.CasRel，它们分别提供了load-acquire和cas-release语义。

对于atomic.LoadAcq来说，其语义主要包含如下几条：

原子读取，也就是说不管代码运行在哪种平台，保证在读取过程中不会有其它线程对该变量进行写入；
位于atomic.LoadAcq之后的代码，对内存的读取和写入必须在atomic.LoadAcq读取完成后才能执行，编译器和CPU都不能打乱这个顺序；
当前线程执行atomic.LoadAcq时可以读取到其它线程最近一次通过atomic.CasRel对同一个变量写入的值，与此同时，位于atomic.LoadAcq之后的代码，不管读取哪个内存地址中的值，都可以读取到其它线程中位于atomic.CasRel（对同一个变量操作）之前的代码最近一次对内存的写入。

对于atomic.CasRel来说，其语义主要包含如下几条：

原子的执行比较并交换的操作；
位于atomic.CasRel之前的代码，对内存的读取和写入必须在atomic.CasRel对内存的写入之前完成，编译器和CPU都不能打乱这个顺序；
线程执行atomic.CasRel完成后其它线程通过atomic.LoadAcq读取同一个变量可以读到最新的值，与此同时，位于atomic.CasRel之前的代码对内存写入的值，可以被其它线程中位于atomic.LoadAcq（对同一个变量操作）之后的代码读取到。

因为可能有多个线程会并发的修改和读取runqhead，以及需要依靠runqhead的值来读取runq数组的元素，所以需要使用atomic.LoadAcq和atomic.CasRel来保证上述语义。

我们可能会问，为什么读取p的runqtail成员不需要使用atomic.LoadAcq或atomic.load？因为runqtail不会被其它线程修改，只会被当前工作线程修改，此时没有人修改它，所以也就不需要使用原子相关的操作。

最后，由p的runq、runqhead和runqtail这三个成员组成的这个无锁循环队列非常精妙，我们会在后面的章节对这个循环队列进行分析。

从其它工作线程的运行队列偷取goroutine的findrunnable函数：

// Finds a runnable goroutine to execute.
// Tries to steal from other P's, get g from global queue, poll network.
func findrunnable() (gp *g, inheritTime bool) {
    _g_ := getg()
 
    // The conditions here and in handoffp must agree: if
    // findrunnable would return a G to run, handoffp must start
    // an M.
top:
    _p_ := _g_.m.p.ptr()
    ......

    // local runq
    if gp, inheritTime := runqget(_p_); gp != nil {
        return gp, inheritTime
    }
 
    // global runq
    if sched.runqsize != 0 {
        lock(&sched.lock)
        gp := globrunqget(_p_, 0)
        unlock(&sched.lock)
        if gp != nil {
            return gp, false
        }
    }
    ......

    // Steal work from other P's.
    procs := uint32(gomaxprocs)
    if atomic.Load(&sched.npidle) == procs-1 {
        // Either GOMAXPROCS=1 or everybody, except for us, is idle already.
        // New work can appear from returning syscall/cgocall, network or timers.
        // Neither of that submits to local run queues, so no point in stealing.
        goto stop
    }
    // If number of spinning M's >= number of busy P's, block.
    // This is necessary to prevent excessive CPU consumption
    // when GOMAXPROCS>>1 but the program parallelism is low.
    if !_g_.m.spinning && 2*atomic.Load(&sched.nmspinning) >= procs-atomic.Load(&sched.npidle) {
        goto stop
    }
    if !_g_.m.spinning {
        _g_.m.spinning = true
        atomic.Xadd(&sched.nmspinning, 1)
    }
     
    for i := 0; i < 4; i++ {
        for enum := stealOrder.start(fastrand()); !enum.done(); enum.next() {
            if sched.gcwaiting != 0 {
                goto top
            }
            stealRunNextG := i > 2 // first look for ready queues with more than 1 g
            if gp := runqsteal(_p_, allp[enum.position()], stealRunNextG); gp != nil {
                return gp, false
            }
        }
    }
 
stop:    
    ......
 
    // Before we drop our P, make a snapshot of the allp slice,
    // which can change underfoot once we no longer block
    // safe-points. We don't need to snapshot the contents because
    // everything up to cap(allp) is immutable.
    allpSnapshot := allp
 
    // return P and block
    lock(&sched.lock)
    ......
   
    if sched.runqsize != 0 {
        gp := globrunqget(_p_, 0)
        unlock(&sched.lock)
        return gp, false
    }
     
    if releasep() != _p_ {
        throw("findrunnable: wrong p")
    }
    pidleput(_p_)
    unlock(&sched.lock)
 
    // Delicate dance: thread transitions from spinning to non-spinning state,
    // potentially concurrently with submission of new goroutines. We must
    // drop nmspinning first and then check all per-P queues again (with
    // #StoreLoad memory barrier in between). If we do it the other way around,
    // another thread can submit a goroutine after we've checked all run queues
    // but before we drop nmspinning; as the result nobody will unpark a thread
    // to run the goroutine.
    // If we discover new work below, we need to restore m.spinning as a signal
    // for resetspinning to unpark a new worker thread (because there can be more
    // than one starving goroutine). However, if after discovering new work
    // we also observe no idle Ps, it is OK to just park the current thread:
    // the system is fully loaded so no spinning threads are required.
    // Also see "Worker thread parking/unparking" comment at the top of the file.
    wasSpinning := _g_.m.spinning
    if _g_.m.spinning {
        _g_.m.spinning = false
        if int32(atomic.Xadd(&sched.nmspinning, -1)) < 0 {
            throw("findrunnable: negative nmspinning")
        }
    }
 
    // check all runqueues once again
    for _, _p_ := range allpSnapshot {
        if !runqempty(_p_) {
            lock(&sched.lock)
            _p_ = pidleget()
            unlock(&sched.lock)
            if _p_ != nil {
                acquirep(_p_)
                if wasSpinning {
                    _g_.m.spinning = true
                    atomic.Xadd(&sched.nmspinning, 1)
                }
                goto top
            }
            break
        }
    } 
    ......

    stopm()
    goto top
}

从上面的代码可以看到，工作线程在放弃寻找可运行的goroutine而进入睡眠之前，会反复尝试从各个运行队列寻找需要运行的goroutine，可谓是尽心尽力了。这个函数需要重点注意以下两点：

第一点，工作线程M的自旋状态(spinning)。工作线程在从其它工作线程的本地运行队列中盗取goroutine时的状态称为自旋状态。从上面代码可以看到，当前M在去其它p的运行队列盗取goroutine之前把spinning标志设置成了true，同时增加处于自旋状态的M的数量，而盗取结束之后则把spinning标志还原为false，同时减少处于自旋状态的M的数量，从后面的分析我们可以看到，当有空闲P又有goroutine需要运行的时候，这个处于自旋状态的M的数量决定了是否需要唤醒或者创建新的工作线程。

第二点，盗取算法。盗取过程用了两个嵌套for循环。内层循环实现了盗取逻辑，从代码可以看出盗取的实质就是遍历allp中的所有p，查看其运行队列是否有goroutine，如果有，则取其一半到当前工作线程的运行队列，然后从findrunnable返回，如果没有则继续遍历下一个p。但这里为了保证公平性，遍历allp时并不是固定的从allp[0]即第一个p开始，而是从随机位置上的p开始，而且遍历的顺序也随机化了，并不是现在访问了第i个p下一次就访问第i+1个p，而是使用了一种伪随机的方式遍历allp中的每个p，防止每次遍历时使用同样的顺序访问allp中的元素。盗取算法比较复杂，目前仍没有完全弄懂，需后续进一步研究，这里先大致给出这个算法的伪代码：

offset := uint32(random()) % nprocs
coprime := 随机选取一个小于nprocs且与nprocs互质的数
for i := 0; i < nprocs; i++ {
    p := allp[offset]
    从p的运行队列偷取goroutine
    if 偷取成功 {
        break
    }
    offset += coprime
    offset = offset % nprocs
}

不管nprocs是多少，这个算法都可以保证经过nprocs次循环，每个p都可以得到访问。

挑选出盗取的对象p之后，则调用runqsteal盗取p的运行队列中的goroutine，runqsteal函数再调用runqgrap从p的队列中批量拿出多个goroutine：

func runqgrab(_p_ *p, batch *[256]guintptr, batchHead uint32, stealRunNextG bool) uint32 {
    for {
        h := atomic.LoadAcq(&_p_.runqhead)  // load-acquire, synchronize with other consumers
        t := atomic.LoadAcq(&_p_.runqtail)  // load-acquire, synchronize with the producer
        n := t - h       
        n = n - n/2    
        if n == 0 {
            ......
            return ......
        }

        if n > uint32(len(_p_.runq)/2) {  // read inconsistent h and t
            continue
        }
        ......
    }
}

回到findrunnable函数，如果工作线程经过多次努力一直找不到需要运行的goroutine则调用stopm进入睡眠状态，等待被其它工作线程唤醒。

// Stops execution of the current m until new work is available.
// Returns with acquired P.
func stopm() {
   _g_ := getg()
 
   if _g_.m.locks != 0 {
      throw("stopm holding locks")
   }
   if _g_.m.p != 0 {
      throw("stopm holding p")
   }
   if _g_.m.spinning {
      throw("stopm spinning")
   }
 
   lock(&sched.lock)
   mput(_g_.m)   
   unlock(&sched.lock)
   notesleep(&_g_.m.park)  
   
   noteclear(&_g_.m.park)
   acquirep(_g_.m.nextp.ptr())
   _g_.m.nextp = 0
}

stopm的核心是调用mput把m结构体对象放入sched的midle空闲队列，然后通过notesleep(&m.park)函数让自己进入睡眠状态。

note是go runtime实现的一次性睡眠和唤醒机制，一个线程可以通过调用notesleep(*note)进入睡眠状态，而另外一个线程则可以通过notewakeup(*note)把其唤醒。note的底层实现机制跟操作系统相关，不同系统使用不同的机制，比如linux下使用的futex系统调用，而mac下则是使用的pthread_cond_t条件变量，note对这些底层机制做了一个抽象和封装，这种封装给扩展性带来了很大的好处，比如当睡眠和唤醒功能需要支持新平台时，只需要在note层增加对特定平台的支持即可，不需要修改上层的任何代码。

回到stopm，当从notesleep函数返回后，需要再次绑定一个p，然后返回到findrunnable函数继续重新寻找可运行的goroutine，一旦找到可运行的goroutine就会返回到schedule函数，并把找到的goroutine调度起来运行。下面看看notesleep函数的实现：

func notesleep(n *note) {
    gp := getg()
    if gp != gp.m.g0 {
        throw("notesleep not on g0")
    }
    ns := int64(-1)  // 超时时间设置为-1，表示无限期等待
    if *cgo_yield != nil {
        // Sleep for an arbitrary-but-moderate interval to poll libc interceptors.
        ns = 10e6
    }
   
    // 使用循环，保证不是意外被唤醒
    for atomic.Load(key32(&n.key)) == 0 {
        gp.m.blocked = true
        futexsleep(key32(&n.key), 0, ns)
        if *cgo_yield != nil {
            asmcgocall(*cgo_yield, nil)
        }
        gp.m.blocked = false
    }
}

notesleep函数调用futexsleep进入睡眠，这里之所以需要用一个循环，是因为futexsleep有可能意外从睡眠中返回，所以从futexsleep函数返回后还需要检查note.key是否还是0，如果是0则表示并不是其它工作线程唤醒了我们，只是futexsleep意外返回了，需要再次调用futexsleep进入睡眠。

futexsleep调用futex函数进入睡眠：

// Atomically,
// if(*addr == val) sleep
// Might be woken up spuriously; that's allowed.
// Don't sleep longer than ns; ns < 0 means forever.
// go:nosplit
func futexsleep(addr *uint32, val uint32, ns int64) {
    var ts timespec
 
    // Some Linux kernels have a bug where futex of
    // FUTEX_WAIT returns an internal error code
    // as an errno. Libpthread ignores the return value
    // here, and so can we: as it says a few lines up,
    // spurious wakeups are allowed.
    if ns < 0 {
        futex(unsafe.Pointer(addr), _FUTEX_WAIT_PRIVATE, val, nil, nil, 0)
        return
    }
 
    // It's difficult to live within the no-split stack limits here.
    // On ARM and 386, a 64-bit divide invokes a general software routine
    // that needs more stack than we can afford. So we use timediv instead.
    // But on real 64-bit systems, where words are larger but the stack limit
    // is not, even timediv is too heavy, and we really need to use just an
    // ordinary machine instruction.
    if sys.PtrSize == 8 {
        ts.set_sec(ns / 1000000000)
        ts.set_nsec(int32(ns % 1000000000))
    } else {
        ts.tv_nsec = 0
        ts.set_sec(int64(timediv(ns, 1000000000, (*int32)(unsafe.Pointer(&ts.tv_nsec)))))
    }
    futex(unsafe.Pointer(addr), _FUTEX_WAIT_PRIVATE, val, unsafe.Pointer(&ts), nil, 0)
}

futex是go汇编实现的函数，主要功能就是执行futex系统调用进入操作系统内核进行睡眠：

// int64 futex(int32 *uaddr, int32 op, int32 val,
// struct timespec *timeout, int32 *uaddr2, int32 val2);
TEXT runtime·futex(SB),NOSPLIT,$0
    MOVQ    addr+0(FP), DI
    MOVL    op+8(FP), SI
    MOVL    val+12(FP), DX
    MOVQ    ts+16(FP), R10
    MOVQ    addr2+24(FP), R8
    MOVL    val3+32(FP), R9
    
    MOVL    $SYS_futex, AX   
    SYSCALL 
    MOVL    AX, ret+40(FP)    
    RET

futex系统调用为我们提供的功能为如果 *uaddr == val 则进入睡眠，否则直接返回。顺便说一下，为什么futex系统调用需要第三个参数val，需要在内核判断*uaddr与val是否相等，而不能在用户态先判断它们是否相等，如果相等才进入内核睡眠岂不是更高效？原因在于判断*uaddr与val是否相等和进入睡眠这两个操作必须是一个原子操作，否则会存在一个竞态条件：如果不是原子操作，则当前线程在第一步判断完*uaddr与val相等之后进入睡眠之前的这一小段时间内，有另外一个线程通过唤醒操作把*uaddr的值修改了，这就会导致当前工作线程永远处于睡眠状态而无人唤醒它。而在用户态无法实现判断与进入睡眠这两步为一个原子操作，所以需要内核来为其实现原子操作。

stopm调用notesleep时给它传递的参数是m结构体的park成员，而m又早已通过mput放入了全局的milde空闲队列，这样其它运行着的线程一旦发现有更多的goroutine需要运行时就可以通过全局的m空闲队列找到处于睡眠状态的m，然后调用notewakeup(&m.park)将其唤醒。

调度时机

go语言的调度器会在以下三种情况下对goroutine进行调度：

1）goroutine执行某个操作因条件不满足需要等待而发生的调度；

2）goroutine主动调用Gosched()函数让出CPU而发生的调度；

3）goroutine运行时间太长或长时间处于系统调用之中而被调度器剥夺运行权而发生的调度。

第一种情况是被动调度，以一个demo程序为例来分析因阻塞而发生的被动调度：

package main
 
func start(l chan string) {
    l <- "tx"
}
 
func main() {
    l := make(chan string)
 
    go start(l)
 
    <- l
}

创建goroutine的go关键字会被编译器翻译成了对runtime.newproc函数的调用：

1）切换到g0栈；

2）分配g结构体对象；

3）初始化g对应的栈信息，并把参数拷贝到新g的栈上；

4）设置好g的sched成员，该成员包括调度g时所必须pc, sp, bp等调度信息；

5）调用runqput函数把g放入运行队列；

6）返回

// runqput tries to put g on the local runnable queue.
// If next is false, runqput adds g to the tail of the runnable queue.
// If next is true, runqput puts g in the _p_.runnext slot.
// If the run queue is full, runnext puts g on the global queue.
// Executed only by the owner P.
func runqput(_p_ *p, gp *g, next bool)   {
    if randomizeScheduler && next && fastrand() % 2 == 0  {
        next = false
    }
 
    if next  {
    retryNext:
        oldnext := _p_.runnext
        if !_p_.runnext.cas(oldnext, guintptr(unsafe.Pointer(gp)))  {
            goto retryNext
        }
        if oldnext == 0  { 
            return
        }
        // Kick the old runnext out to the regular run queue.
        gp = oldnext.ptr() 
    }
 
retry:
    h := atomic.LoadAcq(&_p_.runqhead) // load-acquire, synchronize with consumers
    t := _p_.runqtail
    if t - h < uint32(len(_p_.runq))  {
        _p_.runq[t % uint32(len(_p_.runq))].set(gp)
        
        // store-release, makes it available for consumption
        // 虽然没有其它线程并发修改这个runqtail，但其它线程会并发读取该值以及p的runq成员
        // 这里使用StoreRel是为了：
        // 1）原子写入runqtail
        // 2）防止编译器和CPU乱序，保证上一行代码对runq的修改发生在修改runqtail之前
        // 3）可见行屏障，保证当前线程对运行队列的修改对其它线程立马可见
        atomic.StoreRel(&_p_.runqtail, t + 1)
        return
    }
    if runqputslow(_p_, gp, h, t) {
        return
    }

    // the queue is not full, now the put above must succeed
    goto retry
}

runqput函数流程很清晰，它首先尝试把gp放入_p_的本地运行队列，如果本地队列满了，则通过runqputslow函数把gp放入全局运行队列：

// Put g and a batch of work from local runnable queue on global queue.
// Executed only by the owner P.
func runqputslow(_p_ *p, gp *g, h, t uint32) bool  {
    var batch [len(_p_.runq) / 2 + 1]*g  //gp加上_p_本地队列的一半
 
    // First, grab a batch from local queue.
    n := t - h
    n = n / 2
    if n != uint32(len(_p_.runq) / 2)  {
        throw("runqputslow: queue is not full")
    }

    // 取出p本地队列的一半
    for i := uint32(0); i < n; i++ { 
        batch[i] = _p_.runq[(h+i) % uint32(len(_p_.runq))].ptr()
    }

    // 如果cas操作失败，说明已经有其它工作线程从_p_的本地运行队列偷走了一些goroutine，所以直接返回
    if !atomic.CasRel(&_p_.runqhead, h, h + n)  { // cas-release, commits consume
        return false
    }
    batch[n] = gp
 
    if randomizeScheduler {
        for i := uint32(1); i <= n; i++ {
            j := fastrandn(i + 1)
            batch[i], batch[j] = batch[j], batch[i]
        }
    }
 
    // Link the goroutines.
    // 全局运行队列是一个链表，这里首先把所有需要放入全局运行队列的g链接起来，
    // 减少后面对全局链表的锁住时间，从而降低锁冲突
    for i := uint32(0); i < n; i++  {
        batch[i].schedlink.set(batch[i+1])
    }
    var q gQueue
    q.head.set(batch[0])
    q.tail.set(batch[n])
 
    // Now put the batch on global queue.
    lock(&sched.lock)
    globrunqputbatch(&q, int32(n+1))
    unlock(&sched.lock)
    return true
}

runqputslow函数首先使用链表把从_p_的本地队列中取出的一半连同gp一起串联起来，然后在加锁成功之后通过globrunqputbatch函数把该链表链入全局运行队列。

接下来继续分析main goroutine因读取channel而发生的阻塞流程，读取channel是通过调用runtime.chanrecv1函数来完成的：

// entry points for <- c from compiled code
//go:nosplit
func chanrecv1(c *hchan, elem unsafe.Pointer) {
    chanrecv(c, elem, true)
}
 
// runtime/chan.go : 415
func chanrecv(c *hchan, ep unsafe.Pointer, block bool) (selected, received bool) {
    ......
    //省略部分的代码逻辑主要在判断读取操作是否可以立即完成，如果不能立即完成
    //就需要把g挂在channel l的读取队列上，然后调用goparkunlock函数阻塞此goroutine
    goparkunlock(&c.lock, waitReasonChanReceive, traceEvGoBlockRecv, 3)
    ......
}

chanrecv1直接调用chanrecv函数实现读取操作，chanrecv首先会判断channel是否有数据可读，如果有数据则直接读取并返回，但如果没有数据，则需要把当前goroutine挂入channel的读取队列之中并调用goparkunlock函数阻塞该goroutine：

// Puts the current goroutine into a waiting state and unlocks the lock.
// The goroutine can be made runnable again by calling goready(gp).
func goparkunlock(lock*mutex, reasonwaitReason, traceEvbyte, traceskipint) {
    gopark(parkunlock_c, unsafe.Pointer(lock), reason, traceEv, traceskip)
}
 
// runtime/proc.go : 276
// Puts the current goroutine into a waiting state and calls unlockf.
// If unlockf returns false, the goroutine is resumed.
// unlockf must not access this G's stack, as it may be moved between
// the call to gopark and the call to unlockf.
// Reason explains why the goroutine has been parked.
// It is displayed in stack traces and heap dumps.
// Reasons should be unique and descriptive.
// Do not re-use reasons, add new ones.
func gopark(unlockffunc(*g, unsafe.Pointer) bool, lockunsafe.Pointer, reason    waitReason, traceEvbyte, traceskipint) {
    ......
    // can't do anything that might move the G between Ms here.
    mcall(park_m) // 切换到g0栈执行park_m函数
}

goparkunlock函数直接调用gopark函数，gopark则调用mcall从当前main goroutine切换到g0去执行park_m函数：

// park continuation on g0.
func park_m(gp*g) {
    _g_ := getg()
 
    if trace.enabled {
        traceGoPark(_g_.m.waittraceev, _g_.m.waittraceskip)
    }
 
    casgstatus(gp, _Grunning, _Gwaiting)
    dropg()  // 解除g和m之间的关系
    ......
    
    schedule()
}

park_m首先把当前goroutine的状态设置为_Gwaiting，然后调用dropg函数解除g和m之间的关系，最后通过调用schedule函数进入调度循环，因为main goroutine在读取channel被阻塞之前已经把创建好的g2（执行start函数的goroutine）放入了运行队列，所以在这里schedule会把g2调度起来运行，这里完成了一次从main goroutine到g2调度。

g2 goroutine的入口是start函数，下面我们就从该函数开始分析g2写channel的流程，看它如何唤醒正在等待着读取channel的main goroutine，编译器会把对channel的发送操作翻译成了对runtime.chansend1函数的调用：

func chansend1(c *hchan, elem unsafe.Pointer) {
    chansend(c, elem, true, getcallerpc())
}
 
// runtime/chan.go
func chansend(c *hchan, ep unsafe.Pointer, block bool, callerpc uintptr) bool {
    ......
    if sg := c.recvq.dequeue(); sg != nil {
        // Found a waiting receiver. We pass the value we want to send
        // directly to the receiver, bypassing the channel buffer (if any).
        send(c, sg, ep, func() { unlock(&c.lock) }, 3)
        return true
    }
    ......
}
 
func send(c *hchan, sg *sudog, ep unsafe.Pointer, unlockf func(), skip int) {
    ......
    goready(gp, skip+1)
}
 
func goready(gp *g, traceskip int) {
    systemstack(func() {
        ready(gp, traceskip, true)
    })
}

channel发送和读取的流程类似，如果能够立即发送则立即发送并返回，如果不能立即发送则需要阻塞，在我们这个场景中，因为main goroutine此时此刻正挂在channel的读取队列上等待数据，所以这里直接调用send函数发送给main goroutine，send函数则调用goready函数切换到g0栈并调用ready函数来唤醒sg对应的goroutine，即正在等待读channel的main goroutine。

// Mark gp ready to run.
func ready(gp *g, traceskip int, next bool) {
    ......
    // Mark runnable.
    _g_ := getg()
    ......
    // status is Gwaiting or Gscanwaiting, make Grunnable and put on runq
    casgstatus(gp, _Gwaiting, _Grunnable)
    runqput(_g_.m.p.ptr(), gp, next) 
    if atomic.Load(&sched.npidle) != 0 && atomic.Load(&sched.nmspinning) == 0 {
        wakep()
    }
    ......
}

ready函数首先把需要唤醒的goroutine的状态设置为_Grunnable，然后把其放入运行队列之中等待调度器的调度。

执行到这里main goroutine已经被放入了运行队列，但还未被调度起来运行，而g2 goroutine在向channel写完数据之后就从这里的ready函数返回并退出了，在g2的退出过程中将会在goexit0函数中调用schedule函数进入下一轮调度，从而把刚刚放入运行队列的main goroutine调度起来运行。

为了充分利用CPU，ready函数在唤醒goroutine之后会去判断是否需要启动新工作线程出来工作，判断规则是，如果当前有空闲的p而且没有工作线程正在尝试从各个工作线程的本地运行队列偷取goroutine的话（没有处于spinning状态的工作线程），那么就需要把空闲的p唤醒起来工作，唤醒空闲的p是由wakep函数完成的：

func wakep() {
    // be conservative about spinning threads
    if !atomic.Cas(&sched.nmspinning, 0, 1) {
        return
    }
    startm(nil, true)
}

如cas操作成功，则继续调用startm创建一个新的或唤醒一个处于睡眠状态的工作线程出来工作：

func startm(_p_ *p, spinning bool) {
    lock(&sched.lock)
    // 没有指定p的话需要从p的空闲队列中获取一个p
    if _p_ == nil { 
        // 从p的空闲队列中获取空闲p
        _p_ = pidleget()
        if _p_ == nil {
            unlock(&sched.lock)
            if spinning {
                // The caller incremented nmspinning, but there are no idle Ps,
                // so it's okay to just undo the increment and give up.
                // spinning为true表示进入这个函数之前已经对sched.nmspinning加了1，需要还原
                if int32(atomic.Xadd(&sched.nmspinning, -1)) < 0 {
                    throw("startm: negative nmspinning")
                }
            }
            return
        }
    }

    // 从m空闲队列中获取正处于睡眠之中的工作线程，所有处于睡眠状态的m都在此队列中
    mp := mget() 
    unlock(&sched.lock)
    if mp == nil {
        var fn func()
        if spinning {
            // The caller incremented nmspinning, so set m.spinning in the new M.
            fn = mspinning
        }
        // 创建新的工作线程
        newm(fn, _p_) 
        return
    }
    if mp.spinning {
        throw("startm: m is spinning")
    }
    if mp.nextp != 0 {
        throw("startm: m has p")
    }
    if spinning && !runqempty(_p_) {
        throw("startm: p has runnable gs")
    }
    // The caller incremented nmspinning, so set m.spinning in the new M.
    mp.spinning = spinning
    mp.nextp.set(_p_)
    
    // 唤醒处于休眠状态的工作线程
    notewakeup(&mp.park)
}

startm函数首先判断是否有空闲的p结构体对象，如果没有则直接返回，如果有则需要创建或唤醒一个工作线程出来与之绑定，从这里可以看出所谓的唤醒p，其实就是把空闲的p利用起来。

在确保有可以绑定的p对象之后，startm函数首先尝试从m的空闲队列中查找正处于休眠状态的工作线程，如果找到则通过notewakeup函数唤醒它，否则调用newm函数创建一个新的工作线程出来。

func notewakeup(n *note) {
    // 设置n.key = 1, 被唤醒的线程通过查看该值是否等于1来确定是被其它线程唤醒还是意外从睡眠中苏醒
    old := atomic.Xchg(key32(&n.key), 1) 
    if old != 0 {
        print("notewakeup - double wakeup (", old, ")\n")
        throw("notewakeup - double wakeup")
    }
    // 调用futexwakeup唤醒
    futexwakeup(key32(&n.key), 1)
}

notewakeup函数首先使用atomic.Xchg设置note.key值为1，这是为了使被唤醒的线程可以通过查看该值是否等于1来确定是被其它线程唤醒还是意外从睡眠中苏醒了过来，如果该值为1则表示是被唤醒的，可以继续工作了，但如果该值为0则表示是意外苏醒，需要再次进入睡眠。

把note.key的值设置为1后，notewakeup函数继续调用futexwakeup函数：

func futexwakeup(addr *uint32, cnt uint32) {
    // 调用futex函数唤醒工作线程
    ret := futex(unsafe.Pointer(addr), _FUTEX_WAKE_PRIVATE, cnt, nil, nil, 0)
    if ret >= 0 {
        return
    }
 
    // I don't know that futex wakeup can return
    // EAGAIN or EINTR, but if it does, it would be
    // safe to loop and call futex again.
    systemstack(func() {
        print("futexwakeup addr=", addr, " returned ", ret, "\n")
    })
 
    *(*int32)(unsafe.Pointer(uintptr(0x1006))) = 0x1006
}

对于Linux平台来说，工作线程通过note睡眠其实是通过futex系统调用睡眠在内核之中，所以唤醒处于睡眠状态的线程也需要通过futex系统调用进入内核来唤醒，所以这里的futexwakeup又继续调用包装了futex系统调用的futex函数来实现唤醒睡眠在内核中的工作线程：

TEXT runtime·futex(SB),NOSPLIT,$0
    MOVQ  addr+0(FP), DI  #这6条指令在为futex系统调用准备参数
    MOVL  op+8(FP), SI
    MOVL  val+12(FP), DX
    MOVQ  ts+16(FP), R10
    MOVQ  addr2+24(FP), R8
    MOVL  val3+32(FP), R9
    MOVL  $SYS_futex, AX  #futex系统调用编号放入AX寄存器
    SYSCALL  #系统调用，进入内核
    MOVL  AX, ret+40(FP)  #系统调用通过AX寄存器返回返回值，这里把返回值保存到内存之中
    RET

futex函数由汇编代码写成，前面的几条指令都在为futex系统调用准备参数，参数准备完成之后则通过SYSCALL指令进入操作系统内核完成线程的唤醒功能，内核在完成唤醒工作之后当前工作线程则从内核返回到futex函数继续执行SYSCALL指令之后的代码并按函数调用链原路返回，继续执行其它代码，而被唤醒的工作线程则由内核负责在适当的时候调度到CPU上运行。

回到startm函数，如没有正处于休眠状态的工作线程，则需要调用newm函数新建一个工作线程：

func newm(fn func(), _p_ *p) {
    mp := allocm(_p_, fn)
    mp.nextp.set(_p_)
    ......
    newm1(mp)
}

newm首先调用allocm函数从堆上分配一个m结构体对象，然后调用newm1函数：

func newm1(mp *m) {
      .......
      execLock.rlock()  // Prevent process clone.
      newosproc(mp)
      execLock.runlock()
}

newm1继续调用newosproc函数，newosproc的主要任务是调用clone函数创建一个系统线程，而新建的这个系统线程将从mstart函数开始运行：

//clone系统调用的Flags选项
cloneFlags = _CLONE_VM | /* share memory */  //指定父子线程共享进程地址空间
  _CLONE_FS | /* share cwd, etc */
  _CLONE_FILES | /* share fd table */
  _CLONE_SIGHAND | /* share sig handler table */
  _CLONE_SYSVSEM | /* share SysV semaphore undo lists (see issue #20763) */
  _CLONE_THREAD /* revisit - okay for now */  //创建子线程而不是子进程

func newosproc(mp *m) {
    stk := unsafe.Pointer(mp.g0.stack.hi)                   
    ......
    ret := clone(cloneFlags, stk, unsafe.Pointer(mp), unsafe.Pointer(mp.g0),         unsafe.Pointer(funcPC(mstart)))
    ......
}

clone函数是由汇编语言实现的，该函数使用clone系统调用完成创建系统线程的核心功能。我们分段来看：

// int32 clone(int32 flags, void *stk, M *mp, G *gp, void (*fn)(void));
TEXT runtime·clone(SB),NOSPLIT,$0
    MOVL  flags+0(FP), DI
    MOVQ  stk+8(FP), SI  
    MOVQ  $0, DX       
    MOVQ  $0, R10        

    // Copy mp, gp, fn off parent stack for use by child.
    // Careful:Linux system call clobbers CXand R11.
    MOVQ  mp+16(FP), R8
    MOVQ  gp+24(FP), R9
    MOVQ  fn+32(FP), R12

    MOVL  $SYS_clone, AX
    SYSCALL

clone函数首先用了4条指令为clone系统调用准备参数，该系统调用一共需要四个参数，根据Linux系统调用约定，这四个参数需要分别放入rdi， rsi，rdx和r10寄存器中，这里最重要的是第一个参数和第二个参数，分别用来指定内核创建线程时需要的选项和新线程应该使用的栈。因为即将被创建的线程与当前线程共享同一个进程地址空间，所以这里必须为子线程指定其使用的栈，否则父子线程会共享同一个栈从而造成混乱，从上面的newosproc函数可以看出，新线程使用的栈为m.g0.stack.lo～m.g0.stack.hi这段内存，而这段内存是newm函数在创建m结构体对象时从进程的堆上分配而来的。

准备好系统调用的参数之后，还有另外一件很重的事情需要做，那就是把clone函数的其它几个参数（mp, gp和线程入口函数）保存到寄存器中，之所以需要在系统调用之前保存这几个参数，原因在于这几个参数目前还位于父线程的栈之中，而一旦通过系统调用把子线程创建出来之后，子线程将会使用我们在clone系统调用时给它指定的栈，所以这里需要把这几个参数先保存到寄存器，等子线程从系统调用返回后直接在寄存器中获取这几个参数。这里要注意的是虽然这个几个参数值保存在了父线程的寄存器之中，但创建子线程时，操作系统内核会把父线程的所有寄存器帮我们复制一份给子线程，所以当子线程开始运行时就能拿到父线程保存在寄存器中的值，从而拿到这几个参数。这些准备工作完成之后代码调用syscall指令进入内核，由内核帮助我们创建系统线程。clone系统调用完成后实际上就多了一个操作系统线程，新创建的子线程和当前线程都得从系统调用返回然后继续执行后面的代码，那么从系统调用返回之后我们怎么知道哪个是父线程哪个是子线程，从而来决定它们的执行流程？使用过fork系统调用的读者应该知道，我们需要通过返回值来判断父子线程，系统调用的返回值如果是0则表示这是子线程，不为0则表示这个是父线程。用go代码来描述大概就是这个样子：

if clone(...) == 0 { // 子线程
    子线程代码
} else { // 父线程
    父线程代码
}

虽然这里只有一次clone调用，但它却返回了2次，一次返回到父线程，一次返回到子线程，然后2个线程各自执行自己的代码流程。

回到clone函数，下面代码的第一条指令就在判断系统调用的返回值，如果是子线程则跳转到后面的代码继续执行，如果是父线程，它创建子线程的任务已经完成，所以这里把返回值保存在栈上之后就直接执行ret指令返回到newosproc函数了。

CMPQ  AX, $0          # 判断clone系统调用的返回值
JEQ   3(PC)           # 跳转到子线程部分
MOVL  AX, ret+40(FP)  # 父线程需要执行的指令
RET                   # 父线程需要执行的指令

而对于子线程来说，还有很多初始化工作要做，下面是子线程需要继续执行的指令：

    # In child, on new stack.
    MOVQ  SI, SP  # 设置CPU栈顶寄存器指向子线程的栈顶

    # If g or m are nil, skip Go-related setup.
    CMPQ  R8, $0  # m，新创建的m结构体对象的地址，由父线程保存在R8寄存器中的值被复制到了子线程
    JEQ  nog
    CMPQ  R9, $0  # g，m.g0的地址，由父线程保存在R9寄存器中的值被复制到了子线程
    JEQ  nog

    # Initialize m->procid to Linux tid
    MOVL  $SYS_gettid, AX  # 通过gettid系统调用获取线程ID（tid）
    SYSCALL
    MOVQ  AX, m_procid(R8)  # m.procid = tid

    # Set FS to point at m->tls.
    # 新线程刚刚创建出来，还未设置线程本地存储，即m结构体对象还未与工作线程关联起来，
    # 下面的指令负责设置新线程的TLS，把m对象和工作线程关联起来
    LEAQ  m_tls(R8), DI  # 取m.tls字段的地址
    CALL  runtime·settls(SB)

    #In child, set up new stack
    get_tls(CX)
    MOVQ  R8, g_m(R9)  # g.m = m 
    MOVQ  R9, g(CX)  # tls.g = &m.g0
    CALL  runtime·stackcheck(SB)

nog:
    # Call fn
    CALL  R12  # 这里调用mstart函数
    ......

这段代码的第一条指令把CPU寄存器的栈顶指针设置为新线程的的栈顶，这条指令看起来是多余的，因为我们在clone系统调用时已经把栈信息告诉操作系统了，操作系统在把新线程调度起来运行时已经帮我们把CPU的rsp寄存器设置好了，这里应该没必要自己去设置。接下来的4条指令判断m和g是否为nil，如果是则直接去执行fn函数，对于我们这个流程来说，因为现在正在创建工作线程，所以m和g（其实是m.g0）都不为空，因而需要继续对m进行初始化。

对新创建出来的工作线程的初始化过程从上面代码片段的第6条指令开始，它首先通过系统调用获取到子线程的线程id，并赋值给m.procid，然后调用settls设置线程本地存储并通过把m.g0的地址放入线程本地存储之中，从而实现了m结构体对象与工作线程之间的关联，settls函数我们已经在第二章详细分析过，所以这里直接跳过。

新工作线程的初始化完成之后，便开始执行mstart函数，我们在第二章也见过该函数，主线程初始化完成之后也是调用的它。回忆一下，mstart函数首先会去设置m.g0的stackguard成员，然后调用mstart1()函数把当前工作线程的g0的调度信息保存在m.g0.sched成员之中，最后通过调用schedule函数进入调度循环。

你可能感兴趣的:(go语言调度器的一些学习笔记,golang,开发语言,后端)

力扣练习之递增的三元子序列飘去数星星力扣练习题 leetcode 算法数据结构
题目：给你一个整数数组nums，判断这个数组中是否存在长度为3的递增子序列。如果存在这样的三元组下标(i,j,k)且满足ires(len);vectorl(len),r(len);for(inti=0;inums[j])?nums[j]:l[i];}for(intj=i+1;j=0;i--){rightMax[i]=Math.max(rightMax[i+1],nums[i]);}for(inti
力扣练习之盛最多水的容器飘去数星星力扣练习题 leetcode 算法职场和发展
这道题其实最简单的方法是用双重循环，但它有一个坏处是时间复杂度非常高，O(n²）,所以会超时，为了改良时间复杂度，所以采用了双指针的办法来进行解决题目：给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。用双指针的话，分别用l
Linux（2） yi个名字 linux 运维服务器
Linux权限管理1.用户类型超级用户（root）：可以做任何事情，不受限制，命令提示符为“#”。普通用户：只能做有限的事情，命令提示符为“$”。2.文件访问权限文件访问者分类：所有者（u）、所有者所在组的用户（g）、其他用户（o）。文件类型：包括普通文件（-）、目录（d）、软链接（l）、块设备文件（b）、管道文件（p）、字符设备文件（c）、套接字文件（s）。基本权限：读（r）、写（w）、执行（x
类和对象（上） yi个名字 c++开发语言
1.类的定义在C++中，类（class）是面向对象编程的基本构建块。它用于定义一种数据类型，该数据类型可以包含数据成员（属性）和成员函数（方法）。下面是一个C++类的基本定义示例：#include#includeclassPerson{public://数据成员std::stringname;intage;//默认构造函数Person():name("Unknown"),age(0){}//带参数
类和对象（中） yi个名字开发语言 c++数据结构
1.类的默认成员函数在C++中，类的默认成员函数包括以下几种：默认构造函数（DefaultConstructor）：如果类中没有定义任何构造函数，编译器会自动提供一个默认构造函数，允许对象被创建而不需要提供任何参数。如果类定义了其他构造函数，编译器不会再提供这个默认构造函数。classMyClass{public:inta;//默认构造函数会被自动生成};MyClassobj;//使用默认构造函数
el-table 表格新增一行合计是小潘啊！ javascript 前端
el-table表格下面新增一行合计计算表格的数值前言：根据产品需求要求计算出当前页面的总合计金额和点击复选框显示复选框里的计算金额。1.自己搭建的页面结构合计应付款金额{{totalComputedMoney.toFixed(2).replace(/
哈希基础例题稠密的连通图算法复习之字符串字符串算法哈希数据结构 hash
文章目录例题一：子串查找例题二：字符串的删除操作例题三：字符串合并操作的应用哈希前置知识请戳这里->哈希绪论昨天我们对哈希的基础知识有了一定的了解，并已经知道了如何求子串、拼接子串的哈希值，今天我们就这两个操作分析一些基础例题，加深理解和掌握。例题一：子串查找LOJ#103.子串查找显然这是一道kmp算法的模板题朴素的做法是枚举文本串的每一个位置作为模式串开始比较的位置。设枚举到主串的位置是iii
element--el-table添加合计后固定列x轴滚动条无法滚动问题冯浩(grow up) element element-plus vue.js 前端 javascript
效果图改变固定列滚轮高度问题解决文章解决方案使用到的参数pointer-events属性用来控制一个元素能否响应鼠标操作，常用的关键字有auto和nonepointer-events:none;让一个元素忽略鼠标操作pointer-events:auto;还原浏览器设定的默认行为代码演示添加class添加css样式:deep.tableData{//滚动条高度调整::-webkit-scrollb
初学者瞎写的一个爬虫小程序一大块腹肌呀爬虫小程序 python
学习python三个月，渐渐的的也开始了爬虫之旅，根据某本书的指导，开始想写一个通用的爬虫小程序，希望有大神能指点一下。importdatetimeimporttimefromseleniumimportwebdriverimportreclassMyCommonSpider:def__init__(self):pass使用了selenium进行模拟鼠键操作，目标是爬取51job上的职位信息def
vue2+el-table 封装表格组件,基本够用了，带自动滚动 mokn javascript vue.js 前端
标题@[TOC](vue2+el-mentUI封装的多功能表格组件，带自动滚动)欢迎使用Markdown编辑器表格组件页面//添加选择表格功能//判断是否显示单元格按钮{{scope.row[scope.column.property]}}重置{{scope.row[scope.column.property]}}exportdefault{name:"CustomTable",props:{//
LeetCode 热题 100_字符串解码（71_394_中等_C++）（栈） Dream it possible！ LeetCode 热题 100 leetcode c++算法
LeetCode热题100_字符串解码（71_394）题目描述：输入输出样例：题解：解题思路：思路一（栈）：代码实现代码实现（栈）：以思路一为例进行调试题目描述：给定一个经过编码的字符串，返回它解码后的字符串。编码规则为:k[encoded_string]，表示其中方括号内部的encoded_string正好重复k次。注意k保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，
Python虚拟环境 hitlic python python 开发语言
虚拟环境是Python程序设计和开发中非常有用的工具。本文介绍Python虚拟环境的概念和作用，以及常用的虚拟环境管理工具的使用方法。什么是虚拟环境Python程序具有天然的开源特性，这使得各种包之间存在着较为复杂的依赖关系。在实际的开发中，可能会存在不同的项目会依赖相同的工具包，但是需要的版本不一致的情况。例如，A项目和B项目都要使用X包，但是A依赖X（v1.0）B依赖X（v2.0）。同一个Py
python 虚拟环境介绍 The One Neo python 开发语言
一、pippip介绍很简单，但是在学习深度学习的时候，虽然用过，但也仅仅是用过，对其了解不多，更多的是下载包，相对于pip，用的更多的反而是anaconda和miniconda这两个python包管理器。pip是Python的包管理工具，主要用于安装、更新、卸载Python软件包。它是Python官方推荐的工具，能够从PythonPackageIndex(PyPI)下载并安装符合指定依赖关系的包。
6G天地一体化信息网络内生安全技术罗思付之技术屋网络通信安全及科学技术专栏安全
摘要：6G天地一体化信息网络面临因网络高度暴露、节点高速运动、计算资源受限等特点带来的安全挑战，且新架构、新应用、新技术也将引入新的安全问题，亟须提出普适性安全理论，一体化解决其功能安全及网络安全问题。为此，首先阐述网络空间内生安全主要理论基础，提出6G天地一体化信息网络内生安全架构；然后，在网络空间内生安全理论的指导下，从星载系统、6G地面移动网、星地链路探讨相关安全理论与技术构想；最后，从安全
使用 spring-ai-openai-spring-boot-starter，SpringBoot无缝整合DeepSeek API实战指南添砖java@ spring boot java spring
前言：本人为完成利用spring-ai-openai-spring-boot-starterspring整合deepseek的任务（因为还可以用本地部署的方式），在博客和AI工具中来回跳动，然而最终还是在官网找到了答案，完成过程中犯错无数，因此挥毫书就本文，希望能给大家带来帮助。一：环境准备以下是本人的环境，或许不是最优，但确保无误1.jdk版本：17（最好是17+）2.maven：3.9.93.
安装CUDA12.1和torch2.2.1下的DKG 超级无敌大好人 python
1.创建python虚拟环境setNO_PROXY=*condadeactivatecondaenvremove-nfindkgcondacreate-nfindkgpython=3.11condaactivatefindkgcondainstallpackagingsetuptoolspipuninstallnumpycondainstallnumpy=1.24.3请注意，DKG需要python
IDEA中把git commit 处于中间位置的模态框转换为侧边栏标签 htclgb 错误与解决办法 git github
因误触一设置按键把本来位置处侧边栏的GitCommit提交窗口更改为中间位置发现不对劲马上去找修改按钮无果后查阅手册发现打开Settings->VersionControl->Commit恢复正常
Python——初学者轻松搞定19个经典的程序 bug鸭陆 python 开发语言
Python的经典程序展示了Python语言基本特性和功能的简单示例,这些程序在学习和理解Python编程语言的过程中起着至关重要的作用.一些常见的经典Python程序及其在学习Python时的功能：1.Hello,World!print("Hello,World!")解释:这是Python的基本输出语句,用于打印字符串。2.计算两个数的和defadd_numbers(a,b):returna+b
2025自动化采集豆瓣选电影20年代以来的推荐数据并进行结构化分析及数据缺失值处理方案 BigWiggins python 开发语言单元测试
今天在豆瓣数据中采集20年代以来的电影时遇到了取得电影标题/评分/年份等大量缺失值核心功能动态分页采集：通过API参数迭代获取全量数据反爬策略：请求头模拟、Cookies自动化、随机延迟数据清洗：缺失值填充、嵌套JSON解析持久化存储：JSON结构化存储与PandasDataFrame转换技术栈请求处理：requests库实现API调用数据解析：json模块处理结构化响应异常管理：try-exce
LLM大模型安全概述 LLM教程安全人工智能 chatgpt embedding langchain llama
引言2022年底以来，以ChatGPT为代表的大模型飞速发展，正在成为#驱动新质生产力发展#的新动能、人类探索未知的新工具.在显著提升人工智能(artificialintelligence,AI)模型通用理解和生成能力的同时，也带来了前所未有的安全风险.大模型的能力与风险生成式大模型因其强大的智能能力和巨大的应用潜力吸引了众多研究者和企业的关注.从智能能力的角度来看，研究人员观测到：当训练数据和参
C#控制台应用程序学习——3.8 宣宣猪的小花园. C#控制台应用程序 c#开发语言无人机
一、语言概述1、平台相关性C#主要运行在.NET平台上。.NET提供了一个庞大的类库，C#程序可以方便地调用这些类库来实现各种功能，如文件操作、数据库访问、网络通信等。2、语法风格C#的语法与C、C++和Java有一定的相似性。例如，它使用大括号{}来定义代码块，使用分号;结束语句。二、C#程序的基本结构1、命名空间（Namespace）命名空间用于组织代码，避免命名冲突。例如：usingSyst
Scala ：identity 函数 WZMeiei Scala scala 开发语言
在Scala中，identity函数是一个简单而有用的函数，主要用于返回其输入参数的值，而不进行任何修改。以下是关于identity函数的详细介绍：函数定义identity函数的定义非常简洁，它接受一个参数并返回该参数本身。在Scala的标准库中，identity函数的定义如下：defidentity[A](x:A):A=x这里的A是一个类型参数，表示identity函数可以接受任何类型的参数，并
mounted() 钩子函数码农小王 vue.js javascript 前端
‌在Vue中，mounted()钩子函数用于在组件挂载到DOM之后执行操作，此时所有的模板已经渲染完毕，可以安全地操作DOM元素。‌一.mounted()钩子的作用和用途mounted()钩子函数是在Vue实例被挂载到DOM之后调用的。这意味着在这个阶段，所有的模板已经渲染完毕，可以安全地操作DOM元素。它常用于以下场景：‌操作已经渲染的DOM元素‌：可以在这个阶段对DOM进行各种操作，如修改样式
2025最新Transformer模型及深度学习前沿技术应用 weixin_贾 Python MATLAB python 深度学习 MATLAB编程深度学习模型图神经网络自编码物理信息神经网络目标检测大语言模型
第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意
Releases（发布）和版本管理是两个紧密相关的概念 WwwwwH_PLUS #Software Engineering 运维
在软件开发和维护中，Releases（发布）和版本管理是两个紧密相关的概念，特别是在开源项目或企业软件开发中。1.Releases（发布）Release是指软件的一个正式发布版本，通常经过开发、测试、修复Bug，并被认为是足够稳定和可用于生产环境的版本。主要特点里程碑：通常对应一个开发周期的完成（如Alpha、Beta、正式版）。版本号：通常遵循语义化版本（SemanticVersioning,S
Zama TFHE-rs v1.0 发布 mutourend 全同态加密FHE FHE
1.引言2025年2月，Zama发布了TFHE-rsv1.0，这是TFHE-rs库的第一个稳定版本。这标志着一个重要的里程碑，稳定了x86CPU后端的高级API，同时确保了向后兼容性。——即，现在可以依赖TFHE-rsAPI，而不必担心未来更新中出现重大变化。此版本中最显著的改进是：关键参数的细化，这增强了密码学安全性，保留了性能并优化了它们以用于分布式协议。还引入了官方手册和简化的贡献流程。值得
哈希基础知识飘去数星星多元哈希算法学习算法
目录定义哈希表的基本操作初始化：增删查改：定义哈希是一种将任意长度的输入（如字符串、文件、数据）通过哈希函数转换为固定长度输出的过程，其输出通常称为哈希值获哈希码哈希表(HashTable)是一种基于哈希函数实现的数据结构，用于高效存储和查找键值对。哈希表的基本操作初始化：1.默认初始化（创建空哈希表）：std::unordered_maphashtable;2.直接填充哈希表：std::unor
Scala 中生成一个RDD的方法闯闯桑 scala 开发语言大数据
在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。以下是生成RDD的常见方法：1.从本地集合创建RDD使用parallelize方法将本地集合（如Seq、List、Array等）转换为RDD。valspark=SparkSession.builder.appName("RDDExample").getOrCreate(
el-table（elementui）表格合计行使用以及滚动条默认样式修改白小水i elementui vue.js 前端
一、el-table新增合计行以及el-table展示数据出现的问题1.使用合计行el-table的属性show-summary设为true，即可在表格尾部展示合计行。默认情况下，第一列不展示数据，而显示合计二字，可以通过sum-text自己配置，其余列会显示本列所有数据的和。__自定义合计逻辑:__在el-table标签使用summary-method传入一个方法，该方法会返回一个数组，该数组的
信息安全与网络安全的区别_信息安全与网络安全之差异探析 Hacker_Oldv web安全网络安全
在当今数字化时代，信息安全与网络安全成为了人们关注的热点话题。尽管这两个概念经常被提及，但它们之间存在着明显的区别。本文旨在探讨信息安全与网络安全的定义、范畴及应对策略，以帮助读者更好地理解和应对相关挑战。一、定义与范畴的差异信息安全主要是指保护信息系统及其中的数据免受未经授权的访问、使用、泄露、破坏、修改或者销毁等威胁。它侧重于保护信息的机密性、完整性和可用性。信息安全不仅关注数据存储和传输过程
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc