cbmljs

k8s源码分析--kube-scheduler源码（一）

版本：v1.13.0

启动分析

kubernetes基础组件的入口均在cmd目录下，kube-schduler入口在scheduler.go下。
kubernetes所有的组件启动采用的均是command的形式，引用的是spf13类库。

func main() {
        rand.Seed(time.Now().UnixNano())

    //创建Cobra格式的Scheduler command
        command := app.NewSchedulerCommand()

        // TODO: once we switch everything over to Cobra commands, we can go back to calling
        // utilflag.InitFlags() (by removing its pflag.Parse() call). For now, we have to set the
        // normalize func and add the go flag set by hand.
    
    //将配置中的‘_’字符转化为‘-’字符
        pflag.CommandLine.SetNormalizeFunc(utilflag.WordSepNormalizeFunc)
        // utilflag.InitFlags()
        logs.InitLogs()
        defer logs.FlushLogs()
    
    //执行Scheduler command
        if err := command.Execute(); err != nil {
                fmt.Fprintf(os.Stderr, "%v\n", err)
                os.Exit(1)
        }
}

通过将配置文件转化成command的形式，调用Execute方法执行定义的Run方法

          Run: func(cmd *cobra.Command, args []string) {
                        if err := runCommand(cmd, args, opts); err != nil {
                                fmt.Fprintf(os.Stderr, "%v\n", err)
                                os.Exit(1)
                        }
                },

进入runCommand方法，通过完成配置的初始化，调用Run方法，进一步启动。

// runCommand runs the scheduler.func runCommand(cmd *cobra.Command, args []string, opts *options.Options) error {
        。。。
        // Get the completed config
        cc := c.Complete()

        // To help debugging, immediately log version
        klog.Infof("Version: %+v", version.Get())

        // Apply algorithms based on feature gates.
        // TODO: make configurable?
        algorithmprovider.ApplyFeatureGates()

        // Configz registration.
        if cz, err := configz.New("componentconfig"); err == nil {
                cz.Set(cc.ComponentConfig)
        } else {
                return fmt.Errorf("unable to register configz: %s", err)
        }

        return Run(cc, stopCh)
}

Run方法分析

Run方法主要做了以下工作：
1、判断是否需要添加VolumeScheduling新特性；
2、初始化调度参数的相关结构体；
3、配置准备事件广播；
4、健康检查相关配置；
5、Metrics相关配置；
6、启动所有的Informer(kubernetes主要就是通过Informer和Workqueue机制监听事件的变化)；
7、判断是否需要LeaderElection，决定最终的启动

调度入口

Run(cc, stopCh)->sched.Run()->sched.scheduleOne

scheduleOne方法分析

cheduleOne，顾名思义，每次调度一个Pod，整体文件如

func (sched *Scheduler) scheduleOne() {
        pod := sched.config.NextPod()
        // pod could be nil when schedulerQueue is closed
        if pod == nil {
                return
        }
        if pod.DeletionTimestamp != nil {
                sched.config.Recorder.Eventf(pod, v1.EventTypeWarning, "FailedScheduling", "skip schedule deleting pod: %v/%v", pod.Namespace, pod.Name)
                klog.V(3).Infof("Skip schedule deleting pod: %v/%v", pod.Namespace, pod.Name)
                return
        }

        klog.V(3).Infof("Attempting to schedule pod: %v/%v", pod.Namespace, pod.Name)

        // Synchronously attempt to find a fit for the pod.
        start := time.Now()
        // ljs:调度算法：最终的调度在generic_scheduler.go的Schedule方法
        // ljs:schedule（）可能已经失败，因为pod不适合任何主机，
        // 因此我们尝试抢占，期望下次尝试pod进行调度时，由于抢占，它将适合。也可以安排不同的pod进入被抢占的资源，但这是无害的。
        suggestedHost, err := sched.schedule(pod) 
        if err != nil {
                // ljs:当通过正常的调度流程如果没有找到合适的节点（主要是预选没有合适的节点），
                // 会判断需不需要进行抢占调度，具体的代码在pkg/scheduler/scheduler.go文件下，用到的方法preempt    
                if fitError, ok := err.(*core.FitError); ok {
                        preemptionStartTime := time.Now()

                        sched.preempt(pod, fitError)
                        metrics.PreemptionAttempts.Inc()
                        metrics.SchedulingAlgorithmPremptionEvaluationDuration.Observe(metrics.SinceInMicroseconds(preemptionStartTime))
                        metrics.SchedulingLatency.WithLabelValues(metrics.PreemptionEvaluation).Observe(metrics.SinceInSeconds(preemptionStartTime))

                        metrics.PodScheduleFailures.Inc()
                } else {
                        klog.Errorf("error selecting node for pod: %v", err)
                        metrics.PodScheduleErrors.Inc()
                }
                return
        }
        metrics.SchedulingAlgorithmLatency.Observe(metrics.SinceInMicroseconds(start))
    
// 3.Pod与Node缓存，保证调度一直进行，不用等待每次绑定完成（绑定是一个耗时的过程）
        assumedPod := pod.DeepCopy()

        // ljs: 一个Pod被计划调度到机器A的事实被称为assume调度，即假定调度，
        // 这些调度安排被保存在特定的队列里，此时调度过程是能看到这个预安排的，因而影响到其他Pod的调度。
        allBound, err := sched.assumeVolumes(assumedPod, suggestedHost)
        if err != nil {
                klog.Errorf("error assuming volumes: %v", err)
                metrics.PodScheduleErrors.Inc()
                return
        }

        // assume modifies `assumedPod` by setting NodeName=suggestedHost    //ljs: 5. Pod对应的NodeName写上主机名，存入缓存
        err = sched.assume(assumedPod, suggestedHost)
        if err != nil {
                klog.Errorf("error assuming pod: %v", err)
                metrics.PodScheduleErrors.Inc()
                return
        }
        // bind the pod to its host asynchronously (we can do this b/c of the assumption step above).
        //ljs: 6. 请求apiserver，异步处理最终的绑定，写入到etcd
        go func() { 
                // Bind volumes first before Pod
                if !allBound {
                        err := sched.bindVolumes(assumedPod)
                        if err != nil {
                                klog.Errorf("error binding volumes: %v", err)
                                metrics.PodScheduleErrors.Inc()
                                return
                        }
                }

                err := sched.bind(assumedPod, &v1.Binding{
                        ObjectMeta: metav1.ObjectMeta{Namespace: assumedPod.Namespace, Name: assumedPod.Name, UID: assumedPod.UID},
                        Target: v1.ObjectReference{
                                Kind: "Node",
                                Name: suggestedHost,
                        },
                })
                metrics.E2eSchedulingLatency.Observe(metrics.SinceInMicroseconds(start))
                if err != nil {
                        klog.Errorf("error binding pod: %v", err)
                        metrics.PodScheduleErrors.Inc()
                } else {
                        metrics.PodScheduleSuccesses.Inc()
                }
        }()
}

主要做了以下工作：
1、从队列中取出待调度的Pod
2、根据调度算法（预选+优选）获取待调度Pod匹配的主机，如果未获取到合适的主机，判断是否需要preempt，即Pod的抢占策略，为Pod分配节点
3、将当前Pod缓存起来，假定已经绑定成功（主要是为了将scheduling与binding过程分开）
4、判断是否需要VolumeScheduling特性继续添加Pod信息
5、Pod对应的NodeName写上主机名（调度的本质就是将为空的NodeName写上相应的Node的值）
6、启动新的binding协程，请求apiserver，异步处理最终的绑定，将结果写入到etcd中

调度算法

sched.scheduleOne -> sched.schedule(pod) -> generic_scheduler.go

func (g *genericScheduler) Schedule(pod *v1.Pod, nodeLister algorithm.NodeLister) (string, error) {
        trace := utiltrace.New(fmt.Sprintf("Scheduling %s/%s", pod.Namespace, pod.Name))
        defer trace.LogIfLong(100 * time.Millisecond)
        // 对pod做一些基础检查，及检查pod对应的pvc
        if err := podPassesBasicChecks(pod, g.pvcLister); err != nil {
                return "", err
        }
        //取得node list列表
        nodes, err := nodeLister.List()
        if err != nil {
                return "", err
        }
        ...

        trace.Step("Computing predicates")
        startPredicateEvalTime := time.Now()
        //ljs:调度算法预选
        filteredNodes, failedPredicateMap, err := g.findNodesThatFit(pod, nodes)
        if err != nil {
                return "", err
        }
        ...

        metaPrioritiesInterface := g.priorityMetaProducer(pod, g.cachedNodeInfoMap)
        //优选算法调用的接口，执行PrioritizeNodes方法对通过预选的node进行优选打分
        priorityList, err := PrioritizeNodes(pod, g.cachedNodeInfoMap, metaPrioritiesInterface, g.prioritizers, filteredNodes, g.extenders) //ljs:优选算法
        if err != nil {
                return "", err
        }
        metrics.SchedulingAlgorithmPriorityEvaluationDuration.Observe(metrics.SinceInMicroseconds(startPriorityEvalTime))
        metrics.SchedulingLatency.WithLabelValues(metrics.PriorityEvaluation).Observe(metrics.SinceInSeconds(startPriorityEvalTime))

        trace.Step("Selecting host")
        //最后找出一个优选分数最高的node，如果有node优选分数一样，则随机返回一个分数最高的node
        return g.selectHost(priorityList)
}

如果未自定义调度器，则启用默认的调度器genericScheduler，genericScheduler的Schedule方法如下：

对pod做一些基础检查，及检查pod对应的pvc
取得node list列表
执行genericScheduler.findNodesThatFit方法进行预选
执行PrioritizeNodes方法对通过预选的node进行优选打分
最后找出一个优选分数最高的node，如果有node优选分数一样，则随机返回一个分数最高的node

预选

预选算法调用的接口是findNodesThatFit，主要代码如下：

func (g *genericScheduler) findNodesThatFit(pod *v1.Pod, nodes []*v1.Node) ([]*v1.Node, FailedPredicateMap, error) {
        var filtered []*v1.Node
        failedPredicateMap := FailedPredicateMap{}

        // 该if表示，如果没有配置预选的算法，则直接将所有的Node写入匹配数组
        if len(g.predicates) == 0 {
                filtered = nodes
        } else {
                allNodes := int32(g.cache.NodeTree().NumNodes)
                // numFeasibleNodesToFind保证一次性不用返回过多的Node数量，避免数组过大
                numNodesToFind := g.numFeasibleNodesToFind(allNodes)

                // Create filtered list with enough space to avoid growing it
                // and allow assigning.
                filtered = make([]*v1.Node, numNodesToFind)
                errs := errors.MessageCountMap{}
                var (
                        predicateResultLock sync.Mutex
                        filteredLen         int32
                        equivClass          *equivalence.Class
                )

                ctx, cancel := context.WithCancel(context.Background())

                // We can use the same metadata producer for all nodes.
                meta := g.predicateMetaProducer(pod, g.cachedNodeInfoMap)

                if g.equivalenceCache != nil {
                        // getEquivalenceClassInfo will return immediately if no equivalence pod found
                        equivClass = equivalence.NewClass(pod)
                }

                // checkNode处理预选策略
                checkNode := func(i int) {
                        var nodeCache *equivalence.NodeCache
                        // 每次获取Node信息
                        nodeName := g.cache.NodeTree().Next()
                        if g.equivalenceCache != nil {
                                nodeCache = g.equivalenceCache.LoadNodeCache(nodeName)
                        }
          // 最终实现调度判断的接口
                        fits, failedPredicates, err := podFitsOnNode(
                                pod,
                                meta,
                                g.cachedNodeInfoMap[nodeName],
                                g.predicates,
                                nodeCache,
                                g.schedulingQueue,
                                g.alwaysCheckAllPredicates,
                                equivClass,
                        )
                        if err != nil {
                                predicateResultLock.Lock()
                                errs[err.Error()]++
                                predicateResultLock.Unlock()
                                return
                        }
                        if fits {
                                // 保证获取的Node数量在numNodesToFind内
                                length := atomic.AddInt32(&filteredLen, 1)
                                if length > numNodesToFind {
                                        // 通知ParallelizeUntil任务结束
                                        cancel()
                                        atomic.AddInt32(&filteredLen, -1)
                                } else {
                                        filtered[length-1] = g.cachedNodeInfoMap[nodeName].Node()
                                }
                        } else {
                                predicateResultLock.Lock()
                                failedPredicateMap[nodeName] = failedPredicates
                                predicateResultLock.Unlock()
                        }
                }

                // Stops searching for more nodes once the configured number of feasible nodes
                // are found.
                // 并行处理多个Node的checkNode工作
                workqueue.ParallelizeUntil(ctx, 16, int(allNodes), checkNode)

                filtered = filtered[:filteredLen]
                if len(errs) > 0 {
                        return []*v1.Node{}, FailedPredicateMap{}, errors.CreateAggregateFromMessageCountMap(errs)
                }
        }
        
        //ljs:如果配置了调度的扩展算法，需要继续对筛选后的Pod与Node进行再一次的筛选，获取最终匹配的Node列表。
        if len(filtered) > 0 && len(g.extenders) != 0 {
                for _, extender := range g.extenders {
                        if !extender.IsInterested(pod) {
                                continue
                        }
                        filteredList, failedMap, err := extender.Filter(pod, filtered, g.cachedNodeInfoMap)
                        if err != nil {
                                if extender.IsIgnorable() {
                                        klog.Warningf("Skipping extender %v as it returned error %v and has ignorable flag set",
                                                extender, err)
                                        continue
                                } else {
                                        return []*v1.Node{}, FailedPredicateMap{}, err
                                }
                        }

                        for failedNodeName, failedMsg := range failedMap {
                                if _, found := failedPredicateMap[failedNodeName]; !found {
                                        failedPredicateMap[failedNodeName] = []algorithm.PredicateFailureReason{}
                                }
                                failedPredicateMap[failedNodeName] = append(failedPredicateMap[failedNodeName], predicates.NewFailureReason(failedMsg))
                        }
                        filtered = filteredList
                        if len(filtered) == 0 {
                                break
                        }
                }
        }
        return filtered, failedPredicateMap, nil
}

findNodesThatFit主要做了几个操作
1、判断是否配置了预选算法，如果没有，直接返回Node列表信息；
2、如果配置了预选算法，则同时对多个Node（最多一次16个）调用checkNode方法，判断Pod是否可以调度在该Node上；
3、预选筛选之后，如果配置了调度的扩展算法，需要继续对筛选后的Pod与Node进行再一次的筛选，获取最终匹配的Node列表。

这里有一个注意的地方，获取匹配的Node节点数量时，通过numFeasibleNodesToFind函数限制了每次获取的节点数，最大值为100。这样当匹配到相应的Node数时，checkNode方法不再调用。
这里个人觉着有些问题，当Node数量足够多的时候（大于100），由于numFeasibleNodesToFind限制了Node数量，导致并不能扫描到所有的Node，这样可能导致最合适的Node没有被扫描到，匹配到的只是较优先的Node，则最终调度到的Node也不是最合适的Node，只是相较于比较合适。

预选调度实际接口：podFitsOnNode

最终实现调度判断的接口是podFitsOnNode。

这里的逻辑是从一个for循环开始的，关于这个2次循环的含义代码里有很长的一段注释，我们先看一下注释里怎么说的（这里可以多看几遍体会一下）：
出于某些原因考虑我们需要运行两次predicate. 如果node上有更高或者相同优先级的“指定pods”（这里的“指定pods”指的是通过schedule计算后指定要跑在一个node上但是还未真正运行到那个node上的pods），我们将这些pods加入到meta和nodeInfo后执行一次计算过程。如果这个过程所有的predicates都成功了，我们再假设这些“指定pods”不会跑到node上再运行一次。第二次计算是必须的，因为有一些predicates比如pod亲和性，也许在“指定pods”没有成功跑到node的情况下会不满足。如果没有“指定pods”或者第一次计算过程失败了，那么第二次计算不会进行。我们在第一次调度的时候只考虑相等或者更高优先级的pods，因为这些pod是当前pod必须“臣服”的，也就是说不能够从这些pod中抢到资源，这些pod不会被当前pod“抢占”；这样当前pod也就能够安心从低优先级的pod手里抢资源了。新pod在上述2种情况下都可调度基于一个保守的假设：资源和pod反亲和性等的predicate在“指定pods”被处理为Running时更容易失败；pod亲和性在“指定pods”被处理为Not Running时更加容易失败。我们不能假设“指定pods”是Running的因为它们当前还没有运行，而且事实上，它们确实有可能最终又被调度到其他node上了。

func podFitsOnNode(
        pod *v1.Pod,
        meta algorithm.PredicateMetadata,
        info *schedulercache.NodeInfo,
        predicateFuncs map[string]algorithm.FitPredicate,
        nodeCache *equivalence.NodeCache,
        queue internalqueue.SchedulingQueue,
        alwaysCheckAllPredicates bool,
        equivClass *equivalence.Class,
) (bool, []algorithm.PredicateFailureReason, error) {
        var (
                eCacheAvailable  bool
                failedPredicates []algorithm.PredicateFailureReason
        )

        podsAdded := false
        // ljs:第一次循环，将所有的优先级比较高或者相等的nominatedPods加入到Node中，
        // 更新meta和nodeInfo。nominatedPods是指已经分配到Node内但是还没有真正运行起来的Pods。
        // 这样做可以保证优先级高的Pods不会因为现在的Pod的加入而导致调度失败；
        // ljs:第一次调度，根据NominatedPods更新meta和nodeInfo信息，pod根据更新后的信息去预选
        // ljs:第二次调度，meta和nodeInfo信息不变，保证pod不完全依赖于NominatedPods
        //（主要考虑到pod亲和性之类的，比如某个nominatedPod没有在这个节点上运行，predicate可能会失败）
        // ljs:不将nominatedPods加入到Node内。这样的原因是因为考虑到像Pod affinity策略的话，如果当前的Pod依赖的是nominatedPods，
        // 这样就会有问题。因为，nominatedPods不能保证一定可以调度到相应的Node上。
        for i := 0; i < 2; i++ {
                metaToUse := meta
                nodeInfoToUse := info
                if i == 0 {
                        podsAdded, metaToUse, nodeInfoToUse = addNominatedPods(pod, meta, info, queue)
                } else if !podsAdded || len(failedPredicates) != 0 {
                        break
                }
                // Bypass eCache if node has any nominated pods.
                // TODO(bsalamat): consider using eCache and adding proper eCache invalidations
                // when pods are nominated or their nominations change.
                eCacheAvailable = equivClass != nil && nodeCache != nil && !podsAdded
                for predicateID, predicateKey := range predicates.Ordering() {
                        var (
                                fit     bool
                                reasons []algorithm.PredicateFailureReason
                                err     error
                        )
                        //TODO (yastij) : compute average predicate restrictiveness to export it as Prometheus metric

                        // predicate相关函数在sc, err := configurator.CreateFromConfig(*policy)进行注册，
                        // 具体代码在：pkg/scheduler/algorithmprovider/defaults/defaults.go下，defaultPredicates 方法返回的是默认的一系列预选算法。
                        // ljs:如果当前pod在之前有一个等价pod，则直接从缓存中返回相应的上一次结果（一个节点上有多个相同的pod要发布）
                        if predicate, exist := predicateFuncs[predicateKey]; exist {
                                if eCacheAvailable {
                                        fit, reasons, err = nodeCache.RunPredicate(predicate, predicateKey, predicateID, pod, metaToUse, nodeInfoToUse, equivClass)
                                } else { //ljs:直接调用预选算法
                                        fit, reasons, err = predicate(pod, metaToUse, nodeInfoToUse)
                                }
                                if err != nil {
                                        return false, []algorithm.PredicateFailureReason{}, err
                                }

                                if !fit {
                                        // eCache is available and valid, and predicates result is unfit, record the fail reasons
                                        failedPredicates = append(failedPredicates, reasons...)
                                        // if alwaysCheckAllPredicates is false, short circuit all predicates when one predicate fails.
                                        if !alwaysCheckAllPredicates {
                                                klog.V(5).Infoln("since alwaysCheckAllPredicates has not been set, the predicate " +
                                                        "evaluation is short circuited and there are chances " +
                                                        "of other predicates failing as well.")
                                                break
                                        }
                                }
                        }
                }
        }

        return len(failedPredicates) == 0, failedPredicates, nil
}

podFitsOnNode最难理解的就是for循环了两次，根据注释，大致意思如下：
1、第一次循环，将所有的优先级比较高或者相等的nominatedPods加入到Node中，更新meta和nodeInfo。nominatedPods是指已经分配到Node内但是还没有真正运行起来的Pods。这样做可以保证优先级高的Pods不会因为现在的Pod的加入而导致调度失败；
2、第二次调度，不将nominatedPods加入到Node内。这样的原因是因为考虑到像Pod affinity策略的话，如果当前的Pod依赖的是nominatedPods，这样就会有问题。因为，nominatedPods不能保证一定可以调度到相应的Node上。

之后就是根据预选的调度算法，一个个判断是否都满足。这里有个小优化，如果当前的Pod在之前有一个等价的Pod，则直接从缓存返回相应上一次的结果。如果成功则不用继续调用预选算法。但是，对于缓存部分，我个人有些疑问，可能对于上一个Pod缓存的结果是成功的，但是本次调度，Node信息发生变化了，缓存结果是成功的，但是实际上可能并不一定会成功。

默认预选调度算法

本节主要说的是默认的调度算法。默认的代码在pkg/scheduler/algorithmprovider/defaults/defaults.go下，defaultPredicates方法返回的是默认的一系列预选算法。与预选相关的代码都在pkg/scheduler/algorithm/predicates/predicates.go下

var (
        predicatesOrdering = []string{CheckNodeConditionPred, CheckNodeUnschedulablePred,
                GeneralPred, HostNamePred, PodFitsHostPortsPred,
                MatchNodeSelectorPred, PodFitsResourcesPred, NoDiskConflictPred,
                PodToleratesNodeTaintsPred, PodToleratesNodeNoExecuteTaintsPred, CheckNodeLabelPresencePred,
                CheckServiceAffinityPred, MaxEBSVolumeCountPred, MaxGCEPDVolumeCountPred, MaxCSIVolumeCountPred,
                MaxAzureDiskVolumeCountPred, CheckVolumeBindingPred, NoVolumeZoneConflictPred,
                CheckNodeMemoryPressurePred, CheckNodePIDPressurePred, CheckNodeDiskPressurePred, MatchInterPodAffinityPred}
)

对于每一个调度算法，有一个优先级Order，官网有详细的描述。
调度方法基本一致，参数为(pod *v1.Pod, meta algorithm.PredicateMetadata, nodeInfo *schedulercache.NodeInfo)，返回值为(bool, []algorithm.PredicateFailureReason, error)。
官网地址：
https://github.com/kubernetes/community/blob/master/contributors/design-proposals/scheduling/predicates-ordering.md

当然这个顺序是可以被配置文件覆盖的，用户可以使用类似这样的配置：

{"kind" : "Policy","apiVersion" : "v1","predicates" : [
    {"name" : "PodFitsHostPorts", "order": 2},
    {"name" : "PodFitsResources", "order": 3},
    {"name" : "NoDiskConflict", "order": 5},
    {"name" : "PodToleratesNodeTaints", "order": 4},
    {"name" : "MatchNodeSelector", "order": 6},
    {"name" : "PodFitsHost", "order": 1}
    ],"priorities" : [
    {"name" : "LeastRequestedPriority", "weight" : 1},
    {"name" : "BalancedResourceAllocation", "weight" : 1},
    {"name" : "ServiceSpreadingPriority", "weight" : 1},
    {"name" : "EqualPriority", "weight" : 1}
    ],"hardPodAffinitySymmetricWeight" : 10}

具体的predicate函数

一直在讲predicate，那么predicate函数到底长什么样子呢，我们从具体的实现函数找一个看一下。开始讲design的时候提到过predicate的实现在pkg/scheduler/algorithm/predicates/predicates.go文件中，先看一眼Structure吧：

func NoDiskConflict(pod *v1.Pod, meta algorithm.PredicateMetadata, nodeInfo *schedulercache.NodeInfo) (bool, []algorithm.PredicateFailureReason, error) {
    for _, v := range pod.Spec.Volumes {
        for _, ev := range nodeInfo.Pods() {
            if isVolumeConflict(v, ev) {
                return false, []algorithm.PredicateFailureReason{ErrDiskConflict}, nil
            }
        }
    }
    return true, nil, nil}

我们知道predicate函数的特点，这样就很好在这个一千六百多行go文件中寻找predicate函数了。像上面这个NoDiskConflict()函数，参数是pod、meta和nodeinfo，很明显是FitPredicate类型的，标准的predicate函数。这个函数的实现也特别简单，遍历pod的Volumes，然后对于pod的每一个Volume，遍历node上的每个pod，看是否和当前podVolume冲突。如果不fit就返回false加原因；如果fit就返回true，很清晰。

优选

func (g *genericScheduler) Schedule（）函数在
预选完成之后会得到一个Node的数组。如果预选合适的节点数大于1，则需要调用优选算法根据评分获取最优的节点。
优选算法调用的接口是PrioritizeNodes。

优选调度算法

优选算法调用的接口是PrioritizeNodes，使用与预选类似的多任务同步调用方式，采用MapReduce的思想，Map根据不同的优选算法获取对某一Node的值，根据Reduce统计最终的结果。

PrioritizeNodes要做的事情是给已经通过predicate的nodes赋上一个分值，从而抉出一个最优node用于运行当前pod.
PrioritizeNodes通过并发调用一个个priority函数来给node排优先级。每一个priority函数会给一个1-10之间的分值，0最低10最高。每一个priority函数可以有自己的权重，单个函数返回的分值*权重后得到一个加权分值，最终所有的加权分值加在一起就是这个node的最终分值。

func PrioritizeNodes(
        pod *v1.Pod,
        nodeNameToInfo map[string]*schedulercache.NodeInfo,
        meta interface{},
        priorityConfigs []algorithm.PriorityConfig,
        nodes []*v1.Node,
        extenders []algorithm.SchedulerExtender,
) (schedulerapi.HostPriorityList, error) {
        // If no priority configs are provided, then the EqualPriority function is applied
        // This is required to generate the priority list in the required format
        // ljs:没有优选配置，默认每个节点等权重
        if len(priorityConfigs) == 0 && len(extenders) == 0 {
                result := make(schedulerapi.HostPriorityList, 0, len(nodes))
                for i := range nodes {
                        hostPriority, err := EqualPriorityMap(pod, meta, nodeNameToInfo[nodes[i].Name])
                        if err != nil {
                                return nil, err
                        }
                        result = append(result, hostPriority)
                }
                return result, nil
        }

        var (
                mu   = sync.Mutex{}
                wg   = sync.WaitGroup{}
                errs []error
        )
        appendError := func(err error) {
                mu.Lock()
                defer mu.Unlock()
                errs = append(errs, err)
        }
        // 最后一个变量results也不难理解，类型是[]schedulerapi.HostPriorityList，这里需要注意这个类型
        // 的作用，它保存的是所有算法作用所有node之后得到的结果集，相当于一个二维数组，每个格子是1个算法
        // 作用于1个节点的结果，一行也就是1个算法作用于所有节点的结果；一行展成一个二维就是所有算法作用于所有节点；
        // 假设有3中优先级配置：result:=[[0]:[{1,1},{2,1},{3,1},...], [1]:[{1,1},{2,1},{3,1},...], [3]:[{1,1},{2,1},{3,1},...]]
        results := make([]schedulerapi.HostPriorityList, len(priorityConfigs), len(priorityConfigs))

        // DEPRECATED: we can remove this when all priorityConfigs implement the
        // Map-Reduce pattern.
        for i := range priorityConfigs {
                if priorityConfigs[i].Function != nil {
                        wg.Add(1)
                        go func(index int) {
                                defer wg.Done()
                                var err error
                                // ljs:求出每个节点在配置index上的得分
                                results[index], err = priorityConfigs[index].Function(pod, nodeNameToInfo, nodes)
                                if err != nil {
                                        appendError(err)
                                }
                        }(i)
                } else {
                        results[i] = make(schedulerapi.HostPriorityList, len(nodes))
                }
        }

        // 这里的index是node的序号，和上面的index不同，上面的index是指priorityConfigs的序号
        workqueue.ParallelizeUntil(context.TODO(), 16, len(nodes), func(index int) {
                nodeInfo := nodeNameToInfo[nodes[index].Name]
                for i := range priorityConfigs {
                        // 这个for循环遍历的是所有的优选配置，如果有老Fun就跳过，新逻辑就继续；
                        if priorityConfigs[i].Function != nil {
                                // 因为前面old已经运行过了，也就是priorityConfigs[i].Function
                                // 这里是两种计算result的方法，选择其中一种就行，Function是old，map是新方法
                                continue
                        }

                        var err error
                        results[i][index], err = priorityConfigs[i].Map(pod, meta, nodeInfo)
                        if err != nil {
                                appendError(err)
                                results[i][index].Host = nodes[index].Name
                        }
                }
        })

        for i := range priorityConfigs {
                if priorityConfigs[i].Reduce == nil {
                        continue
                }
                wg.Add(1)
                go func(index int) {
                        defer wg.Done()
                        if err := priorityConfigs[index].Reduce(pod, meta, nodeNameToInfo, results[index]); err != nil {
                                appendError(err)
                        }
                        if klog.V(10) {
                                for _, hostPriority := range results[index] {
                                        klog.Infof("%v -> %v: %v, Score: (%d)", util.GetPodFullName(pod), hostPriority.Host, priorityConfigs[index].Name, hostPriority.Score)
                                }
                        }
                }(i)
        }
        // Wait for all computations to be finished.
        wg.Wait()
        if len(errs) != 0 {
                return schedulerapi.HostPriorityList{}, errors.NewAggregate(errs)
        }

        // Summarize all scores.
        //result用于存储每个node的Score，注意区别result和results
        result := make(schedulerapi.HostPriorityList, 0, len(nodes))

        for i := range nodes {
                // 初始化节点i的得分score为0
                result = append(result, schedulerapi.HostPriority{Host: nodes[i].Name, Score: 0})
                for j := range priorityConfigs {
                        // 遍历所有优先级算法，每个算法有一个加权得分，累加就可以得到节点i的最终得分
                        result[i].Score += results[j][i].Score * priorityConfigs[j].Weight
                }
        }

        if len(extenders) != 0 && nodes != nil {
                combinedScores := make(map[string]int, len(nodeNameToInfo))
                for i := range extenders {
                        if !extenders[i].IsInterested(pod) {
                                continue
                        }
                        wg.Add(1)
                        go func(extIndex int) {
                                defer wg.Done()
                                prioritizedList, weight, err := extenders[extIndex].Prioritize(pod, nodes)
                                if err != nil {
                                        // Prioritization errors from extender can be ignored, let k8s/other extenders determine the priorities
                                        return
                                }
                                mu.Lock()
                                for i := range *prioritizedList {
                                        host, score := (*prioritizedList)[i].Host, (*prioritizedList)[i].Score
                                        if klog.V(10) {
                                                klog.Infof("%v -> %v: %v, Score: (%d)", util.GetPodFullName(pod), host, extenders[extIndex].Name(), score)
                                        }
                                        combinedScores[host] += score * weight
                                }
                                mu.Unlock()
                        }(i)
                }
                // wait for all go routines to finish
                wg.Wait()
                for i := range result {
                        result[i].Score += combinedScores[result[i].Host]
                }
        }

        if klog.V(10) {
                for i := range result {
                        klog.Infof("Host %s => Score %d", result[i].Host, result[i].Score)
                }
        }
        return result, nil
}

这段代码有两段代码感觉是重复了，代码如下：

  代码1
    // DEPRECATED: we can remove this when all priorityConfigs implement the
        // Map-Reduce pattern.
        for i := range priorityConfigs {
                if priorityConfigs[i].Function != nil {
                        wg.Add(1)
                        go func(index int) {
            。。。
                                // ljs:求出每个节点在配置index上的得分
                                results[index], err = priorityConfigs[index].Function(pod, nodeNameToInfo, nodes)
            。。。
                        }(i)
                } else {
                        results[i] = make(schedulerapi.HostPriorityList, len(nodes))
                }
        }
    
    // 代码2
        workqueue.ParallelizeUntil(context.TODO(), 16, len(nodes), func(index int) {
                nodeInfo := nodeNameToInfo[nodes[index].Name]
                for i := range priorityConfigs {
                        // 这个for循环遍历的是所有的优选配置，如果有老Fun就跳过，新逻辑就继续；
                        if priorityConfigs[i].Function != nil {
                                // 因为前面old已经运行过了，也就是priorityConfigs[i].Function
                                // 这里是两种计算result的方法，选择其中一种就行，Function是old，map是新方法
                                continue
                        }

                        var err error
                        results[i][index], err = priorityConfigs[i].Map(pod, meta, nodeInfo)
                        if err != nil {
                                appendError(err)
                                results[i][index].Host = nodes[index].Name
                        }
                }
        })
    
    
// 分割——————————    type PriorityConfig struct {
        Name   string
        Map    PriorityMapFunction
        Reduce PriorityReduceFunction
        // TODO: Remove it after migrating all functions to
        // Map-Reduce pattern.
        Function PriorityFunction
        Weight   int
}

上述两段代码，其实做的是同一件事，就是遍历每个优先级算法函数func，计算每个节点在这个func上的得分。只是使用的方式不一样，我们也可以从PriorityConfig的定义可以看出来，PriorityConfig.Map会取代PriorityFunction。

优先调度算法实例

优选调度算法默认代码在pkg/scheduler/algorithmprovider/defaults/defaults.go下，defaultPriorities方法返回的是默认的一系列优选算法，通过工厂模式处理相应的优选算法，代码如下：

func defaultPriorities() sets.String {
        return sets.NewString(
                // spreads pods by minimizing the number of pods (belonging to the same service or replication controller) on the same node.
                factory.RegisterPriorityConfigFactory(
                        "SelectorSpreadPriority",
                        factory.PriorityConfigFactory{
                                MapReduceFunction: func(args factory.PluginFactoryArgs) (algorithm.PriorityMapFunction, algorithm.PriorityReduceFunction) {
                                        return priorities.NewSelectorSpreadPriority(args.ServiceLister, args.ControllerLister, args.ReplicaSetLister, args.StatefulSetLister)
                                },
                                Weight: 1,
                        },
                ),
                // pods should be placed in the same topological domain (e.g. same node, same rack, same zone, same power domain, etc.)
                // as some other pods, or, conversely, should not be placed in the same topological domain as some other pods.
                factory.RegisterPriorityConfigFactory(
                        "InterPodAffinityPriority",
                        factory.PriorityConfigFactory{
                                Function: func(args factory.PluginFactoryArgs) algorithm.PriorityFunction {
                                        return priorities.NewInterPodAffinityPriority(args.NodeInfo, args.NodeLister, args.PodLister, args.HardPodAffinitySymmetricWeight)
                                },
                                Weight: 1,
                        },
                ),

                // Prioritize nodes by least requested utilization.
                factory.RegisterPriorityFunction2("LeastRequestedPriority", priorities.LeastRequestedPriorityMap, nil, 1),

                // Prioritizes nodes to help achieve balanced resource usage
                factory.RegisterPriorityFunction2("BalancedResourceAllocation", priorities.BalancedResourceAllocationMap, nil, 1),

                // Set this weight large enough to override all other priority functions.
                // TODO: Figure out a better way to do this, maybe at same time as fixing #24720.
                factory.RegisterPriorityFunction2("NodePreferAvoidPodsPriority", priorities.CalculateNodePreferAvoidPodsPriorityMap, nil, 10000),

                // Prioritizes nodes that have labels matching NodeAffinity
                factory.RegisterPriorityFunction2("NodeAffinityPriority", priorities.CalculateNodeAffinityPriorityMap, priorities.CalculateNodeAffinityPriorityReduce, 1),

                // Prioritizes nodes that marked with taint which pod can tolerate.
                factory.RegisterPriorityFunction2("TaintTolerationPriority", priorities.ComputeTaintTolerationPriorityMap, priorities.ComputeTaintTolerationPriorityReduce, 1),

                // ImageLocalityPriority prioritizes nodes that have images requested by the pod present.
                factory.RegisterPriorityFunction2("ImageLocalityPriority", priorities.ImageLocalityPriorityMap, nil, 1),
        )
}

Function和Map-Reduce实例分析

InterPodAffinityPriority(Function)

这个算法做的是Pod间亲和性优选，也就是亲和pod越多的节点分值越高，反亲和pod越多分值越低。我们撇开具体的亲和性计算规则，从优选函数的形式上看一下这段代码的逻辑：

// 代码位置： pkg/scheduler/algorithm/priorities/interpod_affinity.go:119func (ipa *InterPodAffinity) CalculateInterPodAffinityPriority(pod *v1.Pod, nodeNameToInfo map[string]*schedulercache.NodeInfo, nodes []*v1.Node) (schedulerapi.HostPriorityList, error) {
    affinity := pod.Spec.Affinity
    // 是否有亲和性约束；
    hasAffinityConstraints := affinity != nil && affinity.PodAffinity != nil
    // 是否有反亲和性约束；
    hasAntiAffinityConstraints := affinity != nil && affinity.PodAntiAffinity != nil

    // 这里有一段根据亲和性和反亲和性来计算一个node上匹配的pod数量的逻辑，我们先跳过这些逻辑，从优选算法实现的角度看这个算法的架子；

    // 当遍历完所有的node之后，可以得到1个最高分和1个最低分，分别记为maxCount和minCount；
    for _, node := range nodes {
        if pm.counts[node.Name] > maxCount {
            maxCount = pm.counts[node.Name]
        }
        if pm.counts[node.Name] < minCount {
            minCount = pm.counts[node.Name]
        }
    }
    // 这个result类型和前面看到的一样，都是存储单个算法的计算结果的；
    result := make(schedulerapi.HostPriorityList, 0, len(nodes))
    for _, node := range nodes {
        fScore := float64(0)
        // 如果分差大于0，也就是说不是所有的node都一样的情况，需要对分值做一个处理；
        if (maxCount - minCount) > 0 {
            // MaxPriority定义的是优选最高分10，第二个因数是当前node的count-最小count，
            // 然后除以(maxCount - minCount)；举个例子，当前node的计算结果是5，最大count是20，最小
            // count是-3，那么这里就是10*[5-(-3)/20-(-3)]
            // 这个计算的结果显然会在[0-10]之间；
            fScore = float64(schedulerapi.MaxPriority) * ((pm.counts[node.Name] - minCount) / (maxCount - minCount))
        }
        // 如果分差不大于0，这时候int(fScore)也就是0，对于各个node的结果都是0；
        result = append(result, schedulerapi.HostPriority{Host: node.Name, Score: int(fScore)})
    }
    return result, nil}

如上，我们可以发现最终这个函数计算出了每个node的分值，这个分值在[0-10]之间。所以说到底Function做的事情就是根据一定的规则给每个node赋一个分值，这个分值要求在[0-10]之间，然后把这个HostPriorityList返回就行。

CalculateNodeAffinityPriorityMap(Map)

这个算法和上一个类似，上一个是Pod的Affinity，这个是Node的Affinity；我们来看代码：

// 代码位置：pkg/scheduler/algorithm/priorities/node_affinity.go:34func CalculateNodeAffinityPriorityMap(pod *v1.Pod, meta interface{}, nodeInfo *schedulercache.NodeInfo) (schedulerapi.HostPriority, error) {
    node := nodeInfo.Node()
    if node == nil {
        return schedulerapi.HostPriority{}, fmt.Errorf("node not found")
    }

    // default is the podspec.
    affinity := pod.Spec.Affinity
    if priorityMeta, ok := meta.(*priorityMetadata); ok {
        // We were able to parse metadata, use affinity from there.
        affinity = priorityMeta.affinity
    }

    var count int32
    if affinity != nil && affinity.NodeAffinity != nil && affinity.NodeAffinity.PreferredDuringSchedulingIgnoredDuringExecution != nil {
        // Match PreferredDuringSchedulingIgnoredDuringExecution term by term.
        for i := range affinity.NodeAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
            preferredSchedulingTerm := &affinity.NodeAffinity.PreferredDuringSchedulingIgnoredDuringExecution[i]
            if preferredSchedulingTerm.Weight == 0 {
                continue
            }

            nodeSelector, err := v1helper.NodeSelectorRequirementsAsSelector(preferredSchedulingTerm.Preference.MatchExpressions)
            if err != nil {
                return schedulerapi.HostPriority{}, err
            }
            if nodeSelector.Matches(labels.Set(node.Labels)) {
                count += preferredSchedulingTerm.Weight
            }
        }
    }

    return schedulerapi.HostPriority{
        Host:  node.Name,
        Score: int(count),
    }, nil}

撇开具体的亲和性计算细节，我们可以发现这个的count没有特定的规则，可能会加到10以上；另外这里的返回值是HostPriority类型，前面的Function返回了HostPriorityList类型。

map函数

pkg/scheduler/algorithm/priorities/selector_spreading.go:221func (s *ServiceAntiAffinity) CalculateAntiAffinityPriorityMap(pod *v1.Pod, meta interface{}, nodeInfo *schedulercache.NodeInfo) (schedulerapi.HostPriority, error) {
    var firstServiceSelector labels.Selector

    node := nodeInfo.Node()
    if node == nil {
        return schedulerapi.HostPriority{}, fmt.Errorf("node not found")
    }
    priorityMeta, ok := meta.(*priorityMetadata)
    if ok {
        firstServiceSelector = priorityMeta.podFirstServiceSelector
    } else {
        firstServiceSelector = getFirstServiceSelector(pod, s.serviceLister)
    }
    // 查找给定node在给定namespace下符合selector的pod，返回值是[]*v1.Pod
    matchedPodsOfNode := filteredPod(pod.Namespace, firstServiceSelector, nodeInfo)

    return schedulerapi.HostPriority{
        Host:  node.Name,
        // 返回值中Score设置成上面找到的pod的数量
        Score: int(len(matchedPodsOfNode)),
    }, nil}

这个函数比较短，可以看到在指定node上查询到匹配selector的pod越多，分值就越高。假设找到了20个，那么这里的分值就是20；假设找到的是2，那这里的分值就是2.

CalculateNodeAffinityPriorityReduce(Reduce)

和上面这个Map对应的Reduce函数其实没有单独实现，通过NormalizeReduce函数做了一个通用的Reduce处理：


pkg/scheduler/algorithm/priorities/node_affinity.go:77var CalculateNodeAffinityPriorityReduce = NormalizeReduce(schedulerapi.MaxPriority, false)pkg/scheduler/algorithm/priorities/reduce.go:29func NormalizeReduce(maxPriority int, reverse bool) algorithm.PriorityReduceFunction {
    return func(
        _ *v1.Pod,
        _ interface{},
        _ map[string]*schedulercache.NodeInfo,
        // 注意到这个result是HostPriorityList，对应1个算法N个node的结果集
        result schedulerapi.HostPriorityList) error {

        var maxCount int
        // 遍历result将最高的Score赋值给maxCount；
        for i := range result {
            if result[i].Score > maxCount {
                maxCount = result[i].Score
            }
        }

        if maxCount == 0 {
            if reverse {
                for i := range result {
                    result[i].Score = maxPriority
                }
            }
            return nil
        }

        for i := range result {
            score := result[i].Score
            // 举个例子：10*(5/20)
            score = maxPriority * score / maxCount
            if reverse {
                // 如果score是3，得到7；如果score是4，得到6，结果反转；
                score = maxPriority - score
            }

            result[i].Score = score
        }
        return nil
    }}

map-reduce小节

Function：一个算法一次性计算出所有node的Score，这个Score的范围是规定的[0-10]；
Map-Reduce：一个Map算法计算1个node的Score，这个Score可以灵活处理，可能是20，可能是-3；Map过程并发进行；最终得到的结果result通过Reduce归约，将这个算法对应的所有node的分值归约为[0-10]；

抢占调度

sched.scheduleOne -> sched.preempt -> func (g *genericScheduler) Preempt
详见k8s源码分析--kube-scheduler源码（二）

参考

https://juejin.im/post/5c889c2e5188257df700a732

https://www.kubernetes.org.cn/5122.html

https://www.cnblogs.com/cloudgeek/p/10561221.html

https://www.kubernetes.org.cn/5221.html

http://tang.love/2018/07/24/learning-kubernetes-source-code/

https://www.huweihuang.com/article/source-analysis/kube-scheduler/registerAlgorithmProvider/#1-applyfeaturegates

https://my.oschina.net/u/3797264/blog/2615842

https://my.oschina.net/jxcdwangtao/blog/1594348

你可能感兴趣的:(kubernetes)

k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
在 Linux（openEuler 24.03 LTS-SP1）上安装 Kubernetes + KubeSphere 的防火墙放行全攻略
目录在Linux（openEuler24.03LTS-SP1）上安装Kubernetes+KubeSphere的防火墙放行全攻略一、为什么要先搞定防火墙？二、目标环境三、需放行的端口和协议列表四、核心工具说明1.修正后的exec.sh脚本（支持管道/重定向）2.批量放行脚本：open_firewall.sh五、使用示例1.批量放行端口2.查看当前防火墙规则3.仅开放单一端口（临时需求）4.检查特定
K3s-io/kine项目核心架构与数据流解析富珂祯
K3s-io/kine项目核心架构与数据流解析kineRunKubernetesonMySQL,Postgres,sqlite,dqlite,notetcd.项目地址:https://gitcode.com/gh_mirrors/ki/kine项目概述K3s-io/kine是一个创新的存储适配器，它在传统SQL数据库之上实现了轻量级的键值存储功能。该项目最显著的特点是采用单一数据表结构，通过巧妙的
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
一、kubeconfig配置文件文件作用:kubectl使用kubeconfig认证文件连接K8s集群生成方式:使用kubectlconfig指令生成核心字段:clusters:定义集群信息，包括证书和服务端地址contexts:定义上下文，关联集群和用户users:定义客户端认证信息current-context:指定当前使用的上下文二、Kubernetes弃用Docker1.弃用背景原因:
k8s之configmap 西京刀客云原生(Cloud Native)云计算虚拟化 #Kubernetes(k8s)kubernetes 容器云原生
文章目录k8s之configmap什么是ConfigMap？为什么需要ConfigMap？ConfigMap的创建方式ConfigMap的使用方式实际应用场景ConfigMap最佳实践参考k8s之configmap什么是ConfigMap？ConfigMap是Kubernetes中用于存储非机密配置数据的API对象。它允许你将配置信息与容器镜像解耦，使应用程序更加灵活和可移植。ConfigMap以
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
Kubernetes 高级调度 01 惊起白鸽450 kubernetes 容器云原生
一、初始化容器（InitContainer）：应用启动前的"预备军"在Kubernetes集群中，Pod作为最小部署单元，往往需要在主容器启动前完成一系列准备工作。例如，配置文件生成、依赖服务检查、内核参数调整等。这些操作若直接嵌入主容器镜像，会导致镜像体积膨胀、安全性降低，甚至引发启动逻辑混乱。初始化容器（InitContainer）的出现，正是为了解决这一痛点。1.1核心概念与特性InitCo
# 深度解析:k8s技术架构从入门到精通
从零开始，带你玩转Kubernetes！不再是"听说很牛逼，但不知道怎么用"的状态文章目录初识K8s：不只是一个"容器编排工具"K8s核心架构：Master和Node的"君臣关系"ControlPlane：大脑中枢的精密运作WorkerNode：真正干活的"打工人"Pod：K8s世界的最小单位Service：让应用"找得到彼此"实战场景：从单体到微服务的华丽转身进阶之路：从入门到精通的修炼指南总结
3-2-1、k8s学习-k8s介绍向新35° 一 be a K8s God kubernetes 学习容器
1、Kubernetes（K8s）详细介绍一、Kubernetes概述Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。其名称源于希腊语，意为“舵手”或“飞行员”，象征着对容器化应用的精准控制。核心目标：简化微服务架构下的应用部署与管理，解决容器化应用的服务发现、负载均衡、自动扩缩容、故障恢复等问题。起源：由Google开发（基于内部Borg系统），2014年
【ubuntu24.04】k8s 部署6：calico容器正常启动等风来不如迎风去网络服务入门与实战 kubernetes 容器云原生
参考大神以及tigera官方的calico教程：拥有一个带有Calico的单主机Kubernetes集群后，【k8s】配置calico1：镜像拉取【k8s】master节点重新安装docker-ce本文进一步解决容器启动问题：非常感谢大神的指点：准备Kubernetes集群环境做好了各种配置以后，kube**的镜像起始
云原生周刊：Istio 1.24.0 正式发布
云原生周刊：Istio1.24.0正式发布开源项目推荐KopfKopf是一个简洁高效的Python框架，只需几行代码即可编写KubernetesOperator。Kubernetes（K8s）作为强大的容器编排系统，虽自带命令行工具（kubectl），但在应对复杂操作时往往力不从心。通过Kopf，您可以使用Python轻松实现Kubernetes的复杂操作，包括条件判断、事件触发等，让自定义操作变
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析观熵大模型高阶优化技术专题算法人工智能
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同、动态算力管理摘要在AI推理系统的生产级部署中，单一自动扩缩容机制已无法满足实际复杂环境中对资源利用率、任务延迟与系统稳定性的多重要求。特别是在GPU/NPU/CPU并存的异构计算集群中，运行
Kubernetes 配置管理伤不起bb kubernetes 容器云原生
目录前言：为什么需要K8s配置管理？一、为什么需要ConfigMap和Secret？二、ConfigMap：非敏感配置的管理工具1.什么是ConfigMap？2.实战：创建ConfigMap的4种方式①基于目录创建（多文件批量导入）②基于单个文件创建（指定key名）③基于ENV文件创建（key=value格式）④基于命令行键值对创建（少量配置）3.实战：在Pod中使用ConfigMap①作为环境变
深度解析：SUSE Harvester私有云平台建设指南
关键词:SUSEHarvester,私有云,HCI,超融合,Kubernetes,KubeVirt,Longhorn,云原生,虚拟化,容器目录导航一、初识SUSEHarvester-私有云的新选择二、核心架构解析-揭开HCI的神秘面纱三、部署实战-从零到一搭建你的私有云四、存储与网络配置-数据的安全港湾五、虚拟机管理-让资源调度更智能六、监控与运维-保驾护航的守护者七、最佳实践-踩坑经验分享八、总
Spring Boot：将应用部署到Kubernetes的完整指南小马不敲代码 SpringBoot spring boot kubernetes 后端
详细介绍如何将一个SpringBoot应用程序部署到Kubernetes集群。从一个基础的SpringBoot应用开始，通过Docker容器化，最后完成Kubernetes集群的部署配置。这个过程将帮助你理解现代云原生应用部署的完整流程。示例项目SpringBoot2.6.13Java8Maven构建工具RESTfulAPI接口标准的项目结构项目结构如下：├──src/│├──main/││├──
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
容器和 Kubernetes 中的退出码 riverz1227 k8s kubernetes 容器云原生
在Kubernetes中，Pod中容器的退出状态（exitCode）表示容器进程退出时的状态码。这个exitCode通常是应用程序或shell返回的标准UNIX/Linux退出码。理解常见的exitCode有助于我们快速定位容器异常退出的原因。一、常见exitCode及含义（基础类）exitCode含义说明常见原因0成功退出（正常）容器程序已完成任务或被优雅终止1一般性错误（GeneralErro
Kubernetes Pod DNS 配置 riverz1227 k8s k8s
一、概述Kubernetes提供多种DNS策略（dnsPolicy），同时kubelet参数也影响最终的DNS行为。二、dnsPolicy策略说明dnsPolicy含义说明Default使用宿主机的DNS配置（kubelet的--resolv-conf）ClusterFirst优先使用集群DNS（如CoreDNS），仅在无法解析时退回宿主机DNS（默认策略）ClusterFirstWithHost
Kubernetes Ingress 服务发布进阶伤不起bb kubernetes 容器云原生
目录一、核心概念与原理1.Ingress基础概念（1）Ingress的定位（2）Ingress与其他暴露方式对比（3）Ingress组成与分工2.Ingress工作原理（以Nginx为例）3.典型流量访问链路二、IngressNginxController安装（Helm方式）1.环境准备与工具安装2.核心配置文件修改（values.yaml）3.部署与验证命令三、Ingress基础使用：域名绑定服
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）运维痛点日志采集的可靠性与复杂性pod生命周期短、易销毁容器重启或Pod被销毁后，日志会丢失（除非已持久化或集中采集）。需要侧重于实时采集和转发，而不能依赖节点本地日志。多样化的日志来源与格式应用日志、系统日志、Kubernetes组件日志（如kubelet、kube-apiserver）、中间件日志（
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
CKA认证 | 使用kubeadm部署K8s集群（v1.26）小安运维日记 Kubernetes CKA 认证培训 kubernetes 容器云原生运维 k8s docker
一、前置知识点1.1生产环境可部署Kubernetes集群的两种方式目前生产部署Kubernetes集群主要有两种方式：①kubeadmKubeadm是一个K8s部署工具，提供kubeadminit和kubeadmjoin，用于快速部署Kubernetes集群。②二进制包从github下载发行版的二进制包，手动部署每个组件，组成Kubernetes集群。这里采用kubeadm搭建集群kubeadm
116、掌握Docker Compose与Kubernetes：Rust应用部署实操多多的编程笔记 Rust之Web开发 docker kubernetes rust
Rust部署与运维：掌握使用DockerCompose、Kubernetes等工具进行应用部署和管理1.引言Rust是一种注重性能、安全和并发的系统编程语言。近年来，随着云计算和微服务架构的普及，如何将Rust应用部署到生产环境中，成为越来越多开发者关注的问题。本文将介绍如何使用DockerCompose和Kubernetes等工具进行Rust应用的部署和管理。2.DockerCompose简介D
开源的服务网格:Istio 深海科技服务行业发展开源 istio 云原生
一、lstio介绍Istio是一个开源的服务网格（ServiceMesh），它为微服务架构中的服务间通信提供了统一的管理、连接、安全、控制和可观测性。在复杂的云原生环境中，尤其是基于Kubernetes的部署中，随着微服务数量的增加，管理它们之间的网络通信会变得异常复杂。Istio就是为了解决这些挑战而设计的。1、为什么需要Istio？在传统的微服务架构中，开发人员需要在每个服务中编写代码来处理服
serviceMesh 学习一切顺势而行 service_mesh 学习 java
根据您已掌握的Docker、Kubernetes及灰度发布等技能，以下是ServiceMesh需要重点掌握的知识体系，分为核心概念、关键技术、实践场景和进阶能力四部分，助您系统化掌握服务网格：一、ServiceMesh核心概念概念说明与K8s的关联数据平面Sidecar代理（如Envoy），拦截服务间流量通过sidecar-injector自动注入到Pod中控制平面管理Sidecar的组件（如Is
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end