hanjialeOK

[kubeflow] training-operator源码解析

在之前的文章 [kubeflow] 从零搭建training-operator项目中，我们从零搭建了一个简单的training-operator项目，最终就差完成controller的Reconcile函数逻辑。

在上一篇文章 [kubeflow] controller-runtime源码解析中，我们探究了controller-runtime的运行原理，理解了执行Reconcile函数之前的逻辑是啥样的。

这次从TFJob的Reconcile函数为入口，探究training-operator到底是怎么工作的。

TFJobReconciler

代码架构

现在是2023/8/18，kubeflow/common已经被merge到了training-operator主分支，更有利于源码阅读。我所使用的master分支的版本是855e09。

不得不说，第一次看training-operator源码，很头大，文件太多了…哪怕顺着TFJob的Reconcile函数来看，里面的函数调用也是错综复杂。TFJobReconciler，JobController，ControllerInterface这几个结构体怎么你中有我，我中有你，着实把我看蒙了。直到看到这篇文章 tf-operator源码分析，其中的一段话和一张图让我沉思了很久

JobController 类似模板类，实现了核心逻辑，又要留有足够的扩展性

TFJobReconciler 聚合了 JobController，这样可以使用 JobController.ReconcileJobs 触发Reconcile 核心逻辑

TFJobReconciler 又实现了ControllerInterface ，JobController 通过 ControllerInterface 实现聚合TFJobReconciler 的效果，可以调用Get 方法获取信息，也可以调用ReconcileXX 方法执行上层自定义扩展逻辑。

文字和图片均来自 tf-operator源码分析

在那个晚上，这段话和图片我反反复复读了很久，感觉懂了，又感觉没懂。似懂非懂，还差临门一脚。最终我决定简化逻辑，动手运行一下这个“你中有我，我中有你”的代码结构。

有两个基础的go知识点：

在go语言中，interface是抽象接口，只定义方法但没有具体实现。如果一个结构体实现了某个interface定义的所有方法，那么我们就说这个结构体是这个interface的具体实现。
go结构体中可以使用匿名成员，只需指定类型，无需指定名称。该结构体就可以拥有该匿名成员的所有方法。

TFReconciler 的定义和初始化在 pkg/controller.v1/tensorflow/tfjob_controller.go
ControllerInterface 的定义在 pkg/common/interface.go
JobController 的定义和初始化在 pkg/controller.v1/common/job_controller.go

下面这面这段代码就是由TFReconciler，ControllerInterface，JobController三者的关系简化而来。ControllerInterface是抽象接口，定义了4个函数。JobController这个结构体实现了其中两个函数ReconileJobs()和ReconilePods()，TFJobReconiler实现了GetUID()和GetAPI()两个函数。TFJobReconiler结构体中有匿名成员JobController，因此TFJobReconiler拥有JobController实现的两个函数，相当于TFJobReconiler实现了ReconileJobs()和ReconilePods()这两个函数。至此，TFJobReconiler实现了ControllerInterface定义的所有函数，故TFJobReconiler是ControllerInterface。而JobController里的成员Controller恰恰是ControllerInterface类型，因此在main函数中使用TFJobReconiler来初始化JobController。看起来就是“你中有我，我中有你”。

运行这段程序，TFJobReconiler.Reconile()实际调用JobController.ReconileJobs()
jc.Controller.GetAPI()实际调用TFJobReconiler.GetAPI()
jc.Controller.GetUID()实际调用TFJobReconiler.GetUID()
jc.Controller.ReconilePods()实际调用JobController.ReconilePods()

打印结果如下

ReconileJobs...
GetAPI...
GetUID...
ReconilePods... [JobController]

如果把注释部分的代码恢复，即TFJobReconiler本身实现了ReconilePods()，那么jc.Controller.ReconilePods()就会调用TFJobReconiler.ReconilePods()而非JobController.ReconilePods()，相当于被覆盖掉了（有点像C++里面的多态）。

现在是不是可以理解上面那张图了

package main

import "fmt"

type ControllerInterface interface {
	ReconileJobs()
	ReconilePods()
	GetUID()
	GetAPI()
}

type JobController struct {
	Controller ControllerInterface
}

func (jc *JobController) ReconileJobs() {
	fmt.Println("ReconileJobs...")
	jc.Controller.GetAPI()
	jc.Controller.GetUID()
	jc.Controller.ReconilePods()
}

func (jc *JobController) ReconilePods() {
	fmt.Println("ReconilePods... [JobController]")
}

type TFJobReconiler struct {
	JobController
}

func (r *TFJobReconiler) GetUID() {
	fmt.Println("GetUID...")
}

func (r *TFJobReconiler) GetAPI() {
	fmt.Println("GetAPI...")
}

// This func will override JobController.ReconilePods()
// func (r *TFJobReconiler) ReconilePods() {
// 	fmt.Println("ReconilePods... [TFJobReconiler]")
// }

func (r *TFJobReconiler) Reconile() {
	r.ReconileJobs()
}

func main() {
	r := &TFJobReconiler{}
	r.JobController = JobController{
		Controller: r,
	}
	r.Reconile()
}

搞懂了上面的，我们再正式开始看代码。

前置知识

介绍完controller-runtime以后，我们要明白一件事，training-operator中Reconciler的实现逻辑很大程度上是在模仿K8s源码中的controller，也就是说，training-operator中Reconciler里面的很多机制都是来自于k8s源码。

第一个要说的是expectation。expecatation最初是replicaset controller中的机制。这部分我参考了 k8s replicaset controller源码分析（3）-expectations 机制分析这篇文章。

expectation的代码在 pkg/controller.v1/expectation/expectation.go。expectation记录了TFJob对象在某一次调谐中期望创建/删除的pod/service数量。

pod/service创建/删除完成后，会调用CreationObserved/DeletionObserved，进而调用LowerExpectations，该期望数会相应的减少。
pod/service期望创建/删除时，会调用ExpectCreations/ExpectDeletions，进而调用RaiseExpectations，该期望数会相应的增加。

当期望创建/删除的pod/service数量小于等于0时，说明上一次调谐中期望创建/删除的pod/service数量已经达到，这种情况下，expectations.SatisfiedExpectations会返回true。如果期望被满足并且TFJob对象的deleteTimestamp为空，才会调用ReconcileJobs继续进行调谐操作，也即pod/service的创建/删除操作。

// ControllerExpectationsInterface is an interface that allows users to set and wait on expectations.
// Only abstracted out for testing.
// Warning: if using KeyFunc it is not safe to use a single ControllerExpectationsInterface with different
// types of controllers, because the keys might conflict across types.
type ControllerExpectationsInterface interface {
	GetExpectations(controllerKey string) (*ControlleeExpectations, bool, error)
	SatisfiedExpectations(controllerKey string) bool
	DeleteExpectations(controllerKey string)
	SetExpectations(controllerKey string, add, del int) error
	ExpectCreations(controllerKey string, adds int) error
	ExpectDeletions(controllerKey string, dels int) error
	CreationObserved(controllerKey string)
	DeletionObserved(controllerKey string)
	RaiseExpectations(controllerKey string, add, del int)
	LowerExpectations(controllerKey string, add, del int)
}

第二个要说的是adopt orphan（孤儿收养），这里涉及到一个k8s ownerReferences基础知识点，可以看看 Kubernetes Controller 如何管理资源这篇文章了解一下。

k8s 中，资源的 metadata 中有几个对删除比较重要的属性：

ownerReferences: 保存父资源的信息

deletionTimestamp: 如果不为空，表明该资源正在被删除中

finalizers: 当你告诉 Kubernetes 删除一个指定了 Finalizer 的对象时， Kubernetes API 通过填充 .metadata.deletionTimestamp 来标记要删除的对象，并返回 202 状态码(HTTP “已接受”) 使其进入只读状态。此时控制平面或其他组件会采取 Finalizer 所定义的行动，而目标对象仍然处于终止中（Terminating）的状态。这些行动完成后，控制器会删除目标对象相关的 Finalizer。当 metadata.finalizers 字段为空时，Kubernetes 认为删除已完成并删除对象。

ownerReferences.blockOwnerDeletion: 布尔，当前资源是否会阻塞父资源的删除流程，默认为true

Foreground cascading deletion

设置资源的 metadata.deletionTimestamp，表明该资源的状态为正在删除中（“deletion in progress”）。

设置资源的 metadata.finalizers 为 “foregroundDeletion”。

删除所有 ownerReference.blockOwnerDeletion=true 的子资源

删除当前资源

每一个子资源的 ownerReferences 字段里都有一个属性 ownerReferences.blockOwnerDeletion，这是一个
bool，表明当前资源是否会阻塞父资源的删除流程。删除父资源前，应该把所有标记为阻塞的子资源都删光。

在当前资源被删除以前，该资源都通过 apiserver 持续可见。

Orphan deletion
触发 FinalizerOrphanDependents，将所有子资源的 owner 清空，也就是令其成为 orphan。然后再删除当前资源。

Background cascading deletion
立刻删除当前资源，然后在后台任务中删除子资源。

foreground 和 orphan 删除策略是通过 finalizer 实现的因为这两个策略有一些删除前必须要做的事情：

foreground finalizer: 将所有的子资源放入删除事件队列

orphan finalizer: 将所有的子资源的 owner 设为空

而 background 则就是走标准删除流程：删自己 -> 删依赖。
以上来自 Kubernetes Controller 如何管理资源

简而言之，一个deployment创建之后，k8s会相应创建一个replicaset和一些pod，replicaset的ownerReference便是deployment，而所有pod的ownerReference是replicaset。采用background方法删除deployment，deployment被删除时，会根据从属关系删除replicaset，replicaset删除时，会根据从属关系删除所有pod。

没有ownerReferences字段的pod被称为orphan（孤儿），可以通过clientset的Pod.Patch()操作把新的ownerReferences注入到pod里面，从而完成adoption（收养）。

这张图来自 Kubernetes Controller 如何管理资源，是replicaset controller的调谐时孤儿收养的逻辑，和下面等会提到的TFJob的孤儿收养逻辑几乎相同。

SetupWithManager

我们先分析TFJobReconciler.SetupWithManager函数，位置在 pkg/controller.v1/tensorflow/tfjob_controller.go。函数的入参是mgr和controllerThreads，前者是k8s的manager，管理着controller，后者决定进行reconcile的线程数。

func (r *TFJobReconciler) SetupWithManager(mgr ctrl.Manager, controllerThreads int) error {

首先是创建controller。

	c, err := controller.New(r.ControllerName(), mgr, controller.Options{
		Reconciler:              r,
		MaxConcurrentReconciles: controllerThreads,
	})

我们看一下New函数的实现，在[email protected]/pkg/controller/controller.go。实际上是调用了NewUnmanaged这个函数，返回一个初始化了的Controller。可以看到TFJobReconcileryong用来初始化成员Do，controllerThreads的值用来初始化MaxConcurrentReconciles。这和上面controller-runtime源码分析部分是对应的。

// New returns a new Controller registered with the Manager.  The Manager will ensure that shared Caches have
// been synced before the Controller is Started.
func New(name string, mgr manager.Manager, options Options) (Controller, error) {
	c, err := NewUnmanaged(name, mgr, options)
	if err != nil {
		return nil, err
	}

	// Add the controller as a Manager components
	return c, mgr.Add(c)
}

// NewUnmanaged returns a new controller without adding it to the manager. The
// caller is responsible for starting the returned controller.
func NewUnmanaged(name string, mgr manager.Manager, options Options) (Controller, error) {
	// ...

	// Create controller with dependencies set
	return &controller.Controller{
		Do: options.Reconciler,
		MakeQueue: func() workqueue.RateLimitingInterface {
			return workqueue.NewNamedRateLimitingQueue(options.RateLimiter, name)
		},
		MaxConcurrentReconciles: options.MaxConcurrentReconciles,
		CacheSyncTimeout:        options.CacheSyncTimeout,
		Name:                    name,
		LogConstructor:          options.LogConstructor,
		RecoverPanic:            options.RecoverPanic,
		LeaderElected:           options.NeedLeaderElection,
	}, nil
}

回到SetupWithManager函数，下一步是通过Controller.Watch来监控TFJob资源。前面controller-runtime源码分析提到，Kind的Type是kubeflowv1.TFJob{}，cache则是引用了manager的Cache，用来提供informer。因为监控的是TFJob资源本身，所以事件处理用的是handler.EnqueueRequestForObject{}，这些。断言函数则只有CreateFunc。Controller.Watch其实就是为informer指定监控TFJob资源并注册回调函数。按照流程，informer监控到TFJob资源的增删改变动后，会触发回调函数，首先通过断言函数进行判断，判断为true的事件才会通过EnqueueRequestForObject的处理函数把该TFJob对象转化为reconcile.request{namespace, name}推入工作队列。

	// using onOwnerCreateFunc is easier to set defaults
	if err = c.Watch(source.Kind(mgr.GetCache(), &kubeflowv1.TFJob{}), &handler.EnqueueRequestForObject{},
		predicate.Funcs{CreateFunc: r.onOwnerCreateFunc()},
	); err != nil {
		return err
	}

然后是通过Controller.Watch来监控pod和service资源。eventHandler使用的是EnqueueRequestForOwner，因为监控的资源是pod/service，而我们是想其父资源TFJob的信息推入工作队列。predicates的三个函数都是自定义的，我们等会以OnDependentCreateFunc为例看一看。这里的Controller.Watch其实就是为informer指定监控pod/service资源并注册回调函数。按照流程，informer监控到pod/service资源的增删改变动后，会触发回调函数，首先通过断言函数进行判断，判断为true的事件才会通过EnqueueRequestForOwner的处理函数把pod/service资源所隶属的TFJob对象转化为reconcile.request{namespace, name}推入工作队列。

	// eventHandler for owned objects
	eventHandler := handler.EnqueueRequestForOwner(mgr.GetScheme(), mgr.GetRESTMapper(), &kubeflowv1.TFJob{}, handler.OnlyControllerOwner())
	predicates := predicate.Funcs{
		CreateFunc: util.OnDependentCreateFunc(r.Expectations),
		UpdateFunc: util.OnDependentUpdateFunc(&r.JobController),
		DeleteFunc: util.OnDependentDeleteFunc(r.Expectations),
	}
	// Create generic predicates
	genericPredicates := predicate.Funcs{
		CreateFunc: util.OnDependentCreateFuncGeneric(r.Expectations),
		UpdateFunc: util.OnDependentUpdateFuncGeneric(&r.JobController),
		DeleteFunc: util.OnDependentDeleteFuncGeneric(r.Expectations),
	}
	// inject watching for job related pod
	if err = c.Watch(source.Kind(mgr.GetCache(), &corev1.Pod{}), eventHandler, predicates); err != nil {
		return err
	}
	// inject watching for job related service
	if err = c.Watch(source.Kind(mgr.GetCache(), &corev1.Service{}), eventHandler, predicates); err != nil {
		return err
	}

OnDependentCreateFunc函数非常简单，首先判断这个pod的labels有无"training.kubeflow.org/replica-type"这个键，假设键值为"PS"。metav1.GetControllerOf(e.Object)可以获取该pod所属的TFJob，使用TFJob的namespace/name作为jobkey，继而生成的expectKey就是TFJob-namespace/TFJob-name/ps/pods。因为informer调用回调函数时，事件已经发生，即pod已经创建完成，因此此时通过exp.CreationObserved(expectKey)来降低期望。

// OnDependentCreateFunc modify expectations when dependent (pod/service) creation observed.
func OnDependentCreateFunc(exp expectation.ControllerExpectationsInterface) func(event.CreateEvent) bool {
	return func(e event.CreateEvent) bool {
		rtype := e.Object.GetLabels()[kubeflowv1.ReplicaTypeLabel]
		if len(rtype) == 0 {
			return false
		}

		//logrus.Info("Update on create function ", ptjr.ControllerName(), " create object ", e.Object.GetName())
		if controllerRef := metav1.GetControllerOf(e.Object); controllerRef != nil {
			jobKey := fmt.Sprintf("%s/%s", e.Object.GetNamespace(), controllerRef.Name)
			var expectKey string
			switch e.Object.(type) {
			case *corev1.Pod:
				expectKey = expectation.GenExpectationPodsKey(jobKey, rtype)
			case *corev1.Service:
				expectKey = expectation.GenExpectationServicesKey(jobKey, rtype)
			default:
				return false
			}
			exp.CreationObserved(expectKey)
			return true
		}

		return true
	}
}

下面是检查有没有部署volcano或者scheduler-plugins，从而使用Controller.Watch来监控podgroup资源。

	// skip watching volcano PodGroup if volcano PodGroup is not installed
	if _, err = mgr.GetRESTMapper().RESTMapping(schema.GroupKind{Group: v1beta1.GroupName, Kind: "PodGroup"},
		v1beta1.SchemeGroupVersion.Version); err == nil {
		// inject watching for job related volcano PodGroup
		if err = c.Watch(source.Kind(mgr.GetCache(), &v1beta1.PodGroup{}), eventHandler, genericPredicates); err != nil {
			return err
		}
	}
	// skip watching scheduler-plugins PodGroup if scheduler-plugins PodGroup is not installed
	if _, err = mgr.GetRESTMapper().RESTMapping(schema.GroupKind{Group: schedulerpluginsv1alpha1.SchemeGroupVersion.Group, Kind: "PodGroup"},
		schedulerpluginsv1alpha1.SchemeGroupVersion.Version); err == nil {
		// inject watching for job related scheduler-plugins PodGroup
		if err = c.Watch(source.Kind(mgr.GetCache(), &schedulerpluginsv1alpha1.PodGroup{}), eventHandler, genericPredicates); err != nil {
			return err
		}
	}

至此，SetupWithManager函数结束。总结就是创建一个controller，然后调用controller.Watch函数监听TFJob/pod/service资源并注册相应的回调函数。这样informer运行起来后就可以将这些资源的变动转化为reconcile.request推入工作队列。

Reconcile

现在我们看一下最核心的Reconcile函数，入参是ctx和req，后者便是从工作队列中取出的reconcile.request。

func (r *TFJobReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {

下面根据req.NamespacedName从api server里获取这个TFJob资源。正常情况下这个TFJob是可以找到的，因为从工作队列中消费recioncile.request时，这个TFJob已经已经创建好了（informer调用增删改的回调函数时，事件已经发生，然后才会把recioncile.request推入队列）。

	tfjob := &kubeflowv1.TFJob{}
	err := r.Get(ctx, req.NamespacedName, tfjob)
	if err != nil {
		logger.Info(err.Error(), "unable to fetch TFJob", req.NamespacedName.String())
		return ctrl.Result{}, client.IgnoreNotFound(err)
	}

下面就是验证这个TFjob是否合法有效，无需细说。

	if err = kubeflowv1.ValidateV1TFJob(tfjob); err != nil {
		logger.Error(err, "TFJob failed validation")
		r.Recorder.Eventf(tfjob, corev1.EventTypeWarning, commonutil.NewReason(kubeflowv1.TFJobKind, commonutil.JobFailedValidationReason),
			"TFJob failed validation because %s", err)
		return ctrl.Result{}, err
	}

下面是检测expectation是否满足。jobKey的值就是tfjob-namespace/tfjob-name。根据这个jobKey检查对应的pod/service的expectation是否得到满足。

	// Check if reconciliation is needed
	jobKey, err := common.KeyFunc(tfjob)
	if err != nil {
		utilruntime.HandleError(fmt.Errorf("couldn't get jobKey for job object %#v: %v", tfjob, err))
	}

	replicaTypes := util.GetReplicaTypes(tfjob.Spec.TFReplicaSpecs)
	needReconcile := util.SatisfiedExpectations(r.Expectations, jobKey, replicaTypes)

	if !needReconcile || tfjob.GetDeletionTimestamp() != nil {
		logger.Info("reconcile cancelled, job does not need to do reconcile or has been deleted",
			"sync", needReconcile, "deleted", tfjob.GetDeletionTimestamp() != nil)
		return ctrl.Result{}, nil
	}

下面是SatisfiedExpectations函数，可以看出满足的条件是pod或者service其中一个的expectation被满足。至于这里为什么使用|| ？我认为是出于性能上的考虑，如果pod/service很少，那么这里&&或者||没啥区别，但是万一pod/service达到上千规模，那么达到满足&&的条件可能会很久，会导致reconcile间隔很久。但是reconcile间隔太少也不好，会增加api server的压力。因此取个折中。

// SatisfiedExpectations returns true if the required adds/dels for the given mxjob have been observed.
// Add/del counts are established by the controller at sync time, and updated as controllees are observed by the controller
// manager.
func SatisfiedExpectations(exp expectation.ControllerExpectationsInterface, jobKey string, replicaTypes []kubeflowv1.ReplicaType) bool {
	satisfied := false
	for _, rtype := range replicaTypes {
		// Check the expectations of the pods.
		expectationPodsKey := expectation.GenExpectationPodsKey(jobKey, string(rtype))
		satisfied = satisfied || exp.SatisfiedExpectations(expectationPodsKey)
		// Check the expectations of the services.
		expectationServicesKey := expectation.GenExpectationServicesKey(jobKey, string(rtype))
		satisfied = satisfied || exp.SatisfiedExpectations(expectationServicesKey)
	}

	return satisfied
}

下面是就是expectation.SatisfiedExpectations函数。满足条件主要有两种，一是Fulfilled，就是add和del期望均得到满足，即值均小于等于零，二是reconcile时间超时。

// SatisfiedExpectations returns true if the required adds/dels for the given controller have been observed.
// Add/del counts are established by the controller at sync time, and updated as controllees are observed by the controller
// manager.
func (r *ControllerExpectations) SatisfiedExpectations(controllerKey string) bool {
	if exp, exists, err := r.GetExpectations(controllerKey); exists {
		if exp.Fulfilled() {
			log.Debugf("Controller expectations fulfilled %#v", exp)
			return true
		} else if exp.isExpired() {
			log.Debugf("Controller expectations expired %#v", exp)
			return true
		} else {
			log.Debugf("Controller still waiting on expectations %#v", exp)
			return false
		}
	} else if err != nil {
		log.Debugf("Error encountered while checking expectations %#v, forcing sync", err)
	} else {
		// When a new controller is created, it doesn't have expectations.
		// When it doesn't see expected watch events for > TTL, the expectations expire.
		//	- In this case it wakes up, creates/deletes controllees, and sets expectations again.
		// When it has satisfied expectations and no controllees need to be created/destroyed > TTL, the expectations expire.
		//	- In this case it continues without setting expectations till it needs to create/delete controllees.
		log.Debugf("Controller %v either never recorded expectations, or the ttl expired.", controllerKey)
	}
	// Trigger a sync if we either encountered and error (which shouldn't happen since we're
	// getting from local store) or this controller hasn't established expectations.
	return true
}

// Fulfilled returns true if this expectation has been fulfilled.
func (e *ControlleeExpectations) Fulfilled() bool {
	// TODO: think about why this line being atomic doesn't matter
	return atomic.LoadInt64(&e.add) <= 0 && atomic.LoadInt64(&e.del) <= 0
}

回到，如果expecattion被满足或者上次reconcile超时，那么会再次进行reconcile！

	// Set default priorities to tfjob
	r.Scheme.Default(tfjob)

	// Use common to reconcile the job related pod and service
	err = r.ReconcileJobs(tfjob, tfjob.Spec.TFReplicaSpecs, tfjob.Status, &tfjob.Spec.RunPolicy)
	if err != nil {
		logrus.Warnf("Reconcile Tensorflow Job error %v", err)
		return ctrl.Result{}, err
	}

ReconcileJobs的代码在pkg/controller.v1/common/job.go。调谐的第一步是重置期望，因为既然执行本次调谐，说明之前的期望已经满足。

	// Reset expectations
	// 1. Since `ReconcileJobs` is called, we expect that previous expectations are all satisfied,
	//    and it's safe to reset the expectations
	// 2. Reset expectations can avoid dirty data such as `expectedDeletion = -1`
	//    (pod or service was deleted unexpectedly)
	if err = jc.ResetExpectations(jobKey, replicas); err != nil {
		log.Warnf("Failed to reset expectations: %v", err)
	}

下面是是清点已经存在的pods/services，收养符合要求的孤儿。

	pods, err := jc.Controller.GetPodsForJob(job)
	if err != nil {
		log.Warnf("GetPodsForJob error %v", err)
		return err
	}

	services, err := jc.Controller.GetServicesForJob(job)
	if err != nil {
		log.Warnf("GetServicesForJob error %v", err)
		return err
	}

这张图来自 Kubernetes Controller 如何管理资源，是replicaset controller的调谐时孤儿收养的逻辑，和TFJob的孤儿收养逻辑几乎相同。

下面是运行podgroup的同步，在podgroup被调度器调度为Inqueue状态前，需要阻塞pod的创建。这里先暂时按下不表。

			syncReplicas := true
			pg, err := jc.SyncPodGroup(metaObject, pgSpecFill)
			if err != nil {
				log.Warnf("Sync PodGroup %v: %v", jobKey, err)
				syncReplicas = false
			}

			// Delay pods creation until PodGroup status is Inqueue
			if jc.PodGroupControl.DelayPodCreationDueToPodGroup(pg) {
				log.Warnf("PodGroup %v unschedulable", jobKey)
				syncReplicas = false
			}

下面开始对pods和services进行调谐，两者的逻辑差不多。TFJob中的pod角色一般是PS和Worker，使用for循环对每一种角色的pods/services进行调谐。

		// Diff current active pods/services with replicas.
		for rtype, spec := range replicas {
			err := jc.Controller.ReconcilePods(metaObject, &jobStatus, pods, rtype, spec, replicas)
			if err != nil {
				log.Warnf("ReconcilePods error %v", err)
				return err
			}

			err = jc.Controller.ReconcileServices(metaObject, services, rtype, spec)

			if err != nil {
				log.Warnf("ReconcileServices error %v", err)
				return err
			}
		}

下面是ReconcilePods函数，位置在pkg/controller.v1/common/pod.go。首先是对上文中ReconcileJobs时清点的pods进行处理。

	// GetPodSlices will return enough information here to make decision to add/remove/update resources.
	//
	// For example, let's assume we have pods with replica-index 0, 1, 2
	// If replica is 4, return a slice with size 4. [[0],[1],[2],[]], a pod with replica-index 3 will be created.
	//
	// If replica is 1, return a slice with size 3. [[0],[1],[2]], pod with replica-index 1 and 2 are out of range and will be deleted.
	podSlices := jc.GetPodSlices(pods, numReplicas, logger)

下面就是GetPodSlices函数，位置在pkg/core/pod.go。这个函数非常有用。入参中的pods就是上文中ReconcileJobs时清点的pods，replicas是该pod角色类型对应的总副本数。podSlices是一个二维数组，第一维是pod的index值，第二维是该index值对应的pod的数量。CalculatePodSliceSize会计算出 max(当前已存在的pod中index+1，replicas) 作为podSlices的第一维的大小。GetPodSlices比那里pods来统计那些index已经存在以及对应的pod数量。

// GetPodSlices returns a slice, which element is the slice of pod.
// It gives enough information to caller to make decision to up/down scale resources.
func GetPodSlices(pods []*v1.Pod, replicas int, logger *log.Entry) [][]*v1.Pod {
	podSlices := make([][]*v1.Pod, CalculatePodSliceSize(pods, replicas))
	for _, pod := range pods {
		index, err := utillabels.ReplicaIndex(pod.Labels)
		if err != nil {
			logger.Warningf("Error obtaining replica index from Pod %s/%s: %v", pod.Namespace, pod.Name, err)
			continue
		}
		if index < 0 || index >= replicas {
			logger.Warningf("The label index is not expected: %d, pod: %s/%s", index, pod.Namespace, pod.Name)
		}

		podSlices[index] = append(podSlices[index], pod)
	}
	return podSlices
}

// CalculatePodSliceSize compare max pod index with desired replicas and return larger size
func CalculatePodSliceSize(pods []*v1.Pod, replicas int) int {
	size := 0
	for _, pod := range pods {
		index, err := utillabels.ReplicaIndex(pod.Labels)
		if err != nil {
			continue
		}
		size = MaxInt(size, index)
	}

	// size comes from index, need to +1 to indicate real size
	return MaxInt(size+1, replicas)
}

遍历刚刚统计的podSlices，

如果index对应的pod数量大于1，说明pod超过预期。
如果index对应的pod数量等于0，说明需要创建pod。
如果index对应的pod数量等于1，检查index是否超过范围，如果超过则需要删除pod，增加pod的del expectation。检查pod的状态和退出码。

	for index, podSlice := range podSlices {
		if len(podSlice) > 1 {
			logger.Warningf("We have too many pods for %s %d", rt, index)
		} else if len(podSlice) == 0 {
			logger.Infof("Need to create new pod: %s-%d", rt, index)

			// check if this replica is the master role
			masterRole = jc.Controller.IsMasterRole(replicas, rType, index)
			err = jc.createNewPod(job, rt, index, spec, masterRole, replicas)
			if err != nil {
				return err
			}
		} else {
			// Check the status of the current pod.
			pod := podSlice[0]

			// check if the index is in the valid range, if not, we should kill the pod
			if index < 0 || index >= numReplicas {
				err = jc.PodControl.DeletePod(pod.Namespace, pod.Name, runtimeObject)
				if err != nil {
					return err
				}
				// Deletion is expected
				jc.Expectations.RaiseExpectations(expectationPodsKey, 0, 1)
			}
			// ...

下面是createNewPod函数，这里是创建pod前给注入和podgroup相关的Annotations。

	// if gang-scheduling is enabled:
	// 1. if user has specified other scheduler, we report a warning without overriding any fields.
	// 2. if no SchedulerName is set for pods, we set the SchedulerName to gang-scheduler-name.
	if jc.Config.EnableGangScheduling() {
		if isCustomSchedulerSet(replicas, jc.PodGroupControl.GetSchedulerName()) {
			errMsg := "Another scheduler is specified when gang-scheduling is enabled and it will not be overwritten"
			logger.Warning(errMsg)
			jc.Recorder.Event(runtimeObject, v1.EventTypeWarning, podTemplateSchedulerNameReason, errMsg)
		}
		jc.PodGroupControl.DecoratePodTemplateSpec(podTemplate, metaObject, rt)
	}

创建pod前，增加pod的add expectation。对pod失败的情况进行处理；

如果失败，且原因是超时，k8s会自动重试，最终创建成功后，informer会收到通知，触发回调函数从而降低期望。
如果其他原因失败，informer不会收到通知，需要手动降低期望，等待下次调谐。

	// Creation is expected when there is no error returned
	// We use `RaiseExpectations` here to accumulate expectations since `SetExpectations` has no such kind of ability
	expectationPodsKey := expectation.GenExpectationPodsKey(jobKey, rt)
	jc.Expectations.RaiseExpectations(expectationPodsKey, 1, 0)

	controllerRef := jc.GenOwnerReference(metaObject)
	err = jc.PodControl.CreatePodsWithControllerRef(metaObject.GetNamespace(), podTemplate, runtimeObject, controllerRef)
	if err != nil && errors.IsTimeout(err) {
		// Pod is created but its initialization has timed out.
		// If the initialization is successful eventually, the
		// controller will observe the creation via the informer.
		// If the initialization fails, or if the pod keeps
		// uninitialized for a long time, the informer will not
		// receive any update, and the controller will create a new
		// pod when the expectation expires.
		return nil
	} else if err != nil {
		// Since error occurred(the informer won't observe this pod),
		// we decrement the expected number of creates
		// and wait until next reconciliation
		jc.Expectations.CreationObserved(expectationPodsKey)
		return err
	}

创建pod前，增加pod的del expectation。对pod失败的情况进行处理；

你可能感兴趣的:(kubernetes,kubernetes)

云原生技术与应用-Kubernetes服务发布基础慕桉 ~ 云原生 kubernetes 容器
目录一.service定义二.K8s服务发布的核心组件1.Pod：服务的基本运行单元2.Service：稳定访问Pod的抽象层3.Deployment：管理Pod的部署与更新三.service的工作原理四.service的负载均衡机制1.userspace模式2.iptables模式3.ipvs模式service的四种类型五.测试service的四种类型1.ClusterIP2.NodePort3
云原生周刊：K8s 中的后量子密码学 KubeSphere 云原生云原生 kubernetes 密码学
开源项目推荐KanisterKanister是一个由CNCF托管的开源框架，最初由VeeamKasten团队创建，旨在简化Kubernetes上的应用程序级别数据操作管理。它通过定义Blueprint、ActionSet和Profile等CRD（自定义资源）及其相关组件，为专家提供一种模板化的方式，将复杂的数据库或分布式系统备份／恢复逻辑封装在可重用、可共享的蓝图中。Kanister支持异步或同步
Kubernetes面试题分类整理 jarenyVO 面试题 K8s kubernetes 容器云原生
Kubernetes面试题分类整理文章目录Kubernetes面试题分类整理一、基础概念类1.什么是Kubernetes？它解决了什么问题？2.Pod是什么？为什么需要Pod而不是直接使用容器？二、核心组件类1.Kubernetes主节点(Master)有哪些核心组件？各自的作用是什么？2.kubelet和kube-proxy有什么区别？三、网络类1.Kubernetes网络模型的基本原则是什么？
自建K8s集群无法通过公网访问解决方案大A崛起 kubernetes 容器云原生
问题原因通过ckube搭建k8s集群时，由于没有指定公网IP，导致签发的apiserver.cert默认可提供给对外访问的是内网IP，不包含宿主机的公网IP，所以直接通过admin.conf中配置宿主机的公网IP去访问kubernetes是不可能的。解决方案手动通过kubeadm重新签发apiserver.cert，并在签发时指定宿主机的公网IP，使签发的apiserver.cert可以将宿主机的
ABP VNext + Kubernetes & Istio：微服务网格实战指南
ABPVNext+Kubernetes&Istio：微服务网格实战指南目录ABPVNext+Kubernetes&Istio：微服务网格实战指南一、引言二、环境与依赖️三、项目与基础部署3.1生成Kubernetes资源3.2构建Docker镜像3.3HelmChart目录结构与参数注入四、安装Istio&定义入口五、Mermaid全链路流程概览六、将服务注入IstioMesh七、流量管理与金丝雀
从代码到终端部署：Prompt如何颠覆传统DevOps流程 LCG元工具运维 prompt devops 运维
文章目录基于Prompt工程的DevOps架构重构实践一、架构演进与技术对比1.1架构演进路径1.2核心流程对比二、核心实现方案2.1Prompt解析引擎实现（Python）2.2Kubernetes集成部署（YAML模板）三、生产部署实践3.1安全增强方案3.2性能优化数据四、技术前瞻与演进4.1未来三年技术路线图五、完整技术图谱六、核心代码实现（TypeScript前端）七、部署验证测试基于P
【k8s学习】Kubernetes新手学习，4小时视频笔记总结伊丽莎白2015
【学习视频地址】KubernetesTutorialforBeginnersFULLCOURSEin4Hours视频不一定打得开，不过我笔记也很详细了。【笔记内容】1-【k8s学习】Kubernetes学习——核心组件和架构2-【k8s学习】minikube、kubectl、yaml配置文件的介绍3-【k8s学习】在minikube上布署MongoDB和MongoExpress4-【k8s学习】k
Dify-Helm项目中Unstructured本地化部署方案解析
Dify-Helm项目中Unstructured本地化部署方案解析在基于Kubernetes的Dify部署实践中，文档预处理环节的Unstructured服务集成是一个值得关注的技术点。本文将从技术架构角度深入分析该组件的部署方案。核心需求分析Unstructured作为Dify生态中的重要预处理组件，主要负责文档解析和结构化处理。在Docker原生部署方案中，该服务通过独立容器提供RESTAPI
k8s 基本架构一切顺势而行 k8s
基于Kubernetes(K8s)的核心设计，以下是其关键基本概念的详细解析。这些概念构成了K8s容器编排系统的基石，用于自动化部署、扩展和管理容器化应用。###一、K8s核心概念概览K8s的核心对象围绕容器生命周期管理、资源调度和服务发现展开，主要包括：1.**Pod**-**定义**：K8s最小调度单元，封装一个或多个紧密关联的容器(如主应用容器+辅助sidecar容器)。-**特性**：-共
掌握未来云原生：Kamaji Kubernetes 控制平面管理器白羿锟
掌握未来云原生：KamajiKubernetes控制平面管理器项目简介在Kubernetes的世界里，我们迎来了Kamaji——一款创新的Kubernetes控制平面管理器。这个项目基于托管控制平面的理念，将Kubernetes控制面组件运行在Pod中，而不是独立的物理或虚拟机上。通过这种方式，Kamaji使大规模集群管理和扩展变得更为高效且降低了运维负担。Kamaji就像一支全天候工作的Site
Kamaji项目中的Datastore：多租户Kubernetes控制平面数据存储方案解析胡易黎Nicole
Kamaji项目中的Datastore：多租户Kubernetes控制平面数据存储方案解析引言在现代Kubernetes管理架构中，数据存储层是控制平面的核心组件。Kamaji项目通过创新的数据存储设计，为多租户Kubernetes环境提供了灵活高效的解决方案。本文将深入解析Kamaji中Datastore的工作原理、技术特性以及最佳实践。数据存储架构设计Kamaji采用控制平面与数据存储解耦的架
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
k8s包管理器helm_K8S集群 Helm 包管理 weixin_39872893 k8s包管理器helm
Helm是一个Kubernetes的包管理工具，就像Linux下的包管理器，如yum/apt等，可以很方便的将之前打包好的yaml文件部署到kubernetes上。k8s之前部署要写很多的yaml文件，大型应用部署起来比较麻烦，于是helm就出现了。Helm有两个重要概念：helm：一个命令行客户端工具，主要用于Kubernetes应用chart的创建、打包、发布和管理。Chart：应用描述，一系
Kubernetes学习笔记（四）--Pod 状态与生命周期管理 Mr小三 Kubernetes 云原生 kubernetes
文章目录四、Pod状态与生命周期管理1.Pod概念网络存储用法pod的终止2.Init容器init模板用途3.Pause容器4.Pod的生命周期Podphase（阶段）Pod状态5.Pod健康-容器探针(Probe)概念EXEC探针HTTP探针TCPSocket探针四、Pod状态与生命周期管理Pod是kubernetes中最重要的基本概念，在kubernetes中最小的管理元素不是一个个独立的容器
Kubernetes 集群简介部署搭建及常用命令 GHY@CloudGuardian Kubernetes kubernetes 容器云原生运维 linux
Kubernetes集群简介Kubernetes（简称K8s）是一个开源的容器编排平台，用于自动化容器化应用的部署、扩展和管理。它为容器提供了一个完整的管理框架，帮助开发者和运维团队在大规模环境中高效地部署和管理应用。Kubernetes集群是由多个组件组成的，主要包括控制平面和工作节点。集群的核心目的是确保容器化应用的高可用性、可扩展性、负载均衡、自动化部署等功能。Kubernetes集群的基本
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
etcd：从应用场景到实现原理的全方位解读
转自：http://www.infoq.com/cn/articles/etcd-interpretation-application-scenario-implement-principleetcd：从应用场景到实现原理的全方位解读随着CoreOS和Kubernetes等项目在开源社区日益火热，它们项目中都用到的etcd组件作为一个高可用强一致性的服务发现存储仓库，渐渐为开发人员所关注。在云计算
AI大模型训练的云原生实践：如何用Kubernetes指挥千卡集群？
当你的团队还在手动拼装显卡集群时，聪明人早已教会Kubernetes自动调度千卡。就像交响乐团需要指挥家，万级GPU需要云原生调度艺术。深夜的机房，硬件工程师老张盯着监控屏上跳动的红色警报——手工组装的千卡集群再次因单点故障崩溃。而隔壁团队通过Kubernetes调度的百卡集群，训练效率竟高出他们47%。这不是魔法，而是云原生调度的降维打击。一、千卡训练：为什么传统方法行不通？想象指挥没有乐谱的千
20250718-2-Kubernetes 应用程序生命周期管理-Pod对象：基本概念(豌豆荚)_笔记 Andy杨 CKA-专栏 kubernetes 容器笔记
二、Kubernetes应用程序生命周期管理1.课程内容概述主要内容：Pod资源共享实现机制管理命令应用自修复（重启策略+健康检查）环境变量Initcontainer静态Pod2.Pod对象介绍1）Pod基本概念定义：Pod是Kubernetes创建和管理的最小单元，一个逻辑抽象概念组成：由一个或多个容器组成特点：可理解为一个应用实例容器始终部署在同一个节点上容器间共享网络和存储资源设计灵
云原生环境中Consul的动态服务发现实践 AI云原生与云计算技术学院 AI云原生与云计算云原生 consul 服务发现 ai
云原生环境中Consul的动态服务发现实践关键词：云原生,服务发现,Consul,微服务,动态注册,健康检查,Raft算法摘要：本文深入探讨云原生环境下Consul在动态服务发现中的核心原理与实践方法。通过剖析Consul的架构设计、核心算法和关键机制，结合具体代码案例演示服务注册、发现和健康检查的全流程。详细阐述在Kubernetes、Docker等云原生技术栈中的集成方案，分析实际应用场景中的
云原生环境里Nginx的故障排查思路 AI云原生与云计算技术学院 AI云原生与云计算云原生 nginx 运维 ai
云原生环境里Nginx的故障排查思路关键词：云原生、Nginx、故障排查、容器化、Kubernetes摘要：本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用，Nginx作为常用的高性能Web服务器和反向代理服务器，在容器化和编排的环境中面临着新的故障场景和挑战。文章首先介绍云原生环境及Nginx的相关背景知识，接着阐述核心概念和联系，详细讲解故障排查的核心算法原理与操作步骤
Kubernetes K8S之资源控制器RC、RS、Deployment详解 LightZhang666 kubernetes ci/cd devops kubernetes k8s devops ci/cd docker
Kubernetes的资源控制器ReplicationController（RC）、ReplicaSet（RS）、Deployment（Deploy）详解与示例主机配置规划服务器名称(hostname)系统版本配置内网IP外网IP(模拟)k8s-masterCentOS7.72C/4G/20G172.16.1.11010.0.0.110k8s-node01CentOS7.72C/4G/20G172
Kubernetes 常用命令程序员的世界你不懂《容器》kubernetes 容器云原生
Kubernetes通过KubeApiserver作为整个集群管理的入口。Apiserver是整个集群的主管理节点，用户通过Apiserver配置和组织集群，同时集群中各个节点同etcd存储的交互也是通过Apiserver进行交互。Apiserver实现了一套RESTful的接口，用户可以直接使用API同Apiserver交互。另外官方还提供了一个客户端kubectl随工具集打包，用于可直接通过k
容器化技术：Kubernetes（k8s）、Pod、Docker容器人工干智能 Docker的高级知识 kubernetes docker 容器
三个相关的容器化技术Kubernetes（k8s）、Pod、Docker容器在容器化技术领域各自扮演着不同的角色，它们之间既存在区别又相互联系。Kubernetes（k8s）定义：Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。功能：提供了强大的工具和功能，如服务发现、负载均衡、自动伸缩、滚动更新等，帮助用户更高效地管理复杂的容器环境。架构：基于控制论和反馈
Docker+Kubernetes落地指南：从单机到集群的平滑迁移 sg_knight docker docker kubernetes 容器 java spring cloud
一、为何必须升级到Kubernetes？1.1单机Docker的瓶颈单机环境痛点：├─资源利用率不均衡（CPU飙高vs内存闲置）├─服务扩容需手动操作├─零宕机更新难以实现└─网络配置复杂（跨主机通信困难）企业级需求：┌───────────┬───────────────┐|场景|Kubernetes方案||───────────|───────────────||滚动更新|Deployment
通过 Docker 和 Kubernetes 部署前后端代码到服务器
目录通过Docker和Kubernetes部署前后端代码到服务器一、准备工作二、创建Docker镜像三、部署到Kubernetes四、访问应用程序五、总结在现代软件开发中，Docker和Kubernetes已成为部署应用程序的强大工具。它们提供了一种可靠、可扩展和高效的方式来将前后端代码部署到服务器上。本文将介绍如何使用Docker和Kubernetes来部署前后端代码。一、准备工作安装Docke
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户