享乐主

AMD GPU任务调度（2）—— 内核态分析

文章目录

简介
GPU调度示意图
数据结构组织图
CS管理数据结构

amdgpu_cs_chunk
amdgpu_cs_parser
amdgpu_ib

GPU调度数据结构

drm_sched_job
amdgpu_job
drm_sched_entity
drm_sched_rq
drm_gpu_scheduler

流程

流程图
整体流程
保存渲染命令
初始化job
填充IB
初始化entity
提交任务
内核线程初始化
内核线程任务调度
执行任务

简介

内核态的GPU驱动需要处理用户态驱动下发的渲染命令，对于每个用户态的进程，在提交渲染命令前首先通过mesa驱动创建属于自己的上下文，然后往上下文关联的cmdbuf中填入渲染命令然后下发。渲染命令并不是一条一条下发给内核，而是批量统一放到一个内存chunk中，这个chunk内存空间是用户态已经向内核申请好的，由内核DRM框架管理，因此用户态下发的实际动作就是下发ioctl命令字然后把chunk的指针告诉内核，内核只要获取到这个地址将其放到内核的IB对象中就可以了。

GPU调度示意图

每个应用程序下发渲染命令前先创建自己的渲染上下文，然后下发渲染命令，渲染命令到达mesa驱动层后，mesa会对应地找到该命令所属的GPU硬件模块，然后下发ioctl命令将渲染命令提交到对应IP的Ring Buffer上。在上图中，渲染命令在下发到内核之后会被封装成一个job，然后找到其所属的渲染上下文，更具体地，找到该job所属的GPU IP的Ring Buffer，获取该job应该加入的调度实体，然后加入调度实体上的调度队列。一个job代表一个应用程序下发的渲染命令，不同job可能来自不同的应用程序。

数据结构组织图

CS管理数据结构

amdgpu_cs_chunk

对应用户态的drm_amdgpu_cs_chunk结构，内核在接收用户态渲染命令后，会将用户态下发的chunk对应保存在内核态的chunk中

struct amdgpu_cs_chunk {
    uint32_t        chunk_id;				/* 1 */
    uint32_t        length_dw;				/* 2 */
    void            *kdata;					/* 3 */
};

1. chunk类型，用户态和内核态共同约定的chunk类型，不同chunk类型chunk组成不同，对应的解析方式不同
2. chunk空间的大小
3. chunk存放的渲染命令

amdgpu_cs_parser

parser用户存放用户态下发的渲染命令相关的信息，并关联对应的GPU设备，文件设备，渲染命令提交上下文等。当用户态驱动下发命令字时，它的所有信息都放在parser中，之后内核态的所有操作都携带parser对象，从parser中取需要的数据

struct amdgpu_cs_parser {
    struct amdgpu_device    *adev;						/* 1 */
    struct drm_file     *filp;							/* 2 */
    struct amdgpu_ctx   *ctx;							/* 3 */

    /* chunks */
    unsigned        nchunks;							/* 4 */
    struct amdgpu_cs_chunk  *chunks;

    /* scheduler job object */
    struct amdgpu_job   *job;							/* 5 */
    struct drm_sched_entity *entity;					/* 6 */   
	......
};

1. amdgpu设备在内核drm框架的下的抽象，每个GPU设备关联一个
2. amdgpu字符设备关联的文件抽象，用户态驱动通过打开/dev/dri/card0字符设备下发ioctl命令字，该成员是内核file结构在drm框架下的封
装，drm_file结构是基于struct file实现的，因此它内部会指向一个struct file的成员
3. GPU渲染命令提交上下文，它包含所有GPU硬件IP核的调度实体
4. 具体的渲染命令以chunk的形式存放在amdgpu_cs_chunk对象中，每个chunk可以存放数个渲染命令，任务提交的时候
5. GPU IP核ring buffer上的调度器job，每个渲染命令上下文的提交需要关联一个job，这个job会指向存放渲染命令的内存空间
6. GPU IP核ring buffer上的调度实体，

amdgpu_ib

IB是内核存放渲染命令的基本单位，应用程序下发的chunk，最终会被内核放到ib中，每个chunk了对应一个ib

struct amdgpu_ib {
    struct amdgpu_sa_bo     *sa_bo;
    uint32_t            length_dw;		/* 1 */
    uint64_t            gpu_addr;		/* 2 */
    ......
};

1. ib空间的大小，4字节为单位
2. ib空间的起始地址，这个地址属于GTT，是用户态通过GEM的API申请的GPU虚拟地址，GPU可访问

GPU调度数据结构

drm_sched_job

该job是调度实体管理其上job队列的元素，一个调度实体可以通过job queue管理多个job。

struct drm_sched_job {
    struct spsc_node        queue_node;		/* 1 */
    struct drm_gpu_scheduler    *sched;		/* 2 */
    enum drm_sched_priority     s_priority;	/* 3 */
    struct drm_sched_entity  *entity;		/* 4 */
};

1. 用于链入调度实体队列的元素
2. job所在的调度器
3. job优先级，待分析
4. job所在的调度实体

amdgpu_job

amdgpu_job更接近上层，上层驱动下发的渲染命令被存放在ib中，amdgpu_job就是ib的封装，它的内部有一个调度job，会指向调度实体。

struct amdgpu_job {
    struct drm_sched_job    base;		/* 1 */
    struct amdgpu_ib    *ibs;				/* 2 */
    uint32_t        num_ibs;
	......
};

1. 调度实体的job队列管理的job
2. 渲染命令存放的IB空间起始地址以及IB个数

drm_sched_entity

struct drm_sched_entity {   
    struct list_head        list;									/* 1 */
    struct drm_sched_rq     *rq;    								/* 2 */
    struct drm_gpu_scheduler        **sched_list;					/* 3 */
    enum drm_sched_priority         priority;						/* 4 */
    struct spsc_queue       job_queue;								/* 5 */
    bool                stopped;									/* 6 */
};

1. 一个运行队列可以管理多个调度实体，该成员用于链入调度队列
2. 调度实体所在的运行队列
3. 调度实体所在的ring buffer上的调度器
4. 调度实体的优先级，每个优先级上都有一个运行队列，管理属于该优先级的调度实体
5. 调度实例的job队列，管理多个job
6. 标记该调度实体禁止任务入队，在flush队列任务或者删除调度时，会用到这个字段，将其设置为true

drm_sched_rq

struct drm_sched_rq {
    struct drm_gpu_scheduler    *sched;				/* 1 */
    struct list_head        entities;				/* 2 */
    struct drm_sched_entity     *current_entity;	/* 3 */
};

1. 运行队列所属的调度器
2. 运行队列管理的调度实体链表投
3. 当前正在处理的调度实体

drm_gpu_scheduler

struct drm_gpu_scheduler {
    const struct drm_sched_backend_ops  *ops;					/* 1 */
    uint32_t            hw_submission_limit;					/* 2 */
    long                timeout;								/* 3 */
    struct delayed_work     work_tdr;							/* 4 */
    const char          *name;									/* 5 */
    struct drm_sched_rq     sched_rq[DRM_SCHED_PRIORITY_MAX];	/* 5 */
    wait_queue_head_t       wake_up_worker;						/* 6 */
    wait_queue_head_t       job_scheduled;						/* 7 */
    atomic_t            hw_rq_count;							/* 8 */
    struct task_struct      *thread;							/* 9 */			
};

1. 调度器执行任务的回调，核心成员就是run_job，每个IP核上的ring buffer处理job的方式可能不一样，调度器真正执行job的时候就调用ops的run_job函数
2. 允许调度器同时执行job任务的上限，只有当前调度器执行的任务小于这个值是，才能取出job执行
3. 允许调度执行任务的最长时间，如果任务执行时间超时，内核会调用超时回调处理函数drm_sched_job_timedout。这个功能通过内核的延时工作队列实现，其初始化在内核线程初始化中完成
4. timeout超时工作队列
5. 调度器管理的运行队列，每个运行队列有一个或者多个调度实体，每个实体有一个或者多个调度job
6. 当调度队列是一个内核线程，没有任务处理时它进入睡眠状态，调度队列通过该等待队列成员休眠，当驱动有job到达时，通过此运行队列唤醒调度队列内核线程
7. 当其它线程想要flush一个调度实体，让它上面的所有任务都执行完并且禁止新的任务入队，会等待在这个队列上。调度器每次从调度实体的任
务队列中取出任务执行之后，队列中就少了一个任务，出现一个队列清空的可能时机，这时调度器会唤醒等待在job_scheduled上面的线程。
8. 当前调度器处理的job个数，开始执行job时计数加1，完成时减1
9. 调度队列是个内核线程，thread指向线程的结构体

流程

GPU处理任务的调度流程从ioctl回调函数amdgpu_cs_ioctl开始介绍，当用户态驱动打开/dev/dri/cardX下发DRM_IOCTL_AMDGPU_CS命令字时，会触发该函数，内核态ioctl命令字接口定义如下：

const struct drm_ioctl_desc amdgpu_ioctls_kms[] = {
	......
	DRM_IOCTL_DEF_DRV(AMDGPU_CS, amdgpu_cs_ioctl, DRM_AUTH|DRM_RENDER_ALLOW)
	......
}

流程图

TODO

整体流程

amdgpu_cs_ioctl函数非常复杂，我们首先分析函数本身，提炼出几个重要的步骤，再进一步分析下去

int amdgpu_cs_ioctl(struct drm_device *dev, void *data, struct drm_file *filp)
{   
    struct amdgpu_device *adev = dev->dev_private;
    union drm_amdgpu_cs *cs = data;
    struct amdgpu_cs_parser parser = {};
    
    parser.adev = adev;
    parser.filp = filp;

    amdgpu_cs_parser_init(&parser, data);						/* 1 */
    amdgpu_cs_ib_fill(adev, &parser);							/* 2 */

    amdgpu_cs_dependencies(adev, &parser);						/* 3 */
    amdgpu_cs_parser_bos(&parser, data);
    amdgpu_cs_vm_handling(&parser);

    amdgpu_cs_submit(&parser, cs);					/* 4 */
}

1. 解析用户态下发的信息，主要是将下发渲染命令存放到内核态的chunk结构中，并初始化一个任务，用作之后提交
2. 从chunk中解析得到数据，将其填充到任务的ib中，当调度器执行一个任务时，可以找到该任务相关的渲染命令。除了填充任务，这里还会初始
化任务的调度实体，任务毕竟和具体业务相关，要把它放到调度队列上，需要一个调度队列可以识别的调度实体
3. 待分析
4. 将渲染命令封装成任务并且创建调度实体之后，就是把调度实体放到调度队列上，通知调度器工作了

保存渲染命令

static int amdgpu_cs_parser_init(struct amdgpu_cs_parser *p, union drm_amdgpu_cs *cs)
{                  
    struct amdgpu_fpriv *fpriv = p->filp->driver_priv;
    struct amdgpu_vm *vm = &fpriv->vm;
    uint64_t *chunk_array_user;
    uint64_t *chunk_array;

    chunk_array = kmalloc_array(cs->in.num_chunks, sizeof(uint64_t), GFP_KERNEL);			/* 1 */     
    p->ctx = amdgpu_ctx_get(fpriv, cs->in.ctx_id);
    /* get chunks */
    chunk_array_user = u64_to_user_ptr(cs->in.chunks);
    copy_from_user(chunk_array, chunk_array_user,											/* 2 */
               sizeof(uint64_t)*cs->in.num_chunks)

    p->nchunks = cs->in.num_chunks;															/* 3 */
    p->chunks = kmalloc_array(p->nchunks, sizeof(struct amdgpu_cs_chunk),					/* 4 */
                GFP_KERNEL);

    for (i = 0; i < p->nchunks; i++) {														/* 5 */
		......
        p->chunks[i].chunk_id = user_chunk.chunk_id;										
        p->chunks[i].length_dw = user_chunk.length_dw;
		copy_from_user(p->chunks[i].kdata, cdata, size)										
		......
        }
    }

    amdgpu_job_alloc(p->adev, num_ibs, &p->job, vm);									/* 6 */
	......
}

1. 分配存放用户态数据地址的指针数组，空间大小由用户态下发的数据决定，这里是cs->in.num_chunks个
2. 拷贝用户态数据的指针到内核态的指针数组
3. 使用用户态数据初始化parser的部分结构
4. 分配真正的保存用户态数据的空间，大小是amdgpu_cs_chunk，个数是num_chunks个，为保存用户态数据做准备
5. 依次拷贝每个chunk的数据，这之后，用户态的chunk数据已经全部保存到内核parser的chunk中
6. 初始化本次提交的job

初始化job

job初始化是在parser过程中完成的，它由一个调度实体的job_queue管理，一个调度实体中可以有多个job

int amdgpu_job_alloc(struct amdgpu_device *adev, unsigned num_ibs,
             struct amdgpu_job **job, struct amdgpu_vm *vm)
{           
    size_t size = sizeof(struct amdgpu_job);						/* 1 */
    size += sizeof(struct amdgpu_ib) * num_ibs;					
    *job = kzalloc(size, GFP_KERNEL);  
    
    /*
     * Initialize the scheduler to at least some ring so that we always
     * have a pointer to adev.
     */
    (*job)->base.sched = &adev->rings[0]->sched;					/* 2 */
    (*job)->ibs = (void *)&(*job)[1];								/* 3 */
    (*job)->num_ibs = num_ibs;
    ......
}

1. 为job分配空间，分配的大小是job的大小和num_ibs个amdgpu_ib的大小，从这里可以看出，job结构体下面还挂着num_ibs，因此需要这么多空间
2. 初始化job所在的调度器，将其默认指向GPU IP设备上的第一个ring buffer调度队列
3. 设置ibs，将其指向amdgpu_job的尾部，这样内核多分出amdgpu_job的空间就可以用作存放ibs，之后，job的ibs会被填入渲染命令

填充IB

解析parser中从用户态拷贝的chunk数据，将它放到任务的ibs数组中，这样任务被调度的时候，可以访问这些ibs

static int amdgpu_cs_ib_fill(struct amdgpu_device *adev,
                 struct amdgpu_cs_parser *parser)
{       
    struct amdgpu_ring *ring;     
    for (i = 0, j = 0; i < parser->nchunks && j < parser->job->num_ibs; i++) {		/* 1 */
        struct amdgpu_cs_chunk *chunk;
        struct amdgpu_ib *ib;
        struct drm_amdgpu_cs_chunk_ib *chunk_ib;
        struct drm_sched_entity *entity;
    
        chunk = &parser->chunks[i];												/* 2 */
        ib = &parser->job->ibs[j];
        chunk_ib = (struct drm_amdgpu_cs_chunk_ib *)chunk->kdata;				/* 3 */

        amdgpu_ctx_get_entity(parser->ctx, chunk_ib->ip_type,					/* 4 */
                      chunk_ib->ip_instance, chunk_ib->ring,&entity);

        if (parser->entity && parser->entity != entity)							/* 5 */
            return -EINVAL;

        /* Return if there is no run queue associated with this entity.
         * Possibly because of disabled HW IP*/
        if (entity->rq == NULL)													/* 6 */
            return -EINVAL;

        parser->entity = entity;												/* 7 */

        ring = to_amdgpu_ring(entity->rq->sched);
        r =  amdgpu_ib_get(adev, vm, ring->funcs->parse_cs ?
                   chunk_ib->ib_bytes : 0, ib);

        ib->gpu_addr = chunk_ib->va_start;										/* 8 */
        ib->length_dw = chunk_ib->ib_bytes / 4;
        ib->flags = chunk_ib->flags;

        j++;
    }
	......
}

1. 针对每个chunk，依次读取它关联的数据，将其填充到job的ibs数组中
2. 分别获取chunk地址和job中存放ib的地址，我们的主要任务就是让ibs数组中的每个ib指向这里的每个chunk
3. 取出chunk中包含的数据所在地址
4. 一个chunk对应着一个ring buffer，一次提交的所有渲染命令，必须保证是往同一个ring buffer上提交的，这里根据chunk对应的IP类型核ring
buffer索引，可以确认这个chunk上的渲染命令是往哪个IP核的哪个ring buffer上提交。对于每个IP核上的ring buffer，每个上下文都有一个对应的
调度实体。这里会通过chunk所在ring buffer的类型取获取这个实体，如果没有，就会创建
5. 获取到调度实体之后，需要比较各个chunk的调度实体是否一样，如果不一样，说明多个chunk会提交渲染命令到不同的ring buffer，不允许这
样，同时也能看到，一个提交的上下文只对应唯一的ring buffer和调度实体
6. 如果调度实体上没有运行队列，返回出错
7. 将调度实体放到parser上，所有chunk都使用这个调度实体
8. 填写ib的地址，将其设置指向一个chunk_ib，这个本函数的核心动作

初始化entity

调度实体的初始化在amdgpu_ctx_get_entity中实现，当不能获取entity时，就会创建一个

int amdgpu_ctx_get_entity(struct amdgpu_ctx *ctx, u32 hw_ip, u32 instance,
              u32 ring, struct drm_sched_entity **entity)
{           
    if (hw_ip >= AMDGPU_HW_IP_NUM) {								/* 1 */
        DRM_ERROR("unknown HW IP type: %d\n", hw_ip);
        return -EINVAL;
    }       
         
    if (ring >= amdgpu_ctx_num_entities[hw_ip]) {					/* 2 */
        DRM_DEBUG("invalid ring: %d %d\n", hw_ip, ring);
        return -EINVAL;
    }
        
    if (ctx->entities[hw_ip][ring] == NULL) {						/* 3 */
        amdgpu_ctx_init_entity(ctx, hw_ip, ring);
    }
        
    *entity = &ctx->entities[hw_ip][ring]->entity;					/* 4 */
}

1. AMD GPU硬件IP模块只有AMDGPU_HW_IP_NUM个，如果超出这个范围，认为是无法识别的IP模块
2. 每个IP模块上的ring buffer只有amdgpu_ctx_num_entities[hw_ip]个，超出后也认为无法识别
3. 如果提交上下文中没有对应的调度实体，就创建一个，从这里可以看到，每个提交上下都可以拥有一个entity，这里说是创建，实际上在内部是
引用，因为每个IP核的ring buffer上有调度器，调度器管理了调度队列，我们只需要把调度器实体所在的运行队列指向调度器的运行队列就可以了
4. 将找到的调度实体返回给调用者

继续分析调度实体的初始化函数amdgpu_ctx_init_entity

static int amdgpu_ctx_init_entity(struct amdgpu_ctx *ctx, const u32 hw_ip, const u32 ring)
{
    struct amdgpu_ctx_entity *entity;
    struct drm_gpu_scheduler **scheds = NULL, *sched = NULL;
    unsigned num_scheds = 0;

    entity = kcalloc(1, offsetof(typeof(*entity), fences[amdgpu_sched_jobs]),			/* 1 */
             GFP_KERNEL);
             
    switch (hw_ip) {																	/* 2 */
    case AMDGPU_HW_IP_GFX:
        sched = &adev->gfx.gfx_ring[0].sched;
        scheds = &sched;
        num_scheds = 1;
        break;
    case AMDGPU_HW_IP_COMPUTE:
	......
    drm_sched_entity_init(&entity->entity, priority, scheds, num_scheds,&ctx->guilty);  /* 3 */ 
	ctx->entities[hw_ip][ring] = entity;												/* 4 */

1. 分配entity空间
2. 根据chunk所在的IP，找到对应ring buffer上所有调度器的基地址
3. 初始化entity
4. 将初始化好的entity放到GPU渲染上下文中amdgpu_ctx

分析drm_sched_entity_init，它的核心操作就是设置entity的运行队列，将其指向对应ring buffer调度器上维护的队列中，注意，这里我们看到的是将entity上的运行队列指向了IP核上的第一个ring buffer的调度器，后面会根据调度器上的任务数，选择合适的运行队列

drm_sched_entity_init
    entity->rq = &sched_list[0]->sched_rq[entity->priority];

提交任务

static int amdgpu_cs_submit(struct amdgpu_cs_parser *p, union drm_amdgpu_cs *cs)                
{   
    struct drm_sched_entity *entity = p->entity;									/* 1 */
    struct amdgpu_job *job;
    job = p->job;																								
    drm_sched_job_init(&job->base, entity, &fpriv->vm);								/* 2 */
    	drm_sched_entity_select_rq(entity)
    	sched = entity->rq->sched;
    	job->sched = sched;
    	job->entity = entity;
    	job->s_priority = entity->rq - sched->sched_rq;

    drm_sched_entity_push_job(&job->base, entity);									/* 3 */
    ......
}

1. 获取解析器中之前初始化的调度实体以及任务
2. 初始化调度器要用到的job，drm_sched_job，它的核心任务是设置任务的调度器，调度实体，以及任务优先机，同时还会重新为调度实体选择
合适的运行队列
3. 将调度job添加到调度实体的job队列中，之后job的选择和执行就交给调度器了

内核线程初始化

GPU的调度器以内核线程的形式存在于GPU IP核的ring buffer上，因此内核线程的创建是在IP核初始化的时候，我们选取GPU的GFX IP分析，它的初始化函数是gfx_v10_0_gfx_ring_init

gfx_v10_0_gfx_ring_init
	 sprintf(ring->name, "gfx_%d.%d.%d", ring->me, ring->pipe, ring->queue)			/* 1 */
	 amdgpu_ring_init													
	 	amdgpu_fence_driver_init_ring
			drm_sched_init(&ring->sched, &amdgpu_sched_ops,							/* 2 */
                   			num_hw_submission, amdgpu_job_hang_limit,
                   			timeout, ring->name);
				sched->ops = ops;												
    			sched->hw_submission_limit = hw_submission;							
    			sched->name = name;												
    			sched->timeout = timeout;											
    			sched->hang_limit = hang_limit;			
    			INIT_DELAYED_WORK(&sched->work_tdr, drm_sched_job_timedout);	 	/* 3 */						
				sched->thread = kthread_run(drm_sched_main, sched, sched->name)		/* 4 */
				
const struct drm_sched_backend_ops amdgpu_sched_ops = {			
    .run_job = amdgpu_job_run,														/* 5 */
    .timedout_job = amdgpu_job_timedout,											/* 6 */
};

1. 设置ring buffer名字，这个名字也是调度器内核线程的名字
2. 初始化内核调度器
3. 初始化内核工作队列，用户处理任务调度超时的情况
4. 启动调度器内核线程
5. 调度器运执行任务时调用的回调函数
6. 当调度器执行任务超时，调用的超时处理回调函数

内核线程任务调度

static int drm_sched_main(void *param)
{               
    struct sched_param sparam = {.sched_priority = 1};				/* 1 */       
    sched_setscheduler(current, SCHED_FIFO, &sparam);	
                
    while (!kthread_should_stop()) {
        wait_event_interruptible(sched->wake_up_worker,				/* 2 */
                     (cleanup_job = drm_sched_get_cleanup_job(sched)) ||
                     (!drm_sched_blocked(sched) &&
                      (entity = drm_sched_select_entity(sched))) ||		
                     kthread_should_stop());
                     
        sched_job = drm_sched_entity_pop_job(entity);				/* 3 */

        atomic_inc(&sched->hw_rq_count);							/* 4 */
        fence = sched->ops->run_job(sched_job);						/* 5 */
		......
}

1. 设置内核线程的调度策略为先入先出，使用的是实时的调度类，比完全公平调度类的优先级要高，并且这个内核线程在一个调度周期内如果没有
执行完是不会被打断的，保证了其执行任务的连续性
2. 在没有任务的情况下，内核线程通常睡在等待队列wake_up_worker上，当有任务到达的时候会被唤醒或者条件满足的时候被唤醒
3. 从调度实体的job队列中取出一个job，准备执行
4. 执行之前将hw_rq_count计数器加1
5. 运行任务，对于amdgpu驱动，对应的回调函数是amdgpu_job_run

调度实体的选择在drm_sched_select_entity中实现，继续分析

drm_sched_select_entity
	drm_sched_ready																		/* 6 */	
			return atomic_read(&sched->hw_rq_count) < sched->hw_submission_limit;	
		
    /* Kernel run queue has higher priority than normal run queue*/
    for (i = DRM_SCHED_PRIORITY_MAX - 1; i >= DRM_SCHED_PRIORITY_MIN; i--) {			/* 7 */
        entity = drm_sched_rq_select_entity(&sched->sched_rq[i]);
	}
	
static struct drm_sched_entity *
drm_sched_rq_select_entity(struct drm_sched_rq *rq)
{
	struct drm_sched_entity *entity;

	entity = rq->current_entity;
	if (entity) {
		list_for_each_entry_continue(entity, &rq->entities, list) {			/* 8 */
			if (drm_sched_entity_is_ready(entity)) {
				rq->current_entity = entity;
				reinit_completion(&entity->entity_idle);
				spin_unlock(&rq->lock);
				return entity;
			}
		}
	}

	list_for_each_entry(entity, &rq->entities, list) {						/* 9 */
		if (drm_sched_entity_is_ready(entity)) {
			rq->current_entity = entity;
			reinit_completion(&entity->entity_idle);
			spin_unlock(&rq->lock);
			return entity;
		}
	}
}

6. 在选择调度实体前判断是否满足条件，如果当前执行的任务小于允许执行的任务数上限，才满足条件，否则选取调度实体为空，不运行任务。这里的
ready只有一个判断条件，就是当前运行的Job数是否超过上限，如果超过则不满足条件。
7. 根据调度实体的优先级，从高到低，从优先级对应的运行队列中选取合适的调度实体，返回。从这里看，调度实体是按照优先级选择的。如果一个优
先级队列中有多个调度实体怎么办呢，分析drm_sched_rq_select_entity函数
8. 首先遍历运行队列上的调度实体，从当前运行的调度实体之后开始，往下遍历，查找合适的第一个调度实体
9. 如果没有找到从当前运行的调度实体之后找到，就从运行队列最开始往下遍历，查找第一个合适的调度实体，从这里可以看到，调度器对调度实体的
选择是通过轮转的方式进行的。依次调用一个运行队列中的每个调度实体。如果当前已经有job在执行并且没有超过上限，调度器仍然可以从运行队列中
选择一个job，然后执行。这个时候，GPU内部可能发生上下文切换，之前没有运行完的job对应的上下文可能会被切换出去，给当前job让路。

执行任务

调度器从运行队列中选择优先级最高的entity，以FIFO的顺序从entity的任务队列中取出job，调用调度器初始化时注册的任务执行回调函数，执行任务。对于amdgpu上的调度器，对应的回调操作之前已经之前已经介绍，如下：

const struct drm_sched_backend_ops amdgpu_sched_ops = {			
    .run_job = amdgpu_job_run,												
    .timedout_job = amdgpu_job_timedout,										
};

amdgpu_job_run是执行任务的回调，amdgpu_job_timedout是执行任务超时的回调。分析amdgpu_job_run的实现，它主要调用amdgpu_ib_schedule函数提交存放渲染命令的IB，其核心步骤如下：

int amdgpu_ib_schedule(struct amdgpu_ring *ring, unsigned num_ibs,
		       struct amdgpu_ib *ibs, struct amdgpu_job *job,
		       struct dma_fence **f)
{
	alloc_size = ring->funcs->emit_frame_size + num_ibs *				/* 1 */
		ring->funcs->emit_ib_size;
	amdgpu_ring_alloc(ring, alloc_size);								/* 2 */
	amdgpu_ring_commit(ring);											/* 3 */
}

1. 计算IB在Ring Buffer的总大小，为后面更新CPU在Ring Buffer上的写偏移做准备
2. 更新CPU的在Ring Buffer上的写偏移，之前我们已经将渲染命令放到IB上，但还没有更新写偏移，因此不会触发GPU的读偏移往前移动，这里
的分配动作是把IB的空间记录下来，并且保存原来的的写偏移方便之后出错的回退。
3. 更新CPU的写偏移指针，通知GPU执行新的渲染命令

你可能感兴趣的:(GPU)

使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
【jetson】Linux下nvidia Jetson烤机程序（CPU+GPU）
前言烤机程序用于把设备的使用率拉满，进行可靠性测试。这里主要贴一下cpu和gpu的烤机程序。cpu为arm64，gpu是orinnano的模组。烤机的jetson设备为如下，输入54v：reComputerMiniJ3011-IntelligentEdgeAIComputerwithNVIDIA®Jetson™Orin™Nano8GBCPU-burn终端安装测试工具:sudoaptinstalls
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
【翻译】Part4: Texture samplers.
AtripthroughtheGraphicsPipeline2011,part4|Therygblog欢迎回来。上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。纹理采样器是GPU流水线不可或缺的一部分，其复杂程度（以及趣味性！）足以单独写一篇文章来介绍，那接下来就开始吧。纹理状态在开始实际
pytorch底层原理学习--PyTorch 架构梳理 xinxiangwangzhi_ 深度学习 pytorch 架构人工智能
文章目录PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC++代码torch::jit::load('model.pt')module.forward(inputs)libt
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
OpenCV CUDA模块设备层-----双曲正切函数tanh() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备函数，用于在GPU上对uchar4类型的向量（如RGBA像素）进行双曲正切（hyperbolictangent）运算，并返回一个float4类型的结果。函数原型__device____forceinline__f
OpenCV CUDA模块设备层-----二值化阈值操作函数thresh_binary_func()
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备和主机通用函数（host/devicefunction），用于创建一个二值化阈值操作函数对象（functor）。这个函数返回一个仿函数（functor），用于在GPU上执行二值化阈值处理（ThresholdBin
从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功草莓奶忻 SLAM基础 Deep+SLAM ubuntu
文章目录从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测环境+完整步骤】✅环境信息（实测成功）第一步：获取源码️第二步：编译命令参数说明（重点）第三步：安装构建好的`.whl`✅第四步：验证是否成功启用GPU方法1：命令行快速验证方法2：加载模型并查看执行设备⚠️常见警告说明（可忽略）✅总结从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测
Ubuntu 22.04 庙算平台训练环境搭建指南笑衬人心。 ubuntu linux 深度学习
本文记录了基于Ubuntu22.04.3LTS的训练环境搭建过程，适用于需要部署庙算推演离线平台的用户，支持GPU（可选）。一、训练环境搭建●硬件要求操作系统：Linux（推荐Ubuntu22.04.3LTS）可选配置：NVIDIAGPU（CUDA支持）1.Linux环境搭建建议双系统安装Ubuntu，具体参考如下教程：参考教程：Windows和Ubuntu双系统的安装和卸载（哔哩哔哩）2.GPU
Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告强哥之神 GPT macos GPU deepseek 人工智能语言模型 LLM
测试对象：2025款Macmini（M4/M4Pro芯片）测试模型：DeepSeek-R1（14B/32B）、QwQ-32B（原版/量化版）测试目标：硬件性能适配性、推理速度、内存占用及优化方案一、Macmini硬件配置概览配置项M4基础款（16GB）M4Pro高配（32GB/64GB）芯片M4（10核CPU/10核GPU）M4Pro（14核CPU/20核GPU）内存16GB统一内存32GB/64
口扫系统软件的架构设计流程老猿的春天三维 c++口扫三维重建
[结构光图像流]↓解码结构光图案↓三角测量计算深度↓点云生成并去噪滤波↓实时配准/拼接(可选ICP/Odometry)↓网格重建（如MarchingCubes或BallPivoting）↓GPU显示（OpenGL/Open3D/VTK）
GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析 DeepLink_01 开源项目分享 Ai 分布式 github DeepEP 开源项目 GPU加速 MoE/EP架构
随着大模型和稀疏激活模型（如MoE/EP架构）的广泛应用，分布式all-to-all通信成为训练和推理过程中的核心瓶颈。DeepSeek.ai推出的DeepEP，专为MoE/EP通信优化，实现了GPU原生高吞吐、低延迟通信，极大释放了底层硬件潜力。目录背景与设计动机DeepEP核心特性概览环境准备与依赖安装编译与部署全过程DeepEP核心API解析入门示例与使用流程实战案例分享训练加速案例（Tra
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
本地部署Qwen3小参数版本实测：并非鸡肋程序员寒山 qwen3 模型测试本地部署大模型
大家好，我是程序员寒山。都说本地部署大模型是鸡肋，真的是这样吗？今天，咱们就来实际测试一下，看看Qwen3小参数版本在本地部署后的表现究竟如何。为什么有人觉得本地部署大模型是鸡肋？一方面，本地部署需要一定的技术门槛，从环境配置到模型安装，每一步都有可能出现问题。另一方面，大模型对硬件要求较高，尤其是对GPU的性能和显存容量有一定要求。如果硬件不达标，模型运行起来可能会很慢，甚至根本无法运行。而且，
高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算九鼎创展科技嵌入式硬件边缘计算 arm开发 android
RK3588处理器技术细节计算单元CPU：4×[email protected]（大核集群）4×[email protected]（能效集群）支持ARMDynamIQ混合架构，可实现任务智能调度GPU：Mali-G610MP4，支持OpenGLES3.2/2.0/1.1、Vulkan1.28KVPU视频编解码：H.265/H.264/AV1格式，支持60fps实时处理NPU：6TOPS算力（INT
如何搭建基于RK3588的边缘服务器集群？支持12个RK3588云手机 XMAIPC_Robot ARM+FPGA AI服务器服务器运维
以下是基于RK3588搭建边缘服务器集群的完整实施方案，涵盖硬件选型、集群架构、软件部署及优化要点：️‌一、硬件集群架构设计‌‌节点基础配置‌‌核心单元‌：单节点采用RK3588核心板（4×[email protected]+4×[email protected]），集成6TOPSNPU及Mali-G610GPU，支持LPDDR4X内存（4~32GB）及eMMC/SATA/TF卡多级存储611。‌扩展接口‌：通过100Pin
商品类目一览乱乱乱乱 python spring
电商平台规范了整个电商行业的标准，要求商品必须有商品类目。类目大致分为4级，每个类目id对应一个类目名称。如何通过商品id获取商品的类目id？请求地址productCategory传入product_id，得到结果交流：5b6u5L+hIGpudG9vbA=={"data":{"alternative_categories":[{"category_id":4,"category_name":"服
信创背景下应用软件迁移解析：从政策解读到落地实践方案 tianzhiyi1989sq 人工智能
一、信创背景与政策解读1.1什么是信创？信创（信息技术应用创新）是指用我国自主研发的基础软硬件产品实现对国外产品的替代，特别是在CPU、GPU及操作系统等关键领域。其核心目标是解决核心技术"卡脖子"问题，构建安全可控的IT底层架构和标准。1.2国家政策导向根据"十四五"《软件和信息技术服务发展规划》：战略高度：软件产业已上升为国家战略关键任务：提升关键软件供给能力（操作系统、数据库等）壮大信息技术
什么是Alpha测试和Beta测试？海姐软件测试软件测试基础概念-面试通关面试
1.本质差异（测试阶段定位）Alpha测试≈可控环境下的"压力体检"在受控实验室环境中执行（通常是开发方场地），我们曾对某银行系统进行Alpha测试时，用Mock服务模拟了2000个ATM终端同时吐钞的场景。Beta测试≈真实世界的"路测实验"交给真实用户在实际环境中使用，比如某知名手游的Beta测试期间，我们发现了iOS14.3特定版本下的GPU内存泄漏问题，这种问题在模拟器上根本无法复现。2.
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
NVAPI 获取同步卡信息 xhh-cy NVAPI
#include"nvapi/nvapi.h"intdetectSync(){//初始化NVAPIif(NvAPI_Initialize()!=NVAPI_OK){std::cerr<<"FailedtoinitializeNVAPI."<
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Unity纹理的性能优化东邪丶游戏开发图形学/渲染 unity 性能优化游戏引擎纹理贴图
https://developer.unity.cn/projects/6482ba86edbc2a116e4f27c1在Unity的储存方式大部分的纹理，Unity都会保存两份像素数据的副本：GPU内存：对应的数据对象为RenderTexture，是渲染所需的数据CPU内存：对应的数据对象为Texture，属于可选数据，又被成为可读纹理，用于读取/写入/控制像素数据在Unity不同位置的像素数据
计算机基础和Java编程的练习题柳依依@ Java入门 java 开发语言
1.计算机的核心硬件是什么？各自有什么用？中央处理器（CPU）：负责执行程序中的指令，进行算术和逻辑运算，是计算机的“大脑”。内存（RAM）：临时存储CPU正在处理的程序和数据，速度快但断电后数据丢失。硬盘（HDD/SSD）：永久存储操作系统、应用程序和用户数据，断电后数据不丢失。主板：连接所有硬件组件，提供数据传输的通道。显卡（GPU）：负责图形渲染，将数字信号转换为图像显示在屏幕上。电源：为计
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
tensorRT 与 torchserve-GPU性能对比 joker-G 计算机视觉 pytorch python
实验对比前端时间搭建了TensorRT、Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。实验数据Cuda11.0、Xeon®62423.1*80、RTX309024G、Resnet50TensorRT、Torchserve-GPU各自一张卡搭建10进程接口，感兴趣的可以查看我个人其他文章。30进程并发、2000张1200*720像素图像的总量数据TensorRT的部署使用
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那