hjkfcz

kmem_cache的alias问题导致lvm在线扩容crash问题分析

两个月前解决了lvm在线扩容的bug，当时未得空，现在得空记录一下，内核版本基于3.10.33。

线上万客云lvm在线扩容导致lvresize卡死，log 如下：

[47572.794000] BUG kmalloc-192(0:docker_cloud) (Tainted: P    B      O): Objects remaining in kmalloc-192(0:4dacd92fd73c5563ea9a5348c7e4955b07c3e6d61058caea00fb471bed88274b
[47572.813702] -----------------------------------------------------------------------------
\x000a
[47572.823675] INFO: Slab 0xc126155c objects=21 used=16 fp=0xc8c5f600 flags=0x0080
[47572.830920] CPU: 2 PID: 12715 Comm: lvresize Tainted: P    B      O 3.10.33 #57
[47572.838397] [] (unwind_backtrace+0x0/0xec) from [] (show_stack+0x10/0x14)
[47572.846992] [] (show_stack+0x10/0x14) from [] (slab_err+0x74/0x84)
[47572.855011] [] (slab_err+0x74/0x84) from [] (free_partial+0xd8/0x220)
[47572.863292] [] (free_partial+0xd8/0x220) from [] (__kmem_cache_shutdown+0x40/0xcc)
[47572.872700] [] (__kmem_cache_shutdown+0x40/0xcc) from [] (kmem_cache_destroy+0x64/0xf8)
[47572.882541] [] (kmem_cache_destroy+0x64/0xf8) from [] (kmem_cache_destroy_memcg_children+0x84/0x98)
[47572.893433] [] (kmem_cache_destroy_memcg_children+0x84/0x98) from [] (kmem_cache_destroy+0x14/0xf8)
[47572.904310] [] (kmem_cache_destroy+0x14/0xf8) from [] (bioset_free+0xe8/0x114)
[47572.913357] [] (bioset_free+0xe8/0x114) from [] (dm_swap_table+0x1bc/0x320)
[47572.922201] [] (dm_swap_table+0x1bc/0x320) from [] (dev_suspend+0x12c/0x268)
[47572.931251] [] (dev_suspend+0x12c/0x268) from [] (ctl_ioctl+0x4b0/0x4d0)
[47572.939581] [] (ctl_ioctl+0x4b0/0x4d0) from [] (do_vfs_ioctl+0x55c/0x5b0)
[47572.948179] [] (do_vfs_ioctl+0x55c/0x5b0) from [] (SyS_ioctl+0x50/0x7c)
[47572.956633] [] (SyS_ioctl+0x50/0x7c) from [] (ret_fast_syscall+0x0/0x30)
[47572.965162] INFO: Object 0xc8c5f000 @offset=0
[47572.969638] INFO: Object 0xc8c5f0c0 @offset=192
[47572.974286] INFO: Object 0xc8c5f240 @offset=576
[47572.978921] INFO: Object 0xc8c5f300 @offset=768
[47572.983592] INFO: Object 0xc8c5f480 @offset=1152
[47572.988314] INFO: Object 0xc8c5f780 @offset=1920
[47572.993096] INFO: Object 0xc8c5f840 @offset=2112
[47572.997813] INFO: Object 0xc8c5f900 @offset=2304
[47573.002585] INFO: Object 0xc8c5f9c0 @offset=2496
[47573.007298] INFO: Object 0xc8c5fa80 @offset=2688
[47573.012039] INFO: Object 0xc8c5fb40 @offset=2880
[47573.016796] INFO: Object 0xc8c5fc00 @offset=3072
[47573.021518] INFO: Object 0xc8c5fcc0 @offset=3264
[47573.026293] INFO: Object 0xc8c5fd80 @offset=3456
[47573.031005] INFO: Object 0xc8c5fe40 @offset=3648
[47573.035797] INFO: Object 0xc8c5ff00 @offset=3840
[47573.040508] =============================================================================

在lvresize系统调用里调用do_resume，do_resume函数调用dm_swap_table用新的映射表替换老的映射表，该函数还会调用 __bind_mempools为md设备绑定新的内存pool，通过bioset_free销毁老的内存pool，然后调用kmem_mem_destroy函数释放pool使用的kmem_cache。

该bug主要是lvm在线扩容调用lvresize命令触发，按照当时总结的复现文档，整个复现过程如下：

采用最新的内核，并且docker环境是配置好的，lvm在线扩容复现bug步骤如下:
(1)在ｕ盘上创建两个１g的大文件
dd if=/dev/zero of=/media/sda1/lvm0.img    bs=1M count=1024
dd if=/dev/zero of=/media/sda1/lvm1.img　bs=1M count=1024
(2) 设置lvm环境变量
cd /root/lvm-plugin&&source lvm.sh
(3)清理上次创建的逻辑卷、卷组、loop设备
losetup -d /dev/loop0
losetup -d /dev/loop1
killall lvmetad
rm /run/lvm/archive/myvg*
rm /run/lvm/backup/myvg*
/root/lvm-plugin/bin/lvmetad -f &
dmsetup remove -f /dev/myvg/mylv
vgremove -y myvg
vgreduce --removemissing myvg
pvremove /dev/loop0 /dev/loop1
(4)创建loop设备、物理卷、卷组、逻辑卷，并格式化lvm为ext4，并挂载
losetup /dev/loop0 /media/sda1/lvm0.img
losetup /dev/loop1 /media/sda1/lvm1.img
pvcreate -ff -y /dev/loop0
vgcreate -y myvg /dev/loop0
lvcreate -y -L 1000M -n mylv myvg
mke2fs -t ext4 -F /dev/myvg/mylv
#mkdir /tmp/dcdn_base
mount -t ext4 -o rw,noatime,nodiratime,barrier=0,nosuid,nodev,data=ordered /dev/mapper/myvg-mylv /tmp/dcdn_base;
(5)在lvm目录运行docker任务
ulimit -v unlimited; /app/system/miner.plugin-dockerd.ipk/bin/docker run --rwlayer-dir=/tmp/ram3 --rwlayer-size=30M  --log-opt max-size=100M --log-opt log-path=/tmp/dcdn_base/  --log-opt max-file=3 --log-driver json-file  --ulimit core=999614896  --cpu-quota 200000 -v /tmp/dcdn_base/:/storage --name 1_ac912705_65c381a393cbc79e92c58b5bda4d1a5c  --network=host --memory 200M -d 1/galaxyhapp:v5.5
(6)lvm扩容
pvcreate /dev/loop1 -ff
vgextend myvg /dev/loop1
lvresize -L 2000M /dev/myvg/mylv
#e2fsck -y -f /dev/myvg/mylv
resize2fs /dev/myvg/mylv
未修复的内核，会在lvresize这一步卡死，内核爆出crash。

<二>lvm io 处理流程

在分析log之前，有必要先看看lvm设备的io 处理流程。

(1)入口函数为lvm设备的make_request_fn函数，具体为dm_request函数，代码如下：

static void dm_request(struct request_queue *q, struct bio *bio)
{
    struct mapped_device *md = q->queuedata;
    struct page *page1 = NULL;
 
    if (dm_request_based(md))
        blk_queue_bio(q, bio);
    else
        _dm_request(q, bio);
}

如果是基于块设备驱动层请求的设备，走blk_queue_bio分支，如果基于通用块层请求的映射设备，调用_dm_request函数，lvm是基于通用块层的映射设备，走_dm_request函数。

static void _dm_request(struct request_queue *q, struct bio *bio)
{  
    int rw = bio_data_dir(bio);
    struct mapped_device *md = q->queuedata;
    int cpu;
     
    down_read(&md->io_lock);
     
    cpu = part_stat_lock();
    part_stat_inc(cpu, &dm_disk(md)->part0, ios[rw]);
    part_stat_add(cpu, &dm_disk(md)->part0, sectors[rw], bio_sectors(bio));
    part_stat_unlock();
     
    /* if we're suspended, we have to queue this io for later */
    if (unlikely(test_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags))) {
        up_read(&md->io_lock);
 
        if (bio_rw(bio) != READA)
            queue_io(md, bio);
        else
            bio_io_error(bio);
        return;
    }
     
    __split_and_process_bio(md, bio);
    up_read(&md->io_lock);
    return;
}

lvresize会先suspend设备，然后再resume设备。当suspend设备时，会设置DMF_BLOCK_IO_FOR_SUSPEND标志。该标志设置的话，会调用queue_io函数将bio添加到md的defer_io延迟链表里。延迟defer_io里的bio的提交工作交给md->work工作队列处理。具体工作队列处理函数dm_wq_work还是会调用__split_and_process_bio函数进一步处理。

如果没有设置DMF_BLOCK_IO_FOR_SUSPEND标志，直接调用__split_and_process_bio函数处理。__split_and_process_bio源码如下：

static void __split_and_process_bio(struct mapped_device *md, struct bio *bio)
{  
    struct clone_info ci;
    int error = 0;
     
    ci.map = dm_get_live_table(md);
    if (unlikely(!ci.map)) {
        bio_io_error(bio);
        return;
    }
     
    ci.md = md;
    ci.io = alloc_io(md);
    ci.io->error = 0;
    atomic_set(&ci.io->io_count, 1);
    ci.io->bio = bio;
    ci.io->md = md;
    spin_lock_init(&ci.io->endio_lock);
    ci.sector = bio->bi_sector;
    ci.idx = bio->bi_idx;
     
    start_io_acct(ci.io);
     
    if (bio->bi_rw & REQ_FLUSH) {
        ci.bio = &ci.md->flush_bio;
        ci.sector_count = 0;
        error = __send_empty_flush(&ci);
        /* dec_pending submits any data associated with flush */
    } else {
        ci.bio = bio;
        ci.sector_count = bio_sectors(bio);
        while (ci.sector_count && !error)
            error = __split_and_process_non_flush(&ci);
    }
     
    /* drop the extra reference count */
    dec_pending(ci.io, error);
    dm_table_put(ci.map);
}

13行，从md->io_pool里面申请dm_io结构体，15行设置dm_io的count计数为1。32-33行循环调用__split_and_process_non_flush函数split bio，如果不要split就调用一次。

37行调用dec_pending函数减少dm_io的count计数，保持计数平衡。

看下__split_and_process_non_flush函数：

static int __split_and_process_non_flush(struct clone_info *ci)
{
	struct bio *bio = ci->bio;
	struct dm_target *ti;
	sector_t len, max;
	int idx;

	if (unlikely(bio->bi_rw & REQ_DISCARD))
		return __send_discard(ci);
	else if (unlikely(bio->bi_rw & REQ_WRITE_SAME))
		return __send_write_same(ci);

	ti = dm_table_find_target(ci->map, ci->sector);
	if (!dm_target_is_valid(ti))
		return -EIO;

	max = max_io_len(ci->sector, ti);

	/*
	 * Optimise for the simple case where we can do all of
	 * the remaining io with a single clone.
	 */
	if (ci->sector_count <= max) {
		__clone_and_map_data_bio(ci, ti, ci->sector, bio->bi_max_vecs,
					 ci->idx, bio->bi_vcnt - ci->idx, 0,
					 ci->sector_count, 0);
		ci->sector_count = 0;
		return 0;
	}

	/*
	 * There are some bvecs that don't span targets.
	 * Do as many of these as possible.
	 */
	if (to_sector(bio->bi_io_vec[ci->idx].bv_len) <= max) {
		len = __len_within_target(ci, max, &idx);

		__clone_and_map_data_bio(ci, ti, ci->sector, bio->bi_max_vecs,
					 ci->idx, idx - ci->idx, 0, len, 0);

		ci->sector += len;
		ci->sector_count -= len;
		ci->idx = idx;

		return 0;
	}

	/*
	 * Handle a bvec that must be split between two or more targets.
	 */
	return __split_bvec_across_targets(ci, ti, max);
}

该函数是比较核心的函数，负责处理bio 的split ，map 和提交。

（1）首先调用dm_table_find_target函数，在md设备映射表里根据bio扇区号查找对应的映射条目dm_target，映射条目dm_target是以起始扇区号排序插入dm设备的映射表里的。

(2) 计算bio 在对应的dm_target上可以下发的io请求上限max。bio在dm_tartget对应的下层设备上下发的最大io上限取决于两个因素，不能跨越dm_target边界，不能超过下层设备最大IO限制(ti->max_io_len)，二者取其小。

(3) 处理实际的bio split工作。可分三种情况：1）整个bio大小小于io请求上限，不需要split。2）当前bvec小于io请求上限，但bio的整体大小大于io请求上限，那么就以max单位split bio。3）当前bvec的大小就大于io请求上限，并且有可能跨越多个dm_target，这种情况需要调用__split_bvec_across_targets函数处理。

（4）映射提交bio。无论bio，是否split，最后的均会调用__clone_and_map_data_bio函数来处理。

static void __clone_and_map_data_bio(struct clone_info *ci, struct dm_target *ti,
				     sector_t sector, int nr_iovecs,
				     unsigned short idx, unsigned short bv_count,
				     unsigned offset, unsigned len,
				     unsigned split_bvec)
{
	struct bio *bio = ci->bio;
	struct dm_target_io *tio;
	unsigned target_bio_nr;
	unsigned num_target_bios = 1;

	/*
	 * Does the target want to receive duplicate copies of the bio?
	 */
	if (bio_data_dir(bio) == WRITE && ti->num_write_bios)
		num_target_bios = ti->num_write_bios(ti, bio);

	for (target_bio_nr = 0; target_bio_nr < num_target_bios; target_bio_nr++) {
		tio = alloc_tio(ci, ti, nr_iovecs, target_bio_nr);
		if (split_bvec)
			clone_split_bio(tio, bio, sector, idx, offset, len);
		else
			clone_bio(tio, bio, sector, idx, bv_count, len);
		__map_bio(tio);
	}
}

__clone_and_map_data_bio函数会为每个bio 申请dm_target_io，

struct dm_target_io {
    struct dm_io *io;
    struct dm_target *ti;
    union map_info info;
    unsigned target_bio_nr;
    struct bio clone;
};

该函数使用dm_target_io里的dm_io结构体来的计数来跟踪多个split bio的完成情况，并将原始bio clone到dm_target_io里的clone里，最后提交给下层设备的是clone的bio，而不是原始bio。最后调用函数map_bio映射clone的bio。看下这个函数：

static void __map_bio(struct dm_target_io *tio)
{
	int r;
	sector_t sector;
	struct mapped_device *md;
	struct bio *clone = &tio->clone;
	struct dm_target *ti = tio->ti;

	clone->bi_end_io = clone_endio;
	clone->bi_private = tio;

	/*
	 * Map the clone.  If r == 0 we don't need to do
	 * anything, the target has assumed ownership of
	 * this io.
	 */
	atomic_inc(&tio->io->io_count);
	sector = clone->bi_sector;
	r = ti->type->map(ti, clone);
	if (r == DM_MAPIO_REMAPPED) {
		/* the bio has been remapped so dispatch it */

		trace_block_bio_remap(bdev_get_queue(clone->bi_bdev), clone,
				      tio->io->bio->bi_bdev->bd_dev, sector);

		generic_make_request(clone);
	} else if (r < 0 || r == DM_MAPIO_REQUEUE) {
		/* error the io and bail out, or requeue it if needed */
		md = tio->io->md;
		dec_pending(tio->io, r);
		free_tio(md, tio);
	} else if (r) {
		DMWARN("unimplemented target map return value: %d", r);
		BUG();
	}
}

__map_bio函数主要完成clone bio的重定向工作。主要通过dm_target->type->map函数来完成。由于lvm采用的linear映射方式，map函数为linear_map函数。linear_map函数实现比较简单，bio的扇区等于dm_target在下层设备的起始扇区加上bio在dm_taeget映射条目里的offset。

函数最后调用generic_make_request函数下下层设备提交clone后bio 。

最后说下lvm的bio完成回调机制。这个和bcache设备的回调机制很类似。

假如bio分裂成bio1和bio2，每次提交会为原始bio 申请一个dm_io结构体:

struct dm_io {
    struct mapped_device *md;
    int error;
    atomic_t io_count;
    struct bio *bio;
    unsigned long start_time;
    spinlock_t endio_lock;
};

同时为clone bio 也就是bio1和bio2申请struct dm_target_io结构体。dm_tartget_io->io = dm_io。同时bio1，bio2的bi_end_io为clone_endio函数，private为dm_tartget_io结构体。来看clone_endio：

static void clone_endio(struct bio *bio, int error)
{
	int r = 0;
	struct dm_target_io *tio = bio->bi_private;
	struct dm_io *io = tio->io;
	struct mapped_device *md = tio->io->md;
	dm_endio_fn endio = tio->ti->type->end_io;

	if (!bio_flagged(bio, BIO_UPTODATE) && !error)
		error = -EIO;

	if (endio) {
		r = endio(tio->ti, bio, error);
		if (r < 0 || r == DM_ENDIO_REQUEUE)
			/*
			 * error and requeue request are handled
			 * in dec_pending().
			 */
			error = r;
		else if (r == DM_ENDIO_INCOMPLETE)
			/* The target will handle the io */
			return;
		else if (r) {
			DMWARN("unimplemented target endio return value: %d", r);
			BUG();
		}
	}

	free_tio(md, tio);
	dec_pending(io, error);
}

当bio1或者bio2 io 完成时，调用free_tio释放其对应的bio内存，同时也释放其对应的的dm_tartget_io。调用dec_pending减少dm_Io的io_count计数，当计数为0时，调用原始bio的回调函数，并释放dm_io结构体。

<二> bug log分析

在lvresize系统调用里调用kmem_cache_destroy销毁专有高速缓存爆出的crash。爆出crash的调用路径为：

kmem_cache_destroy
    kmem_cache_destroy_memcg_children
        kmem_cache_destroy
            kmem_cache_close
                free_partial
                    list_slab_objects
                        slab_err
                            |->slub_debug
                            |->print_page_info

根据slab_err和print_page_info函数的打印情况来看，可作出如下分析：

kmalloc-192(0:docker-cloud)为kmem_cache的name，其中kmalloc-192为root kmem_cache的name，(0:docker_cloud)，其中0为kmem_cahce所在mem_cgroup的kmemcg_id，docker_cloud为所属mem_cgroup所在cgroup的name。

log第3行打印如下：

[47572.823675] INFO: Slab 0xc126155c objects=21 used=16 fp=0xc8c5f600 flags=0x008

该打印来自print_page_info函数。根据调用栈可知，这里打印的是调用free_partial 释放kmem_cache_node里的partial链表里的slab出错，然后通过print_page_info函数打印出的出错slab的信息。

Slab 0xc126155c为出错slab的地址，objects=21，说明一个完整的slab包含21个object，used=16，说明page->inuse为16，还在使用的object为16，fp=0xc8c5f600为slab的freelist链表首地址。

page->inuse为16这个有问题。page->inuse的含义是指当前slab正在被使用的object的数目，不过他还包括kmem_cache_cpu->freelist中的objcect的数目（如果kmem_cahce_cpu->page为此slab的话）。真正分配出去的object数目是page->inuse 减去kmem_cache_cpu->freelist中的object数目。

现在 kmalloc-192(0:docker_cloud)的中的slab的inuse为16，那么有没有可能这16个object位于kmem_cache_cpu的freelist上呢。

在kmem_cache_close会调用 flush_all，flush_all调用 flush_cpu_slab函数，flush_cpu_slab函数调用flush_slab，flub_slab函数最终调用deactivate_slab函数清空kmem_cache_cpu的freelist和page，并根据该slab的饱和情况是free或者加入kmem_cache_node的partial链表。

由此可见，page->inuse为16，说明调用kmem_cache_destroy函数的时候，其中的slab还有16个object被分配出去没有释放，这是memory leak了么。

在调用栈中bioset_free调用kmem_cache_destroy销毁的是md->bs->bio_slab，而md->bs来源于当前使用的dm_table的dm_table->mempools->bs。来看看dm_table->mempools->bs是在哪创建的。

在加载dm_table的时候调用dm_alloc_md_mempools函数为dm_table分配内存池，dm_alloc_md_mempools函数代码如下：

struct dm_md_mempools *dm_alloc_md_mempools(unsigned type, unsigned integrity, unsigned per_bio_data_size)
{
	struct dm_md_mempools *pools = kzalloc(sizeof(*pools), GFP_KERNEL);
	struct kmem_cache *cachep;
	unsigned int pool_size;
	unsigned int front_pad;

	if (!pools)
		return NULL;

	if (type == DM_TYPE_BIO_BASED) {
		cachep = _io_cache;
		pool_size = 16;
		front_pad = roundup(per_bio_data_size, __alignof__(struct dm_target_io)) + offsetof(struct dm_target_io, clone);
	} else if (type == DM_TYPE_REQUEST_BASED) {
		cachep = _rq_tio_cache;
		pool_size = MIN_IOS;
		front_pad = offsetof(struct dm_rq_clone_bio_info, clone);
		/* per_bio_data_size is not used. See __bind_mempools(). */
		WARN_ON(per_bio_data_size != 0);
	} else
		goto out;

	pools->io_pool = mempool_create_slab_pool(MIN_IOS, cachep);
	if (!pools->io_pool)
		goto out;

	pools->bs = bioset_create(pool_size, front_pad);
	if (!pools->bs)
		goto out;

	if (integrity && bioset_integrity_create(pools->bs, pool_size))
		goto out;

	return pools;

out:
	dm_free_md_mempools(pools);

	return NULL;
}

值得注意，14行，front_pad大小为bio结构体的大小加上dm_target_io结构体的大小。

struct dm_target_io {
    struct dm_io *io;
    struct dm_target *ti;
    union map_info info;
    unsigned target_bio_nr;
    struct bio clone;
};

bio结构图内嵌入了dm_target_io结构体。前面说过，在处理原始bio的时候，不会下发原始bio，会克隆原始bio，并为它分配dm_target_io结构体。在24行，调用bioset_create函数， bioset_create函数调用kmem_cache_create函数创建大小为sizeof(bio) + sizeof(dm_target_io)的高速专用缓存。这样可以一次一体分配bio和dm_tartget_io结构体。

bioset_create函数调用bio_find_or_create_slab函数来创建kmem_cache。来看这个函数：

static struct kmem_cache *bio_find_or_create_slab(unsigned int extra_size)
{
	unsigned int sz = sizeof(struct bio) + extra_size;
	struct kmem_cache *slab = NULL;
	struct bio_slab *bslab, *new_bio_slabs;
	unsigned int new_bio_slab_max;
	unsigned int i, entry = -1;

	mutex_lock(&bio_slab_lock);

	i = 0;
	while (i < bio_slab_nr) {
		bslab = &bio_slabs[i];

		if (!bslab->slab && entry == -1)
			entry = i;
		else if (bslab->slab_size == sz) {
			slab = bslab->slab;
			bslab->slab_ref++;
			break;
		}
		i++;
	}

	if (slab)
		goto out_unlock;

	if (bio_slab_nr == bio_slab_max && entry == -1) {
		new_bio_slab_max = bio_slab_max << 1;
		new_bio_slabs = krealloc(bio_slabs,
					 new_bio_slab_max * sizeof(struct bio_slab),
					 GFP_KERNEL);
		if (!new_bio_slabs)
			goto out_unlock;
		bio_slab_max = new_bio_slab_max;
		bio_slabs = new_bio_slabs;
	}
	if (entry == -1)
		entry = bio_slab_nr++;

	bslab = &bio_slabs[entry];

	snprintf(bslab->name, sizeof(bslab->name), "bio-%d", entry);
	slab = kmem_cache_create(bslab->name, sz, 0, SLAB_HWCACHE_ALIGN, NULL);
	if (!slab)
		goto out_unlock;

	printk(KERN_INFO "bio: create slab <%s> at %d\n", bslab->name, entry);
        dump_stack();
        printk("kmem_cache->name %s!\n",slab->name);
 	bslab->slab = slab;
	bslab->slab_ref = 1;
	bslab->slab_size = sz;
out_unlock:
	mutex_unlock(&bio_slab_lock);
	return slab;
}

该函数在117行创建bio 的kmem_cache。但kmem_cache_create的第一个参数name是"bio-%d"，不是应该是"kmalloc-192"么。

为此，我添加了49-50行打印，结果打印如下：

[  109.616022] bio: create slab  at 2
[  109.616034] CPU: 1 PID: 2643 Comm: lvcreate Tainted: P           O 3.10.33 #60
[  109.623402] [] (unwind_backtrace+0x0/0xec) from [] (show_stack+0x10/0x14)
[  109.632083] [] (show_stack+0x10/0x14) from [] (bioset_create+0x1a8/0x2a8)
[  109.640704] [] (bioset_create+0x1a8/0x2a8) from [] (dm_alloc_md_mempools+0xdc/0xf4)
[  109.650232] [] (dm_alloc_md_mempools+0xdc/0xf4) from [] (dm_table_alloc_md_mempools+0x78/0x8c)
[  109.660579] [] (dm_table_alloc_md_mempools+0x78/0x8c) from [] (dm_table_complete+0x2d8/0x318)
[  109.670990] [] (dm_table_complete+0x2d8/0x318) from [] (table_load+0x108/0x2c8)
[  109.680460] [] (table_load+0x108/0x2c8) from [] (ctl_ioctl+0x4b0/0x4d0)
[  109.688550] [] (ctl_ioctl+0x4b0/0x4d0) from [] (do_vfs_ioctl+0x55c/0x5b0)
[  109.697131] [] (do_vfs_ioctl+0x55c/0x5b0) from [] (SyS_ioctl+0x50/0x7c)
[  109.705626] [] (SyS_ioctl+0x50/0x7c) from [] (ret_fast_syscall+0x0/0x30)
[  109.714164] kmem_cache->name kmalloc-192!

输出结果第一行和最后一行。本来要创建name为"bio-2"的kmem_cache，结果创建的kmem_cache的name为“kmalloc-192”。很明显kmalloc-192是kmalloc的通用高速缓存。

<三>kmem_cache的alias特性

之所以会出现上面的情况是因为kmem_cache的alias特性，或者叫kmem_cache重名、kmem_cache别名。指在kmem_cache_create创建kmem_cache的时候，会尝试复用slub中已经存在的kmem_cache，复用的基本条件是创建size与已存在的kmem_cache的size比较接近，且小于等于后者。

kmem_cache的alias特性的开启是本文bug的根本原因。

当调用kmem_cache_create函数的时候，会调用__kmem_cache_alias函数来尝试复用已经存在的kmem_cache，只有不能复用，才会真正创建。

__kmem_cache_alias函数调用find_mergeable函数来完成查找匹配工作。源码如下：

static struct kmem_cache *find_mergeable(struct mem_cgroup *memcg, size_t size,
		size_t align, unsigned long flags, const char *name,
		void (*ctor)(void *))
{
	struct kmem_cache *s;

	if (slub_nomerge || (flags & SLUB_NEVER_MERGE))
		return NULL;

	if (ctor)
		return NULL;

	size = ALIGN(size, sizeof(void *));
	align = calculate_alignment(flags, align, size);
	size = ALIGN(size, align);
	flags = kmem_cache_flags(size, flags, name, NULL);

	list_for_each_entry(s, &slab_caches, list) {
		if (slab_unmergeable(s))
			continue;

		if (size > s->size)
			continue;

		if ((flags & SLUB_MERGE_SAME) != (s->flags & SLUB_MERGE_SAME))
				continue;
		/*
		 * Check if alignment is compatible.
		 * Courtesy of Adrian Drzewiecki
		 */
		if ((s->size & ~(align - 1)) != s->size)
			continue;

		if (s->size - size >= sizeof(void *))
			continue;

		if (!cache_match_memcg(s, memcg))
			continue;

		return s;
	}
	return NULL;
}

主要的匹配条件是创建size要不大于已存在的kmem_cache的size，而且两者size要足够接近(size按照cache_line_size 64字节对齐之后，和候选的kmem_cache的size大小相差不能大于一个size(void*)，此例子中我们申请的size 154，按照cache_line_size 64字节对齐之后是192字节，正好等于kmalloc-192的object大小)。除此之外，还有看两者cgroup的匹配程度，具体来说，当调用kmem_cache_create函数的时候，此时只能匹配root kmem_cache，在其他路径上面（比如kmem_cache_alloc路径上），要求用户所在的mem_cgroup和候选的kmem_cache同属于一个mem_cgroup才算匹配成功。

总之，在为lvm的md设备在clone的 bio内存创建kmem_cache专用高速缓存的额时候会复用kmallo-192的kem_cache，md设备申请bio内存就会从kmalloc-192里去申请，同时kmalloc函数申请129-192范围内的内存也会从kmalloc-192里取申请。

属于docker_cloud的cgroup进程在 lvm设备上读写时候，回调用kmem_cache_alloc（kmalloc-192）来为bio申请内存。在__memcg_kmem_get_cache函数中，如果发现还没有为docker创建kmalloc-192在cgroup中的实例，还需要创建。创建之后的名字为kmalloc-192(0:docker_cloud)，创建之后放入kmalloc-192的memcg_params->memcg_caches[idx]数组中，其中，idx为memcg的id。kmalloc-192是root kmem_cache，kmalloc-192(0:docker_cloud)是kmalloc-192的child kmem_cache。最多的情况下，每个mem_cgroup都可能在kmalloc-192 下创建cgroup实例。

__kmem_cache_alias函数在复用原有的kmem_cache成功之后，会将原来的kmem_cache->s->refcount++，refcount反映kmem_cache的复用次数。

调用kmem_cache_alloc的时候，只会从自己的cgroup kmem_cache实例中去分配。而非cgroup用户从root kmem_cache里去分配。

<四> kmem_cache_destroy流程

以本例子中的kmem_cache_destroy流程为例。

dm设备调用kmem_cache_destroy释放bio的kmem_cache。

kmem_cache_destroy释放的是kmalloc-192。kmem_cache_destroy源码如下：

void kmem_cache_destroy(struct kmem_cache *s)
{
	/* Destroy all the children caches if we aren't a memcg cache */
	kmem_cache_destroy_memcg_children(s);

	get_online_cpus();
	mutex_lock(&slab_mutex);
	s->refcount--;
	if (!s->refcount) {
		list_del(&s->list);

		if (!__kmem_cache_shutdown(s)) {
			mutex_unlock(&slab_mutex);
			if (s->flags & SLAB_DESTROY_BY_RCU)
				rcu_barrier();

			memcg_release_cache(s);
			kfree(s->name);
			kmem_cache_free(kmem_cache, s);
		} else {
			list_add(&s->list, &slab_caches);
			mutex_unlock(&slab_mutex);
			printk(KERN_ERR "kmem_cache_destroy %s: Slab cache still has objects\n",
				s->name);
			dump_stack();
		}
	} else {
		mutex_unlock(&slab_mutex);
	}
	put_online_cpus();
}

首先调用kmem_cache_destroy_memcg_children释放kmalloc_192的所有cgroup实例，对属于每个cgroup的kmem_cache实例调用kmem_cache_destroy函数进行释放（递归调用）。

对每个cgroup 实例调用kmem_cache_destroy的时候，kmem_cache_destroy_memcg_children函数会马上返回，以为cgroup的实例本身没有chilld，是非root kmem_cache，只有root kmem_cache有child。

判断cgroup的实例refcount(一般为1)，只有root kmem_cache的refcount为2，因为复用了。

refcount减1(变为0)，进入_kmem_cache_shutdown流程，这是真正的释放函数。

也就是说 kmalloc-192(0:docker_cloud)执行_kmem_cache_shutdown流程。调用fluash_all函数将per cpu的kmem_cache_cpu的上的freelist和partilal上的slab刷回kmem_cache_node的partial，如果为满free的话，直接释放到伙伴系统。最后调用free_partial释放每个kmem_cache_node的partial上的slab内存到伙伴系统。

在调用free_partial函数的时候爆出文章开始的crash。

前面分析，crash log的原因是slab的的object没有释放。有没有可能是此时的bio还没有完成io并导致没法释放bio内存，就销毁了kmem_cache。

这个不会。

在do_suspend函数中首先会设置md设备的DMF_BLOCK_IO_FOR_SUSPEND标志，该标志会阻止_dm_request直接向下层设备提交bio，而是加入md->deferred延迟链表里面。md->deferred延迟队列的bio是由工作队列dm_wq_work函数处理的。DMF_BLOCK_IO_FOR_SUSPEND置位的话，同样会阻止dm_wq_wok函数向下层提交bio，导致dm_wq_work函数直接返回。

也就是DMF_BLOCK_IO_FOR_SUSPEND可以持续接受上层设备发下来的bio，但阻止向下层提交，全部累积到md->deferred延迟链表。注意累积的是上层下发的原始bio不会导致md的bio分配。

同时在do_suspend中，会调用dm_wait_for_completion(md, TASK_INTERRUPTIBLE)函数等待in flight的bio全部完成，也就是在设置该标志之前就已经处于in flight的bio，等待他们全部完成。

所以在调用kmem_cache_destroy销毁kmalloc-192的时候，所有md的bio内存就已经全部回收。

问题在于，此时的kmalloc-192是通用kmalloc和md的bio高速缓存共有的，kmem_cache->refcount为2。假如此前cgroup docker_cloud中的进程页调用了kmalloc函数申请192内存，它必然会从 kmalloc-192(0:docker_cloud)的kmem_cache里申请，而此时， kmalloc-192(0:docker_cloud)被md设备调用kmem_cache_destroy销毁，所以就导致上面的crash。

我们可以验证下，是否有容器cgroup docker_cloud中的进程从kmalloc-192里申请了内存。在_kmalloc函数中添加打印如下：

void *__kmalloc(size_t size, gfp_t flags)
{
	struct kmem_cache *s;
	void *ret;
	struct mem_cgroup *memcg = NULL;
	struct cgroup_subsys_state *css = NULL;
	struct cgroup *cgrp = NULL;
	struct page *page = NULL;
	int need_printk = 0;
	
	memcg = mem_cgroup_from_task(current);
	css = (struct cgroup_subsys_state*)memcg;
	if(css && css->cgroup)
		cgrp = css->cgroup;
	if (unlikely(size > KMALLOC_MAX_CACHE_SIZE))
		return kmalloc_large(size, flags);

	s = kmalloc_slab(size, flags);

	if (unlikely(ZERO_OR_NULL_PTR(s)))
		return s;
	if(s->name && !strcmp(s->name,"kmalloc-192") && cgrp && !strcmp(cgrp->name->name,"docker_cloud")){
		printk("kmalloc 192!\n");
		need_printk = 1;
	}

	ret = slab_alloc(s, flags, _RET_IP_);
	if(need_printk){
		//printk("kmalloc %lx!\n",(unsigned long)ret);
		page = virt_to_head_page(ret);
		printk("------------------------------------!\n");
		dump_stack();
		printk("------------------------------------!\n");
		printk("size %d page %p!\n",size,page);
	}

	trace_kmalloc(_RET_IP_, ret, size, s->size, flags);

	return ret;
}
EXPORT_SYMBOL(__kmalloc);

其中5-9行，11-14行，22-25行，28-35为添加打印。mem_cgroup_from_task用于从task获取进程所属的mem_cgroup。根据进程所在的cgroup名字和kmem_cache的name来过滤打印。

添加打印后，dmesg信息如下：

[ 7705.030324] ------------------------------------!
[ 7705.035167] CPU: 2 PID: 27317 Comm: runc:[2:INIT] Tainted: P           O 3.10.33 #63
[ 7705.043019] [] (unwind_backtrace+0x0/0xec) from [] (show_stack+0x10/0x14)
[ 7705.051662] [] (show_stack+0x10/0x14) from [] (__kmalloc+0x2a4/0x38c)
[ 7705.059944] [] (__kmalloc+0x2a4/0x38c) from [] (blkg_alloc+0x134/0x148)
[ 7705.068405] [] (blkg_alloc+0x134/0x148) from [] (blkg_create+0x4c/0x250)
[ 7705.076923] [] (blkg_create+0x4c/0x250) from [] (blkg_lookup_create+0xb8/0xf0)
[ 7705.085998] [] (blkg_lookup_create+0xb8/0xf0) from [] (blk_throtl_bio+0x668/0x690)
[ 7705.095396] [] (blk_throtl_bio+0x668/0x690) from [] (generic_make_request_checks+0x320/0x448)
[ 7705.105737] [] (generic_make_request_checks+0x320/0x448) from [] (generic_make_request+0x10/0xd0)
[ 7705.116650] [] (generic_make_request+0x10/0xd0) from [] (submit_bio+0x18c/0x1e0)
[ 7705.125669] [] (submit_bio+0x18c/0x1e0) from [] (mpage_readpages+0x150/0x174)
[ 7705.134654] [] (mpage_readpages+0x150/0x174) from [] (__do_page_cache_readahead+0x214/0x348)
[ 7705.144884] [] (__do_page_cache_readahead+0x214/0x348) from [] (page_cache_sync_readahead+0x58/0x60)
[ 7705.155848] [] (page_cache_sync_readahead+0x58/0x60) from [] (generic_file_aio_read+0x2cc/0x750)
[ 7705.166456] [] (generic_file_aio_read+0x2cc/0x750) from [] (do_sync_read+0x78/0x9c)
[ 7705.175950] [] (do_sync_read+0x78/0x9c) from [] (vfs_read+0xa8/0x1ac)
[ 7705.184220] [] (vfs_read+0xa8/0x1ac) from [] (vfsub_read_u+0xc/0x28)
[ 7705.192413] [] (vfsub_read_u+0xc/0x28) from [] (aufs_read+0x90/0x100)
[ 7705.200677] [] (aufs_read+0x90/0x100) from [] (vfs_read+0xa8/0x1ac)
[ 7705.208783] [] (vfs_read+0xa8/0x1ac) from [] (kernel_read+0x38/0x44)
[ 7705.216975] [] (kernel_read+0x38/0x44) from [] (prepare_binprm+0x108/0x118)
[ 7705.225774] [] (prepare_binprm+0x108/0x118) from [] (do_execve+0x360/0x520)
[ 7705.234571] [] (do_execve+0x360/0x520) from [] (SyS_execve+0x30/0x44)
[ 7705.242853] [] (SyS_execve+0x30/0x44) from [] (ret_fast_syscall+0x0/0x30)
[ 7705.251470] ------------------------------------!
[ 7705.256292] size 144 page c131554c!
[ 7705.535555] kmalloc 192!

log打印路径是同步读的预读的的io 限制流程。blk_throtl_bio是blkio 的流控的核心函数，主要用户的blkio参数设置，来限制io的bps和iops。如果在blkcg的radix tree里根据queue->id没有找到blkgq，会调用blkcg_create调用kzalloc_nodes申请blkcg结构体，这一般发生在属于blkcg的用户第一次向块设备发起io的时候。每个块设备在同一blk cgroup里都有一份实例，就是blkgq，并且以基数的形式组织到blkcg->blkg_tree 里。

在blk_throtl_bio里，根据bio的css获取所属的blkcg(blk cgroup)，然后根据被提交设备的queue->id，在blkcg的基数里查找本块设备对应的blkgq结构体，如果是第一次io，就创建blkgq，最后根据blkgq找到throtl_grp，blkgq和throtl_grp是一一对应的。throtl_grp里保存的是io的限速策略和限速参数。

在log里kmalloc申请的是144字节，处于129-192区间，所以选择kmalloc-192的通用kmem_cache，同时当前进程属于docker_cloud的cgoup，所以最终会从kmalloc-192(0:docker_cloud)里进行分配。blkgq的内存一般在cgroup删除或者umount的时候释放。

所以在md设备调用kmem_cache_destroy销毁kmalloc-192(0:docker_cloud)的时候，尚有未释放的object在使用。

当一个kmem_cache被复用的时候，因为root kmem_cache的所有child kmem_cache（memcg对应的实例）是各个使用者的共享的。所以一个使用者调用kmem_cache_destroy销毁复用的kmem_cache的时候，不仅root kmem_cache的销毁要等到refcount为0，root kmem_cache下辖的child kmem_cache的销毁同样应该等到refcount为0。即在kmem_cache_destroy中，kmem_cache_destroy_memcg_children的执行逻辑应该放到root kmem_cache 的refcount判断之后。

<五> bug修正

commit:b8529907ba35d已经修正了这个bug。是在3.15内核修正了。因为3.15到3.10.33的有些跨度，函数和变量均有改变，backport有些难度。并且不能简单把kmem_cache_destroy_memcg_children函数放到refcout的判断之后，主要是因为kmem_cache_destroy的递归调用和slab_mutex的使用。

由于时间关系，当时选择关闭kmem_cache的alias特性，来解决这个问题。在灰度修正后的版本几个月里，线上再也没有出现过这个问题。

你可能感兴趣的:(Linux调试)

上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
tcpdump交叉编译 weixin_45673259 tcpdump 测试工具网络
1.下载路径官网：https://www.tcpdump.org/2.编译解压：tar-xflibpcap-1.10.4.tar.xztar-xftcpdump-4.99.4.tar.xz编译libpcap./configure--host=mips-v720s229-linux--target=mips-v720s229-linuxCC=/opt/A1/mips-gcc720-uclibc229
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
LVM逻辑卷扩容
目录1.逻辑卷的简介2.逻辑卷的概念3.相关命令4.建立逻辑卷1.逻辑卷的简介1.LVM是逻辑卷管理(LogicalVolumeManager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。2.LVM最大的特点就是可以对磁盘进行动态管理。使用了LVM管理分区,动态的调整分区的大小,标准分区是做不到的。2.逻辑卷的概念
Rocky Linux 8.5/CentOS 8 安装Wine chen_teacher linux 运维服务器
RockyLinux8.5/CentOS8安装Wine首先配置EPEL镜像配置方法安装Wine首先配置EPEL镜像EPEL(ExtraPackagesforEnterpriseLinux),是由FedoraSpecialInterestGroup维护的EnterpriseLinux（RHEL、CentOS）中经常用到的包。下载地址：https://mirrors.aliyun.com/epel/相
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
【Linux内核模块】Linux内核模块简介 byte轻骑兵 #嵌入式Linux驱动开发实战 linux arm开发运维
你是否好奇过，为什么Linux系统可以在不重启的情况下支持新硬件？为什么修改一个驱动程序不需要重新编译整个内核？这一切都离不开Linux的"模块化魔法"——内核模块（KernelModule）。作为Linux内核最灵活的特性之一，内核模块让开发者可以动态扩展内核功能，今天就来揭开这个神秘组件的面纱。目录一、什么是内核模块？1.1先打个比方：给内核装"插件"1.2技术定义：动态加载的内核代码段1.3
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
在 Windows 上安装 Docker Desktop 不老刘人工智能 windows docker 容器
还是简单说一下，如何在Windows上安装DockerDesktop，具体步骤如下：系统要求Windows10/1164-bit（专业版、企业版或教育版，版本21H2或更高）启用WSL2（WindowsSubsystemforLinux2）或Hyper-V至少4GB内存BIOS中启用虚拟化（VT-x/AMD-V）安装步骤1.下载DockerDesktop访问Docker官网下载页面。下载Docke
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
.NET nupkg包的深度解析与安全防护指南深盾科技 .net
在.NET开发领域，nupkg包是开发者们不可或缺的工具。它不仅是代码分发和资源共享的核心载体，还贯穿了开发、构建、部署的全流程。今天，我们将深入探讨nupkg包的核心功能、打包发布流程以及安全防护措施，帮助你在.NET开发中更加得心应手。nupkg包的核心功能nupkg是NuGet包的文件格式，本质上是一个ZIP压缩包，包含编译后的程序集（.dll文件）、调试符号（.pdb文件）、描述文件（.n
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
【Linux】进程间通信-管道通信实验会的全对٩(ˊᗜˋ*)و Linux linux 经验分享
要求：利用有名管道编写简单的聊天程序，聊天双方在线才能说话，一方说话后需另一方应答才能继续说话，即一来一往的聊天模式，如果输入quit则退出聊天程序。代码实现：进程A#include#include#include#include#include#include#defineFIFO_A"/tmp/chat_fifo_a"//进程A写消息，进程B读消息#defineFIFO_B"/tmp/chat
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
探索WPF界面的神器：Snoop 伍霜盼Ellen
探索WPF界面的神器：Snoop项目地址:https://gitcode.com/gh_mirrors/sno/snoopwpfSnoop是一款由PeteBlois发起，并由BastianSchmidt维护的开源WPF应用监视工具。它提供了一种无需调试器就能浏览和操作任何运行中WPF应用程序视觉、逻辑和自动化树的强大功能。无论是修改属性值、查看触发器还是在属性变化时设置断点，Snoop都能轻松应对
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
c++中如何排查死锁三月微风 c++java 开发语言
排查死锁（deadlock）是多线程C++开发中的一项核心调试技能，死锁通常是因为多个线程交叉持有资源而相互等待导致程序卡死。下面详细讲讲如何排查和预防死锁：一、死锁的常见成因锁获取顺序不一致（最常见）多个互斥量之间相互等待一个线程尝试多次加锁同一个非递归互斥锁忘记释放锁条件变量使用错误（如wait时未持锁）二、排查死锁的方法✅1.日志调试法在加锁和解锁前后打日志，确认：哪些线程获取了锁哪个线程卡
如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
STM32 CubMax 6.1.1 版本安装包姜奇惟Sparkling
STM32CubMax6.1.1版本安装包【下载地址】STM32CubMax6.1.1版本安装包本仓库提供STM32CubeMX6.1.1版本的安装包，支持Linux、macOS和Windows64位系统。STM32CubeMX是STMicroelectronics推出的一款图形化配置工具，能够自动生成适用于STM32微控制器的初始化代码，极大地简化了开发流程。用户只需根据操作系统选择相应的安装包
在 Linux（openEuler 24.03 LTS-SP1）上安装 Kubernetes + KubeSphere 的防火墙放行全攻略
目录在Linux（openEuler24.03LTS-SP1）上安装Kubernetes+KubeSphere的防火墙放行全攻略一、为什么要先搞定防火墙？二、目标环境三、需放行的端口和协议列表四、核心工具说明1.修正后的exec.sh脚本（支持管道/重定向）2.批量放行脚本：open_firewall.sh五、使用示例1.批量放行端口2.查看当前防火墙规则3.仅开放单一端口（临时需求）4.检查特定
解决Linux绑定失败地址已使用(端口被占用)的问题誰能久伴不乏 linux 服务器网络
文章目录解决`bindfailed:Addressalreadyinuse`问题一、问题原因1.**端口已经被其他程序占用**2.**端口处于`TIME_WAIT`状态**3.**未正确关闭套接字**二、如何排查和解决问题1.**确认端口是否被占用**2.**查找并杀掉占用端口的进程**3.**等待端口释放（`TIME_WAIT`状态）**4.**强制重用端口**（仅限开发环境）5.**使用其他端
linux/ubuntu启动引导过程详细分析奇妙之二进制 #linux ubuntu postgresql
文章目录**一、固件初始化阶段（BIOS/UEFI）****1.BIOS（基本输入输出系统）模式****2.UEFI（统一可扩展固件接口）模式****二、引导加载程序阶段（GRUB2）****1.GRUB2的加载过程****2.GRUB配置解析****3.内核参数传递****三、内核加载与初始化****1.内核解压缩与启动****2.initramfs（初始内存文件系统）加载****3.根文件系统
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟