LicheePI (荔枝派)Zero 开发笔记(2):降低多线程程序的 VSZ

在 LicheePI Zero 上做项目,应用程序使用了大量的线程实现耗时/异步操作的后台处理,发现一旦创建线程,使用 top 查看程序的内存占用情况就急剧升高。当对50个设备同时建立业务线程时,top 中的 VSZ 和 VSZ% 分别高达507m和1021%,同时查看 /proc/#pid/status 的VmRSS项(即占用的物理内存)时并没有明显变化,程序运行正常。但应用程序的 VSZ 过高总不是件好事,找到原因,再动手解决它。

VSZ 升高的原因

参考各位大侠的说明,VSZ 是多线程的应用程序在建立一个线程时所开辟的栈占用的虚拟内存空间所造成的,其缘由最终可追溯到 libc-2.11以后的版本对 pthread_create 的实现方法上[参见:pthread 线程 分配大小, top vsz 进程占用过大原因 - zzzxzzz - 博客园 (cnblogs.com)]。glibc-2.11以后的版本,在 pthread_create 函数中,为了防止各线程之间的内存竞争性冲突,都会为每一个线程开辟一块新的内存空间,使用的是 malloc 函数,其尺寸是 ulimit 指令所规定的当前 stack 的值(单位是kByte)。每创建一个线程,如果不设置线程堆栈的尺寸的话,VSZ都将升高一个默认堆栈尺寸。默认堆栈尺寸是 8MBytes,线程建立得多的时候,VSZ的数值就相当可观了。

LicheePI Zero 使用的 Linux 内核是 4.11.x以上版本,使用的 libc 是 2.23,大概率也是使用了上述方法。

设定线程堆栈尺寸的方法

C标准库中对线程堆栈(严格说来是”栈“而不是”堆“)的操作函数如下:

  • int pthread_attr_getstacksize (const pthread_attr_t *__restrict  __attr, size_t *__restrict __stacksize);
  • int pthread_attr_setstacksize (pthread_attr_t *__attr, size_t __stacksize);

pthread_attr_getstacksize 函数获取当前的线程栈尺寸,存放在__stacksize变量中。pthread_attr_setstacksize 函数将保存在 __stacksize 变量中的尺寸赋予 __attr 变量。这两个函数如果执行成功,返回0,如没有返回0,则说明有错误发生, 错误代码可参见

参考各位大侠的说明,想要控制多线程程序的VSZ,就要在创建线程前,将线程的属性值中的stacksize设置好。

附:errno-base.h

/* SPDX-License-Identifier: GPL-2.0 WITH Linux-syscall-note */
#ifndef _ASM_GENERIC_ERRNO_BASE_H
#define _ASM_GENERIC_ERRNO_BASE_H

#define	EPERM		 1	/* Operation not permitted */
#define	ENOENT		 2	/* No such file or directory */
#define	ESRCH		 3	/* No such process */
#define	EINTR		 4	/* Interrupted system call */
#define	EIO		     5	/* I/O error */
#define	ENXIO		 6	/* No such device or address */
#define	E2BIG		 7	/* Argument list too long */
#define	ENOEXEC		 8	/* Exec format error */
#define	EBADF		 9	/* Bad file number */
#define	ECHILD		10	/* No child processes */
#define	EAGAIN		11	/* Try again */
#define	ENOMEM		12	/* Out of memory */
#define	EACCES		13	/* Permission denied */
#define	EFAULT		14	/* Bad address */
#define	ENOTBLK		15	/* Block device required */
#define	EBUSY		16	/* Device or resource busy */
#define	EEXIST		17	/* File exists */
#define	EXDEV		18	/* Cross-device link */
#define	ENODEV		19	/* No such device */
#define	ENOTDIR		20	/* Not a directory */
#define	EISDIR		21	/* Is a directory */
#define	EINVAL		22	/* Invalid argument */
#define	ENFILE		23	/* File table overflow */
#define	EMFILE		24	/* Too many open files */
#define	ENOTTY		25	/* Not a typewriter */
#define	ETXTBSY		26	/* Text file busy */
#define	EFBIG		27	/* File too large */
#define	ENOSPC		28	/* No space left on device */
#define	ESPIPE		29	/* Illegal seek */
#define	EROFS		30	/* Read-only file system */
#define	EMLINK		31	/* Too many links */
#define	EPIPE		32	/* Broken pipe */
#define	EDOM		33	/* Math argument out of domain of func */
#define	ERANGE		34	/* Math result not representable */

#endif

本机测试和实现

在应用程序中使用了如下举例的代码片段,可有效抑制应用程序 VSZ 的尺寸。

/* Create a Asynchronized Time Synchronization thread  */
void myApp::start_time_sync_thread()
{
    pthread_attr_t attr;
    pthread_t tTimeSync;
    pthread_attr_init(&attr);
    size_t stack_size = -1;

    int attr_stackget = pthread_attr_getstacksize(&attr, &stack_size);
    printf("Here... attr_stackget = %d, stack size=%zd\r\n", attr_stackget, stack_size);

    int attr_stackset = pthread_attr_setstacksize(&attr, MYAPP_DEFAULT_STACK_SIZE);
    printf("Here... attr_stackset = %d\r\n", attr_stackset);

    pthread_attr_setdetachstate(&attr, PTHREAD_CREATE_DETACHED);
    pthread_create(&tTimeSync, &attr, timeSyncThread, NULL);
    pthread_detach(tTimeSync);
    pthread_attr_destroy(&attr);
    usleep(MYAPP_ADDTASK_WAIT);
}

说明:

  • 使用 pthread_attr_getstacksize 获取当前可用的stacksize。开始测试时,没有对ulimit -s做任何配置,系统默认值为8388608,即8M字节。
  • MYAPP_DEFAULT_STACK_SIZE取值是65536(64K字节)。
  • 使用pthread_attr_setdetachstate,将线程属性设置为线程终止资源自动释放(PTHREAD_CREATE_DETACHED)。

 测试步骤如下。

  1. 使用系统默认的堆栈尺寸,运行上述代码,得到
        attr_stackget = 0,stack_size = 8388608
        attr_stackset = 22
    也就是说系统默认堆栈尺寸为8M,设置为64K的尺寸出错(查询errno.h得知为”Invalid argument“),郁闷了:Invalid 在哪里呢?查询得到 PTHREAD_STACK_MIN 的值是 16384,65536在16K~8M之间啊?怎么回事?
  2. 在运行程序之间,使用 ulimit -s xxx 命令以 1/2 的倍率逐步地缩小操作系统默认值,直到 xxx 被设置为 64 时,程序运行得到
        attr_stackget = 0,stack_size = 65536
        attr_stackset = 0
    也就是说,当程序设定的 stacksize 要大于等于系统默认值时才有效。看来这是 LicheePI 的特性了。
  3. 运行程序前,使用 ulimit -s xxx 指令分别设置更小的默认值,设置为32K,16K,8K,4K,2K和1K都可以成功,但运行程序时,小于32K的设置会有概率地出现应用程序挂掉的现象。这可能是由于我的应用程序在线程中也会占用较多内存的原因。
  4. 最终,确定主线程(主循环)的 stacksize 设置为 2M,其它短时的异步线程的 stacksize 设置为 64K 时,所有功能保持正常。这时 top 的显示值稳定在 VSZ 15980;%VSZ 29%的水平。

搞定!

结论

在 LicheePI Zero (全志 V3s 芯片)上,利用 pthread_attr_setstacksize 可以有效地抑制 VSZ 的水平。主循环的 stacksize 要设置得足够大,以免线程的内存溢出造成程序崩溃;短寿命异步线程的 stacksize 设置为 64K 较为稳妥。

你可能感兴趣的:(LicheePI,物联网,开发语言,c++,arm)