模型训练速度 配置 (Speed Problem)

训练模型时 遇到速度过慢时的深思

  • GPU 占用
  • CPU占用
    • 内存占用
      • 查看内存使用情况
      • 查看硬盘使用情况
        • 查看具体某个文件或者文件夹的大小
        • 查看文件夹下所有文件的大小,可以使用*:
    • 占用率

GPU 占用

并行运算
高性能运算

nvidia-smi

模型训练速度 配置 (Speed Problem)_第1张图片

表格中会显示显卡的一些信息:
第一行是版本信息
第二行是标题栏
第三行就是具体的显卡信息

如果有多个显卡,会有多行,每一行的信息值对应标题栏对应位置的信息

GPU:编号
Fan:风扇转速,在0到100%之间变动,这里是42%
Name:显卡名,这里是TITAN X
Temp:显卡温度,这里是69摄氏度
Perf:性能状态,从P0到P12,P0性能最大,P12最小
Persistence-M:持续模式的状态开关,该模式耗能大,但是启动新GPU应用时比较快,这里是off
Pwr:能耗
Bus-Id:涉及GPU总线的东西
Disp.A:表示GPU的显示是否初始化
Memory-Usage:现存使用率,这里已经快满了
GPU-Util:GPU利用率
Compute M.:计算模式

显存占用率和GPU占用率是两个不一样的东西,类似于内存和CPU,两个指标的占用率不一定是互相对应的。

再下面就是每个进程使用的GPU情况了。

CPU占用

IO读写

内存占用

查看内存使用情况

free -m

在这里插入图片描述
or
在这里插入图片描述
Param.

Mem行(单位均为M):

total:内存总数
used:已使用内存数
free:空闲内存数
shared:当前废弃不用
buffers:缓存内存数(Buffer)
cached:缓存内舒数(Page)

-/+ buffers/cache行:

(-buffers/cache): 真正使用的内存数,指的是第一部分的 used - buffers - cached
(+buffers/cache): 可用的内存数,指的是第一部分的 free + buffers + cached

Swap行:
指交换分区

实际上不要看free少就觉得内存不足了,buffers和cached都是可以在使用内存时拿来用的,应该以(-/+ buffers/cache)行的free和used来看。只要没发现swap的使用,就不用太担心,如果swap用了很多,那就要考虑增加物理内存了。

查看硬盘使用情况

模型训练速度 配置 (Speed Problem)_第2张图片

df -hl

表格中每一行代表一个文件系统,各列意义如下:

Filesystem:文件系统
Size:硬盘大小
Used:已使用大小
Avail:可用大小
Use%:使用百分比
Mounted on:安装于哪个盘上

查看具体某个文件或者文件夹的大小
$ du -h --max-depth=1 filedir/
20G filedir

du命令可以查看文件或文件夹的磁盘使用空间,而-h参数的意思是使用GB、MB等易读的格式。如果不带–max-depth参数,那么将循环列出文件夹下所有文件和文件夹占用的空间,带此参数,则是指定深入目录的层数。

查看文件夹下所有文件的大小,可以使用*:
$ du -h --max-depth=1 filedir/*
1M xxx.xx
3M xxx.xx
2G xxx.xx

占用率

top -bn 1 -i -c

在第三行有显示CPU当前的使用情况。
在这里插入图片描述
top命令可以看到总体的系统运行状态cpu的使用率

  • %us:表示用户空间程序的cpu使用率(没有通过nice调度)
  • %sy:表示系统空间的cpu使用率,主要是内核程序
  • %ni:表示用户空间且通过nice调度过的程序的cpu使用率
  • %id:空闲cpu
  • %wa:cpu运行时在等待io的时间
  • %hi:cpu处理硬中断的数量
  • %si:cpu处理软中断的数量
  • %st:被虚拟机偷走的cpu

你可能感兴趣的:(Machine,Learning,#,Deep,Learning,Linux,&,Shell,人工智能,机器学习,深度学习)