一个QT程序无法启动问题的分析与解决

最近调试设备,遇到了一个奇怪的问题:QT程序无法重启。

查看日志,发现报如下错误:

QLock::QLock: Cannot create semaphore /tmp/qtembedded-0/QtEmbedded-0 'd' (22, Invalid argument)
Cannot get display lock
Aborted

下面整理记录问题的解决过程。

1 首先,说明程序之前奔溃了。
因为这是重启过程中报的信息。后台监控发现程序奔溃后,会再次拉起。这个日志就是拉起过程中出现的。

2 先不管之前为啥崩溃了。我们看看程序为啥无法成功重启。

3 是否是因为程序本身出了什么问题?
因为这个错误之前不曾见过,又因为之前出现过flash上的文件发生损坏的情况,所以猜测会不会是因为坏块导致的执行程序文件损坏。
通过将程序二进制文件拷贝出来以及将新的替换进去,验证程序没有发生变化,但是问题一直存在。
使用其他QT程序,问题也依然存在,所以程序本身的问题被排除

4 是否是因为QT基础库问题导致?
基本思路还是跟3中描述一样,只不过这次怀疑是否是QT的基础库发生了变动。
如果基础库发生变动,那么所有QT程序都可能无法正常运行。
将设备上的QT相关库拷贝出来,跟烧写版本对比,发现基础库没有变化。
重新替换QT基础库,问题仍然存在。

5 是否是因为QT运行环境问题导致?
拷贝异常设备中,root tmp等目录下QT生成的文件,跟正常设备对比,发现没有明显的差异

6 查找错误日志所在代码
既然前面几个怀疑点都排除了,没有明确的验证方向的情况下,决定看看错误日志到底是那块代码打印的。
通过搜索QT程序和QT开发环境,发现Cannot get display lock这一句是QT基础库里的打印
进一步的,确定了代码所在位置:qtapplication_qws.cpp.

跟踪代码,发现是qtlock初始化失败了。
但是,相关的代码有很多编译选项,不确定错误到底是那个if else逻辑出来的。
考虑到整个QT自身的代码比较庞大,搜索也不容易确定宏是否是打开状态,决定添加日志,跟踪定位问题。

7 重新编译QT库
重新编译QT库后,将日志所在的GUI库替换,重新跑程序来看:
 

   QLock::lock(): file name /tmp/qtembedded-0/QtEmbedded-0 id=d create=create 
   QLock::lock(): QT_POSIX_IPC 
   QLock::lock(): QT_POSIX_IPC 1 data id = -1 semkey=1678592551 (2, No such file or directory)
   QLock::lock(): QT_POSIX_IPC 2 data id = -1 semkey=1678592551, (28, No space left on device)
   QLock::lock(): QT_POSIX_IPC 3 data id = -1 arg.val=200, (22, Invalid argument)
   QLock::QLock: Cannot create semaphore /tmp/qtembedded-0/QtEmbedded-0 'd' (22, Invalid argument)
   Cannot get display lock
   Aborted

这是最后确定问题的日志,中间过程不再说明。
我们看到,走了IPC处理分支
关键错误在第四行,errno是28,说明没有空间
这句日志对应的代码接口为semget

8 查看系统调用说明
man semget,查看这个系统调用的使用说明。
其中有关于28错误的说明,ENOSPC,基本是说创建信号量时,达到了系统配置的上限,没有空间创建新的。
到这里,基本可以猜出问题所在了。就是程序之前可能反复重启,消耗了所有的信号量空间,达到一定次数后,无法创建新的信号量,导致启动失败。

9 查看系统配置参数
查看系统对信号量 共享内存等的配置
 # cat /proc/sys/kernel/sem 
  250     32000   32      128

可以看到,信号量给的是128个。
具体查看系统中创建的信号量

  # cat /proc/sysvipc/sem 
         key      semid perms      nsems   uid   gid  cuid  cgid      otime      ctime
  1678576641      32768   600          1     0     0     0     0 1649596772         43
  1678623274      65537   600          1     0     0     0     0 1649596832 1649596774
  1678624879    4259842   600          1     0     0     0     0 1649606005 1649605937
  1678625856     131075   600          1     0     0     0     0 1649596973 1649596905
  ...
  1678593752    4030586   600          1     0     0     0     0 1649604774 1649604707
  1678595070    4063355   600          1     0     0     0     0 1649604848 1649604776
  1678596881    4096124   600          1     0     0     0     0 1649604917 1649604849
  1678598116    4128893   600          1     0     0     0     0 1649604986 1649604918
  1678599937    4161662   600          1     0     0     0     0 1649605054 1649604987
  1678598220    4358271   600          1     0     0     0     0 1649964888 1649964880

统计一下,发现达到了上限。这里多的1是第一行,用于说明各个列段含义的行
  # cat /proc/sysvipc/sem  | wc -l
  129

10 验证
删除一个信号量,重启程序,可以看到重启成功

# ipcrm -s 4194431

  QLock::lock():  file name /tmp/qtembedded-0/QtEmbedded-0 id=d create=create 
  QLock::lock(): QT_POSIX_IPC 
  QLock::lock(): QT_POSIX_IPC 1 data id = -1 semkey=1678598220 (2, No such file or directory)
  QLock::lock(): QT_POSIX_IPC 2 data id = 4358271 semkey=1678598220, (2, No such file or directory)
  QLock::lock(): QT_POSIX_IPC 3 data id = 4358271 arg.val=200, (2, No such file or directory)

关闭程序,再次重启,看到失败,说明问题就是由于空间限制,导致信号量创建失败产生

  QLock::lock():  file name /tmp/qtembedded-0/QtEmbedded-0 id=d create=create 
  QLock::lock(): QT_POSIX_IPC 
  QLock::lock(): QT_POSIX_IPC 1 data id = -1 semkey=1678598276 (2, No such file or directory)
  QLock::lock(): QT_POSIX_IPC 2 data id = -1 semkey=1678598276, (28, No space left on device)
  QLock::lock(): QT_POSIX_IPC 3 data id = -1 arg.val=200, (22, Invalid argument)
  QLock::QLock: Cannot create semaphore /tmp/qtembedded-0/QtEmbedded-0 'd' (22, Invalid argument)
  Cannot get display lock
  Aborted

11 进一步的研究
根据代码来看,每次创建信号量的ftok函数调用参数都是一样的,但是为啥QT每次打印出来的id不一样呢。
因为不一样,所以每次创建的总是保留着,直到空间用完。
  
但是根据接口说明,ftok同样的参数,生成的结果是一样的。专门写了一个程序验证了一下:
  /tmp # /mnt/a.out 
  semkey is 1678611420 
  /tmp # /mnt/a.out 
  semkey is 1678611420 
  /tmp # /mnt/a.out 
  semkey is 1678611420 
  
为啥QT创建的不一样呢?
我们重新创建文件,再跑程序,可以看到生成的不一样了。
ftok是根据的文件的inode信息来生成id的。
  /tmp # rm /tmp/qtembedded-0/QtEmbedded-0
  /tmp # touch /tmp/qtembedded-0/QtEmbedded-0
  /tmp # /mnt/a.out 
  semkey is 1678611403 
  
因此,QT里是每次新建了文件导致id不一样了。对此做针对性修改,问题即解决。

12:其他

涉及的代码文件为:
qt-everywhere-opensource-src\src\gui\kernel\qappliction_qws.cpp
qt-everywhere-opensource-src\src\gui\embedded\qlock.cpp

你可能感兴趣的:(Linux系统开发,qt,开发语言)