自举功能 - 软件复位

说明

  • 对于需要长时间运行的电子产品,例如:安防监控等,如果设备程序崩溃后不能自动恢复,可能会出现以下情况:
  1. 设备操作无反应,用户以为设备坏掉了,并不知道需要断电重启,对产品质量怀疑。
  2. 程序崩溃后所有功能中断,有些重要并且需要长时间稳定运行的功能无法延续,例如:定时闹钟等。
  • 对于智能音箱,需要实现定时闹钟等定时功能,需要长时间稳定运行,因此需要实现软件复位功能。

程序崩溃是无法避免的

  • 程序崩溃的可能原因有:
  1. 程序测试不充分,有bug导致程序崩溃,可以降低概率,但是无法彻底避免,中小公司产品非常明显。
  2. 程序长时间运行,内存碎片等问题导致程序崩溃。
  • 综上所述,程序崩溃是不可避免的,为了避免设备无法使用,通常需要实现设备自动恢复功能。

处理方法

常见解决方案

  1. 写个监控脚本或者写个监控程序,判断程序是否运行正常,当程序运行不正常则重启程序或者设备。
  2. 使用看门狗实现,有软件看门狗,也有硬件看门狗。

缺陷

  • 方案1 监控脚本和程序可靠性差点。
  1. 处理载体为应用程序,代码实现可靠性和稳定性相对于内核和硬件实现差些。
  2. 在资源不足时,主程序和监控程序可能先后被系统杀死,导致监控程序没起作用。
  3. 异常情况下,系统看起来像死机,应用层无法做任何处理,这种情况下内核本身可能并没有停止工作,只是不提供服务了,导致监控程序没起作用。
  • 方案1中重启对象有两个选项:程序和设备;对于内存碎片问题,重启程序是无用的,并且重启设备有助于重置软件环境,因此选择重启设备会好点。

需要避免的问题

  1. 避免程序崩溃后,设备出现循环重启,用户无法进行操作和恢复。
  • 如果程序在初始化过程中必然崩溃,设备就会出现循环重启现象,用户无法操作。
  • 普通的启动过程中崩溃问题,测试时应该能发现解决,但是可能用户升级后用户配置数据新旧版本未兼容好导致,之前产品中有遇到过。
  • 解决方案:reset操作;通过按键或者其它物理方式进入reset模式,清除所有数据。

看门狗 watchdog

硬件看门狗

  • 对稳定运行要求较高的产品,可能会选择硬件看门狗,通过硬件芯片来实现,稳定性会非常高。

软件看门狗

  • Linux内核自带看门狗模块,原理类似于一个定时器,开启看门狗后需要不断喂狗,中断超时后会重启设备。
  • 软件看门狗驱动接口如下:
  1. wdt_open:打开设备,应用程序调用open时进入该函数。
  2. wdt_close :关闭设备,应用程序调用close时进入该函数
  3. wdt_write :写设备,若传入数据大小不为0则喂狗;应用程序调用write时进入该函数.
  4. wdt_ioctl :这个函数是最主要的,原型如下(driver\watchdog):
static long wdt_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
{
    void __user *argp = (void __user *)arg;
    int __user *p = argp;
    int new_timeout;
    static const struct watchdog_info ident = {
        .options = WDIOF_KEEPALIVEPING | WDIOF_SETTIMEOUT |
                            WDIOF_MAGICCLOSE,
        .firmware_version = 1,
        .identity = "W83627HF WDT",
    };

    switch (cmd) {
    case WDIOC_GETSUPPORT:
        if (copy_to_user(argp, &ident, sizeof(ident)))
            return -EFAULT;
        break;
    case WDIOC_GETSTATUS:
    case WDIOC_GETBOOTSTATUS:
        return put_user(0, p);
    case WDIOC_SETOPTIONS:
    {
        int options, retval = -EINVAL;

        if (get_user(options, p))
            return -EFAULT;
        if (options & WDIOS_DISABLECARD) {
            wdt_disable();
            retval = 0;
        }
        if (options & WDIOS_ENABLECARD) {
            wdt_ping();
            retval = 0;
        }
        return retval;
    }
    case WDIOC_KEEPALIVE:
        wdt_ping();
        break;
    case WDIOC_SETTIMEOUT:
        if (get_user(new_timeout, p))
            return -EFAULT;
        if (wdt_set_heartbeat(new_timeout))
            return -EINVAL;
        wdt_ping();
        /* Fall */
    case WDIOC_GETTIMEOUT:
        return put_user(timeout, p);
    default:
        return -ENOTTY;
    }
    return 0;
}
其主要的几个参数如下:
WDIOC_KEEPALIVE :喂狗,同write函数功能类似
WDIOC_SETTIMEOUT :设置超时值
WDIOC_GETTIMEOUT :获取超时值
WDIOC_SETOPTIONS:设置看门狗状态,开启(WDIOS_ENABLECARD)或关闭(WDIOS_DISABLECARD)
  • 应用层使用
  1. open设备(/dev/watchdog)
fd = open("/dev/watchdog", O_RDWR);
  1. 开启 watchdog
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_ENABLECARD);
  1. 设置 喂食超时时长
int timeout = 60;
ioctl(fd, WDIOC_SETTIMEOUT, &timeout);
  1. 喂狗
* 循环执行
方式1:write
write(fd, &arg, sizeof(arg));//arg必须是非0数,否则喂狗失败
方式2:ioctl
ioctl(fd, WDIOC_KEEPALIVE, NULL);
  1. 停止 watchdog
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_DISABLECARD)
  1. 关闭设备节点
close(fd);

你可能感兴趣的:(嵌入式)