高通驱动程序开发参考(一)
http://blog.csdn.net/allenq/article/details/8177082
本文为高通平台driver开发的学习文档,对部分概念性的东西进行了学习和总结。由于driver的跨度太大,内容很多,加上本人水平有限。如有不足之处及遗漏地方,麻烦大家多多包涵!希望这份文档能对大家学习高通平台的驱动开发有所帮助!
序号 |
文档名称 |
作者 |
出版单位 |
1 |
80-VC881-1&QSC6055&QSC6065 QSC6075 AND QSC6085 SINGLE CHIP DEVICE SPECIFICATION |
Qualcomm |
-- |
2 |
80-VC881-2&QSC6055,QSC6065, QSC6075,QSC6085 SOFTWARE INTERFACE |
Qualcomm |
|
3 |
|
|
|
|
|
|
|
|
|
|
|
注:高通提供的文档比较详细,各个模块都有相关文档!因为文档提供比较齐全(需要自己去下,对于初学者是个难题),相对来说他的技术支持不怎么样!有得必有失!
术语和缩写 |
解释 |
DS |
DATA Service |
SIO |
Serial Input&Output |
RDM |
Runtime Device Mappe |
BT |
Blue Tooth |
PBL |
Primary Boot Loader |
|
|
目前开发EVDO的手机或模块大部分采用了QSC6085平台。高通QSC系列的平台是高度集成化,它将PMIC、RF相关模块也集成到一块芯片里(其他公司很少做到这点),对硬件来说可以省很多事。除了上述特殊模块之外,当然也包括一般的LCD、KPD、AUDIO CODEC等很多驱动模块!具体如下图所示:
QSC6085处理器采用ARM9核+DSP的架构,一般就不需要再加DSP去处理Audio和图片。它集成这么多,其他硬件厂商的饭碗都被他抢了,不过这也是大势所趋!
在一般高通工程(60X5系列)目录下有一个Drivers文件夹,在该文件夹下包含了60X5系列平台上所有驱动文件,分门别类!
从上图中我们可以看到,每一个驱动都有独立的文件夹,这样对于新手学习代码来说比较容易找到相关代码。
因为高通处理器采用的ARM内核,遵循ARM指令,我们有必要学习一下ARM的一些基础知识。一般驱动开发中很少涉及到ARM指令,除了BOOT以及flash开发,大部分都在C语言环境中开发。在这部分我讲的不会太深入,如果大家想深入了解ARM架构,可以去看《ARM体系结构与编程》这本书,相当经典!
ARM 采用的是32位架构。也就是说ARM CPU内部的总线是32位的,每条ARM汇编指令都是32位的指令。一个CPU时钟周期最多可以处理一条32位指令或者读取一个32位的数据。32位的指令意味着,与8位和16位的CPU相比,在一个时钟周期内,指令可以携带更多的信息。
ARM 有7个基本工作模式:
User:非特权模式,大部分任务执行在这种模式
正常程序执行的模式
FIQ:当一个高优先级(fast)中断产生时将会进入这种模式
高速数据传输和通道处理
IRQ:当一个低优先级(normal)中断产生时将会进入这种模式
通常的中断处理
Supervisor:当复位或软中断指令执行时将会进入这种模式
供操作系统使用的一种保护模式
Abort: 当存取异常时将会进入这种模式
虚拟存储及存储保护
Undef:当执行未定义指令时会进入这种模式
软件仿真硬件协处理器
System: 使用和User模式相同寄存器集的特权模式
特权级的操作系统任务
ARM 有37个32-Bits长的寄存器.
1 个用作PC( program counter)
1个用作CPSR(current program status register)
5个用作SPSR(saved program status registers)
30 个通用寄存器
当前处理器的模式决定着哪组寄存器可操作. 任何模式都可以存取:
相应的r0-r12子集
相应的 r13 (the stack pointer, sp) and r14 (the link register, lr)
相应的 r15 ( the program counter, pc)
相应的CPSR(current program status register, cpsr)
特权模式 (除system模式) 还可以存取;
相应的 spsr (saved program status register)
CPSR寄存器表示当前ARM的工作状态
条件位:
N = 1-结果为负,0-结果为正或0
Z = 1-结果为0,0-结果不为0
C =1-进位,0-借位
V =1-结果溢出,0结果没溢出
Q 位:仅ARM 5TE/J架构支持,指示增强型DSP指令是否溢出
J 位:ARM 5TE/J架构支持 J = 1: 处理器处于Jazelle状态
中断禁止位:
I = 1: 禁止 IRQ.
F = 1: 禁止 FIQ.
T Bit
: T = 0: 处理器处于 ARM 状态T = 1: 处理器处于 Thumb 状态
Mode位(处理器模式位):
0b10000 User
0b10001 FIQ
0b10010 IRQ
0b10011 Supervisor
0b10111 Abort
0b11011 Undefined
0b11111 System
在ARM体系中,每个字单元包含4个字节单元或者两个半字单元;一个半字单元中包含两个字节单元。但是在字单元中,4个字节哪一个是高位字节,哪一个是低位字节则有两种不同的格式;big_endian格式和little-endian格式。比如一个整型数0x12345678在内存中如下图所示
-----------
| 78 | xxxx_0000
-----------
| 56 | xxxx_0001
-----------
| 34 | xxxx_0002
-----------
| 12 | xxxx_0003
-----------
Little Endian
-----------
| 12 | xxxx_0000
-----------
| 34 | xxxx_0001
-----------
| 56 | xxxx_0002
-----------
| 78 | xxxx_0003
-----------
Big Endian
http://blog.csdn.net/allenq/article/details/8276767
虽说目前QSC60x5平台上采用L4操作系统,REX只是L4上面的一个Task。但高通为了开发的兼容性,提供的API仍然采用老的一套接口(可能内部实现不一样),很容易将老的代码移植到新的架构中。那么我还试必要介绍一下REX。
REX是一个操作系统的名字,它是Real-time Executive的缩写。它是美国的QUALCOMM开发的,REX是一个简单的、高效的、抢占式的、多任务的、嵌入式实时操作系统。它最初是为应用于Intel的80186而设计的,如今它已经被移植到了ARM微处理器上。
下面是它比较重要的几个概念(其实和其他操作系统一样):
1、 Task
REX把任务当作独立运作的实体,每一个任务都有自己独立的堆栈和优先级。每个任务都有一个数据结构,我们称为“任务控制块”(TCB)。REX允许在运行时,在任何时间动态的创建任意数量的任务。但是创建的任务越多,REX的性能便稍微递降,这是因为你创建的任务越多,任务列表越长。所以你需要确保你创建的任务数量尽量小。另外,REX任务的负载量还跟你选择的处理器有关。
下面的图描述了REX任务的启动过程:
TCB也是一个比较重要的结构体,各个task都有一个全局变量tcb,这个tcb包含了很多重要信息如,任务优先级、堆栈指针,信号量等,这些有时对查死机问题很有帮助。
2、 任务调度
REX总是选择处于就绪态的最高优先级的任务进行调度,如果任务的优先级不是唯一的,REX可能选择任何一个处于就绪态的最高优先级的任务进行调度。被选择的任务会一直执行,直到它自愿挂起或者中断发生而激活了更高优先级的任务。
当被挂起的任务的等待条件得到满足时,该任务就变成了就绪态。如果所有的认为都挂起的时候,那么空闲认为就被执行。
REX提供了一种机制,允许任务可以动态的提高或降低自己或其它任务的优先级。
3、 信号量
信号量是任务之间进行通信和同步的桥梁。信号量是REX提供的一种任务间通信的机制。每个任务都有一套与之相关联的通用信号量,信号量通常作为任务的TCB的一部分,它们被用来通知任务某种事件的发生,任务的信号量可以被任何其它任务或中断设置或清除。
信号量实际上是一种约定机制,在多任务内核中普遍使用,信号量用于:
��� 控制共享资源的使用权(满足互斥条件);
��� 标志某事件的发生;
��� 使2个任务的行为同步。
4、 中断
REX是一个可剥夺的内核。当从中断返回的时候,控制权就被传递给处于最高优先级的就绪任务,而没有必要返回到被ISR中断了的任务处。
一般我们只会挂载GPIO中断,后续会介绍。
5、 定时器
定时器,英文是timer。和其它内核一样,REX要求给用户提供定时时间,来实现超时控制等功能。REX中有些信号是事件触发引起,也可以由timer引起。一旦由于某种原因,等待的事件信号一直等不到,这时可以用timer定时来产生信号量。
关于以上几个概念,高通都提供了相关接口操作,具体参看代码!
高通平台系统Memory组成可以分为:NAND+SDRAM和NOR+PSRAM 。两者配置不能并存,这也就决定了有两种boot模式,具体决定采用哪种Boots方式是Boot_mode引脚决定。
高通60x5系列采用了Multi-Image-Boot技术,这可以从高通的代码看出,
从上述枚举变量中可以看出,flash中有多个image.其中QCSBL+OEMSBL =SBL,SBL就相当于bootloader, Bootloader主要是在Nand启动方式中起作用!原因后续介绍!
其中每个Image又是由三个部分组成:
其中签名段和证书段是用来校验代码段的完整性与合法性的。 在启动过程中就可以看到校验的相关步骤。代码段就不需要我说了吧。
Nor flash有地址线,存在Nor Flash的代码可以本地执行,变量存在PSRAM,所以从NOR启动不需要Bootloader
NOR启动模式太简单,一般只要将Nor Flash挂载到EBI1上,然后做些简单的操作,就可以直接运行。在高通代码中关于这方面的注释也很少。
Nand Flash没有地址线,代码不能直接运行,因此需要Bootloader,那么bootloader的作用:
可以看出相对NOR boot,Nand boot复杂很多。它需要将falsh中的Image复制到SDRAM,然后才能执行。并且要对各个image进行校验。
Boot是一个很复杂的过程,尤其是Nand Boot,需要你对ARM架构很深的了解,这边只是简单示意相关流程,具体大家可以参考代码!
GPIO 作为QSC60X5 与外界沟通的桥梁,主要有四个作用:
1. 通过GPIO 向外部输出一个高/低电平,控制外部的器件或者通知外部器件某事件的发生。
例如我们可以通过GPIO 输出一个高电平点亮一个LED, 或者输出低电平关掉一个LED。
2. 通过GPIO 读入一个外界的高低电平输入,检测外部器件的当前状态。例如键盘按键是否
按下的探测。
3. 将GPIO 口作为外部中断信号的一个输入口,实时检测外部事件的发生。
4. 将GPIO 用作其他特定用途。例如用作I2C 通信、数据线、地址线等。
1. 配置一个GPIO 口。通常一个GPIO 有多种功能,我们可以将GPIO 配置为符合我们当前需要的功能;同时我们也可以将GPIO配置为内部具有上拉电阻、下拉电阻或者没有任何上下拉电阻。文件GPIO_60x5.c 中定义了配置GPIO 的函数接口
void gpio_tlmm_config(GPIO_SignalType gpio_signal)
{
…
…
}
gpio_signal 指定要配置成的功能,文件GPIO_60x5.h 枚举出了每个GPIO 的可配置的功能选项:
typedef enum
{
…
…
GPIO_OUTPUT_3 = GPIO_OUT(3,0),
GPIO_INPUT_3 = GPIO_IN(3,0,GPIO_PULL_DOWN),
SDCC_DATA0 = GPIO_ALT(3,0,1,GPIO_PULL_UP),
DBG_BUS_IN_7 = GPIO_ALT(3,0,2,GPIO_PULL_DOWN),…
…
}
例子:
SDCC_DATA0 = GPIO_ALT(3,0,1,GPIO_PULL_UP) gpio_tlmm_config(SDCC_DATA); /* 将GPIO3 配置为SD卡 的数据线1*/ gpio_tlmm_config(GPIO_INTPUT_3); /* 将GPIO26 配置为通用的有下拉电阻的输入端口*/ /*第2个参数0表示配置成通用功能,generic i/o*/
2. 从GPIO 输出高/低电平。首先应该通过函数接口gpio_out来确定GPIO输出高电平或者低电平,然后通过函数接口gpio_tlmm_config把该GPIO配置为通用功能(非特定功能),在该配置函数中调用一个宏函数接口BIO_TRISTATE 打开GPIO 使能,将此电平输出出去。
void gpio_out(GPIO_SignalType gpio_signal,GPIO_ValueType gpio_value) /*将GPIO 寄存器设置输出的电平*/ BIO_TRISTATE(io, mask, val) /*GPIO 寄存器中的值输出出去:输出使能*/
例子:使GPIO 31 输出低电平
gpio_out(GPIO_OUTPUT_31, GPIO_LOW_VALUE);
gpio_tlmm_config(GPIO_OUTPUT_31);
3. 从GPIO 读入外部器件输入的高/低电平,检测外部的事件或者状态。只能从一个输出已被disable 的GPIO 读入输入的高/低电平,也就是说只能从一个已被设置为输入模式的GPIO 读入高/低电平。从GPIO 读入外部输入的高/低电平的宏函数接口:
GPIO_ValueType gpio_in
(
GPIO_SignalType gpio_signal
),
gpio_signal解释见上面的说明,而返回值
typedef enum
{
GPIO_LOW_VALUE = 0,
GPIO_HIGH_VALUE = 1
} GPIO_ValueType;
例:判断GPIO3的当前状态
gpio_tlmm_config(GPIO_INTPUT_3);
if (gpio_in(GPIO_INTPUT_3) == GPIO_LOW_VALUE)
{
…..
}
4. 将GPIO 设置为某个中断信号的输入口。这样外部器件一旦有中断信号(高电平或者低电平)输入到此GPIO 端口,将直接触发一个中断,指定的ISR 将被调用,处理中断事件。中断的好处在于中断事件可以实时得到处理,无论系统是否处于睡眠状态。接口函数有两个:
A)gpio_int_set_detect(gpio_int_type which_group_int, gpio_int_detect_type detect) /*指定边沿触发还是电平触发*/
B) boolean gpio_int_set_handler
(
gpio_int_type which_group_int,
gpio_int_polarity_type polarity,
gpio_int_handler_type handler
) /*指定ISR 以及触发极性*/
typedef enum
{
/* GPIO_GROUP 1*/
GPIO_INT_0 = 0,
GPIO_INT_1,
GPIO_INT_2,
GPIO_INT_3,
GPIO_INT_4,
…
…
} gpio_int_type;
typedef enum
{
DETECT_LEVEL = 0,
DETECT_EDGE
} gpio_int_detect_type;
typedef enum
{
ACTIVE_LOW = 0,
ACTIVE_HIGH
} gpio_int_polarity_type;
A) 参数which_group_int 指定GPIO , detect 指定中断是电平触发方式还是边沿触发方式。
B) 参数which_group_int 指定GPIO, polarity 与gpio_int_set_detect 中指定的detect 值相关, 若detect 指定电平触发方式,polarity 就表示指定中断是高电平触发还是低电平触发;若detect 指定边沿触发方式,polarity 就表示指定中断是上升沿触发还是下降沿触发。handler 指定该中断的ISR,若handle 为NULL 则表示取消此GPIO 的中断处理,
也就是说以后此GPIO 输入任何信号都不会触发中断了。
例子:/*将GPIO 3 设置为中断高电平触发*/
gpio_int_set_detect (GPIO_INT_3, DETECT_LEVEL );
gpio_int_set_handler(GPIO_INT_3, ACTIVE_HIGH, &GPIO_3_isr);
1. 必须保证我们要用的GPIO 没有已被其他地方用作其它用途,否则可能会出现一些莫名其妙的现象。
2. 确保GPIO 已被正确配置。每个GPIO 都有缺省的配置,如果缺省的配置不符合我们的要求,我们就需要对GPIO 进行重新配置。
3. 注意GPIO 的上拉电阻或者下拉电阻的设置情况。例如:将GPIO 设置为有下来电阻输入口,若外部输入的高电平电压不够高,就可能导致读入电平介于高低电平电压之间,从而无法准确辨别出高电平还是低电平。
高通平台上内存管理机制由三个部分组成:队列(Queue)、DS存储池、Watermark。其中真正存放数据的DS存储池,其他两个则是管理机制。
• Single-linked list of data blocks (数据块单链表)
• Each data block has a link field to the next data block (每个数据块有一个指针域(link field)指向下一个数据块)
• Always use queue functions to use the queues (总是使用队列函数来操作队列)
– Declared in queue.h
– q_init( ) – initializes the queue (初始化队列)
– q_link( ) – initializes the link field of the item (初始化队列的指针域)
– q_get() – removes the element from the head of the queue (从队列头部取出一个元素并将其从队列中去除)
– q_check() – returns the pointer to the first element; does not remove (返回队列的第一个元素的指针,但不删除它)
– q_put() – puts the element at the tail of the queue (添加一个元素到队列尾部)
– q_cnt() – counts the number of elements in the queue (计算队列中有几个元素)
The model of Queue :
队列广泛使用在DS的存储池中,贯穿于整个DS的相关代码中。
在高通软件平台上,它的数据存储方式比较特别。事先划分一块区域用于数据存储,并且为不同应用再细分一个Pool(池),这个Pool是由固定大小item(用于存储数据块)组成。应用不同,这个item的数据容量也不一样。每个用户申请的就是这个item.它的具体特点:
• Statically allocated memory in RAM (静态分配于RAM中)
• A number of DSM pools (不止一个DSM pool)
– Each pool is allocated as a static array(每一个pool都是以一个静态数组的形式分配空间的)
– Flow control is built into each pool based on the number of free items many, few, dont_exceed (流控制被构造于每个DSM pool中)
• Each pool has a fixed number of items (called DSM items)(每个存储池都有固定数量的item成为DSM items)
– Each DSM item in each pool has the same fixed number of payload bytes (在同一个存储池中的所有DSM item都有相同的有效字节数)
– All DSM items across all pools have the same overhead bytes(所有存储池中的所有DSM item都有相同的字节数?)
• Can link each DSM two dimensionally (每个DSM都可以以二维方式连接构造)
– link_ptr for queues (队列方式)
– pkt_ptr for items (条目方式)
使用时,只要将数据Copy到data_ptr,并将数据长度赋给used,其他成员在申请,系统已经初始化好了。注:Copy时要注意每个Item最大数据容量—size.如果一个不够,再申请一个,强制copy一个超出范围的数据,会将Pool污染。导致后续莫名死机。
Watermark用于提供通用数据流控制解决方案,具体怎样实现可以从它的结构体和代码入手分析:
可以看出,一个watermark中包含了字节数(current_cnt)、底限(lo_watermark)、上限(hi_watermark)以及各种call back指针(hiwater_func_ptr)和队列Q的指针等。
当上层应用(比如DS)通过底层设备来进行数据传输时(具体流程我们会在SIO章节中介绍),他们共同维护watermark,高通提供一些使用watermark的函数。
以下是代码中提供的几个watermark相关函数接口:
dsm_enqueue(wmark, item)
– Adds an item to the watermark(添加一条记录到watermark中)
– Calls each_item_func(), if any(调用函数each_item_func())
– If this is the first item in the watermark, calls non_empty_func_ptr(如果这是watermark的第一条记录(队头),则调用non_empty_func_ptr)
– If highwater mark in bytes is reached, calls hiwater_func_ptr(deassert CTS)(如果字节数到达了watermark上线则调用hiwater_func_ptr)
– If it does not_exceed_cnt bytes in the watermark, drops the item(如果item中的字节数没有达到要求则忽略这个item)
dsm_dequeue(wmark)
– Removes the first item from the watermark(从watermark中去掉队头(出队))
– If no other items are left in the watermark, calls gone_empty_func_ptr(如果watermark中已经没有item了,则调用gone_empty_func_ptr)
– If low-water mark is reached, calls lowater_func_ptr(assert CTS)(如果到达watermark底线,则调用lowater_func_ptr)
注意: watermark counts是指byte数而不是item数。
可以看出,dsm watermark就是通过对队列的出队入队的管理来实现流控制的。
在DSM入队操作中,其中有这么一句:
这里就是对队列进行watermark监测,下面看watermark监测做了什么事情。
上面的代码可以看出,在入队时,根据队列的情况进行了相应情况的call back调用。换句话讲,就是当队列发生变化时,watermark将调用不同的函数以响应这些变化。
可见,watermark可以看成是一种基于队列操作的队列管理机制。示意图如下
一般我们直观观察高通是否进入睡眠可以通过数字电源来观察,那么有必要对睡眠相关的Sleep电流概念有所了解:
CDMA 手机的Idle 状态的电流如上。有3 个概念描述如下:
Average sleep current: 0.4-0.9mA.根据手机功能,显示屏的要求不同而不同。
Average Rx current:手机处于睡眠状态时,需要定时从基站接收消息。此刻手机接收系统唤醒。正常的手机paging 应是规则的。
Idle 电流: 是指手机 sleep current 和Rx current 的时间平均值。影响手机Idle 电流的主要因素是sleep 底电流。RX 电流的宽度和高度在芯片组和协议栈定好以后,一般开发者没有能力改变。
在高通平台上,Sleep由sleep task进行管理, sleep任务的优先级最低(优先级2). 当没有其他任务使用CPU时, 调度器才会让sleep task获得CPU的使用权限, sleep task会根据当前的任务调用状态, 决定CPU是否可以进入睡眠状态, 如果判定当前状态可以进入sleep状态, 则通过sleep_power_down_and_halt关闭主晶振TCXO及其他LDO电源, 以获得省电效果。具体流程如下图所示:
Sleep鉴权:
sleep_power_down_and_halt能否关闭TCXO及其他LDO电源, 以获得省电效果由sleep鉴权机制决定
Sleep鉴权机制大体可以分为两块鉴权部分:
1) sleep任务本身是否容许进行睡眠
2) 是否有其他任务不容许进行睡眠
1. 首先确保所有 task 都可以进sleep
. 在Sleep.c 里面添加代码,把所有not_okts 的task 从log 打出来, 如果这时只有SLEEP_DIAG_OKTS_SIG 和SLEEP_USB_OKTS_SIG 则正常.
. 再把上面加的代码去掉, 用示波器测量TCXO, 看是否有周期性关闭. 如果有则正常,没有则需查diag 和usb task 是否有问题.
2. 在 TCXO 关闭基础上,查板子是否存在漏电
. 测量板上所有电阻两端是否存在压降;
. 把板子一些无关器件吹掉;
. 测试PM 输出的几个电压值是否正常
在高通平台,SIO模块的整体架构如下图所示:
Service layer主要实现相关服务,如DIAG、DATA等等,Control layer主要负责设备与服务的管理,并且加上相应管理机制。Device layer可以分为两层,SIO Interface向上层提供统一的接口,隐藏了硬件的相关操作。SIO Device driver实现相关硬件驱动。
开机时,在tmc_init函数中,会依次调用rdm_get_prev_port及rdm_issue_open函数,rdm_get_prev_ports()的作用在于读取保存在efs中的设备映射表。在设备映射表中保存了上次断电前的设备映射表。读出设备映射表内容将其放入到rdm_current_device_map[ RDM_DEV_MAX ]之中。 接着调用rdm_issue_opens(),根据读出的rdm_current_device_map[ RDM_DEV_MAX ]的内容,打开相应的port。
RDM的作用在于动态的修改设备映射关系,那么在应用中可以动态修改设备映射关系。只要调用相关接口rdm_assign_port就可以。
在上一节介绍了高通平台中SIO模块的整体架构,但我们经常涉及到其中一部分(device layer),通常也是修改这一部分。在这一节我们将详细介绍SIO的数据处理流程。
SIO数据接收:
RX FIFO中如果有数据,则会从DSM Pool中申请得到一个DSM item,然后将RX FIFO中的数据装载到这个DSM item中,然后将这个DSM item入队到对应的watermark中,watermark在有新的DSM item加入时会进行监测,看数据是否达到要求以调用不同的call back,发出信号通知application来处理这些数据。 当然也可以直接通过回调函数rx_fun直接处理DSM item。
SIO数据发送:
数据发送前会先申请一个DSM item,然后将要发送的数据填充到dsm item中,如果TX FIFO为空,则直接将这个dsm item中的数据传送到TX FIFO中,如果TX FIFO不为空(发送器正忙),则将这个dsm item入队到相应的water mark中,watermark会在适当的时候将这些数据发送到TX FIFO中。
万事皆有根源。 重起及异常无非就是软件和硬件的原因;我们在分析的过程中通常需要排除,定位。 硬件上的异常现象通常表现在: 1 电压过低(或限流过低)2. 程序跑飞,没有规律(这通常是flash的原因,时序太紧了);等等这些原因用调试器,软件的方法是没法查找的,是一些经验问题,在驱动调试阶段一般可以解决。 还有就是软件上的问题, 这些问题我们一般都可以寻根溯源, 在异常向量表的地方打断点,逐步尝试, 一般可以定位到:指令没定义,指令预取异常, data abort, 或者就是reset。 这些原因我们都可以根据r14 的值来回溯, 查找; 这些方法技巧做嵌入式的软件工程师都应该有所了解,加以掌握。
通常重起时,我们跟踪会在0地址打断点, 然后根据r14(或者r14-4,r14-8)的值进行回溯, 一般可以找发生重起的地方, 然后再分析原因。 通常有两种情况:
1. 就是dog task 跑起来之前重起, 通常是在初始化过程中没有及时踢狗, 这时要审查代码在适当的地方(处理费时的地方)加入硬件踢狗, 多试几处, 通常可以解决问题;
2. 就是dog task 跑进之后重起,就是下面所描述的。
在QSC60x5系列的平台里面有一个优先级最高的任务Dog task,它用来监测其它task是否在正常运行,如果某一任务陷入了死循环,或者长时间占有系统资源不释放,导致其它任务不能及时的得到调度,这时候dog task会认为当前的任务调度出现了问题,当dog task认为在规定的时间之内某一个task 还没有给自己做dog_report()的动作时,它就认为该任务已经死了,所以dog task接下去会去调用:err_fatal_put_log ( 0,(char*)&(dog_task_info[loop_index].task))
发生这种情况时,我们需要先确认是否真的是由于dog task检测的原因导致重启的,通过调试器在spider上可以跟踪。步骤如下:
如上图,将断点设置到dog.c文件的
err_fatal_put_log ( 0,(char*)&(dog_task_info[loop_index].task))处,如果设置了你需要的debug操作后,程序进入到这里,那么很可能就是某一个task没有给dog task做dog_report()导致的原因。具体还可以定位到是哪一个task没有做dog reprot导致超时的。这可以再深入研究里面的代码。
ARM中有一种异常称之为data abort。当PC指针指向一段未定义区域并访问(读或者写)的时候,系统会发生data abort异常。这时候PC指针会自动跳转到0x10的地方执行data abort的处理程序.目前QSC60x5平台同样在这个时候设置了一个死循环,导致硬件狗超时并重启。Data abort的情况在实际开发过程中也经常发生,数组越界,指针乱指,都有可能导致data abort异常发生。
发生了data abort的时候可以将断点直接设置到0x10 data abort的程序入口处,通过回溯R14寄存器来找到发生data abort的地方:R14 – 8的地方就是发生data abort的地方。
下面这个代码说明了一个极为常见的错误:
int *a;
*a = 12;
这个声明创建了一个名叫a的指针变量,后面那 条赋值语句把12存储在a所指向的内存位置。但是a指向那里呢?我们声明了这个变量,但从未对它进行初始化,所以我们没有办法预测12这个值将存储于什么地方。从这一点看,指针变量和其他变量并无区别。如果变量是静态的,它会被初始化为0;但如果变量是自动的,它根本不会被初始化。无论是那种情况,声明一个指向整型的指针都不会“创建”用于存储整型值的内存空间。由于指针没有被初始化所以这个指针包含一个“随机的合法的”地址。接下来的事情很简单:位于该“随机的合法的”地址位置的值被修改,虽然操作者并无意去修改它。这种类型的错误非常难以捕捉,因为引发的错误可能与原先用于操作那个值的代码完全布相干。所以,在呢对指针进行间或访问之前,必须非常小心,确保它们已被初始化。
1、将使用到的比较大的栈变量使用static修饰,或者改为MALLOC,使用堆空间。
2、避免使用递归。
3、函数调用的参数使用结构指针,不要使用结构体做为参数。
4、使用指针变量之前必须初始化
5、在写数组或者MEMSET中,检测边界
6、在大段程序执行注意踢狗
总之最重要的是仔细!