实现对非目标气体的检测
数据预处理
(1a)标准化
将采集到的数据先进行变换,统一数量级。其中,xij为第j个传感器的第i个采样值;xj为第 j 个气体传感器的所有采样值,其中i ∈ [1, n],j ∈ [1, m]。m为传感器数目,n为采样总数;`xj表示 xj的平均值;σxj表示xj的标准差。Z-score 标准化法则是使得处理后的数据均值变为0,方差变为 1。这种方法使得数据更容易比较和分析,同时保持了数据原有特性。
(1b)基线特征提取
基线特征,采用相对电阻值(Relative resistance,RV),即当前 i 时刻传感器响应电阻值与传感器初始基线电阻的平均值。其中,vi是每个特定传感器在时间i时的电阻值,v0是每个特定传感器的基线电阻值。计算公式为:
构造最优特征集合
(2a)提取可用特征
处理后的数据,特征可以分别从原始数据曲线,曲线拟合,变换域中提取,其中原始数据曲线特征的方法即从传感器原始响应曲线中提取零碎特征信号,包括最大值,均值,积分,导数,面积值,上升时间,下降时间,上升斜率,下降斜率等稳态响应和瞬态响应。曲线拟合方法主要有指数函数拟合、正弦函数拟合,傅里叶函数拟合等,变换域主要包括傅里叶变换和小波变换等。在原始数据曲线中最大值,均值最常用,在曲线拟合中通常需要通过对变量间物理概念的学习和对专业知识的深入理解来确定函数的基本类型或者通过观察实验数据曲线的总趋势来确定函数的类型。在变换域中一般使用小波变换。从这三种特征提取方法中选择一定数量的方法进行特征提取。
(2b)使用相关系数法选择特征
训练KPCA+MRVM模型
训练GMM(高斯混合模型)
假设有N种不同的气体标签,P个传感器。则构建高斯混合库需要构建N个高斯混合模型。
使用EM算法训练参数
利用主动学习的方式对数据集进行不断更新,使得分类器始终能使用当前传感器
主动学习是一种机器学习的方法,旨在通过有选择性地标注最有信息价值的样本,从而最小化需要标注的数据量,同时达到最大化分类准确度的目标。
数据样本—(样本选择策略)挑选样本—专家标记----训练
样本选择策略包括不确定策略+随机策略
一般应用流程为:
首先使用K-means算法进行分类,只保存微簇信息 = (, , , ω, )。其中 LS 和 SS 为 n 维向量, LSj代表微簇中类别为 j
的样本的特征值线性和, SSj则为微簇中类别 j 样本的平方和,其计算方法如公式
3-1 和公式 3-2 所示。 S 是由 N 个元素组成的一维向量,其记录了每个类别的样本
数量, S 的所有元素之和即为微簇内样本总数。ω为微簇权重,其主要用于模型
更新阶段评估微簇的重要性,在初始化阶段微簇形成时,设置其初始值为 1。 T
记录模型的创建时间,用来比较微簇间的新旧程度,并用于模型更新阶段的微簇
权重调整机制、微簇合并机制以及微簇删除机制。
分类过程:
将概率第一大的类别与概率第二大的类别的差值与对应的阈值比较,若大于则分类正确,小于且分类正确更改阈值,若分类错误进行重新规划标签,加入缓冲区
更新过程
当缓冲区满了之后,删除或者合并一些簇,为新簇增加空间,包含飘移样本。