模板链接:https://gitee.com/climb-the-wind/others/blob/master/EnglishWork/EnglishWork.zip
模板内容:
\documentclass[a4paper,11pt,onecolumn,twoside]{article}
\usepackage{ctex}
\bibliographystyle{unsrt}%指定参考文献的样式
\usepackage{CJK}
\usepackage{array,tabularx}
\usepackage{fancyhdr}
\usepackage{amsmath,amsfonts,amssymb,graphicx}
\usepackage{subfigure}
\usepackage{indentfirst}
\usepackage{bm}
\usepackage{multicol}
\usepackage{indentfirst}
\usepackage{picins}
\usepackage{abstract}
\usepackage[T1]{fontenc}
\usepackage{mathptmx}
\usepackage{float}
\usepackage{graphicx}
\graphicspath{Figures/}
\usepackage{stfloats}
\usepackage{amsmath}
\usepackage{makecell}
\addtolength{\topmargin}{-54pt}
\setlength{\oddsidemargin}{-0.9cm}
\setlength{\evensidemargin}{\oddsidemargin}
\setlength{\textwidth}{17.00cm}
\setlength{\textheight}{24.00cm}
\newcounter{TempEqCnt}
\renewcommand{\baselinestretch}{1.1}
\parindent22pt
{\songti
\title{\huge{一种基于强化学习的水声传感器网络\\信任更新机制}}
\author{何宇\quad 韩光杰\quad 蒋金芳\quad 王浩\quad Miguel Martínez-García\\[2pt]}
\date{}
}
\fancypagestyle{plain}{
\fancyhf{}
\chead{\centering{
\scriptsize{\textbf{}}}}
\rhead{}
\lfoot{}
\cfoot{}
\rfoot{}}
\pagestyle{fancy}
\fancyhf{}
\fancyhead[RE,RO]{}
\fancyhead[CE,CO]{}
\lfoot{}
\cfoot{}
\rfoot{}
\newenvironment{figurehere}
{\def\@captype{figure}}
{}
\makeatother
\newenvironment{tablehere}
{\def\@captype{table}}
{}
\makeatother
\begin{document}
\nocite{*}
%\newcommand{\supercite}[1]{\textsuperscript{\cite{#1}}}
\maketitle
\setlength{\oddsidemargin}{ 1cm}% 3.17cm - 1 inch
\setlength{\evensidemargin}{\oddsidemargin}
\setlength{\textwidth}{13.50cm}
\vspace{-.8cm}
\begin{center}
\parbox{\textwidth}{
\CJKfamily{hei}{\heiti 摘~~~要}\quad\CJKfamily{kai}
{\kaishu 水声传感器网络(UASN)已广泛应用于近海勘探、辅助导航、海洋军事等海洋场景。由于水下传感器节点在通信、计算和存储方面的局限性,传统的安全机制不适用于UASN。最近,人们研究了各种信任模型作为提高UASN安全性的有效工具。然而,在面对水下环境不可避免的动态波动和广泛的潜在攻击模式时,现有的信任模型缺乏灵活的信任更新规则。该文提出一种基于强化学习(TUMRL)的UASN信任更新机制。该机制分三个阶段制定。首先,设计一个环境模型来量化传感器数据中水下波动的影响,这有助于更新信任分数。然后,给出了密钥度的定义;在信任更新过程中,密钥度较高的节点对恶意攻击的反应更敏感,从而更好地保护网络中的重要节点。最后,提出一种基于强化学习的信任更新机制,在实现高效信任更新的同时,抵御攻击模式的变化。实验结果表明,所提方案在提高信任更新效率和网络安全方面具有较好的性能。}\\
{\heiti 关键词}\quad\CJKfamily{kai}{\kaishu 水声传感器网络;强化学习;信任更新;环境模型}}
\end{center}
\vspace{.1cm}
\begin{minipage}[c]{10cm}
\vspace{-35.5cm}
\end{minipage}
\setlength{\oddsidemargin}{-.5cm}% 3.17cm - 1 inch
\setlength{\evensidemargin}{\oddsidemargin}
\setlength{\textwidth}{17.00cm}
\CJKfamily{song}
\begin{multicols}{2}
\section{引言}
水下声学传感器网络(UASNs)在许多领域中发挥越来越重要的作用,例如海洋环境监测,海上勘探,辅助导航,海啸预警和海洋军事行动\textsuperscript{\cite{heidemann_underwater_2012},\cite{5714973},\cite{8777101},\cite{8585407}}。如图\ref{fig1}所示,典型的UASN通常由许多水下传感器节点组成,这些节点协同完成环境感知,信息收集和数据包传输\textsuperscript{\cite{820738},\cite{4907458}}。由于其开放和无人值守的性质,传感器节点很容易受到损害和攻击\textsuperscript{\cite{6757189},\cite{8093608}}。网络安全问题逐渐成为制约无人机系统发展的主要障碍。
\begin{figurehere}
\centering
\includegraphics[width=7cm]{Figures/fig1}
\caption{典型水声传感器网络的结构}\label{fig1}
\end{figurehere}
密钥管理和身份验证等传统安全机制可有效抵御外部攻击。但是,它们对成功入侵网络的内部攻击者无能为力\textsuperscript{\cite{8307107},\cite{7180508},\cite{5039583},\cite{he_robust_2015},\cite{6007138}}。内部攻击者可以破坏普通节点以获取密钥和 ID,从而可以攻击大多数传统安全系统。最近,各种信任模型已被研究为对抗内部攻击的有效工具。通常,信任模型主要包括三个部分:增益积累、信任评分计算和信任更新。人们对前两者进行了大量研究,而后者在复杂的水下环境中仍然存在不足。\\
\indent 在本文中,我们提出了一种基于强化学习(TUMRL)的UASN信任更新机制。首先,水下环境的影响通过特定的环境模型进行量化,该模型规范信任评分更新过程。然后,考虑到网络中重要性较高的节点可能优先受到恶意攻击,提出了密钥度的概念——通过提高关键节点对攻击的检测灵敏度来保护关键节点。最后,将整体方法集成到决策信任评分更新机制中——通过引入强化学习,从而实现高效的信任更新。\\
\indent 本文的主要贡献总结如下:(i)我们提出了一个环境模型,将抽象的环境影响量化为概率量,用于减轻由环境因素而不是攻击引起的信任错误分类;(ii)我们提出了密钥度的概念——增加网络中关键节点的信任敏感度,从而最大限度地减少恶意攻击造成的损失;(iii)将强化学习集成到环境模型和密钥度方法中,以符合信任更新的过程,同时提高信任更新机制的效率和适应性。\\
\indent 本文的其余部分组织如下。在第 2 节中,我们概述了有关信任模型的相关工作。第3节介绍了网络模型和一些合理的假设。然后,在第4节和第5节分别对所提方案和仿真结果进行了详细说明。在第6节中得出结论。
\section{相关工作}
尽管对UASN中的信任模型的研究仍处于起步阶段,但信任模型已经在地面无线传感器网络(TWSN)、云环境和其他相关主题中得到了广泛的研究,并被证明在网络安全方面具有重要价值。根据它们在网络结构上的差异,信任模型可以分为两大类:1)分布式网络中的信任模型;2)集群网络中的信任模型。\\
\indent 分布式网络中的信任模型。在分布式网络中,每个节点计算邻居节点(通信范围内的节点)的信任度并维护信任更新。信任计算的结果通过主动广播或无源传输与其他节点共享,从而实现全局安全。Ganeriwal等人\textsuperscript{\cite{ganeriwal_reputation-based_2008}}首先关注传感器网络中的信任安全问题,并提出了基于信誉的信任框架。在此框架中,每个节点根据邻居节点过去的行为更新其信誉,并根据最新信誉预测邻居的未来行为。为了提高信任计算的准确性,Yao等人\textsuperscript{\cite{4053930}}提出了一个基于直接交互和推荐信任的信任模型。更新信任分数时,会考虑邻居节点的过去行为以及来自其他节点的建议信任证据。为了优化直接信任和间接信任之间的耦合,Feng等人\textsuperscript{\cite{feng_trust_2011}}提出了一种基于改进证据理论的信任模型。在他们的系统中,每个节点首先获得相关的直接信任和间接信任,然后通过模糊集的方式聚合信息,从而产生最终的信任分数。\\
\indent Ren等人研究了分布式TWSNs的不同方法\textsuperscript{\cite{6463408}}。在他们的方法中,采用了基于共识技术的主观逻辑,以减轻环境因素引起的信任波动。此外,每个节点通过维护一个地理哈希表来执行分布式信任存储,从而降低信任更新的成本。此外,Jiang等人\textsuperscript{\cite{6805612}}为TWSN提出了一个高效的分布式信任模型(EDTM)。在EDTM中,最终的信任结果由通信信任、能源信任和数据信任集成,以提高准确性。每个节点都维护一个滑动时间窗口,该窗口由多个时隙组成。信任值在每个时隙中计算,并通过迭代滑动时间窗口进行更新。最后,Wu等人研究了链路质量差对信任评价的影响 \textsuperscript{\cite{8668833}}。在他们的工作中,提出了一种基于beta和链路质量指标(LQI)的信任模型(BLTM)。在BLTM中,两个节点之间的LQI决定是否更新当前周期内的信任评分,在信任更新过程中考虑基于$\beta$概率密度的信任证据权重。\\
\indent 集群网络中的信任模型。在集群网络中,信任评分由代理节点(例如,集群头)而不是单个节点维护和更新。代理节点给定附近的其余节点设置信任分数,并与其他代理节点共享其分数,以实现协作网络安全。\\
\indent 为了最大限度地减少信任模型在额外消息和时间延迟方面的开销,Boukerch等人\textsuperscript{\cite{boukerch_trust-based_2007}}为TWSN提出了基于代理的信任和声誉管理计划(ATRM)。在 ATRM 中,每个节点存储其信任信息,移动代理负责本地范围内每个节点的信任计算和信任更新。但是,移动代理的可靠性给网络留下了很大的隐患。为了解决TWSN中信任模型的高资源消耗问题,Shaikh等人\textsuperscript{\cite{4721432}}提出了一个轻量级的基于集团的信任管理方案(GTMS)。联合评估一组节点的信任评分,而不是单个信任评估,以降低每个节点的信任记录成本。然而,群体之间的互动产生了额外的通信成本。Zhang等人\textsuperscript{\cite{8306887}}提出了一种云环境的信任模型,以减少管理开销并检测恶意节点。在此方案中,节点被划分为域,以降低存储和计算成本。同时,采用过滤过程从域中删除恶意信任评估和恶意节点。\\
\indent Fan等人引入的开放系统的信任管理方案\textsuperscript{\cite{7572209}}。他们开发了一种基于成对相似性的反馈确认方法来处理不规范的评级。在同一通告中,采用了基于易感-感染-恢复模型的信任传播策略来控制信任传播过程。为了在云环境中安全存储数据,Ghafoorian等人\textsuperscript{\cite{8466653}}提出了一种基于信任和声誉的角色访问控制模型,该模型同时提供了准确的直接和间接信任评估。提出了高效信任体系中应考虑的安全目标,对类似方案的设计具有一定的启发意义。\\
\indent 为了在UASN中实现准确、节能的信任评估,在\textsuperscript{\cite{7038144}}中提出了一种基于多维信任度量(ARTMM)的抗攻击信任模型。在ARTMM中,分析链路信任、数据信任、节点信任等信任指标,得到集成信任。此外,通信信道和节点移动性的影响,作为提高信任评估准确性的一个因素。然而,在这项工作中忽略了恶意攻击对获取信任指标的影响。\\
\indent 其他研究人员还考虑了与声信道、动态网络结构和弱链路连接相关的不确定性。例如,在\textsuperscript{\cite{7360179}}中提出了基于云理论(TMC)的UASN信任模型,其工作原理如下。首先,在生成信任证据的过程中,对恶意攻击进行层层分析。然后,根据云模型计算信任值。TMC有效地解决了信任的模糊性和不确定性。然而,缺乏对可变攻击模式的考虑,留下了安全隐患。因此,本文将研究一种具有变化进攻模式的攻击模型。此外,我们采用基于强化学习的灵活信任更新机制,将自适应属性纳入信任评分评估。\\
\indent 集群网络结构对于提高网络可扩展性具有重要意义。但是,将信任分配给第三方(无人值守 UASN 中的集群头)会产生新型的安全挑战。
\section{网络模型和假设}
由于集群网络(第2节)存在的不足,本研究基于分布式UASN架构(图\ref{fig1}),其中水下节点通过锚定浮标部署在不同的深度,并且每个节点分配一个唯一的ID。所有水下节点都是同质的,即它们都具有相同但有限的能量、通信、计算和存储能力。水下节点的位置由已建立的定位算法\textsuperscript{\cite{8948247},\cite{8848378}}确定,并定期与相邻节点交换以更新相邻表。水下节点通过与相邻节点协作来收集信息,并将数据包发送到地面。此外,数据包还可以通过卫星中继传输到陆地上的基站。由于无线电信号在盐水中会急剧衰减,并且经常被悬浮颗粒散射,因此声波是水下环境中使用的主要通信介质。\\
\indent 由于UASN的开放和无人值守性质,它们极易受到攻击。一旦攻击者成功入侵网络,他们就可以破坏并控制正常节点。这里假设在最坏的情况下,攻击者将首先监控和跟踪网络流量,并选择将位于较高流量热点的节点作为目标。此外,受感染的节点可以独立发起攻击,也可以从一种攻击模式切换到另一种攻击模式(DoS、选择性转发、数据包篡改、Sybil、虫洞攻击等)。如图\ref{fig1}所示,正常节点 B 正在向受损节点 A 发送数据包。假设 A 正在执行选择性转发攻击,则 B 可以通过数据包投递速率的变化来检测 A 的异常行为。如果后续将A的攻击模式改为数据包篡改,则B采集的历史行为证据无法真实反映A诱导的攻击类型,最终导致信任评估不准确。为了检测针对内部攻击者的恶意节点,每个水下节点都嵌入了一个信任管理程序。节点间的历史交互信息用于信任计算,在信任更新过程中,每个节点维护一个滑动时间窗口(图\ref{fig5})。信任值由一个介于 0 到 1 之间的实数表示。模拟网络初始化时没有受损节点,信任评分为 0.5。
\begin{figurehere}
\centering
\includegraphics[height=5cm,width=9cm]{Figures/fig2}
%\includegraphics[height=8cm]{Figures/fig2}
%\includegraphics[scale=0.5]{Figures/fig2}
\caption{TUMRL 的工作流程示意图}\label{fig2}
\end{figurehere}
\begin{figurehere}
\centering
\includegraphics[width=8cm]{Figures/fig3}
\caption{水下传感器节点的移动模型}\label{fig3}
\end{figurehere}
\begin{figurehere}
\centering
\includegraphics[width=7cm]{Figures/fig4}
\caption{节点的直接和间接链路连接概念示意图}\label{fig4}
\end{figurehere}
{\begin{figurehere}
\centering
\includegraphics[height=5cm,width=8cm]{Figures/fig5}
\caption{信任更新周期为m的更新时隙}\label{fig5}
\end{figurehere}}
\section{信任评估架构}
信任评估架构(TUMRL)的整体工作流程如图\ref{fig2} 所示。综上所述,节点的信任更新周期首先根据环境模型计算当前环境影响信任评分评估作为影响因子。如果影响因子高于指定阈值,则中止当前时隙的信任更新。否则,使用滑动时间窗中存储的交互信息来计算信任证据,并执行基于强化学习的信任更新。最后,节点的密钥度会影响状态转换的概率,即密钥度较高的节点的信任度对攻击更敏感,以尽量减少攻击伤害。\\
\indent 在下文中,将详细介绍 TUMRL 的构建模块。
\subsection{环境模型}
UASN通常部署在复杂,动态和恶劣的水下环境中。因此,环境条件可能会极大地影响节点通信、数据传输甚至网络安全的特性。因此,需要考虑水下部署环境对节点信任更新的影响。在本节中,我们提出了一个环境模型来量化水下环境的影响。该模型将影响量化分为两类:水流的流动性和声学通信的不稳定性。基于影响因子,得到综合环境影响值,规范信任更新过程。
\subsubsection{水流的流动性}
在洋流、潮汐等因素的影响下,水下传感器节点在其相对位置表现出动态位移。因此,这里采用了水下传感器节点的移动模型\textsuperscript{\cite{chang_reinforcement_2019}}。如图\ref{fig3}所示,水下传感器节点锚定在某个位置$O$,$O$是坐标系的原点。水下传感器节点及其子节点在水下的位置分别表示为$S$和$S^{\prime }$。矢量之间的角度$OS^{\prime }$和 X 轴($\varphi$),以及矢量之间的角度$OS$和 Z 轴 ($\theta$) 也可定义。假设水下传感器节点$i$的速度在时间段$t$表示为${v_i}\left(t \right)$,服从正态分布$N\left({{\mu _1},{\sigma _1}^2} \right)$并且有效范围被截断为$\left({0,2{\mu _1}} \right)$。节点$i$的移动方向在时间段$t$表示为$\left({d{\theta _i}\left(t \right),d{\varphi _i}\left(t \right)} \right)$。$d{\theta _i}\left(t \right)$和$d{\varphi _i}\left(t \right)$假定分别服从于位于$U\left({0,\pi } \right)$和$U\left({0,2\pi } \right)$上的均匀分布。节点距离坐标系原点的距离表示为${R_i}$。根据当前位置$\left({{x_i}\left(t \right),{y_i}\left(t \right),{z_i}\left(t \right)} \right)$,节点$i$的位置在下一个时隙中表示如下:
\begin{equation*}
{c_i}\left({t + 1} \right) = \left\lbrace \begin{array}{l}x_i\left(t \right) + {v_i}\left(t \right)\sin d{\theta _i}\left(t \right)\cos d{\varphi _i}\left(t \right)\\
{y_i}\left(t \right) + {v_i}\left(t \right)\sin d{\theta _i}\left(t \right)\sin d{\varphi _i}\left(t \right)\\
{z_i}\left(t \right) + {v_i}\left(t \right)\cos d{\theta _i}\left(t \right) \end{array} \right. \tag{1}
\end{equation*}
由于节点距离坐标系原点的距离$\left| {{c_i}\left(t \right) - {O_i}} \right| \leq {R_i}$,节点的极限轨迹的极坐标为$\left({{R_i},{\theta _i}\left(t \right) + d{\theta _i}\left(t \right),{\varphi _i}\left(t \right) + d{\varphi _i}\left(t \right)} \right)$,节点$i$和$j$之间的距离为:
\begin{equation*}
{d_{ij}}\left({t+1} \right) = \left| {{c_i}\left({t+1} \right) - {c_j}\left({t+1} \right)} \right|\tag{2}
\end{equation*}
两个节点之间的距离随时间变化得越快,水流流动性的影响就越大。因此,水流流动性的影响定义如下:
\begin{equation*}
{I_{mw}} = \frac{{\left| {{d_{ij}}\left(t \right) - {d_{ij}}\left({t + 1} \right)} \right|}}{r} \tag{3}
\end{equation*}
$r$表示水下传感器节点的通信半径。当分子大于$r$,则两个节点之间没有通信,因此无法更新信任分数。
\subsubsection{声学通信的不稳定性}
水声通信的不稳定性主要是由信道衰落和环境噪声引起的\textsuperscript{\cite{von_looz_querying_2016}}。水声通道同时表现出距离和频率选择性衰落。这是由扩散损耗和与更大传输距离相关的信号传热增加引起的。信号传热也随着传输频率的增加而增加。基于信号频率$f(kHz) $与发射器$i$和接收器$j$的距离$d_{ij}$,水声通道中发生的衰减可以通过以下关系来估计:
\begin{equation*}
A\left({{d_{ij}},f} \right) = {A_0}d_{ij}^ka{\left(f \right)^{{d_{ij}}}}\tag{4}
\end{equation*}
${A_0}$是单位归一化常数,并且$k$是扩频因子,对于球面铺展,通常设置为 2,对于圆柱扩散设置为 1,对于实际扩散,通常设置为 1.5。$a\left(f \right)$(以dB/km为单位)是吸收系数,可以通过众所周知的经验公式估算:
\begin{align*}
10\log a\left(f \right) &= 0.11\frac{{{f^2}}}{{1 + {f^2}}} + 44\frac{{{f^2}}}{{4100 + {f^2}}} \\
&\quad +\;2.75 \times {10^{ - 4}}{f^2} + 0.003. \tag{5}
\end{align*}
\indent 影响水声通道质量的另一个因素是水下环境中存在的多种噪声源,通常包括: 湍流噪声${N_t}\left(f \right)$、船舶噪声${N_s}\left(f \right)$、波浪运动噪声${N_w}\left(f \right)$,表面风与热噪声引起的${N_{th}}\left(f \right)$。这些噪声类别可以用高斯统计来描述,也可以用经验关系来估计:
\begin{align*}
10\log {N_t}\left(f \right) &= 17 - 30\log f \\
10\log {N_s}\left(f \right) &= 40 + 20\left({s - 0.5} \right) + 26\log f \\
&\quad \;-60\log \left({f + 0.03} \right) \\
10\log {N_w}\left(f \right) &= 50 + 7.5{w^{\frac{1}{2}}} + 20\log f \\
&\quad \;-40\log \left({f + 0.4} \right) \\
10\log {N_{th}}\left(f \right) &= - 15 + 20\log f\tag{6}
\end{align*}
$s \in \left[ {0,1} \right]$代表水面船只活动频率的因子,$w$是风速(以米/秒为单位)。某个频率下的有效噪声水平$f$是上述因素贡献的总和。
\begin{equation*}
N\left(f \right) = {N_t}\left(f \right) + {N_s}\left(f \right) + {N_w}\left(f \right) + {N_{th}}\left(f \right). \tag{7}
\end{equation*}
中等信令带宽$B$和传输功率$P$,接收器的平均信噪比 $(SNR) $计算如下:
\begin{equation*}
\text{SNR}\left({{d_{ij}},f} \right) = \frac{{{P \mathord {\left/ {\vphantom{P {A\left({{d_{ij}},f} \right)}}} \right. } {A\left({{d_{ij}},f} \right)}}}}{{N\left(f \right)B}}, \tag{8}
\end{equation*}
瑞利衰落子信道(即传输过程中符号误差的概率)可以近似
\begin{equation*}
{P_e} = \frac{1}{{4\text{SNR}}}. \tag{9}
\end{equation*}
水声通信的不稳定性最终会导致数据包传输错误。因此,不稳定声学通信的影响定义如下:
\begin{equation*}
{I_{ac}} = 1 - {\left({1 - {P_e}} \right)^N}, \tag{10}
\end{equation*}
$N$是数据包中的符号数。
最后,根据水流流动性和声学通信的不稳定性的影响,综合环境影响${I_e}$,即环境模型的输出,被定义为:
\begin{equation*}
{I_e} = {k_1}{I_{mw}} + {k_2}{I_{ac}}, \tag{11}
\end{equation*}
${k_1},{k_1} \in \left({0,1} \right)$是两个因素的权重,且${k_1} + {k_2} = 1$。
\subsection{密钥度的定义}
UASN是开放系统,其中水下节点之间的通信可以被潜在的攻击者通过声学接收器轻松监控。因此,攻击者可以通过监控、分析和追踪网络流量来查找网络中的热点,并优先破坏热点中的节点以优化其攻击策略。为了解决优先级攻击的可能性,提出了密钥度的概念来量化节点对网络的重要性。基于密钥度的差异,下一节给出了差异化的信任更新策略,以实现对高重要性节点的优先保护。\\
\indent 图\ref{fig4} 显示了节点${n_i}$的示例,邻居节点${n_1}$,${n_2}$和${n_3}$。节点${n_2}$和${n_3}$它们之间是邻居,因此它们之间存在直接的声学联系。节点${n_1}$无法直接与节点${n_2}$通信,但它可以通过路由间接通信,因此它们之间存在间接联系。同样,节点${n_1}$和节点${n_3}$之间也存在间接联系。可以看出,一旦节点${n_i}$从网络中移除后,通信范围内的间接链路将消失。因此,间接链接数量与链接总数的比率是节点密钥度的指标。\\
\indent 现在,让我们假设节点的邻居数${n_i}$是$k$,相邻的坐标表示为${C_i} = \left\lbrace {{c_1},{c_2}, \cdots,{c_k}} \right\rbrace$。在节点$i$通信范围内,直接和间接链接总数可以通过以下方式计算$\sum \nolimits _{i = 1}^{k - 1} = \frac{{k\left({k - 1} \right)}}{2}$,直接链接集表示为$L = \left\lbrace {{l_{mn}}|\left| {{c_m} - {c_n}} \right| \leq r,\forall {c_m},{c_n} \in {C_i},m \ne n} \right\rbrace$,${{l_{mn}}}$表示节点之间的直接链接$m$和$n$。最后,节点${n_i}$的密钥度由下式定义:
\begin{equation*}
{K_i} = \frac{{\frac{{k\left({k - 1} \right)}}{2} - \left| L \right|}}{{\frac{{k\left({k - 1} \right)}}{2}}} = 1 - 2\frac{{\left| L \right|}}{{k\left({k - 1} \right)}}, \tag{12}
\end{equation*}
${\left| L \right|}$表示集合的基数$L$。
\subsection{基于强化学习的信任更新}
信任管理系统不仅必须要面对与水下环境复杂性相关的挑战,还必须面对各种类型的攻击。因此,有必要设计一种高效、自适应的信任更新机制。强化学习是一种机器学习框架,在需要在线权重适应的情况下已经无处不在\textsuperscript{\cite{mnih_human-level_2015},\cite{kaelbling_reinforcement_1996}}。在这种情况下,强化学习模型通过迭代接收环境反馈来获取信息,以更新信任模型参数。这一特性使其适用于难以获得确切信息的实际水下环境。因此,强化学习被引入到信任更新的过程中。该过程通常包括三个阶段。首先,提出一种更新监管机制,以减轻环境因素引起的信任错误分类,而不是攻击。然后,根据被评估节点的状态和获得的信任证据,累积更新增益。最后,设计了状态转换机制以实现最佳信任更新。
\subsubsection{更新规则}
如图\ref{fig5}所示,每个节点定期更新邻居节点的信任分数,每个信任更新周期分为$m$更新等长的时隙。也就是说,节点最多执行$m$个信任更新周期中的更新轮次。每个更新时隙都会记录这段时间内与其他节点的交互信息。在信任更新周期之外,节点使用上次信任更新的结果来评估其他节点。在每个更新时间段内,环境影响${I_e}$首先由 TUMRL 获得,根据第 4.1 节中提到的环境模型。如果${I_e} > {\theta _e}$成立,其中${\theta _e} \in \left({0,1} \right)$表示环境稳定性的阈值,则跳过更新时隙,系统进入下一个更新时隙。这是因为当环境稳定性差时,即${I_e} > {\theta _e}$系统可能会受到环境的影响,并将较低的信任分数分配给正常节点。\\
\indent 如果${I_e} \leq {\theta _e}$成立,考虑信任证明,包括沟通信任${T_c}$, 能源信托${T_e}$和数据信任${T_d}$。首先根据关系计算(来自我们之前在 \textsuperscript{\cite{8823047}} 中的工作):
\begin{equation*}
{T_c} = \frac{{2s + 1}}{{2\left({s + f + 1} \right)}} \tag{13a}
\end{equation*}
\begin{equation*}
{T_d = 2\int \limits _{v_j}^\infty f\left(v \right)\;dv } \tag{13b}
\end{equation*}
\begin{equation*}
T_e=\left\lbrace \begin{array}{ll}0 & \text{if } E_{res} < \theta \\
1 - \left| {{r_e} - {r_N}} \right| & \text{otherwise}, \end{array}\right. \tag{13c}
\end{equation*}
${T_c},{T_d},{T_e} \in \left[ {0,1} \right]$,$s$和$f$分别是时隙中成功和失败的通信数。${{v_j}}$表示第$j$邻居,${f\left(v \right)}$表示数据的差异化程度。${E_{res}}$是被评估节点的剩余能量,$θ$是能量阈值,${{r_e}}$是当前的能耗率,${{r_N}}$是正常的能耗率。
\subsubsection{增益累积}
获取信任证据后,TUMRL通过强化学习模型进行信任评分更新。具体来说,它动态调整信任证据的权重比例,以自适应地对抗第 3 节中提到的不可预测的攻击模式。现在描述信任更新的主要过程,该过程也发生在给定的时间段内。首先,根据当前状态和最新执行的操作获得增益,并将这些值馈送到贝尔曼方程,以更新累积增益。最后,根据最新的累积增益更新状态。\\
\indent 我们现在更详细地描述 TUMRL 的状态、操作和增益。各种信任证据示例的权重比例见表\ref{Table1}。状态定义为${S_i},i = 1,2, \ldots,7$,是最新信任证据的不同组合。操作表示为${A_j},j = 1,2, \ldots,8$.例如$state = {S_1}$表示评估节点的当前信任评分为$T = \frac{1}{3}{T_c} + \frac{1}{3}{T_e} + \frac{1}{3}{T_d}$,$action = {A_1}$意味着最新的信任证据满足${T_c} < 0.5$,${T_e} \geq 0.5$和${T_d} \geq 0.5$。给出了相应的奖励表(表\ref{Table2}),其中${S_i}{A_j} = v$表示当状态是${S_i}$和操作是${A_j}$,奖励是$v$。
\begin{table}[H]
\caption{状态和操作表}\label{Table1}
\footnotesize
\begin{tabular}{| c | c || c | c | }
\hline
$States$ & $Expressions$ & $Actions$ & $Expressions$ \\
\hline
${S_1}$ & $(\frac{1}{3},\frac{1}{3},\frac{1}{3})$ & ${A_1}$ & $\{{T_c} < 0.5$,${T_e} \geq 0.5$,${T_d} \geq 0.5$\} \\
\hline
${S_2}$ & $(\frac{1}{2},\frac{1}{2},$0$)$ & ${A_2}$ & $\{{T_c} \geq 0.5$,${T_e} < 0.5$,${T_d} \geq 0.5$\} \\
\hline
${S_3}$ & $(\frac{1}{2},$0$,\frac{1}{2})$ & ${A_3}$ & $\{{T_c} \geq 0.5$,${T_e} \geq 0.5$,${T_d} < 0.5$\} \\
\hline
${S_4}$ & $($0$,\frac{1}{2},\frac{1}{2})$ & ${A_4}$ & $\{{T_c} < 0.5$,${T_e} < 0.5$,${T_d} \geq 0.5$\} \\
\hline
${S_5}$ & $($1$,$0$,$0$)$ & ${A_5}$ & $\{{T_c} < 0.5$,${T_e} \geq 0.5$,${T_d} < 0.5$\} \\
\hline
${S_6}$ & $($0$,$1$,$0$)$ & ${A_6}$ & $\{{T_c} \geq 0.5$,${T_e} < 0.5$,${T_d} < 0.5$\} \\
\hline
${S_7}$ & $($0$,$0$,$1$)$ & ${A_7}$ & $\{{T_c} < 0.5$,${T_e} < 0.5$,${T_d} < 0.5$\} \\
\hline
& & ${A_8}$ & $\{{T_c} \geq 0.5$,${T_e} \geq 0.5$,${T_d} \geq 0.5$\} \\
\hline
\end{tabular}
\centering
\end{table}
\begin{table}[H]
\caption{增益表}\label{Table2}
\normalsize
\begin{tabular}{ c | c | c | c | c | c | c | c | c }
\hline
$R$ & ${A_1}$ & ${A_2}$ & ${A_3}$ & ${A_4}$ & ${A_5}$ & ${A_6}$ & ${A_7}$ & ${A_8}$ \\
\hline
${S_1}$ & $2$ & $2$ & $2$ & $1$ & $1$ & $1$ & $0$ & $10$ \\
\hline
${S_2}$ & $1$ & $1$ & $0$ & $2$ & $0$ & $0$ & $1$ & $10$ \\
\hline
${S_3}$ & $1$ & $0$ & $1$ & $0$ & $2$ & $0$ & $1$ & $10$ \\
\hline
${S_4}$ & $0$ & $1$ & $0$ & $0$ & $0$ & $2$ & $1$ & $10$ \\
\hline
${S_5}$ & $2$ & $0$ & $0$ & $1$ & $1$ & $0$ & $1$ & $10$ \\
\hline
${S_6}$ & $0$ & $2$ & $0$ & $2$ & $0$ & $1$ & $1$ & $10$ \\
\hline
${S_7}$ & $0$ & $0$ & $2$ & $0$ & $1$ & $1$ & $1$ & $10$ \\
\hline
\end{tabular}
\centering
\end{table}
在不同状态下执行的操作会产生不同的结果,因此它们具有不同的增益。例如,当状态为${S_1}$时,操作${A_1}$,${A_2}$和${A_3}$共同点是只有一个低于阈值 0.5 的信任证据(表\ref{Table1})。这种情况很可能是由受损的节点引起的,因此增益设置为 2。在${A_4}$,${A_5}$和${A_6}$,有两种类型的信任证据低于阈值,由于节点受损,这种情况不太可能发生,因为这些一次只能执行一种类型的攻击。三种类型的信任证明${A_7}$都低于阈值,因此增益设置为 0。三种类型的信任证据${A_8}$都高于阈值,这是对应于正常的 UASN 的所需状态,因此奖励设置为 10。\\
\indent 在TUMRL获得当前时隙的状态、行动和增益后,采用贝尔曼方程(方程(14))来更新累积增益:
\begin{align*}
Q\left({S,A} \right) &= \left({1 - \alpha } \right)Q\left({S,A} \right) \\
&\quad +\;\alpha \left[ {R + \gamma \max \;Q\left({S^{\prime },A^{\prime }} \right)} \right], \tag{14}
\end{align*}
$\alpha \in \left[ {0,1} \right]$是学习率,权衡过去的经验与当前的学习。$\gamma \in \left[ {0,1} \right)$是折扣系数,表示未来增益的重要性。此外$Q\left({S,A} \right)$代表累积增益,${\max\; Q\left({S^{\prime },A^{\prime }} \right)}$表示当下一个状态为时,所有行动下的最高累积增益${S^{\prime }}$。
\subsubsection{状态转换}
在 TUMRL 中,下一个状态的选择$ {S^{\prime }}$对于应对攻击具有重要意义。状态转换机制由两个阶段组成:(1)初始状态转换,发生在每个更新周期的第一个有效更新时隙(由于环境模型而永远不会跳过的时隙)中;(2)发生在后续更新时隙中的概率状态转换。\\
\indent 初始状态转换如表\ref{Table3}所示。根据第 4.2 节中给出的密钥度的定义,关键节点定义为密钥度高于平均密钥度的被评估节点。非关键节点是指密钥度低于平均水平的节点。在表\ref{Table3}中,大多数情况下,非关键节点可以选择四种状态中的一种作为下一个状态,概率相等,并且密钥节点的初始转移状态是唯一的。这样做的目的是提高关键节点对攻击的反应速度,以尽量减少受损节点造成的损失。
\begin{table}[H]
\caption{初始状态转换表}\label{Table3}
\tiny
\begin{tabular}{ c | c | c | c | c | c | c | c | c }
\hline
\makecell[c]{$Next$ \\ $state$} & ${A_1}$ & ${A_2}$ & ${A_3}$ & ${A_4}$ & ${A_5}$ & ${A_6}$ & ${A_7}$ & ${A_8}$ \\
\hline
\makecell[c]{$Non-$ \\ $key$ \\ $node$} & \makecell[c]{${S_1}{S_2}$ \\ ${S_3}{S_5}$} & \makecell[c]{${S_1}{S_2}$ \\ ${S_4}{S_6}$} & \makecell[c]{${S_1}{S_3}$ \\ ${S_4}{S_7}$} & \makecell[c]{${S_1}{S_2}$ \\ ${S_5}{S_6}$} & \makecell[c]{${S_1}{S_3}$ \\ ${S_6}{S_7}$} & \makecell[c]{${S_1}{S_4}$ \\ ${S_5}{S_7}$} & \makecell[c]{${S_1}{S_2}$ \\ ${S_3}{S_4}$} & ${S_1}$ \\
\hline
\makecell[c]{$Key$ \\ $node$} & ${S_5}$ & ${S_6}$ & ${S_7}$ & ${S_2}$ & ${S_3}$ & ${S_4}$ & ${S_1}$ & ${S_1}$ \\
\hline
\end{tabular}
\centering
\end{table}
例如,假设有一个密钥节点$i$和非密钥节点$j$排队等待状态转换,并且两个节点的当前状态为${S_1}$,他们的最新操作是${A_1}$,则密钥节点的下一个状态为${S_5}$,并且非密钥节点的下一个状态可以选择为${S_2}$ (表\ref{Table3})。根据表\ref{Table1},$action = {A_1}$意味着${{T_c} < 0.5},{{T_e} \geq 0.5}和{{T_d} \geq 0.5}$。由于只有通信信任${T_c}$低于阈值时,可以怀疑被评估节点正在执行导致通信失败的攻击,例如选择性转发攻击。此外,根据各状态 ${S_1}$,${S_5}$和${S_2}$,我们可以推断当前时隙中的信任分数为$T_i^k = T_j^k = \frac{1}{3}{T_c} + \frac{1}{3}{T_d} + \frac{1}{3}{T_e}$,下一个时间段是$T_i^{k + 1} = {T_c}$和$T_j^{k + 1} = \frac{1}{2}{T_c} + \frac{1}{2}{T_e}$.根据$T_i^{k + 1} - T_j^{k + 1} = \frac{1}{2}\left({{T_c} - {T_e}} \right) < 0$,可以推断,虽然当前时隙中密钥节点和非密钥节点的信任值相同,但密钥节点的信任值低于下一个时隙中非密钥节点的信任值,这说明密钥节点在应对攻击攻击时呈现的时间延迟较低。\\
\indent 虽然初始状态转换可以快速对攻击做出反应,但它无法应对第 3 节中提到的不断变化的攻击模式。在更新周期的后续时隙中,概率状态转换用于解决此问题。概率状态转换的主要思想是利用历史状态转换的累积增益对当前状态转换做出决策,累积增益越高,选择相应状态的概率越大。假设当前状态为S,最新的操作是一个在当前时隙(当前更新周期的第一个有效时隙之后的时隙)中,概率状态转换定义如下:
\begin{equation*}
P\left({S^{\prime }|S,A} \right) = \frac{{Q\left({S^{\prime },A} \right)}}{{Q\left({\hat{S},A} \right)}}, \tag{15}
\end{equation*}
当操作是$A$,$S$转换为$ {S^{\prime }}$时,状态转换的概率是$P\left({S^{\prime }|S,A} \right)$,${Q\left({\hat{S},A} \right)}$是当操作为$A$,操作时所有状态的累积增益的总和。${Q\left({S^{\prime },A} \right)}$是操作为$A$,状态为${S^{\prime }}$时的累积增益。\\
\indent 正确的状态选择可以获得更大的增益,从而加速增益积累机制(方程(14))。因此,累积增益较高的状态往往是能够有效应对特定攻击模式的状态。尽管受损节点可能会在不同的周期中改变其攻击模式,但概率状态转换的结果使 TUMRL 表现出对累积增益更大的状态的偏好。因此,概率状态转换可以有效应对受损节点不断变化的攻击模式。
\section{仿真结果与分析}
关于这项研究,我们在MATLAB R2017a上模拟了提出的TUMRL和其他已建立的信任模型,以评估和比较它们的性能。首先,评估了TUMRL中不同机制的性能。具体而言,验证了密钥度机制对攻击反应速率的影响,以及环境模型对受损节点检测准确率的影响。然后,将TUMRL的性能与其他相关工作进行比较,包括ARTMM\textsuperscript{\cite{7038144}},TMC\textsuperscript{\cite{7360179}}和BLTM\textsuperscript{\cite{8668833}}信任模型。据我们所知,ARTMM和TMC代表了UASN信任建模的最新技术。BLTM有一个简单的更新机制,这在一定程度上激发了这项研究。仿真比较了检测准确率、误报率和能效方面的性能。部署区域设置为$500\times 500 \times 500$立方米,其中该区域随机部署500个传感器节点,传感器节点的通信半径设置为100 m。
\subsection{TUMRL的性能}
\subsubsection{密钥度的评价}
通过测量 TUMRL 对攻击做出反应所需的时间延迟,评估了信任更新期间密钥度分配的有效性。模拟了典型的攻击模式,评估了关键节点和非关键节点的性能。攻击方式为选择性转发、DoS和数据包篡改,主要影响通信成功率、能耗率和误包率。节点在 0 到 100 秒内正常运行,当受感染节点在随后的 50 秒内发起攻击。在攻击期间,信任值的下降速度快于非关键节点(图\ref{fig6})。这是因为状态转换机制使关键节点对异常行为更加敏感,并通过快速降低其信任值来缓解攻击后果。在 100 到 150s 的时间内,图 6a 中关键节点的曲线比其他两个图中的曲线更平滑。原因是选择性转发攻击不仅影响通信成功率,还会导致异常能耗。因此,图6a中的关键节点在状态之间转换有更多的选择。
\begin{figurehere}
\centering
\includegraphics[width=8cm]{Figures/fig6}
\caption{不同攻击模式下密钥度分配对TUMRL的有效性的影响}\label{fig6}
\end{figurehere}
\subsubsection{环境模型的评估}
为了评估环境模型的性能,设计了一组对照实验。在两种条件下,在有和没有环境模型的情况下,使用越来越多的受损节点来评估检测准确率。检测准确率为受损节点分类的真阳性率。在图 \ref{fig7}中,很明显,具有环境模型的信任模型优于没有环境模型的信任模型。这是因为环境模型可以量化水下波动的影响,减少这些波动较大时的信任更新频率,从而有效缓解环境因素造成的信任下降。此外,对不同定位精度(100\%、85\%、70\%)下的环境模型进行仿真,观察水下定位算法误差对所提安全算法的影响。如图\ref{fig7}所示,检测准确率随着定位精度的降低而降低。这是因为定位精度直接影响移动系数$I_{mw}$,在环境模型中,增加了环境模型的决策误差,从而降低了对受损节点的检测精度。
\begin{figurehere}
\centering
\includegraphics[width=8cm]{Figures/fig7}
\caption{有无环境模型下TUMRL 的性能}\label{fig7}
\end{figurehere}
\subsection{与相关工作的比较}
\subsubsection{检测准确率比较}
将TUMRL与TMC、ARTMM和BLTM在检测准确率方面进行了比较。检测准确率是在模拟条件下测量的,即30\%的随机选择节点受到损害。如图\ref{fig8}所示,在大约 180 秒之前,TUMRL 的性能比其他方案差。TUMRL中强化学习方法引入的记忆属性意味着在获得足够的证据积累之前,需要填充TUMRL状态。因此,TUMRL的性能最初相对较差,但很快就会达到更高的性能。因此,TUMRL在现实环境中更加稳健,因为传感器数据的长期可信度很重要。
\begin{figurehere}
\centering
\includegraphics[height=7cm,width=8cm]{Figures/fig8}
\caption{检测准确性与信任模型(TUMRL、TMC、ARTMM 和 BLTM)的关系}\label{fig8}
\end{figurehere}
\begin{figurehere}
\centering
\includegraphics[height=7cm,width=8cm]{Figures/fig9}
\caption{检测准确率随攻击模式频率的变化影响}\label{fig9}
\end{figurehere}
为了评估攻击模式变化对信任评价的影响,模拟了不同攻击模式频率变化的检测准确率性能。例如,频率变化的频率为 2 意味着受感染节点在每个时间周期内更改攻击模式两次。如图\ref{fig9}所示,当变化频率从0逐渐增加到2时,与其他信任模型相比,TUMRL的检测准确率下降速度较慢。一旦被入侵节点的攻击模式发生变化,该节点的性能差异就可以被其邻居节点检测到,这反映在 TUMRL 中的信任证据中。此外,信任证据的权重可以灵活改变,以应对不可预测的攻击模式。因此,仿真结果表明,在攻击模式可更改的条件下,TUMRL在检测受损节点方面的性能更加稳健。
\subsubsection{误报率比较}
为了确定动态环境对信任评估的影响,将TUMRL与TMC和ARTMM进行了比较,评估了它们在传感器节点之间不同移动速度的模拟条件下的误报率。如图\ref{fig10}所示,当传感器节点的速度从0 m/s逐渐增加到50 m/s时,TUMRL产生较低的误报率。因此,在监测水下动态环境时,使用环境模型似乎是信任模型的有效扩展。随着传感器节点速度的增加,环境模型的响应也会增加。一旦输出超过指定的阈值,信任分数就不会在当前时间段内更新。因此,TUMRL将攻击产生的影响与环境波动区分开来。然而,TMC和ARTMM中没有有效的机制来完成类似的区分。因此,当节点移动速度增加时,即环境对信任评估的影响增加,TMC和ARTMM中的误报率逐渐增加。
\begin{figurehere}
\centering
\includegraphics[height=7cm,width=8cm]{Figures/fig10}
\caption{不同移动速度下模型的误报率}\label{fig10}
\end{figurehere}
通过仿真,展示了UASN分布密度对虚警率的影响。如图\ref{fig11}所示,当传感器节点的分布密度大于 100 时,TUMRL 的性能优于其他方案。然而,对于较小密度,TUMRL的误报率性能比其他方案差。原因是当传感器节点的分布密度相对较低时,传感器节点缺乏足够的信息进行信任评分评估。此外,TURML对数据量有更高的要求。因此,TUMRL在紧凑网络中更加强大,其中节点之间的信息对网络的整体健康有很大贡献。
\begin{figurehere}
\centering
\includegraphics[height=7cm,width=8cm]{Figures/fig11}
\caption{不同网络密度下的误报率}\label{fig11}
\end{figurehere}
\subsubsection{能效比较}
在能源效率方面,对四种模型(TUMRL、TMC、ARTMM和BLTM)在不同百分比的受损节点和网络密度下进行了比较。由于节点在接收或发送数据包时的能耗远大于存储和计算的能耗,因此这里只考虑通信能耗。能效定义为检测到所有受损节点后网络剩余能量与初始能量的比率。\\
\indent 如图\ref{fig12}所示,当恶意节点比例低于 8\% 时,TUMRL 的能效略低于其他三种方案。如前所述,TUMRL 中采用的强化学习在密集攻击中更有效;很少有被攻击的节点只会产生能量消耗的小幅增加。然而,随着受损节点比例的增加,受攻击节点造成的能耗远远超过强化学习模型的计算成本。当受损节点的比例高于 12\% 时,TUMRL 的能效优于其他方案。
不同网络密度下的能效(图\ref{fig13})。尽管 TUMRL 的性能与其他方案相似,当传感器节点的分布密度小于90 nodes/$Km^3$,对于更高的密度,TUMRL优于其他方法。原因是 TUMRL 中的强化学习算法需要足够的数据。
\begin{figurehere}
\centering
\includegraphics[width=8cm]{Figures/fig12}
\caption{不同比例的受损节点的能源效率}\label{fig12}
\end{figurehere}
\begin{figurehere}
\centering
\includegraphics[width=8cm]{Figures/fig13}
\caption{具有不同分布密度的能源效率}\label{fig13}
\end{figurehere}
\section{结论}
本研究探讨了在面对不稳定的水下环境波动和攻击模式切换等攻击动作的同时,有效更新信任的问题。该文提出一种基于强化学习的信任更新机制。在该方案中,首先通过环境模型分析和量化水下环境的影响。量化结果用于规范和完善信任评分更新机制。此外,还介绍了密钥度的概念。传感器节点的密钥度决定了它们在信任分数更新期间的相对优先级。信任评分更新是通过强化学习模型完成的,该模型集成了环境模型的作用和密钥度——以适应来自受损节点的切换攻击模式和异常行为。此外,实验分析表明,在复杂的水下环境管理和缺陷节点检测方面,TUMRL比先前建立的工作提供了更高的性能。在密度相对较高的网络中,网络受到广泛的全球攻击和不同的攻击条件时,TUMRL 的长期性能时尤其如此。
\small
\nocite{*}
\bibliography{Reference}
\normalsize
\end{multicols}
\clearpage
%\end{CJK*}
\end{document}