人工智能技术与咨询

基于深度强化学习的智能船舶航迹跟踪控制

人工智能技术与咨询昨天

本文来自《中国舰船研究》，作者祝亢等

关注微信公众号：人工智能技术与咨询。了解更多咨询！

0. 引　言

目前，国内外对运载工具的研究正朝着智能化、无人化方向发展，智能船舶技术受到全球造船界与航运界的广泛关注。其以实现船舶航行环境的智能化、自主化发展为目标，深度融合传统船舶设计与制造技术以及现代信息通信与人工智能技术，包含智能航行、智能船用设备、智能船舶测试等多方面的研究[1]。其中，智能航行技术一直是保障船舶顺利完成货物运输、通信救助等任务的重要基础。要使船舶在面对多种复杂水域干扰的情况下也能遵守正常的通航秩序，安全地执行任务且保证完成效果，采取有效的控制手段精确进行航迹跟踪就显得尤为重要。

针对航迹跟踪的研究任务可以分为制导和控制2个方面。在制导方面，常由视线（line-of-sight，LOS）算法将路径跟踪问题转换为方便处理的动态误差控制问题；在控制方面，基于船舶的复杂非线性系统，常考虑使用PID等无模型控制方法，或采用模型线性化的方法来解决非线性模型在计算速率方面存在的问题。但对于复杂的环境，传统PID控制器不仅参数复杂，还不具备自适应学习能力。而最优控制、反馈线性化一类的控制算法通常需要建立精确的模型才能获得较高的控制精度。滑模控制虽然对模型精度要求不高，但其抖振问题难以消除[2]。即使存在一些自适应参数调节方法，如通过估计系统输出实现PID参数自整定的自适应PID控制方法，也会由于模型的不确定性和外界扰动，存在系统输出与真实输出的偏差[3]，又或者存在参数寻优时间过长的问题而影响控制的实时性。对于与模糊逻辑相结合的响应速度快、实时性好的PID自适应控制器[4]，其控制精度依赖于复杂的模糊规则库，致使整体计算复杂。

考虑到船舶的复杂非线性系统模型，和保障航迹跟踪控制的实时性时产生的大量参数整定和复杂计算等问题，本文将采用深度强化学习算法来研究智能船舶的轨迹跟踪问题。深度强化学习（deep reinforcement learning，DRL）是深度学习与强化学习的结合，其通过强化学习与环境探索得到优化的目标，而深度学习则给出运行的机制用于表征问题和解决问题。深度强化学习算法不依赖动力学模型和环境模型，不需要进行大量的算法计算，还具备自学习能力。Magalhães等[5]基于强化学习算法，使用Q-learning设计了一种监督开关器并应用到了无人水面艇，它能智能地切换控制器从而使无人艇的行驶状态符合多种环境与机动要求。2015年，Mnih等[6]为解决复杂强化学习的稳定性问题，将强化学习与深度神经网络相结合，提出了深度Q学习（deep Q network，DQN）算法，该算法的提出代表了深度强化学习时代的到来。之后，在欠驱动无人驾驶船舶的航行避碰中也进行了相关应用[7]。

面对存在的大量参数整定、复杂算法计算等问题，为实现船舶航迹跟踪的精准控制，本文拟设计一种基于深度确定性策略梯度算法（deep deterministic policy gradient，DDPG）的深度强化学习航迹跟踪控制器，在LOS算法制导的基础上，对船舶航向进行控制以达到航迹跟踪效果。然后，根据实际船舶的操纵特性以及控制要求，将船舶路径跟踪问题建模成马尔可夫决策过程，设计相应的状态空间、动作空间与奖励函数，并采用离线学习方法对控制器进行学习训练。最后，通过仿真实验验证深度强化学习航迹控制器算法的有效性，并与BP-PID控制器算法的控制效果进行对比分析。

1. 智能船舶航迹跟踪控制系统总体设计

1.1 LOS算法制导

航迹跟踪控制系统包括制导和控制2个部分，其中制导部分一般是根据航迹信息和船舶当前状态确定所需的设定航向角值来进行工作。本文使用的LOS算法已被广泛运用于路径控制。LOS算法可以在模型参数不确定的情况下，以及在复杂的操纵环境中与控制器结合，从而实现对模型的跟踪控制。视线法的导航原理是基于可变的半径与路径点附近生成的最小圆来产生期望航向，即LOS角。经过适当的控制，使当前船舶的航向与LOS角一致，即能达到航迹跟踪的效果[8]。

LOS算法示意图如图1所示。假设当前跟踪路径点为Pk+1(xk+1,yk+1)Pk+1(xk+1,yk+1)，上一路径点为Pk(xk,yk)Pk(xk,yk)，以船舶所在位置Ps(xs,ys)Ps(xs,ys)为圆心，选择半径RLosRLos与路径PkPk+1PkPk+1相交，选取与Pk+1Pk+1相近的点PLos(xLos,yLos)PLos(xLos,yLos)作为LOS点，当前船舶坐标到LOS点的方向矢量与x0x0的夹角ψLosψLos则为需要跟踪的LOS角。图中：dd为当前船舶至跟踪路径的最短距离；ψψ为当前航向角。

其中，半径RLosRLos的计算公式如式（1）和式（2）所示，为避免RminRmin的计算出现零值，在最终的计算中加入了2倍的船长LppLpp来进行处理[9]。

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪a(t)=(x(t)−xk)2+(y(t)−yk)2−−−−−−−−−−−−−−−−−−−−−√b(t)=(xk+1−x(t))2+(y(t)−yk+1)2−−−−−−−−−−−−−−−−−−−−−−−−√c(t)=(xk+1−xk)2+（yk+1−yk)2−−−−−−−−−−−−−−−−−−−−−−√Rmin(t)=a(t)2−(c(t)2−b(t)2+a(t)22c(t))2−−−−−−−−−−−−−−−−−−−−−−−−−−⎷{a(t)=(x(t)−xk)2+(y(t)−yk)2b(t)=(xk+1−x(t))2+(y(t)−yk+1)2c(t)=(xk+1−xk)2+（yk+1−yk)2Rmin(t)=a(t)2−(c(t)2−b(t)2+a(t)22c(t))2

(1)

RLos=Rmin(t)+2LppRLos=Rmin(t)+2Lpp

(2)

式中，所计算的RminRmin即为当前时刻t的航迹误差ε，也即图1中的dd。

图 1 LOS导航原理图

Figure 1. Schematic diagram of LOS algorithm

船舶在沿着路径进行跟踪时，若进入下一个航向点的一定范围内，即以Pk+2(xk+2,yk+2)Pk+2(xk+2,yk+2)为圆心、RACRAC为半径的接受圆内，则更新当前航向点为下一航向点，半径RACRAC一般选取为2倍船长。

1.2 基于强化学习的控制过程设计

强化学习（reinforcement learning，RL）与深度学习同属机器学习范畴，是机器学习的一个重要分支，主要用来解决连续决策的问题，是马尔可夫决策过程（Markov decision processes，MDP）问题[10]的一类重要解决方法。

此类问题均可模型化为MDP问题，简单表示为四元组。其中，SS为所有状态值的集合，即状态空间；AA为动作值集合的动作空间；PP为状态转移概率矩阵，即在tt时刻状态为St=sSt=s的情况下选择动作值为At=aAt=a，则t+1t+1时刻产生状态为s1s1的概率Pass1=P[St+1=s1|St=s,At=a]Pss1a=P[St+1=s1|St=s,At=a]；R=r(s,a)R=r(s,a)为回报奖励函数，用于评价在ss状态下选取动作值aa的好坏。航迹跟踪控制系统中的控制部分用MDP模型表示如图2所示。

图 2 船舶控制的MDP模型

Figure 2. MDP model of ship control

如图2所示，船舶智能体直接与当前控制环境进行交互而且不需要提前获取任何信息。在训练过程中，船舶采取动作值atat与环境进行交互更新自己的状态st→st+1st→st+1，并获得相应的奖励rt+1rt+1，之后，继续采取下一动作与环境交互。在此过程中，会产生大量的数据，利用这些数据学习优化自身选择动作的策略policyππ。简单而言，这是一个循环迭代的过程。在强化学习中，训练的目标是找到一个最佳的控制策略 policyπ∗π∗，以使累积回报值RtRt达到最大[11]。在下面的公式中，γγ为折扣系数，用来衡量未来回报在当前时期的价值比例，设定γ∈[0,1]γ∈[0,1]。

Rt=rt+γrt+1+γ2rt+2+⋯=∑k=1∞γkrt+k+1Rt=rt+γrt+1+γ2rt+2+⋯=∑k=1∞γkrt+k+1

(3)

Policy ππ可以使用2种值函数进行评估：状态值函数Vπ(st)Vπ(st)和动作值函数Qπ(st,at)Qπ(st,at)。其中Vπ(st)Vπ(st)为在遵循当前策略的状态下对累积回报值的期望，EE为期望值；类似地，Qπ(st,at)Qπ(st,at)表示基于特定状态和动作情况(st,at)(st,at)下对累积回报值的期望。

Vπ(st)=Eπ[Rt|st]=Eπ[∑k=1∞γkrt+k+1|st]Vπ(st)=Eπ[Rt|st]=Eπ[∑k=1∞γkrt+k+1|st]

(4)

Qπ(st,at)=Eπ[Rt|st,at]=Eπ[∑k=1∞γkrt+k+1|st,at]Qπ(st,at)=Eπ[Rt|st,at]=Eπ[∑k=1∞γkrt+k+1|st,at]

(5)

根据值函数和上述最佳控制策略policy π∗π∗的定义，最佳policy π∗π∗总是满足以下条件：

π∗=argmaxVπ(st)=argmaxQπ(st,at)π∗=argmaxVπ(st)=argmaxQπ(st,at)

(6)

1.3 航迹跟踪问题马尔可夫建模

从以上描述可以看出，在基于强化学习的控制设计中，马尔可夫建模过程的组件设计是最为关键的过程，状态空间、动作空间和奖励的正确性对算法性能和收敛速度的影响很大。所以针对智能船舶的轨迹跟踪问题，对其进行马尔可夫建模设计。

1）状态空间设计。

根据制导采用的LOS算法，要求当前航向角根据LOS角进行调节以达到跟踪效果。所以在选取状态时，需考虑LOS算法中的输出参数，包括目标航向ψLOSψLOS与实际航向ψψ的差值ee、航迹误差ε，以及与航迹点距离误差εdεd。

对于船舶模型，每个时刻都可以获得当前船舶的纵荡速度uu、横荡速度vv、艏转向速度rr和舵角δδ。为使强化学习能实现高精度跟踪效果，快速适应多种环境的变换，除了选取当前时刻的状态值外，还加入了上一时刻的状态值进行比较，以及当前航向误差与上一时刻航向误差的差值e(k−1)e(k−1)，使当前状态能够更好地表示船舶是否在往误差变小的方向运行。最终，当前时刻t的状态空间可设计为

st=[et,εt,εdt,ut,vt,rt,δt,e(k−1)t,et−1,εt−1,εdt−1,ut−1,vt−1,rt−1,δt−1]st=[et,εt,εtd,ut,vt,rt,δt,e(k−1)t,et−1,εt−1,εt−1d,ut−1,vt−1,rt−1,δt−1]

(7)

2）动作空间设计。

针对航迹跟踪任务特点，以及LOS制导算法的原理，本文将重点研究对船舶航向，即舵角的控制，不考虑对船速与桨速的控制。动作空间只有舵令一个动作值，即δδ，其值的选取需要根据实际船舶的控制要求进行约束，设定为在(−35∘,35∘)(−35∘,35∘)以内，最大舵速为15.8 (°)/s。

3）奖励函数设计。

本文期望航向角越靠近LOS角奖励值越高，与目标航迹的误差越小奖励值越高。因此，设计的奖励函数为普遍形式，即分段函数：

rt={0,−|e|−0.1|e(k−1)|−0.01|ε|,if|e|⩽0.1radif|e|>0.1radrt={0,if|e|⩽0.1rad−|e|−0.1|e(k−1)|−0.01|ε|,if|e|>0.1rad

(8)

式中，e(k−1)e(k−1)为当前航向误差与上一时刻航向误差的差值。当差值大于0.1rad0.1rad时选择负值奖励，也可称之为惩罚值，是希望训练网络能尽快改变当前不佳的状态。将负值的选取与另一分段的00奖励值做明显对比，使其训练学习后可以更加快速地选择奖励值高的动作，从而达到最优效果。

1.4 控制系统总体方案

基于强化学习的智能船舶航迹控制系统总体框架如图3所示。LOS算法根据船舶当前位置计算得到需要的航向以及航迹误差，在与船舶的状态信息整合成上述所示状态向量stst后输入进航迹控制器中，然后根据强化学习算法输出当前最优动作值atat给船舶执行，同时通过奖励函数rtrt计算获得相应的奖励来进行自身参数迭代，以使航迹控制器具备自学习能力。

图 3 基于强化学习的智能船舶轨迹跟踪控制框图

Figure 3. Block diagram of intelligent ship tracking control based on RL

在将控制器投入实时控制之前，首先需要对控制器进行离线训练。设定规定次数的训练后，将获得的使累计回报值达到最大的网络参数进行存储整合，由此得到强化学习控制器，并应用于航迹跟踪的实时控制系统。

要解决强化学习问题，目前有许多的算法、机制和网络结构可供选择，但这些方法都缺少可扩展的能力，并且仅限于处理低维问题。为此，Mnih等[6]提出了一种可在强化学习问题中使用大规模神经网络的训练方法——DQN算法，该算法成功结合了深度学习与强化学习，使强化学习也可以扩展处理一些高维状态、动作空间下的决策问题[12]。DQN算法可解决因强化学习过程与神经网络逼近器对值函数逼近的训练相互干扰，而导致学习结果不稳定甚至是产生分歧的问题[13]，是深度强化学习领域的开创者。

DQN算法显著提高了复杂强化学习问题的稳定性和性能，但因其使用的是离散的动作空间，故需要对输出的动作进行离散化，且只能从有限的动作值中选择最佳动作。对于船舶的轨迹跟踪问题，如果候选动作数量太少，就很难对智能体进行精确控制。为使算法满足船舶的操纵特性与要求，本文选择了一种适用于连续动作空间的深度强化学习算法，即基于DDPG的算法[14]来对智能船舶航迹跟踪控制器进行设计，该算法不仅可以在连续动作空间上进行操作，还可以高效精准地处理大量数据。

2. 基于DDPG算法的控制器设计

2.1 DDPG算法原理

DDPG是Lillicrap等[14]将DQN算法应用于连续动作中而提出的一种基于确定性策略梯度的Actor-Critic框架无模型算法。DDPG的基本框架如图4所示。

图 4 DDPG基本框架

Figure 4. Block diagram of DDPG

网络整体采用了Actor-Critic形式，同时具备基于值函数的神经网络和基于策略梯度的神经网络：Actor网络的θπθπ表示确定性策略函数a=π(s|θπ)a=π(s|θπ)，Critic网络的θQθQ表示值函数Q(s,a|θQ)Q(s,a|θQ)。并且DDPG还借鉴了DQN技术，其通过采取经验池回放机制(experience replay)以及单独的目标网络来消除大规模神经网络带来的不稳定性。

所谓经验池回放机制，即在每个时间点都存储当前状态、动作等信息作为智能体的经验et=(st,at,rt,st+1)et=(st,at,rt,st+1)，以此形成回放记忆序列D={e1,⋯,eN}D={e1,⋯,eN}。在训练网络时，从中随机提取mini batch数量的经验数据作为训练样本，但重复使用历史数据的操作会增加数据的使用率，也打乱了原始数据的顺序，会降低数据之间的关联性。而目标网络则建立了2个结构一样的神经网络——用于更新神经网络参数的主网络和用于产生优化目标值的目标网络，初始时，将主网络参数赋予给目标网络，然后主网络参数不断更新，目标网络不变，经过一段时间后，再将主网络的参数赋予给目标网络。此循环操作可使优化目标值在一段时间内稳定不变，从而使得算法性能更加稳定。

在训练过程中，主网络中的Actor网络根据从经验池中随机选取的样本状态ss，经过当前策略函数a=π(s|θπ)a=π(s|θπ)选择出最优的动作值aa交予船舶智能体，让其与环境交互后得到下一时刻的状态值s′s′。而此时的Critic网络则接受当前的状态ss和动作值aa，使用值函数Q(s,a|θQ)Q(s,a|θQ)评价当前状态的期望累计奖赏，并用于更新Actor网络的参数。在目标网络中，整体接收下一时刻的状态s′s′，经目标Actor网络选出动作后交予目标Critic获得目标期望值Q′(a′)Q′(a′)，然后，再通过计算损失函数对主网络的Critic网络参数进行更新。对于主网络的Actor网络参数更新，Silver等[15]证实，确定性策略的目标函数J(θπ)J(θπ)采用ππ策略的梯度与Q函数采用ππ策略的期望梯度是等价的：

∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂θπ]∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂θπ]

(9)

根据确定性策略a=π(s|θπ)a=π(s|θπ)，得到Actor网络的梯度为：

∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂a∂π(s|θπ)∂θπ]∂J(θπ)∂θπ=Es[∂Q(s,a|θQ)∂a∂π(s|θπ)∂θπ]

(10)

∇θπJ≈1N∑i(∇aQ(s,a|θπ)|s=si,a=π(si)⋅∇θππ(s|θπ)|s=si)∇θπJ≈1N∑i(∇aQ(s,a|θπ)|s=si,a=π(si)⋅∇θππ(s|θπ)|s=si)

(11)

另一方面，对于Critic网络中的价值梯度：

∂L(θQ)∂θQ=Es,a,r,s′∼D[(TargetQ−Q(s,a|θQ))∂Q(s,a|θQ)∂θQ]∂L(θQ)∂θQ=Es,a,r,s′∼D[(TargetQ−Q(s,a|θQ))∂Q(s,a|θQ)∂θQ]

(12)

TargetQ=r+γQ′(s′,π(s′|θπ′)|θQ′)TargetQ=r+γQ′(s′,π(s′|θπ′)|θQ′)

(13)

式中，θπ′θπ′和θQ′θQ′分别为目标策略网络和目标值函数网络的网络参数。其中，目标网络的更新方法与DQN算法中的不同，在DDPG算法中，Actor-Critic网络各自的目标网络参数是通过缓慢的变换方式更新，也叫软更新。以此方式进一步增加学习过程的稳定性：

θQ′=τθQ+(1−τ)θQ′θQ′=τθQ+(1−τ)θQ′

(14)

θπ′=τθπ+(1−τ)θπ′θπ′=τθπ+(1−τ)θπ′

(15)

式中，ττ为学习率。

定义最小化损失函数来更新Critic网络参数，其中，yiyi为当前时刻状态动作估计值函数与目标网络得到的目标期望值间的误差：

L=1N∑i(yi−Q(si,ai|θQ))2L=1N∑i(yi−Q(si,ai|θQ))2

(16)

2.2 算法实现步骤

初始化Actor-Critic网络的参数，将当前网络的参数赋予对应的目标网络；设置经验池容量为30 000个，软更新学习率为0.01，累计折扣系数设定为0.9，初始化经验池。训练的每回合步骤如下：

1）初始化船舶环境；

2）重复以下步骤直至到达设置的最大步长；

3）在主网络中，Actor网络获取此刻船舶的状态信息stst，并根据当前的策略选取动作舵令δtδt给船舶执行，即δt=π(st|θπ)δt=π(st|θπ)；

4）船舶执行当前舵令后输出奖励rtrt和下一个状态st+1st+1，Actor网络再次获取该状态信息并选取下一舵令δt+1δt+1；

5）将此过程中产生的数据(st,δt,rt,st+1)(st,δt,rt,st+1)存储在经验池中，以作为网络训练学习的数据集。当经验池存储满后，再从第1个位置循环存储；

6）从经验池中随机采样N个样本(st,δt,rt,st+1)(st,δt,rt,st+1)，作为当前Actor网络和Critic网络的训练数据；

7）通过损失函数更新Critic网络，根据Actor网络的策略梯度更新当前Actor网络，然后再对目标网络进行相应的软更新。

3. 系统仿真与算法对比分析

3.1 仿真环境构建

为验证上述方法的有效性，基于Python环境进行了船舶航迹跟踪仿真实现。控制研究对象模型选用文献[16-17]中的单桨单舵7 m KVLCC2船模，建模采用三自由度模型（即纵荡、横荡和艏摇），具体建模过程参考文献[16]。表1列出了船舶的一些主要参数。

表 1 KVLCC2船舶参数

Table 1. Parameters of a KVLCC2 tanker

参数	数值	参数	数值
船长Lpp/m	7	方形系数CbCb	0.809 8
船宽Bwl/m	1.168 8	浮心坐标/m	0.244 0
型深D/m	0.656 3	螺旋桨直径Dp/m	0.216 0
排水体积/m3	3.272 4	舵面积/m2	0.053 9

| 显示表格

在所选用的DDPG控制器中，Crtic网络和Actor网络的实现参数设置分别如表2和表3所示。

表 2 Critic网络参数

Table 2. Critic network parameters

参数	赋值
输入层	状态向量S(t)S(t)
第1个隐层	300
第1层激活函数	Relu
第2个隐层	200
第2层激活函数	Relu
输出层	动作δ(t)δ(t)
输出层激活函数	Tanh
参数初始化	Xavier初始化
学习率	0.000 1
优化器	Adam

表 3 Actor网络参数

Table 3. Actor network parameters

参数	赋值
输入层	状态向量S(t)S(t)，动作δ(t)δ(t)
第1个隐层	300
第1层激活函数	Relu
第2个隐层	200
第2层激活函数	Relu
输出层	Q(S(i),δ(i))Q(S(i),δ(i))
输出层激活函数	Linear
参数初始化	Xavier初始化
学习率	0.001
优化器	Adam

3.2 控制器离线学习

基于DDPG算法进行的离线训练学习设置如下：初始化网络参数以及经验缓存池，设计最大的训练回合为2 000，每回合最大步长为500，采样时间为1 s。在规划训练期间所需跟踪的航迹时，为使控制器适应多种环境，以及考虑到LOS制导算法中对于航向控制的要求，依据文献[18]中的设计思想，根据拐角的变换，设计了多条三航迹点航线，每回合训练时随机选取一条进行航迹跟踪。

训练时，将数据存入经验池中，然后再从中随机采样一组数据进行训练，状态值及动作值均进行归一化处理，当达到最大步长或最终航迹点输出完成时，便停止这一回合，并计算当前回合的总回报奖励。当训练进行到200，300和500回合时，其航向误差如图5所示。由图中可以看出，在训练时随着回合的增加，航向误差显著减小，控制算法不断收敛；当训练达到最大回合结束后，总奖励值是不断增加的。为使图像显示得更加清晰，截取了200~500回合的总回报奖励如图6所示。从中可以看出，在约270回合时算法基本收敛，展现了快速学习的过程。

图 5 航向误差曲线

Figure 5. Course error curves

图 6 总回报奖励曲线

Figure 6. Total reward curve

3.3 仿真实验设计及对比分析

上述训练完成后，DDPG控制器保存回报奖励函数最大的网络参数，并将其应用于航迹跟踪仿真。为了验证DDPG控制器的可行性，本文选用BP-PID控制器进行对比分析。

用于对比的BP-PID控制器选择使用输入层节点数为4、隐含层节点数为5、输出层节点数为3的BP神经网络对PID的3种参数进行选择，其中学习率为0.546，动量因子为0.79，并参考文献[19]，利用附加惯性项对神经网络进行优化。在相同的环境下，将DDPG控制器与BP-PID控制器进行仿真对比分析。仿真时，船舶的初始状态为从原点(0，0)出发，初始航向为45°，初始航速也即纵荡速度uu=1.179 m/s，螺旋桨初始速度rr=10.4 r/s。

仿真实验1：分别设计直线轨迹和锯齿状轨迹，用以观察2种控制器对直线的跟踪效果和面对剧烈转角变化时的跟踪效果（图7），轨迹点坐标分别为(0，50)，(400，50)和(0，0)，(100，250)，(200，0)，(300，250)，(400，0)，(500，250)，(600，0)，单位均为m。

图 7 航迹跟踪效果（实验1）

Figure 7. Tracking control result (experiment 1)

通过对2种类型轨迹跟踪的对比可以看出，对于直线轨迹，DDPG控制器能够更加快速地进行稳定跟踪，在锯齿状轨迹转角跟踪时其效果也明显优于BP-PID控制器。对仿真过程中航向角的均方根误差（图7（b））进行计算，显示BP-PID控制器的数值达61.017 8，而DDPG控制器的仅为10.018，后者具有更加优秀的控制性能。

仿真实验2：为模拟传统船舶的航行轨迹，设计轨迹点为(0，0)，(100，50)，(150，250)，(400，250)，(450，50)，(550，0)的航迹进行跟踪。跟踪效果曲线和航向均方根误差（RMSE）的对比分别如图8和表4所示。

图 8 航迹跟踪结果（实验2）

Figure 8. Tracking control result (experiment 2)

表 4 控制性能指标

Table 4. Control performance

控制器	RMSE
BP-PID控制器	13.585 0
DDPG控制器	6.911 96

在此次仿真过程中，进一步对比了2种控制器对于LOS角跟踪的效果以及舵角的变化频率，结果分别如图9和图10所示。PID经过BP神经网络参数整定后整体巡航时间约为1 000 s，而DDPG控制器的巡航时间则在此基础上缩短了4%；在转角处的航向跟踪中，DDPG控制器在20 s内达到期望值，而BP-PID的调节时间则约为60 s，且控制效果并不稳定，舵角振动频率高。由此可见，深度强化学习控制器可以很快地根据航迹变化做出调整，减少了不必要的控制环节，调节时间短，控制效果稳定，舵角变化频率小，具有良好的控制性能。

图 9 BP-PID控制器控制效果

Figure 9. Control result of BP-PID

图 10 DDPG控制器控制效果

Figure 10. Control result of DDPG

4. 结　语

本文针对船舶的航迹跟踪问题，提出了一种基于深度强化学习的航迹跟踪控制器设计思路。首先根据LOS算法制导，建立了航迹跟踪控制的马尔可夫模型，给出了基于DDPG控制器算法的程序实现；然后在Python环境中完成了船舶航迹跟踪控制系统仿真实验，并与BP-PID控制器进行了性能对比分析。

将航迹跟踪问题进行马尔可夫建模设计后，将控制器投入离线学习。通过对此过程的分析发现，DDPG控制器在训练中能快速收敛达到控制要求，证明了设计的状态、动作空间以及奖励函数的可行性。并且航迹跟踪仿真对比结果也显示，DDPG控制器能较快地应对航迹变化，控制效果稳定且舵角变化少，对于不同的轨迹要求适应性均相对良好。整体而言，基于深度强化学习的控制方法可以应用到船舶的航迹跟踪控制之中，在具有自适应稳定控制能力的情况下，不仅免去了复杂的控制计算，也保证了实时性，对船舶的智能控制具有一定的参考价值。

关注微信公众号：人工智能技术与咨询。了解更多咨询！

你可能感兴趣的:(分类,人工智能,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

基于深度强化学习的智能船舶航迹跟踪控制

基于深度强化学习的智能船舶航迹跟踪控制

0. 引 言

1. 智能船舶航迹跟踪控制系统总体设计

2. 基于DDPG算法的控制器设计

3. 系统仿真与算法对比分析

4. 结 语

你可能感兴趣的:(分类,人工智能,机器学习)

0. 引　言

4. 结　语