赛亚茂

基于强化学习的多战机同SEAD联合作战空战辅助决策(改进版)

1.基础知识

这部分的基础知识可以参考以前的博文:基于强化学习的多战机同SEAD联合作战空战辅助决策

2.之前的工作

之前运用强化学习的知识求解时，对其的建模分为以下几个部分:

状态空间:两个战机的状态，分别是两个战机的横纵坐标:
$s_t=(x_1^{(t)},y_1^{(t)},x_2^{(t)},y_2^{(t)})^T\in [0,100\mathbf {km}]^4$
动作空间：两个战机彼此的动作空间看作是相同的，其联合动作空间为:
$a_t\in \{东,正东北,北,正西北,西,正西南,南,正东南,停留\}^{(1)} \times \{东,正东北,北,正西北,西,正西南,南,正东南,停留\}^{(2)}$

实际上 $a_t$ 的维度是2,例如： $a_t=(东,正西北)^T$ 表示的是第t时刻，战机1采取向正东匀速运动时间段 $\Delta t$ ，战机2采取向正西北匀速运动时间段 $\Delta t$ 。所以实际的动作空间中的离散动作个数为 $\times 9=81$ 。例如采取这样的动作下一个状态的转移方程为:
$x_{1}^{(t+1)} =x_{1}^{(t)} +v_1 \Delta t \\ y_1^{(t+1)}=y_1^{(t)}\\ x_{2}^{(t+1)} =x_{2}^{(t)} -\frac{\sqrt{2}}{2}v_2 \Delta t \\ y_{2}^{(t+1)} =y_{2}^{(t)} +\frac{\sqrt{2}}{2}v_2 \Delta t \\$

奖励函数：

奖励函数主要有以下几种情况:
- 当战机1，2其中任意一架击毁Target时，返回奖励1000，回合结束。
- 当战机1，2其中一架在SAM的火力范围内停留时间超过SAM的火力瞄准时间时，任意一架战机被摧毁都会返回奖励-1000，回合继续。直到两架战机都被摧毁回合结束。
- 当SAM在战机1，2其中的一架火力范围内停留时间超过战机的火力瞄准时间时，SAM会被摧毁，此时返回奖励50，回合继续。
- 其他情况，每经历一个时间段，返回奖励-1，回合继续。

当采取以上参数时，得用PPO训练的两组较为优化的轨迹如下:

实际上这里的描述是不对的，因此从实际的角度考虑，战斗机的转向角度不会这么大。过大的转向角度(最小45°)使得战机的轨迹类似于随机游走，几乎是醉汉走路。

3.现在的工作

在之前的工作的基础上，仅仅修改战机的状态空间与动作空间。在不考虑修改原来的奖励函数的基础上，在状态空间中引入两个战机的二维方位角 $\theta_t^{(1)},\theta_t^{(2)}$ 。而将动作空间修改为两个战机在 $t$ 时刻方位角的增量值 $\Delta \theta_t^{(1)},\Delta \theta_t^{(2)}$ 。如下所示：

状态空间：两个战机的状态，分别是两个战机的横纵坐标以及方位角：
$s_t=(x_t^{(1)},y_t^{(1)},\theta_t^{(1)},x_t^{(2)},y_t^{(2)},\theta_t^{(2)})^T\in [0,100\mathbf {km}]^2 \times [-\pi,\pi] \times [0,100\mathbf {km}]^2\times [-\pi,\pi]$
动作空间：两个战机可以采取的二维方位角的增量:
$a_t=[\Delta \theta_t^{(1)},\Delta \theta_t^{(2)}]\in\{-\frac{\pi}{12},\frac{\pi}{12}\}^{(1)} \times \{-\frac{\pi}{12},\frac{\pi}{12}\}^{(2)}$
很明显，这里的动作空间是连续动作空间。再次为了方便用离散PPO算法进行求解，将上述连续动作空间离散化。例如当将战机1的连续动作空间5等分时, $a_t$ 的离散动作空间中的动作个数围为 $5\times 5=25$ 。
奖励函数：同之前工作中做的奖励函数一致。
状态转移方程: $s_{t+1}$ 与 $s_t$ 之间与动作 $a_t$ 有关的状态转移方程为：

$x_{t+1}^{(1)}=x_{t}^{(1)}+v_1\Delta t \cos(\theta_t^{(1)}+\Delta \theta_t^{(1)})\\ y_{t+1}^{(1)}=y_{t}^{(1)}+v_1\Delta t \sin(\theta_t^{(1)}+\Delta \theta_t^{(1)})\\ \theta_{t+1}^{(1)}=\theta_{t}^{(1)} + \Delta \theta_t^{(1)}\\ x_{t+1}^{(2)}=x_{t}^{(2)}+v_1\Delta t \cos(\theta_t^{(2)}+\Delta \theta_t^{(2)})\\ y_{t+1}^{(2)}=y_{t}^{(2)}+v_1\Delta t \sin(\theta_t^{(2)}+\Delta \theta_t^{(2)})\\ \theta_{t+1}^{(2)}=\theta_{t}^{(2)} + \Delta \theta_t^{(2)}\\$

当采取以上参数时，得用离散PPO训练的一组较为优化的轨迹如下:

这个结果就很好的反映了战机的一个迂回穿插袭击Target的轨迹，与人们传统的想法一致。其300次的训练过程如下：

4.代码

当前工作下环境搭建的代码:

import numpy as np
import matplotlib.pyplot as plt
# 下面环境的搭建将是基于全局可观测的
# 下面写战斗机的类
class Fighter(object):
    def __init__(self,x0=0.0,y0=0.0,theta0=0,theta_num=6,
                 fighter_range=20,L_limits=100,theta_range=np.pi/6,
                 velocity=2175.0/3600,delta_t=10,aim_time=30):
        # 下面设置战斗机的基本属性
        self.x = x0
        self.y = y0
        self.theta = theta0
        self.fighter_range = fighter_range # 战斗机火力范围
        self.L_limits = L_limits # 区域长度限制
        self.velocity = velocity # 战斗机速度
        self.delta_t = delta_t   # 采样时间
        self.aim_time = aim_time # 战斗机瞄准时间
        self.dead = False       # 战斗机的生存状态
        self.state = np.array([self.x,self.y,self.theta]) # 战斗机当前状态是包括x0,y0的np数组
        # 下面建立离散动作空间的映射表
        self.theta_num = theta_num
        self.action_space = np.linspace(-theta_range/2,theta_range/2,theta_num)
        # 下面开始设置瞄准时间
        self.aim_SAM_time = 0.0
        self.aim_target_time = 0.0
    def reset(self,rand_initial_position=True,theta=np.pi/4):
        # 试探性出发假设
        if rand_initial_position:
            self.x = np.random.random()*self.L_limits
            self.y = np.random.random()*self.L_limits
            self.theta = np.random.random()*np.pi/2
        else:
            self.x = 0
            self.y = 0
            self.theta = theta
        self.dead = False
        # 下面开始设置瞄准时间
        self.aim_SAM_time = 0.0
        self.aim_target_time = 0.0
        return np.array([self.x,self.y,self.theta])
    def step(self,action,SAM,target):
        # 动作空间action表示航向{0,1,2,3,4,5,6,..theta_num}
        # 这里需要知道SAM的实际位置与target的实际位置
        # 下面开始获取当前战斗机位置
        # SAM_range:SAM的火力范围
        # 下面开始抽取target与SAM的状态
        # 下面对动作进行描述
        self.theta += self.action_space[int(action)]
        self.x += self.velocity*self.delta_t*np.cos(self.theta)
        self.y += self.velocity*self.delta_t*np.sin(self.theta)
        # # 使战斗机位置在所在区域内,对于角度范围没有限制
        if self.x >= self.L_limits:
            self.x = self.L_limits
        elif self.x <= 0.0:
            self.x = 0.0
        if self.y >= self.L_limits:
            self.y = self.L_limits
        elif self.y <= 0.0:
            self.y = 0.0
        self.state = np.array([self.x,self.y,self.theta])
        # 下面开始计算奖励
        d_target = np.linalg.norm(np.array([self.x - target.x,self.y - target.y]))
        d_SAM = np.linalg.norm(np.array([self.x - SAM.x,self.y - SAM.y]))
        # 如果SAM与target在战斗机的火力射程范围外，则无法瞄准，其瞄准时间为0
        if d_target >= self.fighter_range:
            self.aim_target_time = 0.0
        else:
            self.aim_target_time += self.delta_t
        if d_SAM >= self.fighter_range:
            self.aim_SAM_time = 0.0
        else:
            self.aim_SAM_time += self.delta_t
        if d_SAM >= SAM.SAM_range: # Fighter在SAM的火力范围内会计算时间
            SAM.aim_Fighter_time = 0.0
        else:
            SAM.aim_Fighter_time += self.delta_t
        # 如果战斗机瞄准时间比较长可以击落target
        if self.aim_target_time >= self.aim_time:
            target.dead = True
            self.aim_target_time = 0.0
            return self.state,1000,True # 比较圆满的结果是target被击落
        # 如果SAM有弹药且成功击毁Fighter
        if (SAM.dead==False) and (d_SAM <= SAM.SAM_range) and (SAM.aim_Fighter_time >= SAM.aim_time):
            SAM.dead = True # 此时弹药已经消耗光
            SAM.aim_Fighter_time = 0.0
            return self.state,-1000,True # 不太圆满的结果是Fighter被击落
        # 战斗机同样也击落SAM的可能性
        if (SAM.dead==False) and (d_SAM <= self.fighter_range) and (self.aim_SAM_time >= self.aim_time):
            SAM.dead = True # SAM 被击毁
            self.aim_SAM_time = 0.0
            return self.state,50,False
        return self.state,-1,False

# 下面开始写SAM的类
class Sam:
    def __init__(self,x=50,y=50,SAM_range=30,
                 L_limits=100,max_aim_time=10):
        self.x = x
        self.y = y
        self.SAM_range = SAM_range
        self.L_limits = L_limits
        self.aim_time = max_aim_time
        self.aim_Fighter_time = 0
        self.dead = False
    def reset(self):
        self.aim_Fighter_time = 0
        self.dead = False

# 下面开始写target的类
class Target:
    def __init__(self,x=80,y=80,L_limits=100):
        self.x = x
        self.y = y
        self.L_limits = L_limits
        self.dead = False
    def reset(self):
        self.dead = False

# 总环境的搭建
class Fighter2Env(object):
    def __init__(self,SAM_x=50,SAM_y=50,Target_x=80,Target_y=80,
                 Fighter_range=20,SAM_range=30,L_limits=100,
                 delta_t=10,velocity=2175.0/3600,fighter_action_dim=9,
                 fighter_aim_time=30,sam_aim_time=10,delta_theta=np.pi/6):
        # 构造两个同构战斗机
        self.fighter1 = Fighter(x0=0,y0=0,fighter_range=Fighter_range,
                                L_limits=L_limits,velocity=velocity,
                                delta_t=delta_t,aim_time=fighter_aim_time)
        self.fighter2 = Fighter(x0=0,y0=0,fighter_range=Fighter_range,
                                L_limits=L_limits,velocity=velocity,
                                delta_t=delta_t,aim_time=fighter_aim_time)
        # 分别构造SAM与Target对象
        self.Target = Target(x=Target_x,y=Target_y,L_limits=L_limits)
        self.SAM = Sam(x=SAM_x,y=SAM_y,SAM_range=SAM_range,
                       L_limits=L_limits,max_aim_time=sam_aim_time)
        # 战斗机1，2的位置组成战斗机的状态空间
        self.observation_space = np.array([[0,L_limits],[0,L_limits],[-delta_theta/2,delta_theta/2],
                                           [0,L_limits],[0,L_limits],[-delta_theta/2,delta_theta/2]])
        self.observation_ndim = 6
        self.action_space = np.linspace(-delta_theta/2,delta_theta/2,fighter_action_dim)
        self.fighter1_action_dim = fighter_action_dim
        self.action_dim = int(fighter_action_dim**2) # 9 * 9=81维动作空间,动作空间巨大是一个很大的问题
        # 设置2架战斗机的初始位置
        fighter1_x0,fighter1_y0,fighter1_theta0 = self.fighter1.reset(theta=np.arctan(self.Target.y/self.Target.x),
                                                                      rand_initial_position=True)
        fighter2_x0,fighter2_y0,fighter2_theta0 = self.fighter2.reset(theta=np.arctan(self.Target.y/self.Target.x),
                                                                      rand_initial_position=True)
        self.state = np.array([fighter1_x0,fighter1_y0,fighter1_theta0,
                               fighter2_x0,fighter2_y0,fighter2_theta0])
        #self.fighter1_theta = np.arctan(Target_y/Target_x)
        self.fighter1_done = False # 这里说明两个战斗机都没有被击落
        self.fighter1_state = np.array([fighter1_x0,fighter1_y0,fighter1_theta0])
        self.fighter1_total_rewards = 0
        self.fighter1_x_array = []
        self.fighter1_y_array = []
        #self.fighter2_theta = np.arctan(Target_y/Target_x)
        self.fighter2_done = False # 这里说明两个战斗机都没有被击落
        self.fighter2_state = np.array([fighter2_x0,fighter2_y0,fighter2_theta0])
        self.fighter2_total_rewards = 0
        self.fighter2_x_array = []
        self.fighter2_y_array = []
        self.done = False
    # 下面是动作解码
    def action_decode(self,action):
        # action:0-80
        fighter1_action = int(action)//self.fighter1_action_dim
        fighter2_action = int(action)%self.fighter1_action_dim
        return fighter1_action,fighter2_action
    # 下面是重置函数
    def reset(self,rand_initial_position=True):
        # 设置2架战斗机的初始位置
        self.SAM.reset()
        self.Target.reset()
        fighter1_x0, fighter1_y0,fighter1_theta0 = self.fighter1.reset(rand_initial_position=rand_initial_position)
        fighter2_x0, fighter2_y0,fighter2_theta0 = self.fighter2.reset(rand_initial_position=rand_initial_position)
        self.fighter1_state = np.array([fighter1_x0, fighter1_y0,fighter1_theta0])
        self.fighter1_theta = np.arctan(self.Target.y/self.Target.x)
        self.fighter1_done = False  # 这里说明两个战斗机都没有被击落
        self.fighter1_total_rewards = 0
        self.fighter1_x_array = []
        self.fighter1_y_array = []
        self.fighter2_state = np.array([fighter2_x0, fighter2_y0,fighter2_theta0])
        self.fighter2_theta = np.arctan(self.Target.y/self.Target.x)
        self.fighter2_done = False  # 这里说明两个战斗机都没有被击落
        self.fighter2_total_rewards = 0
        self.fighter2_x_array = []
        self.fighter2_y_array = []
        self.state = np.array([fighter1_x0, fighter1_y0,self.fighter1_theta ,
                               fighter2_x0, fighter2_y0,self.fighter2_theta])
        self.done = False # 回合结束标志
        return self.state
    # 下面是动作函数
    def step(self,action):
        # action:0-80
        fighter1_action,fighter2_action = self.action_decode(action)
        fighter1_total_rewards,fighter2_total_rewards = self.fighter1_total_rewards,self.fighter2_total_rewards
        if not self.fighter1_done:
            fighter1_state,fighter1_reward,fighter1_done = self.fighter1.step(fighter1_action,self.SAM,self.Target)
            self.fighter1_x_array.append(fighter1_state[0])
            self.fighter1_y_array.append(fighter1_state[1])
            self.fighter1_done = fighter1_done
            self.fighter1_state = fighter1_state
            self.fighter1_total_rewards += fighter1_reward
        if not self.fighter2_done:
            fighter2_state,fighter2_reward,fighter2_done = self.fighter2.step(fighter2_action,self.SAM,self.Target)
            self.fighter2_x_array.append(fighter2_state[0])
            self.fighter2_y_array.append(fighter2_state[1])
            self.fighter2_done = fighter2_done
            self.fighter2_state = fighter2_state
            self.fighter2_total_rewards += fighter2_reward
        self.state = np.array([self.fighter1_state[0],self.fighter1_state[1],self.fighter1_state[2],
                               self.fighter2_state[0],self.fighter2_state[1],self.fighter2_state[2]])
        # 下面开始设置奖励函数
        ## 如果两个累计奖励都不变化
        if (self.fighter1_total_rewards != fighter1_total_rewards) and (self.fighter2_total_rewards != fighter2_total_rewards):
            reward = max(self.fighter1_total_rewards - fighter1_total_rewards,self.fighter2_total_rewards - fighter2_total_rewards)
        else:
            reward = (self.fighter1_total_rewards + self.fighter2_total_rewards) - (fighter1_total_rewards + fighter2_total_rewards)
        # 当二者都True结束时真的结束
        if self.fighter1_done and self.fighter2_done: # 这里可以用故障树分析!!!
            self.done = True
        else:
            self.done = False
        return self.state,reward,self.done
    # 下面是根据画图
    def render(self):
        x1, y1 = [], []
        for theta in np.linspace(-np.pi, np.pi):
            x1.append(self.SAM.x + self.SAM.SAM_range * np.cos(theta))
            y1.append(self.SAM.y + self.SAM.SAM_range * np.sin(theta))
        plt.plot(self.fighter1_x_array,self.fighter1_y_array)
        plt.plot(self.fighter2_x_array,self.fighter2_y_array)
        plt.plot(x1,y1,'g.-')
        plt.plot(self.SAM.x,self.SAM.y,'ro')
        plt.plot(self.Target.x,self.Target.y,'b*')
        plt.title("rewards1:{},rewards2:{}".format(self.fighter1_total_rewards,self.fighter2_total_rewards))
        plt.legend(['Fighter1', 'Fighter2'])
        plt.show()

if __name__ == "__main__":
    env = Fighter2Env(delta_t=1, L_limits=100, Fighter_range=10,
                      SAM_range=40, SAM_x=50, SAM_y=50, Target_x=65,
                      Target_y=65, sam_aim_time=5, fighter_aim_time=10,
                      fighter_action_dim=5)
    env.reset(rand_initial_position=False)
    while True:
        action = np.random.randint(low=0, high=env.action_dim)
        env.step(action)
        if env.done:
            break
    env.render()

离散PPO代码这部分的基础知识可以参考以前的博文:基于强化学习的多战机同SEAD联合作战空战辅助决策

5.采用连续ppo算法求解

用以下代码进行训练:

# 声明环境
args = args_param(max_episode_steps=2000,batch_size=2048,max_train_steps=3000,K_epochs=10)
# 声明参数
env = Fighter_ContinuousEnv(delta_t=1, L_limits=100, Fighter_range=10,
                  SAM_range=40, SAM_x=50, SAM_y=50, Target_x=65,
                  Target_y=65, sam_aim_time=5, fighter_aim_time=10)
agent = train_network(args,env)

用以下代码进行测试:

s = env.reset(rand_initial_position=False)
x1,y1,theta1,x2,y2,theta2 = [s[0]],[s[1]],[s[2]],[s[3]],[s[4]],[s[5]]
rewards = 0.0
while True:
    a,_ = agent.choose_action(s)
    s_,r,done = env.step(a)
    s = s_
    rewards += r
    x1.append(s[0])
    y1.append(s[1])
    x2.append(s[3])
    y2.append(s[4])
    if done:
        print("当前奖励为:{}".format(rewards))
        break

用以下代码进行画图:

plt.plot(x1,y1,'b-',linewidth=1)
plt.plot(x2,y2,'r-',linewidth=1)
circle_x,circle_y = [],[]
for theta in np.linspace(-np.pi,np.pi,50):
    x = env.SAM.x + env.SAM.SAM_range*np.cos(theta)
    y = env.SAM.y + env.SAM.SAM_range*np.sin(theta)
    circle_x.append(x)
    circle_y.append(y)
plt.plot(env.SAM.x,env.SAM.y,'mo')
plt.plot(env.Target.x,env.Target.y,'k*')
plt.plot(circle_x,circle_y,'g-')
plt.legend(['fighter1','fighter2','SAM','Target'])
plt.title("fighter1_rewards:{},fighter2_rewards:{},rewards:{}".format(env.fighter1_total_rewards,env.fighter2_total_rewards,rewards))

连续ppo算法的代码如下:

import matplotlib.pyplot as plt
import numpy as np
from normalization import Normalization, RewardScaling
from replaybuffer import ReplayBuffer
from ppo_continuous import PPO_continuous
from fighter2_continuous import Fighter_ContinuousEnv

# 先定义一个参数类，用来储存超参数
class args_param(object):
    def __init__(self,max_train_steps=int(3e6),
                evaluate_freq=5e3,
                save_freq=20,
                policy_dist="Gaussian",
                batch_size=2048,
                mini_batch_size=64,
                hidden_width=64,
                lr_a=3e-4,
                lr_c=3e-4,
                gamma=0.99,
                lamda=0.95,
                epsilon=0.2,
                K_epochs=10,
                max_episode_steps = 1000,
                use_adv_norm=True,
                use_state_norm=True,
                use_reward_norm=False,
                use_reward_scaling=True,
                entropy_coef=0.01,
                use_lr_decay=True,
                use_grad_clip=True,
                use_orthogonal_init=True,
                set_adam_eps=True,
                use_tanh=True):
        self.max_train_steps = max_train_steps
        self.evaluate_freq = evaluate_freq
        self.save_freq = save_freq
        self.policy_dist = policy_dist
        self.batch_size = batch_size
        self.mini_batch_size = mini_batch_size
        self.hidden_width = hidden_width
        self.lr_a = lr_a
        self.lr_c = lr_c
        self.gamma = gamma
        self.lamda = lamda
        self.epsilon = epsilon
        self.K_epochs = K_epochs
        self.use_adv_norm = use_adv_norm
        self.use_state_norm = use_state_norm
        self.use_reward_norm = use_reward_norm
        self.use_reward_scaling = use_reward_scaling
        self.entropy_coef = entropy_coef
        self.use_lr_decay = use_lr_decay
        self.use_grad_clip = use_grad_clip
        self.use_orthogonal_init = use_orthogonal_init
        self.set_adam_eps = set_adam_eps
        self.use_tanh = use_tanh
        self.max_episode_steps = max_episode_steps
    def print_information(self):
        print("Maximum number of training steps:",self.max_train_steps)
        print("Evaluate the policy every 'evaluate_freq' steps:",self.evaluate_freq)
        print("Save frequency:",self.save_freq)
        print("Beta or Gaussian:",self.policy_dist)
        print("Batch size:",self.batch_size)
        print("Minibatch size:",self.mini_batch_size)
        print("The number of neurons in hidden layers of the neural network:",self.hidden_width)
        print("Learning rate of actor:",self.lr_a)
        print("Learning rate of critic:",self.lr_c)
        print("Discount factor:",self.gamma)
        print("GAE parameter:",self.lamda)
        print("PPO clip parameter:",self.epsilon)
        print("PPO parameter:",self.K_epochs)
        print("Trick 1:advantage normalization:",self.use_adv_norm)
        print("Trick 2:state normalization:",self.use_state_norm)
        print("Trick 3:reward normalization:",self.use_reward_norm)
        print("Trick 4:reward scaling:",self.use_reward_scaling)
        print("Trick 5: policy entropy:",self.entropy_coef)
        print("Trick 6:learning rate Decay:",self.use_lr_decay)
        print("Trick 7: Gradient clip:",self.use_grad_clip)
        print("Trick 8: orthogonal initialization:",self.use_orthogonal_init)
        print("Trick 9: set Adam epsilon=1e-5:",self.set_adam_eps)
        print("Trick 10: tanh activation function:",self.use_tanh)

# 下面函数用来训练网络
def train_network(args,env,show_picture=True):
    epsiode_rewards = []
    epsiode_mean_rewards = []
    # 下面将导入env环境参数
    args.state_dim = env.observation_space.shape[0]
    args.action_dim = env.action_space.shape[0]
    args.max_action = float(env.action_space[0][1])
    # 下面将定义一个缓冲区
    replay_buffer = ReplayBuffer(args)
    # 下面将定义一个PPO智能体类
    agent = PPO_continuous(args)
    # 下面将采用Trick 2技巧标准化
    state_norm = Normalization(shape=args.state_dim)
    if args.use_reward_norm:
        reward_norm = Normalization(shape=1)
    elif args.use_reward_scaling:  # Trick 4:reward scaling
        reward_scaling = RewardScaling(shape=1, gamma=args.gamma)
    # 下面开始进行训练过程
    for epsiode in range(args.max_train_steps):
        # 每个回合首先对值进行初始化
        epsiode_reward = 0.0
        done = False
        epsiode_count = 0
        # 再赋予一个新的初始状态
        s = env.reset()
        # 对状态进行标准化操作
        if args.use_state_norm:
            s = state_norm(s)
        if args.use_reward_scaling:
            reward_scaling.reset()
        # 设置一个死循环，后面若跳出便在死循环中跳出
        while True:
            # 每执行一个回合，count次数加1
            epsiode_count += 1
            a,a_logprob = agent.choose_action(s)
            # 根据参数的不同选择输出是高斯分布/Beta分布调整
            if args.policy_dist == "Beta":
                action = 2*(a-0.5)*args.max_action
            else:
                action = a
            # 下面是执行环境交互操作
            s_,r,done = env.step(action) ## !!! 这里的环境是自己搭建的，输出每个人都不一样
            s_ = s_.T[0]                 ## !!! 这一部起始没必要，由于我的环境有问题所以加的这一步
            epsiode_reward += r
            # 下面考虑状态标准化的情况
            if args.use_state_norm:
                s_ = state_norm(s_)
            # 下面考虑奖励标准化的可能性
            if args.use_reward_norm:
                r = reward_norm(r)
            elif args.use_reward_scaling:
                r = reward_scaling(r)
            # 下面考虑回合的最大运行次数(只要回合结束或者超过最大回合运行次数)
            if done or epsiode_count >= args.max_episode_steps:
                dw = True
            else:
                dw = False
            # 将经验存入replayBuffer中
            replay_buffer.store(s,action,a_logprob,r,s_,dw,done)
            # 重新赋值状态
            s = s_
            # 当replaybuffer尺寸到达batchsize便会开始训练
            if replay_buffer.count == args.batch_size:
                agent.update(replay_buffer,epsiode)
                replay_buffer.count = 0
            # 如果回合结束便退出
            if done:
                epsiode_rewards.append(epsiode_reward)
                epsiode_mean_rewards.append(np.mean(epsiode_rewards))
                print("第{}次训练的奖励为{:.2f},平均奖励为{:.2f}".format(epsiode,
                                                            epsiode_reward, epsiode_mean_rewards[-1]))
                break
    # 如果需要画图的话
    if show_picture:
        plt.plot(epsiode_rewards)
        plt.plot(epsiode_mean_rewards)
        plt.xlabel("epsiodes")
        plt.ylabel("rewards")
        plt.title("Continuous PPO With Optimization")
        plt.legend(["rewards","mean_rewards"])
        plt.show()
    return agent

其他待载入的各个脚本见文章基于强化学习的空战辅助决策(2D)有提及，结果为:

感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
98_es生产集群部署之针对集群重启时的shard恢复耗时过长问题定制的重要参数小山居
98_es生产集群部署之针对集群重启时的shard恢复耗时过长问题定制的重要参数shardrecovery配置以及集群重启时的无意义shard重分配问题在集群重启的时候，有一些配置会影响shard恢复的过程。首先，我们需要理解默认配置下，shard恢复过程会发生什么事情。如果我们有10个node，每个node都有一个shard，可能是primaryshard或者replicashard，你有一个i
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
k8s中Service暴露的种类以及用法听说唐僧不吃肉 K8S kubernetes 容器云原生
一、说明在Kubernetes中，有几种不同的方式可以将服务（Service）暴露给外部流量。这些方式通过定义服务的spec.type字段来确定。二、详解1.ClusterIP定义：默认类型，服务只能在集群内部访问。作用：通过集群内部IP地址暴露服务。示例：spec:type:ClusterIPports:-port:80targetPo
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
Kubernetes 自定义控制器开发 IT回忆录 Kubenetes kubernetes
目录前言一、CRD二、创建数据库表（Mysql）二、控制器开发1.使用kubernetes的examplecontroller模板2.在controller.go中新增数据表监听方法3.修改tools工具生成资源对象结构体定义这里记录开发k8s控制器的一般方式，controller开发主要使用k8s提供的client-go库进行。前言Controller监听集群内部资源对象的变化，编辑资源对象(增
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
越长大越孤单换个时间就好
“于今之世，孰是真身”。意思是：在今天的社会，谁是真正的自己。第一次有这种感受是在初二初三，当时平凡的我只想平凡的走完我的初中时代，不想有变故，不想多新朋友，也不想成为别人的新朋友。在数着教室里那张被多数人期待的，挂在教室后方的钟表，铃声响起结束一天百般无聊的课程，我像个机器人麻木做着和往常一样的动作，拿着装满书的书包，看着空荡荡又充满气味的凳阁，再一次想起我为什么拿着所有的书回去。直到肩膀酸痛，
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
协作机器人关节模组总结雪花飞龙协作机器人本体结构
协作机器人关节模块总结关节模组介绍关节模组一般部件：通讯协议泰科机器人关节模组RJS系列RJS-II系列RJU系列SHD系列RGM机器人关节模组关节模组介绍协作机器人的技术已经相对成熟，如何快速生产协作机器人？如何降低机器人成本？等问题是现在研究的一个重点。协作机器人的关节功能相对独立，可以做成一个独立模块，只需要提供电源和控制信号就好。关节模组一般部件：1.减速器：谐波减速器是最常用的减速器，此
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
完美机器人负债的宝贝
白叶的父母又吵架了，白叶感觉很痛苦，要是他的父母不吵架就好了。要是他的父母和他想的一样完美就好了。“你想要完美父母吗？我可以帮你实现。”白叶的手机里突然出现了这样一则短信，把白叶吓了一跳。一定是有人搞的恶作剧，白叶并不理会这条短信。但是第二天奇怪的事情就发生了。明天开一篇脑洞，我先起个头，剩下的随大家编✧٩(ˊωˋ*)و✧
ajax的同源策略 Spring_Bear
问题之前帮忙做的广告机器人数据提交的部分，利用ajax的XMLHTTPRequest提交到服务器的时候总是报错，错误类型是不同源。想到浏览器中的同源策略，明白了问题的原因。同源策略简单的说，就是浏览器不允许两个不同源的域名之间交换信息，那么这里就有两个问题。一是，什么信息不允许交换；二是，怎样算不同源。阮一峰的这篇博客浏览器同源政策及其规避方法其实已经介绍得比较清楚。引用一下，第一个问题：目前，如
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
老生常谈：MySQL高可用架构我有一头小花驴 mysql 架构数据库
引言“高可用”是互联网一个永恒的话题，先避开MySQL不谈，为了保证各种服务的高可用有几种常用的解决方案。服务冗余：把服务部署多份，当某个节点不可用时，切换到其他节点。服务冗余对于无状态的服务是相对容易的。服务备份：有些服务是无法同时存在多个运行时的，比如说：Nginx的反向代理，一些集群的leader节点。这时可以存在一个备份服务，处于随时待命状态。自动切换：服务冗余之后，当某个节点不可用时，要
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
MySQL MHA pokemon.. mysql 数据库
一、MySQLMHA高可用环境概述1.什么是MHAMHA（MasterHighAvailability）是一款用于MySQL数据库集群的高可用解决方案，主要解决MySQL单点故障问题。在MySQL集群的主服务器发生故障时，MHA可以自动执行故障切换，将一个从服务器提升为新的主服务器，最大限度地保证数据的一致性。MHA的切换时间通常在0-30秒之间，极大提高了MySQL集群的可用性。2.MHA的组成
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
数字化供应链架构、全景管理、全流程贯通整体解决方案：供应链管理就是利用管理工具、IT技术将企业引入外部资源的过程精细化、标准化管理，实现高效益低成本运营。数字化建设方案数字化转型数据治理主数据数据仓库智能制造数字工厂制造业数字化转型工业互联网供应链数字仓储智慧物流智慧仓储物流园区架构大数据
数字化供应链架构、全景管理、全流程贯通方案数字化供应链架构、全景管理、全流程贯通方案项目背景与目标供应链管理现状及挑战数字化供应链架构概念及优势全景管理与全流程贯通目标预期成果与效益智能管理机制建设需求预测与智能分析应用合同管理智能化提升举措仓储管理自动化和机器人技术应用物流配送优化策略周边系统整合与数据贯通现有系统梳理及评估报告数据接口标准制定和实施计划流程对接和数据交互机制设计监控和报警机制完
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

基于强化学习的多战机同SEAD联合作战空战辅助决策(改进版)

基于强化学习的多战机同SEAD联合作战空战辅助决策(改进版)

1.基础知识

2.之前的工作

3.现在的工作

4.代码

5.采用连续ppo算法求解

你可能感兴趣的:(集群机器人,强化学习)