kill bert

DQN算法详解

一.概述

强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。

说到DQN中有值函数网络，这里简单介绍一下强化学习中的一个概念，叫值函数近似。一个state action pair 对应一个值函数。理论上对于任意的state action pair 我们都可以由公式求出它的值函数，即用一个查询表来表示值函数。但是当state或action的个数过多时，分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数。

论文：Human-level control through deep reinforcement learning | Nature
代码：https://github.com/indigoLovee/DQN

二.DL与RL结合的问题

DL需要大量带标签的样本进行监督学习；RL只有reward返回值，而且伴随着噪声，延迟（过了几十毫秒才返回），稀疏（很多State的reward是0）等问题；
DL的样本独立；RL前后state状态相关；
DL目标分布固定；RL的分布一直变化，比如你玩一个游戏，一个关卡和下一个关卡的状态分布是不同的，所以训练好了前一个关卡，下一个关卡又要重新训练；
过往的研究表明，使用非线性网络表示值函数时出现不稳定等问题。

三.DQN解决问题方法

通过Q-Learning使用reward来构造标签（对应问题1）
通过experience replay（经验池）的方法来解决相关性及非静态分布问题（对应问题2、3）
使用一个CNN（MainNet）产生当前Q值，使用另外一个CNN（Target）产生Target Q值（对应问题4）

1、构造标签

前面提到DQN中的CNN作用是对在高维且连续状态下的Q-Table做函数拟合，而对于函数优化问题，监督学习的一般方法是先确定Loss Function，然后求梯度，使用随机梯度下降等方法更新参数。DQN则基于Q-Learning来确定Loss Function。

Q-Learning的更新公式：

DQN的Loss Function为:

其中 θ是网络参数，目标为:

显然Loss Function是基于Q-Learning更新公式的第二项确定的，两个公式意义相同，都是使当前的Q值逼近Target Q值。

2、经验池（experience replay）

经验池的功能主要是解决相关性及非静态分布问题。具体做法是把每个时间步agent与环境交互得到的转移样本储存到回放记忆单元，要训练时就随机拿出一些（minibatch）来训练。（其实就是将游戏的过程打成碎片存储，训练时随机抽取就避免了相关性问题）

3、目标网络

在Nature 2015版本的DQN中提出了这个改进，使用另一个网络（这里称为TargetNet）产生Target Q值。具体地，Q(s,a;θi)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a;θ−i)表示TargetNet的输出，代入上面求 TargetQ值的公式中得到目标Q值。根据上面的Loss Function更新MainNet的参数，每经过N轮迭代，将MainNet的参数复制给TargetNet。

引入TargetNet后，再一段时间里目标Q值使保持不变的，一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。

4.模型构建

DQN算法流程：

初始化经验池，随机初始化Q网络，初始化target Q网络，其参数与Q网络参数相同；
repeat
1. 重置环境，获得第一个状态；
2. repeat
  1. 用 $\epsilon$ -greedy策略生成一个action：其中有 $\epsilon$ 的概率会随机选择一个action，即为探索模式；其他情况下， $a_{t} = max_{a}Q(s_{t}, a;\theta)$ , 选择在 $s_t$ 状态下使得Q最大的action，即为经验模式；
  2. 根据动作与环境的交互，获得反馈的reward $r_{t}$ 、下一个状态 $s_{t+1}$ 和是否触发终止条件done;
  3. 将经验 $s_{t}, a_{t}, r_{t}, s_{t+1}, done$ 存入经验池；
  4. 从经验池中随机获取一个minibatch的经验；
  5. $Qtarget_{t} = \left\{\begin{matrix} r_{t},{\,}if{\,} done \\r_{t} + \gamma max_{a^{'}}Qtarget(s_{t+1}, a^{'}; \theta)，if{\,}not{\,}done \end{matrix}\right.$
  6. 根据 $Qpred_{t}$ 和 $Qtarget_{t}$ 求loss，梯度下降法更新Q网络；
3. until done=True
4. 每隔固定个training step，更新target Q网络，使其参数与Q网络相同；
until $Q (s, a)$ 收敛

四、代码详解

代码链接：
链接：https://pan.baidu.com/s/1ugaruRWcEzlhRDdVoQT1vw?pwd=q9ns
提取码：q9ns
argparse基本用法

1. 实验内容

MountainCar问题是强化学习中的一个经典控制问题。该问题场景如图1所示，小车每次都被初始化在一个山谷的谷底，它的目标是以最少的移动次数到达右侧山顶黄色小旗的位置。但是小车的发动机不足以支持它一直向右爬坡驶向山顶，唯一的成功方式就是让小车通过左右移动积蓄足够的动量冲过山顶。

图 MountainCar问题

在本实验中，小车即为智能体，小车所处的运动空间可称为环境，小车与环境交互后，会获得当前的状态，状态包含以下两个状态变量：

状态变量	定义	Min	Max
Cart Position	小车在x轴方向上的位置	-1.2	0.6
Cart Velocity	小车的运动速度	-0.07	0.07

小车根据当前的状态，依据现有的策略，执行相应的动作，在MountainCar问题中，可执行的动作为以下三种：

	动作
0	向左加速
1	不加速
2	向右加速

该实验中，若触发以下两种情况中任意一种，则一轮实验终止（我们称一个episode为一轮实验）：

小车达到右侧小旗的位置
小车的移动次数超过200次

2.代码

2.1Agent的设计

构建一个可以解决复杂问题的智能体，可采取Model $\rightarrow$ Algorithm $\rightarrow$ Agent的构建结构。如图6所示，我们分别对model，dqn algorithm和agent进行构建，agent负责与环境的交互，在交互过程中把生成的数据提供给algorithm来更新model。

class MountainCarModel(parl.Model):
    """ 继承parl.Model定义DQN网络结构
    
    Args:
        obs_dim (int): 观察值（状态）的维度
        act_dim (int): 行动的维度

    """
    def __init__(self, obs_dim, act_dim):
        super(MountainCarModel, self).__init__()
        # 设定两个隐藏层的神经元数量都为128
        hid1_size = 128
        hid2_size = 128
        # 定义第一层全连接层，输入单元数目为观察值的维度，在本实验中obs_dim为2，输出单元数目为隐藏层神经元数目hid1_size
        self.fc1 = nn.Linear(obs_dim, hid1_size)
        # 定义第二层全连接层
        self.fc2 = nn.Linear(hid1_size, hid2_size)
        # 定义第三层全连接层，输入单元数目为隐藏层神经元数目hid2_size，输出单元数目为action的维度
        self.fc3 = nn.Linear(hid2_size, act_dim)
    
    def forward(self, obs):
        # 前向计算
        h1 = F.relu(self.fc1(obs))
        h2 = F.relu(self.fc2(h1))
        # 网络输出为在当前状态下，所有action对应的Q值，Q(s, a1), Q(s, a2), Q(s, a3)
        Q = self.fc3(h2)
        return Q

class DQN(parl.Algorithm):
    """ DQN算法

    Args:
        model (parl.Model): 定义Q函数的前向网络结构
        gamma (float): reward的衰减因子
        lr (float): 学习率
        
    """
    def __init__(self, model, gamma=None, lr=None):
        self.model = model
        self.target_model = copy.deepcopy(model) # 复制一个相同的模型作为target model
        self.gamma = gamma
        self.lr = lr

        self.mse_loss = paddle.nn.MSELoss(reduction='mean') # 定义损失函数为均方差损失函数，计算预测值和目标值的均方差误差
        self.optimizer = paddle.optimizer.Adam(
            learning_rate=lr, parameters=self.model.parameters()) # 定义Adam优化器，学习率设置为0.001
    
    def predict(self, obs):
        # 调用model.forward, 根据输入的状态变量，获取所有action对应的Q值
        return self.model.forward(obs) 
    
    def learn(self, obs, action, reward, next_obs, terminal):
        # 使用DQN算法更新model的forward网络
        pred_values = self.model.forward(obs) # 获得Q(s, a1), Q(s, a2), Q(s, a3)
        action_dim = pred_values.shape[-1]
        action = paddle.squeeze(action, axis=-1)
        action_onehot = paddle.nn.functional.one_hot(action, num_classes=action_dim)
        pred_value = paddle.multiply(pred_values, action_onehot)
        pred_value = paddle.sum(pred_value, axis=1, keepdim=True) # 计算Q预测值

        with paddle.no_grad(): # 禁用动态图梯度计算
            max_v = self.target_model.forward(next_obs).max(1, keepdim=True) # 使用target model预测Q值，并选取maxQ(next_s, a)，用于计算target Q
            target = reward + (1 - terminal) * self.gamma * max_v # 计算Q目标值
        loss = self.mse_loss(pred_value, target) # 计算Q(s, a)与target_Q的均方差，得到loss

        self.optimizer.clear_grad()
        loss.backward()
        self.optimizer.step()
        return loss
    
    def sync_target(self):
        # 把self.model的模型参数值同步到self.target_model
        self.model.sync_weights_to(self.target_model)

class MountainCarAgent(parl.Agent):
    """ 继承parl.Agent定义的智能体

    Args:
        algorithm (parl.Algorithm): DQN算法
        act_dim (int): 行动的维度
        e_greed (float): e-greedy策略中的e概率
        e_greed_decrement (float): e概率的衰减，随着训练逐步收敛，探索的概率逐渐减小
        
    """
    def __init__(self, algorithm, act_dim, e_greed=0.1, e_greed_decrement=0):
        super(MountainCarAgent, self).__init__(algorithm)
        assert isinstance(act_dim, int)
        self.act_dim = act_dim

        self.global_step = 0
        self.update_target_steps = 200 # 每隔200个training steps将model的参数复制给target model
    
        self.e_greed = e_greed # 有一定的概率会随机选取动作，即让智能体去探索
        self.e_greed_decrement = e_greed_decrement # 随着训练逐步收敛，逐渐降低探索的程度

    def sample(self, obs):
        sample = np.random.random() # 产生[0, 1)区间内的随机浮点数
        if sample < self.e_greed: # 如果随机值小于e_greed，则进入探索模式，随机选择一个动作
            act = np.random.randint(self.act_dim)
        else:
            act = self.predict(obs) # 经验模式：根据Q值选择最优动作
        self.e_greed = max(0.01, self.e_greed - self.e_greed_decrement) # 随着训练逐步收敛，逐渐降低探索的程度
        return act
    
    def predict(self, obs):
        obs = paddle.to_tensor(obs, dtype='float32')
        pred_q = self.alg.predict(obs)
        act = pred_q.argmax().numpy()[0] # 选择Q值最大的action
        return act
    
    def learn(self, obs, act, reward, next_obs, terminal):
        # 每隔200个training steps同步一次model和target model的参数
        if self.global_step % self.update_target_steps == 0:
            self.alg.sync_target()
        self.global_step += 1

        act = np.expand_dims(act, axis=-1)
        reward = np.expand_dims(reward, axis=-1)
        terminal = np.expand_dims(terminal, axis=-1)

        obs = paddle.to_tensor(obs, dtype='float32')
        act = paddle.to_tensor(act, dtype='int32')
        reward = paddle.to_tensor(reward, dtype='float32')
        next_obs = paddle.to_tensor(next_obs, dtype='float32')
        terminal = paddle.to_tensor(terminal, dtype='float32')
        loss = self.alg.learn(obs, act, reward, next_obs, terminal) # 训练网络并得到loss
        return loss.numpy()[0]

class ReplayMemory(object):
    def __init__(self, max_size):
        self.buffer = collections.deque(maxlen=max_size)
    
    def append(self, exp):
        self.buffer.append(exp) 
    
    def sample(self, batch_size):
        mini_batch = random.sample(self.buffer, batch_size) # 随机抽取batch_size条经验
        obs_batch, action_batch, reward_batch, next_obs_batch, done_batch = [], [], [], [], []

        for experience in mini_batch:
            s, a, r, s_p, done = experience # 每条经验包含state，action，reward，next_state, done
            obs_batch.append(s)
            action_batch.append(a)
            reward_batch.append(r)
            next_obs_batch.append(s_p)
            done_batch.append(done)
        return np.array(obs_batch).astype('float32'), \
            np.array(action_batch).astype('float32'), np.array(reward_batch).astype('float32'), \
            np.array(next_obs_batch).astype('float32'), np.array(done_batch).astype('float32')
    
    def __len__(self):
        return len(self.buffer)

2.2 训练配置

训练配置的具体流程为：

设置超参数；
通过gym创建MountainCar-v0环境；
实例化MountainCarAgent。

# 设置超参数
LEARN_FREQ = 5            # 训练频率，不需要每有一条经验都训练一次，攒一些新增经验后再learn，提高效率
MEMORY_SIZE = 20000       # 经验池的大小，越大越占用内存
MEMORY_WARMUP_SIZE = 200  # 在replay_memory中预存一些经验数据，再开启训练
BATCH_SIZE = 32           # 每次从replay memory中随机出一批大小为Batch_Size的数据，供agent学习
LEARNING_RATE = 0.001     # 学习率
GAMMA = 0.99              # reward 的衰减因子，一般取 0.9 到 0.999 不等

# 使Gym创建MountainCar环境
env = gym.make('MountainCar-v0')
obs_dim = env.observation_space.shape[0] # 获得环境状态维度
act_dim = env.action_space.n             # 获得动作维度
logger.info('obs_dim {}, act_dim {}'.format(obs_dim, act_dim))

# 对智能体进行实例化
rpm = ReplayMemory(MEMORY_SIZE)
model = MountainCarModel(obs_dim=obs_dim, act_dim=act_dim)
alg = DQN(model, gamma=GAMMA, lr=LEARNING_RATE)
agent = MountainCarAgent(alg, act_dim=act_dim, e_greed=0.1, e_greed_decrement=1e-6)

2.3 模型训练

本实验中，我们使用Gym创建了MountainCar环境。Gym是强化学习中的经典环境库，用于研究和开发强化学习相关算法的仿真平台。其具体的API如图7 所示。

图 gym环境

模型训练的具体步骤如下：

初始化环境；
在未触发终止条件的情况下：

1）根据当前状态，采用随机选取或根据最大Q值选取的方式，获得一个动作；

2）动作和环境交互，给出交互后新的环境状态，针对当前action的reward和是否触发终止条件done；

3）将state, action, reward, next_state, done作为一条经验，存入经验池中；

4）如果经验池中存储的经验数量超过MEMORY_WARMUP_SIZE且该step为训练step，则：从经验池中随机选取一个BATCH_SIZE的经验，作为数据输入训练agent；
触发终止条件，一个episode结束，获得整个episode的total_reward。

run_train_episode: 训练agent；根据上述模型训练步骤，执行一个episode的训练。

def run_train_episode(agent, env, rpm):
    # 训练一个episode
    total_reward = 0
    obs = env.reset()
    step = 0
    while True:
        step += 1
        action = agent.sample(obs) # 随机选取动作（探索模式）或按最大Q值选取动作（经验模式）
        next_obs, reward, done, _ = env.step(action)
        rpm.append((obs, action, reward, next_obs, done))

        if (len(rpm) > MEMORY_WARMUP_SIZE) and (step % LEARN_FREQ == 0):
            (batch_obs, batch_action, batch_reward, batch_next_obs, batch_done) = rpm.sample(BATCH_SIZE)
            train_loss = agent.learn(batch_obs, batch_action, batch_reward, batch_next_obs, batch_done)
        
        total_reward += reward
        obs = next_obs
        if done:
            break
    return total_reward

2.4 模型评估

模型评估的具体步骤为：

初始化环境
在未触发终止条件的情况下：

1）根据当前状态，选择Q值最大的action，作为预测的动作；

2）动作和环境交互，给出交互后新的环境状态，针对当前action的reward和是否触发终止条件done；

3）触发终止条件，一个episode结束，获得整个episode的total_reward.
五个episode结束，获得total_reward的平均值。

run_evaluate_episodes: 评估agent；运行五个episode，求total_reward的平均值。

def run_evaluate_episodes(agent, env, eval_episodes=5, render=False):
    # 评估agent
    eval_reward = []
    for i in range(eval_episodes):
        obs = env.reset()
        episode_reward = 0
        while True:
            action = agent.predict(obs) # 根据最大Q值预测动作
            obs, reward, done, _ = env.step(action)
            episode_reward += reward
            if render:
                env.render()
            if done:
                break
        eval_reward.append(episode_reward)
    return np.mean(eval_reward)

while len(rpm) < MEMORY_WARMUP_SIZE:
    run_train_episode(agent, env, rpm)

max_episode = 5000
episode = 0

while episode < max_episode:
    for i in range(50):
        total_reward = run_train_episode(agent, env, rpm) # 训练agent
        episode += 1
    
    eval_reward = run_evaluate_episodes(agent, env, render=False) # 每训练50个episode评估一次模型
    logger.info('episode:{}  e_greed:{}  Test reward:{}'.format(episode, agent.e_greed, eval_reward))

2.5 模型保存

# 保存模型参数到指定路径
save_path = './model_dir'
agent.save(save_path)

# 若想读取该模型参数恢复到指定agent上，可使用如下代码：
if os.path.exists('./model_dir'):
    agent.restore('./model_dir')

图训练过程前中期

图训练过程后期

【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
打卡Day12 HAhhhiu python学习打卡 python 机器学习
@浙大疏锦行知识点：遗传算法：来源于自然界中的生物进化和基因遗传思想：模拟生物进化过程，通过“选择（保留优秀解）、交叉（组合解的特征）、变异（引入新特征）”迭代优化我想培养出一只超级泰迪犬？该怎么办呢？首先，我有一群泰迪犬，但是小泰迪们的各种基因不同，形态各色，我只想要一只高大、卷毛和聪明的泰迪。（这是初始解的集合，也是案例学习代码中，我们所设定的随机森林中的一堆的参数范围）接着，我开始挑选符合上
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
财富自由之路第三章可可_4b5e
读好书一定要慢。文字的出现，使人类与其他动物区分开来。人类也正是因为有了文字才与其它物种有了本质上的不同。而阅读，对于任何一个正常人类来说都具有非凡的意义。人类之外的物种只能依赖最落后但被称为神奇的方式积累经验：基因遗传。啄木鸟可以本能地采用最优算法获取食物——而一个MIT的数学博士面对同样的问题却不见得可以迅速解决；而啄木鸟的小脑袋在没有受过高等教育的情况下，是如何得到结果的呢？答案是：通过上百
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
如何科学谋划好精心组织好第二批主题教育 3e148a046fff
学习贯彻习近平新时代中国特色社会主义思想主题教育第一批总结暨第二批部署会议5日在京召开。下面，就如何科学谋划好、精心组织好第二批主题教育，本人谈四点看法。一是注重防止形式主义、官僚主义，强化严实之风。人民群众看主题教育是否有成效，最直观的感受是看党风方面存在的问题是否得到解决、党员干部作风是否有明显进步。要身到心到，杜绝“基层走秀”，杜绝“走秀式”调研，要迈开步子、沉下身子，坚决向形式主义说“不”
【数据结构 | C语言】Dijkstra算法（迪杰斯特拉算法）竹一笔记 C 数据结构数据结构 c语言开发语言
文章目录一、Dijkstra算法介绍二、算法C语言三、完整代码四、示例一、Dijkstra算法介绍Dijkstra算法解决了单源点的最短路径Dijkstra算法是贪心算法步骤：从源点出发，找到已连通点与未连通点的最小代价边连接最小代价边，将该顶点归并到已连接顶点集将该顶点连通的边的代价与最小代价比较，若代价小于最小代价，则更新最小代价边重复操作，直到连通所有顶点为止Dijkstra算法与Prim算
lab2-2 Dijkstra算法求由顶点a到顶点h的最短路径西一安鲜算法
1.问题[描述算法问题，首选形式化方式（数学语言），其次才是非形式化方式（日常语言）]对于下图使用Dijkstra算法求由顶点a到顶点h的最短路径，按实验报告模板编写算法。2.解析Dijkstra算法（单源点路径算法，要求：图中不存在负权值边），Dijkstra算法使用了广度优先搜索解决赋权有向图或者无向图的单源最短路径问题，算法最终得到一个最短路径树。Dijkstra(迪杰斯特拉)算法是典型的
单源最短路之dijkstra 「維他檸檬茶」算法最短路
迪杰斯特拉算法主要用于解决单源最短路问题，主要有两种，朴素版和堆优化版，数据量较大时用堆优化版。迪杰斯特拉朴素版：#include#includeusingnamespacestd;#defineintlonglong//可能会超时#definePIIpairconstintINF=0x3f3f3f3f,mod=998244353;constintN=505;intn,m;intg[N][N],m
【初学数据结构】关于KMP算法的回退思考 Das1 算法数据结构
初学KMP算法时，理解next数组以及回退过程是一个超级劝退过程。如果实在理解不了的，可以直接背。虽然作为十大经典算法之一，但是并不是非常重要，也就考试会考到罢了。关键数据结构解释next数组：next[k]是t[0]~t[j-1]这个串的最大相同前缀的后一个地址，同时也表示最大相同前缀的数量。s串，t串：表示两个索引j,k在进行匹配时所指代的字串next数组是什么？求next数组实际上就是求对于
【算法-图论】图的定义与一些常用术语小蛋编程 C++c++算法
【算法-图论】图的定义图论编辑器1：https://csacademy.com/app/graph_editor/图论编辑器2：https://graphonline.top/ch/1.图是什么图（graph）由节点（node）和边（edge）组成。其中，节点集合记为VVV，边集合记为EEE。每条边连接两个节点，某些图的边可能具有方向性。集合元素的数量用该集合的绝对值来表示。通过对比可以看出，图比
【PTA数据结构 | C语言版】求图中关键活动
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现求带权的有向图中关键活动的算法。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。输出格式：按格式输出关键活动，其中u为起点编号，v为终点编号。按起点编号的
【PTA数据结构 | C语言版】最短路的交点
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目给定有向加权图G，和4个顶点u,v,s,t。假设图G中所有边的权值都非负。设计一个算法来判定“从u到v的最短路径”和“从s到t的最短路径”是否存在一个交点w。也即，顶点w是u到v的最短路径上的一个顶点，同时也是s到t的最短路径上的一个顶点。注意：最短路径包含两个端点；一对顶点间的最短路径可能不止一条，求交点时必须将所有最短路径考虑在内。输
【PTA数据结构 | C语言版】求单源最短路的Dijkstra算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现在带权的有向图中求单源最短路的Dijkstra算法。注意：当多个待收录顶点路径等长时，按编号升序进行收录。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
孩子学习写作的好方法-写日记憧憬着的人儿
这是我之前在亲子群中的一次学姐分享，分享孩子写日记的经历以及如何引导的经历。从一开始，我对写日记有自己的定义，简单来说，就是每日天气每日发生每日感受。它可以平淡如水一字带过，可波澜壮阔长篇大论。他是输出，我们的大脑天生懒惰，不喜欢这活。所以开始，我们得让他足够简单可行。大脑先接受再强化再内化成生活的一部分！它的长期效果我就不讲了，大家都特别清晰。打磨一个人的思维，文字的力量是巨大的。最后我再讲讲它
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
长篇科幻小说《黄茧》第33章发现 3 橙黄茧香
如果……如果那样下沉……那样穿越，就……就算最终能够完成，只怕……只怕我……我也会被这透明凝胶给窒息而亡。提取转化后的个体意识量子态信息数据，全需接受蜜云虚拟世界数理逻辑算法制约，必须在M蜜巢系统模式构架下运行，故环境数据对个体意识数据形成制约，如两者间发生数理冲突，个体意识信息数据必会被M蜜巢系统算法清除，个体意识也就将会在蜜云虚拟世界内消亡，窒息本质上对信息数据不构成损伤，但它执行是蜜云虚拟世
ROS和autosar区别和联系，以及AP/CP对比ROS Jaliang_ 汽车
ROS和autosar区别和联系ROS(RobotOperatingSystem)和AUTOSAR(AutomotiveOpenSystemArchitecture)是两个不同领域的开源软件框架。应用领域的不同:ROS主要面向机器人技术和相关的智能系统，它为机器人研发提供了一套完整的软件解决方案，包括通信、驱动、算法、模拟等各方面的支持。ROS适合用于机器人的控制、感知、规划、模拟等方面的开发，也
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
C#实现24种数据校验算法的综合指南及工具包.zip 语嫣凝冰
本文还有配套的精品资源，点击获取简介：在数据通信和网络编程中，数据的完整性和准确性是至关重要的。C#作为一种流行的开发语言，提供了强大的工具来实现各类数据校验算法。本压缩包包含了一个名为“WindowsFormsApp”的C#应用程序，用于展示和实验24种数据校验方法，涵盖从简单到复杂的各种算法。这包括CRC校验、MD5、SHA系列、Adler32、Checksum、ParityBit、LRC、H
《数据结构》学习笔记二：算法（二）小曼blog
继续上节的学习，我们在这一篇文章里把“算法”这一章内容学习完。本节解决问题：算法的好坏到底是如何评估的？知识点：1.函数的渐进增长2.算法的时间复杂度3.常见的时间复杂度4.算法的空间复杂度1.函数的渐进增长这一知识点与数学相关，不过没关系都是很容易理解的内容。问题：假如两个算法的输入规模都是n,A的执行次数是2n+3,B的执行次数是3n+1,那么这两个算法哪一个更好呢？我们来分析一下，用数学的折
向量数据库FAISS/Chromadb/ES/milvus简单概述
FAISSFAISS（FacebookAISimilaritySearch）是一种高性能的向量相似性搜索库，用于在大规模向量数据集中快速搜索最相似的向量。它是由FacebookAIResearch开发的，旨在解决大规模向量搜索的问题，广泛应用于各种领域，如图像搜索、文本搜索、推荐系统等。FAISS的主要特点和优势如下：高效的相似性搜索：FAISS使用了一系列高效的算法和数据结构，如倒排索引、局部敏
大语言模型：人像摄影的“达芬奇转世”？——从算法解析到光影重塑的智能摄影革命黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
导言在摄影术诞生之初，达芬奇或许无法想象，他对于光影、比例和解剖的严谨研究，会在数百年后以另一种形式重生。今天，当摄影师面对复杂的光线环境或苦苦寻找最佳构图时，一位由代码构筑的“光影军师”正悄然降临——大语言模型（LLM）正以前所未有的方式，重塑人像摄影的创作边界。解构经典：大语言模型如何“消化”百年摄影智慧大语言模型并非凭空创造建议，其根基在于对海量摄影知识体系的深度理解与结构化重组。理论内化：
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

DQN算法详解

DQN算法详解

一.概述

二.DL与RL结合的问题

三.DQN解决问题方法

1、构造标签

Q-Learning的更新公式：

DQN的Loss Function为:

2、经验池（experience replay）

3、目标网络

4.模型构建

四、 代码详解

1. 实验内容

2.代码

2.1Agent的设计

2.2 训练配置

2.3 模型训练

2.4 模型评估

2.5 模型保存

你可能感兴趣的:(强化学习入门,算法,机器学习,深度学习)

四、代码详解