AItrust

强化学习入门（二）强化学习MDP四元组，Q表格的概念和更新策略

本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解

文章目录

一、强化学习MDP四元组

1.1 状态转移概率
1.2 如何描述环境
1.3 Mode-free 试错探索

二、Q 表格

1.1 Q 值表格概念
1.2 Q 表格的目标导向型
1.3 实践：悬崖问题（快速到达目的地）

三、强化学习更新 Q 表格

3.1 Temporal Difference 时序差分（TD单步更新）
3.2 与环境交互

四、相关方法和策略

4.1 Epsilon Greedy 方法
4.2 On-Policy 和 Off-Policy 策略

一、强化学习MDP四元组

S：状态 state
A：动作 action
R：奖励 reward
P：状态转移概率 probability

1.1 状态转移概率

$p[s_{t+1} , r_t | s_t, a_t]$

在 t 时刻，处于 $s_t$ 的状态，选择了 $a_t$ 的动作，的情况下：

转移到 $s_{t+1}$ 状态，并且获得 $r_t$ 奖励，的概率

该状态转移概率符合 “马尔可夫”

因为 $s_{t+1}$ 的状态仅仅与 $s_t$ 相关，与 $s_{t-1}$ ，还是 $s_{t-2}$ 都没有关系

还取决于智能体与环境交互的动作 $a_t$ ，有了一个决策过程在里面

所以这个过程叫做 “马尔可夫决策过程” Markov Decision Process，简称 MDP，是序列决策的经典表达方式

根据状态（环境）变化，产生的一系列的决策过程，就是与环境的交互产生的经验

1.2 如何描述环境

使用 P 函数和 R 函数

P函数：probability function： $p[s_{t+1} , r_t | s_t, a_t]$
- 反映了一个环境的随机性：一个状态下作出决策后，可能有多种结果，不同结果存在不同的概率
R函数：reward function： $r[s_t,a_t]$

在动态规划下，P函数和R函数都是已知的，即 Model-based，我们可以根据现有条件作出最优规划

1.3 Mode-free 试错探索

在强化学习的实际环境中，P 函数和 R 函数都是未知的，所以是 Mode-free

价值函数 V(s_t) 表示在 t 时刻的状态的优劣

用 Q(s_t , a_t) 值表示，在 s_t 状态下做动作 a_t 能拿到（最大）的奖励（的概率）

二、Q 表格

1.1 Q 值表格概念

Q 表示状态动作价值

是累积的经验，取得成功所需的知识

例如：

在某一状态 S 下，我们可以采取 2 个动作：A 和 B

采取 A 动作以后，100% 获得 10 分

采取 B 动作以后，90% 获得 5 分，10% 获得 15 分

那么 Q(S,A) = 100% * 10 = 10，Q(S,B) = 90% * 5 + 10% * 15 = 6

以上的例子中，之所以我们知道概率分布，是因为这个 Q 表是训练后的结果

Q 表中累积的学习到的知识，所以应用的时候，我们很自然的会在 S 状态下选择 A 的动作

以获得最大的回报

但是上面的例子仅仅是一次选择

在实际中，我们会面对多次选择，于是我们要看的是做了一系列选择以后，最终的回报最大的，才是最优路径

所以要把（预估）后续的所有收益及其对应概率，都累计到当前状态下做计算

所以在强化学习中，环境给到的 reward ，即环境的反馈就非常重要！

1.2 Q 表格的目标导向型

我们要看的是总收益，来更新 Q 表格

例子：救护车闯红灯

假设每个交通灯，正常通过是 0 分，闯红灯时 -1 分，一共有 10 个红绿灯路口

那么对于一个普通的汽车来说，通过这一段路最高的分数就是 0，即每次都不闯红灯

但是对于救护车来说，我要用最短的时间把病人及时送到医院，可以获得 1000 分，病人死亡则 0 分

这时候最优的方法是每次都闯红灯，前面获得 -10，最后获得 1000，总分 990

这个例子中每一步设定的 Q(s,a) 不能只看当前这一步的收益，要看未来总收益：

G = R₁+R₂+R₃+R₄+…+R_T

例子：股票投资

关注累积收益，但是股票交易是永续进行的，所以无法考虑未来收益只和

我们无法得到 t 时刻预期的未来总收益：

G_t= R_t+1+R_t+2+R_t+3+…

所以要引如 “衰减因子”：

G_t= R_t+1+γR_t+2+γ²R_t+3+…

这里的衰减因子 γ 取值范围 0～1，等于 1 的时候即看到最后一步，等于 0 的时候即只看后一步

约后面的收益对当前的价值影响越小

1.3 实践：悬崖问题（快速到达目的地）

问题描述：

在一张地图上，我们要从起点 S 到达终点 G，每走一步 reward 为 -1（因为我们希望越快到达越好）
掉下悬崖一次 reward 为 -100（所以我们希望避免发生），并回到起点
到达终点 G 的时候游戏结束

设定 reward 的衰减因子 γ

当前时刻 t，可获得的收益预期总计：
G_t = R_t+1 + γR_t+2 + γ²R_t+3 + … = $\sum_{k=0}^{\infty}γ^kR_{t+k+1}$

γ 取 0 代表目光短浅
γ 取 1 代表目光过于长远

我们选择一条路走完以后，就可以知道这条路径上每一个状态路径的价值

所以多次尝试以后，就可以做出更优的选择

而不断地尝试，即在更新 Q 值表格，由这个表格指导每一步动作

所以这个表格的维度是（状态总数，每个状态下的动作总数），初始化的时候都为 0

Agent 和环境的交互，就是不断更新 Q 表格

三、强化学习更新 Q 表格

核心：用下一个状态的 Q 值来更新当前状态的 Q 值
这里利用到了统计里面的 Bootstrapping （自举）算法
强化学习中叫做：时序差分更新方法

我的理解是：

由于每一次都用下一个状态来更新这一个状态，于是最后的累积 reward 会向前传递，最终影响整个路径
类似于多重条件反射（反射链条）

例子：斯坦福的状态价值迭代小游戏

https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html

可以看到游戏中，小球不断试错，最后产生价值判断，终点的 +1 reward 会不断影响周边的格子

然后这个影响力会往起点延伸，最终形成一条最优路径

3.1 Temporal Difference 时序差分（TD单步更新）

公式：

$Q(S_t,A_t)\ \leftarrow\ Q(S_t,A_t)\ +\ α[R_{t+1}\ +\ γQ(S_{t+1},A_{t+1})\ +\ Q(S_t,A_t)]$

当前值： $Q(S_t,A_t)$
目标值： $R_{t+1}\ +\ γQ(S_{t+1},A_{t+1})$
- 我们希望 “当前值” 可以不断逼近 “目标值”
- 目标值：即未来收益只和（reward）
- $Target\ =\ G_t\ =\ R_{t+1}\ +\ γR_{t+2}\ +\ γ^2R_{t+3}\ =\ \sum_{k=0}^{\infty}γ^kR_{t+k+1}$
- $\begin{aligned} G_t\ &=\ R_{t+1}\ +\ γR_{t+2}\ +\ γ^2R_{t+3}\ +\ γ^3R_{t+4} \\ &=\ R_{t+1}\ +\ γ(R_{t+2}\ +\ γR_{t+3}\ +\ γ^2R_{t+4}) \\ &=\ R_{t+1}\ +\ γG_{t+1} \end{aligned}$
- $Q(S_{t+1},A_{t+1})$ 就近似等于 $G_{t+1}$
软更新： $α[R_{t+1}\ +\ γQ(S_{t+1},A_{t+1})\ +\ Q(S_t,A_t)]$
- 通过参数 α 来控制每次更新的幅度（可以理解为学习速率 learning rate）
- α 为 0，则表示不更新
- α 为 1，则表示完全更新

所以这个更新公式，用到的是：

当前时刻的 S_t，A_t，下一时刻的 R_t，S_t+1，A_t+1（与环境交互后产生）

这就组成了 Sarsa 算法

3.2 与环境交互

根据Q表选动作（agent）

预测/评估：sample()
执行动作（带有探索概率）：sample()

与环境交互（enviroment）

获得 State 和 Reward
获得下一步的动作预测和决策

更新 Q 表（agent）

学习：learn()

四、相关方法和策略

4.1 Epsilon Greedy 方法

权衡探索和利用之间的概率：

利用 Exploitation：最优选（概率 ε）
探索 Exploration：随机选（概率 1-ε）

假设 ε 设置为 0.1
在当前状态下，选择最优的选择提取出来
然后 90% 在最优选择中随机选一个动作
10% 在所有选择中随机选一个动作

如果没有探索，那我们无法找到比当前最优更优的选择

在 Sarsa 算法中，由于在动作选择上一定存在 “探索” 的可能性，所以最终优化的路径是一条保守的路径，而不是最优的路径！

4.2 On-Policy 和 Off-Policy 策略

On-Policy：用于优化的，是实际会被执行的策略
- 比如 Sarsa
- 在学习过程中，只存在一种策略
- 这种策略用作 Action 的选取
- 这种策略也用作优化（更新 Q 表）
- 先采样下一步，再更新 Q 表
- 由于需要兼顾探索，所以策略 π 并不稳定
Off-Policy：用于优化的，
- 比如 Q-Learning
- 保留两种策略
- 行为策略（μ）：Behavior Policy，用于大胆地探索环境，执行动作，获取经验
- 目标策略（π）：Target Policy，使用 最优策略 来进行优化（更新Q表），但是这个策略不一定被执行
- 先更新 Q 表，再采样下一步

你可能感兴趣的:(强化学习)

LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
强化学习实战：从 Q-Learning 到 PPO 全流程荣华富贵8 程序员的知识储备2 程序员的知识储备3 人工智能算法机器学习
1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析，深入探讨强化学习的核心原理、算法演
基于CTDE MAPPO的无线通信资源分配强化学习实现 pk_xz123456 仿真模型深度学习算法 lstm 人工智能 rnn 深度学习开发语言
基于CTDEMAPPO的无线通信资源分配强化学习实现摘要本文提出了一种基于集中训练分散执行(CTDE)框架的多智能体近端策略优化(MAPPO)方法，用于解决无线通信网络中的资源分配问题。我们设计了一个多基站协作环境，其中每个基站作为独立智能体，通过分布式决策实现网络吞吐量最大化。实验结果表明，MAPPO算法在频谱效率和用户公平性方面显著优于传统启发式算法。1.引言1.1研究背景随着5G/6G通信技
强化学习系列——PPO算法 lqjun0827 算法深度学习算法人工智能
强化学习系列——PPO算法PPO算法一、背景知识：策略梯度&Advantage二、引入重要性采样（ImportanceSampling）三、PPO-Clip目标函数推导✅四、总结公式（一图总览）参考文献PPO示例代码实现补充内容：重要性采样一、问题背景：我们想估计某个期望❗问题：二、引入重要性采样（ImportanceSampling）三、离散采样形式（蒙特卡洛估计）四、标准化的重要性采样五、在强
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
医疗AI新势力：自演进多智能体MAS的进击之路 Allen_Lyb 医疗高效编程研发人工智能健康医疗机器学习架构大数据
医疗AI新势力：自演进多智能体MAS的进击之路往期相关文章：Python在开放式医疗诊断多智能体系统中的深度应用与自动化分析基于多智能体强化学习的医疗AI中RAG系统程序架构优化研究自演进多智能体在医疗临床诊疗动态场景中的应用医疗AI的新变革在数字化与智能化飞速发展的时代，人工智能（AI）已经逐渐渗透到医疗领域的各个角落，成为推动医疗行业变革的重要力量。从疾病的早期诊断到个性化治疗方案的制定，从医
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化 pk_xz123456 仿真模型深度学习算法算法人工智能制造
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化摘要本文提出了一种基于集中训练分布式执行(CTDE)框架的多智能体近端策略优化(MAPPO)算法，用于解决无线通信网络中的分布式功率控制问题。通过将多个基站建模为协作智能体，我们设计了一个多智能体强化学习系统，能够在复杂动态环境中实现全局网络效用的优化。本文详细介绍了系统架构、算法实现、实验设置以及性能评估，展示了MAPPO在5G
传统蒙特卡洛（Monte Carlo, MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大强化学习曾小健人工智能
传统蒙特卡洛（MonteCarlo,MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大medium.comanalyticsvidhya.comincompleteideas.net。“深度蒙特卡洛”（DeepMonteCarlo,DMC）则保留“按回报直接更新”的思想，却用深度网络来逼近$Q(
使用Simulink结合MATLAB进行基于强化学习控制下的动态滤波器参数调节系统的仿真 amy_mhd matlab 开发语言
目录一、背景介绍二、所需工具和环境三、步骤详解步骤1：定义系统需求示例：定义系统需求步骤2：准备强化学习环境步骤3：训练强化学习代理步骤4：创建Simulink模型步骤5：添加信号源步骤6：合并信号步骤7：导入强化学习代理步骤8：设计滤波器步骤9：可视化结果步骤10：连接各模块步骤11：设置仿真参数步骤12：运行仿真并分析结果四、总结在现代信号处理领域，动态调整滤波器参数以适应不断变化的环境条件是
强化学习（Reinforcement Learning, RL）概览 MzKyle 人工智能人工智能强化学习机器学习机器人
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界
无监督学习概览 MzKyle 人工智能人工智能无监督学习机器学习
一、无监督学习的本质与定位定义：无监督学习是机器学习的三大范式之一（另外两种为监督学习和强化学习），其核心特点是处理未标注数据，通过算法自动发现数据中的隐藏结构、模式或内在规律。与监督学习依赖"输入-输出"对不同，无监督学习仅以原始数据作为输入，目标是揭示数据的内在组织方式。与其他学习范式的区别：监督学习：依赖标签（如分类、回归任务），学习从输入到输出的映射关系强化学习：通过与环境交互获得奖励信号
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架 pk_xz123456 算法无人机分布式算法 matlab 人工智能制造开发语言
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架摘要：低空经济作为新兴战略产业，其核心场景（如无人机物流、城市空中交通、低空监测）普遍面临环境动态性强、个体观测受限、数据隐私敏感及多智能体协同复杂等挑战。本文创新性地提出一种深度融合分布式部分可观测马尔可夫决策过程（Dec-POMDP）与联邦强化学习（FederatedReinforcementLearning,FRL）
空间智能领域，AI人工智能如何大显身手 AI大模型应用之禅人工智能 ai
空间智能领域，AI人工智能如何大显身手关键词：空间智能、人工智能、计算机视觉、地理信息系统、自动驾驶、增强现实、智能城市摘要：本文深入探讨了人工智能在空间智能领域的应用与前景。空间智能作为理解、处理和利用空间信息的能力，正在被AI技术深刻变革。我们将从核心技术原理出发，分析计算机视觉、深度学习、强化学习等技术如何赋能空间智能，探讨其在自动驾驶、智能城市、AR/VR等领域的实际应用，并提供详细的算法
动手学强化学习第10章-Actor-Critic 算法训练代码 zhqh100 算法深度学习 pytorch 人工智能
基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2运行代码Actor-Critic.py#!/usr/bin/envpythonimportgymimpo
Agent 处理流程成都犀牛人工智能大模型 Agent 深度学习神经网络 python Agent
Agent源于研究行为的强化学习，而大模型源于研究知识的深度学习多数情况下认为该系统中会存在下面的角色或名词用户（另一个人）上下文（记忆）变量（记忆）提示词（沟通方式）工具（手臂）大模型（大脑）这个图将着重表现Agent的决策循环，这是其与普通RAG流程最主要的区别。Agent核心工作流示意图用户提示词✏️Agent大模型上下文️变量%%工具️用户交互层AI核心层数据层工具层发送请求用户输入原始指
智能化设计工具链：深度学习与强化学习的全流程融合架构
一、技术架构设计智能化设计工具链的构建需要整合参数化建模、代理模型训练、强化学习优化与多物理场工艺仿真四大模块，形成从设计到制造的闭环系统。典型流程如下：
自适应限流算法实战双囍菜菜 #Go高吞吐架构算法 Golang
自适应限流算法实战文章目录自适应限流算法实战一、限流算法演进史：从静态到自适应1.1传统限流算法的致命缺陷1.2自适应限流的革命性突破二、自适应限流核心指标体系2.1黄金四维指标2.2指标融合公式三、经典自适应算法解析3.1TCPBBR带宽自适应算法核心限流应用3.2NetflixConcurrencyLimit梯度下降策略智能探针机制四、AI赋能的智能限流4.1LSTM预测模型架构4.2强化学习
从代码学习深度强化学习 - REINFORCE 算法 PyTorch版飞雪白鹿€ 深度强化学习 pytorch版 pytorch DRL
文章目录前言**一、理论基础：什么是策略梯度？****1.1基于价值vs.基于策略****1.2策略梯度（PolicyGradient）****1.3REINFORCE算法：蒙特卡洛策略梯度****1.4REINFORCE算法流程****二、PyTorch代码实践****2.1环境与辅助函数****2.2核心算法实现****2.3训练与结果****总结**前言欢迎来到“从代码学习深度强化学习”系列
生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤行云流水AI笔记人工智能
在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。内存：建议至少128GBRAM，以确保数据处理和模型加载的流畅性。存储：高速SS
【无标题】行云流水AI笔记人工智能
在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个方面。一、项目概述目标：通过微调和强化学习提升Qwen-3-4B模型在TXT2SQL任务上的表现，使其能够更准确地将自然语言查询转换为相应的S
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting UnknownBody LLM Daily Causal and Reasoning 语言模型人工智能自然语言处理
论文主要内容总结研究背景与问题大语言模型（LLMs）在决策领域展现出巨大潜力，但预训练模型存在推理能力不足、难以适应新环境的问题，严重制约了其在复杂现实任务中的应用。现有方法如强化学习（RL）单独使用或LLM辅助RL的方式，仍依赖token预测范式，缺乏结构化推理和快速适应性。核心框架与方法提出因果感知大语言模型（Causal-awareLLMs），将结构因果模型（SCM）整合到决策过程中，采用“
机器学习赋能多尺度材料模拟：前沿技术会议邀您共探 m0_75133639 复合材料机器学习人工智能分子动力学第一性原理深度学习 vasp 复合材料
在新能源与先进制造技术飞速发展的今天，材料科学的创新成为推动行业进步的关键力量。本次前沿技术会议聚焦“机器学习赋能的多尺度材料模拟与催化设计”，旨在为科研人员与工程师搭建一个深度交流与学习的平台。会议将深度融合分子动力学模拟（MD）、第一性原理计算（DFT）等微观模拟方法，以及机器学习（ML）与强化学习（DQN）等前沿算法，通过锂硫电池、压电催化、催化转化等实战案例，展示如何利用“数据驱动+物理建
AI转型指南 HeartException 人工智能学习机器学习
以下是为计算机学生/在职人员撰写《AI转型指南》的目录框架设计，兼顾系统性与实操性，采用模块化结构便于读者按需学习，前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站一、AI行业全景扫描（认知篇）技术图谱解构机器学习/深度学习/强化学习的技术边界NLP/CV/语音/推荐系统等细分赛道的就业热度对比传统计算机技能与AI能力的交叉点（如分布式计算、系统
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
AAAI2022国际顶会Workshop将会讨论些什么？ AINLPer 国际会议自然语言处理深度学习自然语言处理人工智能机器学习神经网络
来源:AINLPer微信公众号（每日论文干货分享！！）编辑:ShuYini校稿:ShuYini时间:2021-12-091、引言目前关于AAAI2022的论文List还没有贴出来，但是目前的WorkShop的日程已经出来了，今天整理了一下给大家分享。本次AAAI2022研讨会计划于2022年2月28日至3月1日，共有39个。其中在技术研究领域涉及：强化学习、图神经网络、交互式机器学习、模型
会议论文_AI会议 || 如何rebuttal学术论文?
深度强化学习实验室报道来源：https://zhuanlan.zhihu.com/p/104298923作者：魏秀参编辑：DeepRL最近，恰逢CVPR2020rebuttal之前，本文就rebuttle相关的内容进行总结，学术论文是发布自己或团队最新研究进展正式且最快捷的途径，也是和同行交流想法最方便、高效的方式。当同行评议(Peerreview)作为学术成果正式发布的必经之路已运行200余年[
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他