白衣西蜀梅子酒

RLChina强化学习笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、机器学习
二、深度学习
二、机器学习中的优化理论和方法
- 2.1 优化算法
- 2.2 收敛性分析
- 2.3 图形模型与贝叶斯推理
- 2.4 贝叶斯优化
三、博弈论
- 3.1 Motivation and Normal-form Game
- 3.2 Extensive-form Game and Imperfect Information
- 3.3 Bayesian Game and Incomplete information
- 3.4 Nash Equiliburing
- 3.4 Repeat Game and Learning Methods
- 3.5交替解概念与演化博弈理论
四、机制设计与博弈复杂度
- 4.1 机制设计
- 4.2 博弈复杂性
五、强化学习
- 5.1 强化学习的值函数和策略方法
- - 5.1.1 强化学习
  - 5.1.2 MDP
  - 5.1.4 值函数估计
  - 5.1.5 无模型控制方法
- 5.2 规划与马尔科夫过程
- 5.3 在线强化学习中的样本效率
- 5.4 概率强化学习和贝叶斯大脑
- - 5.4.1 learning in biological and computerised systems
- 5.5 离线强化学习
- 5.6 模仿学习
六、多智能体学习
- 6.1 算法博弈论：
- 6.2 智能体策略的学习和评估
- 6.3 多智能体强化学习算法
- - 6.3.1 多智能体协作决策
  - 6.3.2 多智能体挑战
  - 6.3.3 非线性值分解
  - 6.3.4
  - 6.3.5 summary
- 6.4 平均场理论的多智能体起强化学习
- - 6.4.1 平均场原理近似非协作游戏
  - 6.4.2 平均场原理近似协作游戏
- 6.5 捉迷藏游戏策略和开放问题
- 6.6 深度学习求解大规模复杂博弈
七、专题报告
- 7.1 专题报告（一）强化学习训练系统
- - 7.1.1 深度学习时代下的机器学习系统
  - 7.1.2 深度（分布式）强化学习系统
  - 7.1.3 多智能体学习系统的额外挑战
  - 7.1.4 面向基于种群多智能体强化学习的并行训练框架
- 7.2 多智能体通信与协同中的博弈论与强化学习
- - 7.2.1 Role of informats in security games
  - 7.2.4 food rescue patform
- 7.3 强化学习和游戏AI：技术演进&商业价值探讨
- 7.4 深度强化学习的挑战和落地
- - 7.4.2
  - 7.3
  - 7.4 应用：

前言

此篇主要记录RLChina强化学习的学习过程，如有错误，请不吝赐教。

一、机器学习

ANN网络？

编程与机器学习的区别：

机器学习的整体流程：

模型训练：模型选择和参数学习
选择模型：
1.根据经验来选取
2.学习策略来选取
（贝叶斯模型选择，贝叶斯优化）

参数学习：
梯度下降（full，batch，stochastic）

模型评估：
1.人类评估（问卷，用户使用）
2.评估参数/指标（F1,precision，recall，RMSE,MAE）
3.用其他模型来评估

监督学习：
回归问题（连续），分类问题（离散）

非监督学习：
聚类问题

回归问题：
1.线性回归
主要评估的指标：
分类问题

1.最近邻算法（启发式）
选择一个节点的k个邻居，然后来判断新的节点的标签。
距离函数：
k值的选择（一般3-5）

预测：
1.投票：
2.带权重的投票：
距离越小，权重越大

数据：
PAC learning （ probably approximate correct）
选择多少的数据量能够较好的反应真实的数据

定理：
求n方法：
（h能完美拟合dataset D）

（完美拟合的假设h组成集合）

（认为在SHD中的假设的train error较小，且true error 较小）

通过学习得到的H不满足shd的概率小与|H|e…
当这个概率小与时就能得到上述结论，
此时的m也就为对应的数据量。

补充，上述推导如下：

二、深度学习

neural networks

（可用于监督学习与非监督学习）

常用激活函数：
DNN

RNN

例子：LSTM

例子：GRU

补充：独立同分布：前后采样无干扰。

二、机器学习中的优化理论和方法

机器学习理论：

（泛化，函数类的表示能力，优化算法）

2.1 优化算法

连续优化问题：
优化算法分类：
0th order（一个点一个点去尝试,只用到function val）：griding ，Sampling
易于实现但是运行缓慢

1th order（用到gradient和function val）SGD，Adagrad，ADAM
具体如下：
与backprop配合得很好
Higher Order：牛顿法
大量计算，在低维度的问题上表现良好，且收敛更快

2.2 收敛性分析

1.SGD:
非凸函数
度量收敛：
分析算法收敛的步骤：
图模型降低计算复杂度

分析优化的主要：

补充：对于经验风险最小化，理论上更快设计了算法（如SAG、SAGA、SVRG、Spider）。但是实际性能与预期有一定差距。

2.3 图形模型与贝叶斯推理

图形模型描述联合分布中的结构（稀疏性、独立性、分区）

主要分为以下两类：
1.undirected graph
2.directed graph

MCMC Algorithm（？）
可能得到概率小的对应主题

2.4 贝叶斯优化

设置：

•假设f（x）是从高斯过程中采样的。

•我们希望找到仅使用有限函数使f（x）最大化的x价值呼叫。

通过迭代寻找观测点来不断最大化fx。
其观测点为有着最大提升希望的点。

详细流程：
如何找到这个最有希望的点？
1.根据最有可能提升的点来选择

2.提升最多的点
对于贝叶斯优化的子过程：
我们考虑在每一步中进行优化，利用梯度下降和重复初始化来完成

补充：考虑到子过程的存在，贝叶斯优化的复杂性有以下两个方面：
1.取样复杂性（query number）
2.计算复杂性（查询数子过程计算的成本）在最坏情况下会受到维度灾难的影响。

参考书籍： introduce to convex optimization

三、博弈论

3.1 Motivation and Normal-form Game

单回合，多回合
有无隐藏信息
（玩家，策略，收益）

正则化表示：
博弈论中假设玩家具有理性。（追求自己的利益）

纯策略和混合策略
纯策略（以100%选择其中一个动作）
混合策略（以一定概率选择一个动作）

一些经典博弈：

3.2 Extensive-form Game and Imperfect Information

博弈树：
两个玩家先后做选择。

叶节点为玩家所得收益。
决策空间：
对应的正则式表达：

不完美信息
认为某些玩家的历史动作不可见（非完美）
此时产生信息集
如下例子：
（b,c）信息集

Markov Game
状态可重复到达，每个状态下都可得到reward
如下图：
行为策略。（给定状态随机选择动作）

总结：

3.3 Bayesian Game and Incomplete information

非完全信息具体定义：

贝叶斯博弈：
知道用户的类型的种类，且知道type的概率。

动态贝叶斯博弈：
类似于非完美信息的拓展。
玩家以知道自已以一定概率处于某个状态。

总结：

不完全：开始信息不完全可见
不完美：历史行为不可见

Harsanyi 转换：
将非完全信息转换为非完美信息
引入一个上帝玩家去确定开局的所有信息（将这个决定认为是一个玩家的动作），此时就转为了不完美信息。

3.4 Nash Equiliburing

最佳应对策略：在给定其他玩家的决策时，对于自己最好的策略。

占优策略：对于任何其他人的决策都是对自己而言最好的

例如：

NASH均衡：
对于每个玩家都没有动力去改变自己的策略。

Pareto Optimality Nash Equilibrium 两者无关系。
Pareto Optimality（没有一个点使得所有人都至少不变差）

混合策略的Nash均衡
例如：

扩展式博弈的Nash均衡：
不可置信的威胁
例如：

此时玩家2会说谎也提高自己的收益

子博弈Nash均衡：
对于决策，在所有的子博弈中都是Nash均衡

贝叶斯博弈Nash平衡：
定义类似于普通的Nash均衡。

动态贝叶斯博弈Nash均衡（完美贝叶斯均衡）：
添加了一个对于状态的概率（考虑信息集）总结：

3.4 Repeat Game and Learning Methods

Repeat game :重复玩游戏。（学习过程）
记忆

不同的策略：
1.tit-for-tat
2.Win-stay,lost-shift

Folk Theorem(多记忆的情况下)
所有的取值都可以在某个Nash均衡得到。

Fictitious Play（应对Folk Theorem）
认为对手的下一个动作符合历史动作的概率分布。

如果所以都采用该策略，那么会收敛到Nash均衡

No-regret Learning
举例：
对于之前的历史，如果全部采用某个动作，那么会得到更好的收益，此时就会后悔，对于下一个操作就会采取后悔值最高的动作。

3.5交替解概念与演化博弈理论

Stackelberg Equilibrium：
又先后顺序。（分先后得到更好的收益）（协同）

Correlated Equilibrium：
例如：

演化博弈论（？）
策略是与生俱来的，玩家不能自己选择策略

高回报的玩家有更多的机会被复制

补充：如果种群中几乎每一个成员都遵循一种策略，那么没有突变体（即采用新策略的个体）能够成功入侵

总结：

四、机制设计与博弈复杂度

4.1 机制设计

考虑如何与战略参与者一起设计系统并且有良好的性能保证。

例子：单物品拍卖问题
模型如下：

private value vi是每个人私有的。
拍卖形式如下：

不同的机制
1.first-price

2.second-price
可知无论如何，用户给出心里的价格能够得到最大化的预期收益。

DSIC
如果真实竞价始终占主导地位，则拍卖为DSIC
对于每个投标人的策略，它可以帮助他们获得非负效用。

可知second-price是理想的。
1.计算效率高
2.是DSIC的
3.社会福利最高

例2：

GSP策略：

不是一个Trufulness
例子如下：

可知非诚信会获得更高的收获。

组合拍卖：
VCG Mechanism（？）
每个一般环境都有一个属于DSIC的福利最大化机制

4.2 博弈复杂性

上述算法都不是p算法。

FNP：搜索解。且能在多项式内检查。
TFNP：对于所有的问题都存在一个解。

问题：END-OF-A-LINE
在电路中每个点的出度入度最多为1，给定起始点，我们需要找到出度入度不等的点。
（该问题一定有解，所以属于TFNP）
我们认为能够归约到上述问题的问题称为PPAD。

（end-of-a-line 归约到二人博弈Nash平衡求解问题）
证明步骤如下：
部分步骤证明：
1.变为平面我们将其放到平面上，我们通过改造来使其不交叉。

2.改为找Banachi不动点问题

4…Generalized circuits

4.我们要通过博弈来表示每一个门

5.组成大的电路后归约完成。

证明参考文献：
1Chen, X. and Deng, X., 2007. Recent development in computational
complexity characterization of Nash equilibrium. Computer Science Review,1(2), pp.88-99.

参考文献：
1 Algorithmic Game Theory
2 Twenty Lectures on Algorithmic Game Theory

总结：

了解部分：

五、强化学习

5.1 强化学习的值函数和策略方法

5.1.1 强化学习

决策亲自改变世界
预测辅助别人改变世界
只要是序列决策问题都能用强化学习求解。

可知有监督。无监督学习在一个固定的数据集
强化学习根据不同的智能体（agent）会得到不同的数据集

5.1.2 MDP

MP：下一个状态只取决于当前的状态。
（当前状态是未来的充分统计量）

MDP：受制于决策者的控制。
MDP：
1.环境完全可观测
2.当前状态可以完全表征过程

MDP表示：

刻画了策略的改变导致对应的占用率的改变即数据的改变。
随着t的增长，在状态s取得动作a的累计概率

分母是访问到的s的概率，分子是访问sa的概率

具体推道：
（加权不为1）

对于价值迭代：
当vs不变化时收敛（更新过程不对应任何策略，只有收敛才对应一个策略）

策略迭代：
总结：

5.1.4 值函数估计

上述部分实际是动态规划。

模型无关的强化学习：

蒙特卡洛方法（MC）：（大数定律，不断逼近真实值）
（经验均值累计奖励）
具体：
（不断采样轨迹）
这里可以增量更新：
时序查分学习：

（MC 需要到结束位置才能更新，td看到一步奖励就可以更新）

例子：

即td是不完美更新（所以是有偏差）
而mc是多步随机，所以导致他的方差较大。

5.1.5 无模型控制方法

动作值函数Q
即无模型没有P概率转移矩阵，此时需要动作来控制转移。

SARSA算法：
公式：增量更新动作价值函数。

伪代码：

Qlearning：（off-policy）

借助老数据来进行更新。他要求得到一个四元组，他就不需要重采样来更新了（用老的policy来选择，而不是当前的策略policy）。

5.2 规划与马尔科夫过程

多臂老虎机问题：
简单方法：
对于每个armi进行n次测试得到期望值。
证明公式：
误差小于某个值。N越大，误差越小。

可得估计得到的最大期望与真实最大期望的差：
可以通过历史信息来选择下一次的决策（老虎机中发现某个arm非常差，那么就不需要再选择这个）（局部最优）

避免局部最优：1。s-greedy
2.置信上限

Regret:懊悔值
期望（最好的决策-选择的决策）
详见强化笔记（二）

马尔科夫过程多状态

未来有效的步数
价值函数：
（矩阵计算）

Policy：Stationary Policy

Policy+MDP=MRP

对于最优策略：
最优策略：

MDP变种：

衰减为1，同时定义行动次数。

此时得到的policy 不一定是最优策略，需要考虑步数。

补充：
Generative Model
可是从任何一个状态动作开始，对应的p矩阵未知。
可以通过模拟去训练。

样本复杂度：
算法1：
分析：

得到对应的误差：

可知要误差较小时，样本量应该为如下：

最新结论：
下界：由于下界为如下：

补充：model对于找到一个好的policy是具有冗余的。

参考文献：
Yang, L., & Wang, M. (2019, May). Sample-optimal parametric Q-learning using linearly additive features. In International Conference on Machine Learning (pp. 6995-7004). PMLR.
• Jin, C., Yang, Z., Wang, Z., & Jordan, M. I. (2020, July). Provably efficient reinforcement learning with linear function approximation. In Conference on Learning Theory (pp. 2137-2143).
PMLR.
• Cai, Q., Yang, Z., Jin, C., & Wang, Z. (2020, November). Provably efficient exploration in policy optimization. In International Conference on Machine Learning (pp. 1283-1294). PMLR.
• Du, S. S., Kakade, S. M., Wang, R., & Yang, L. F. (2019). Is a good representation sufficient for sample efficient reinforcement learning?. arXiv preprint arXiv:1910.03016.
• Lattimore, T., Szepesvari, C., & Weisz, G. (2020, November). Learning with good feature representations in bandits and in rl with a generative model. In International Conference on
Machine Learning (pp. 5662-5670). PMLR.
• Duan, Y., Jia, Z., & Wang, M. (2020, November). Minimax-optimal off-policy evaluation with linear function approximation. In International Conference on Machine Learning (pp. 2701-
2709). PMLR.
• Zhou, D., He, J., & Gu, Q. (2021, July). Provably efficient reinforcement learning for discounted mdps with feature mapping. In International Conference on Machine Learning (pp.
12793-12802). PMLR.
• Agarwal, A., Kakade, S., Krishnamurthy, A., & Sun, W. (2020). Flambe: Structural complexity and representation learning of low rank mdps. arXiv preprint arXiv:2006.10814.
• Modi, A., Jiang, N., Tewari, A., & Singh, S. (2020, June). Sample complexity of reinforcement learning using linearly combined model ensembles. In International Conference on Artificial
Intelligence and Statistics (pp. 2010-2020). PMLR.
• Zhang, Z., Ji, X., & Du, S. S. (2021). Is reinforcement learning more difficult than bandits? a near-optimal algorithm escaping the curse of horizon. Proceedings of Machine Learning
Research vol, 134, 1-28.
• Agarwal, A., Kakade, S. M., Lee, J. D., & Mahajan, G. (2021). On the theory of policy gradient methods: Optimality, approximation, and distribution shift. Journal of Machine Learning
Research, 22(98), 1-76.
• Wang, R., Salakhutdinov, R., & Yang, L. F. (2020). Reinforcement learning with general value function approximation: Provably efficient approach via bounded eluder dimension. arXiv
preprint arXiv:2005.10804.
• Wang, R., Du, S. S., Yang, L. F., & Salakhutdinov, R. (2020). On reward-free reinforcement learning with linear function approximation. arXiv preprint arXiv:2006.11274.
• Kong, D., Salakhutdinov, R., Wang, R., & Yang, L. F. (2021). Online Sub-Sampling for Reinforcement Learning with General Function Approximation. arXiv preprint arXiv:2106.07203.
• Feng, Fei, et al. “Provably correct optimization and exploration with non-linear policies.” arXiv preprint arXiv:2103.11559 (2021).

5.3 在线强化学习中的样本效率

动机：深度强化学习中的样本复杂性挑战
深度RL中的挑战：
1.需要庞大的数据
2.大量的计算
可证明有效的RL算法
样本效率：需要多少数据点？
计算效率：需要多少计算？
函数近似：允许无穷多的观测值？

背景：
片段马尔科夫决策过程（建模稀疏reward）：
agent 与环境的交互为H有限步。
策略对于每个h都不同：故而有H个策略
具体如下：
例子上下文老虎机：
H=1
具体如下：

1.生成状态（Generative model）
能够查询reward，状态，对于任意的s，a对

2.offline setting
只依赖于数据来找到最优策略（不需要交互）

3.online setting：
通过环境交互来得到最优策略。（考虑T次交互即T次轨迹，每次轨迹为H步）

最快找到最优策略。
忏悔（regret）刻画样本复杂性

刻画不确定性，确定乐观估计来执行动作可以平衡探索和利用。

岭回归（ridge regression）？

LinUCB algorithm:
相关复杂度：

Deep Exploration

函数逼近最优策略。
线性假设。

另一种假设（贝尔曼算子）：
算法
LSVI-UCB

相应的复杂度：
时间和空间与状态无关。
可证明该算法的regret为如下：

总结：
LSVI-UCB 线性回归来实现价值迭代。
通过不确定性分析与Bonus来平衡探索和利用。
（将不确定性以较大的h步向后传播到1）
它是样本有效和多项式可解的优势函数逼近在线RL。

补充：

on-policy off-policy 估计与评估的policy是否是同一个但两者都是off line

5.4 概率强化学习和贝叶斯大脑

5.4.1 learning in biological and computerised systems

输入信息导致商检
qs表示自己去估计，逼近感知
preference 是外界给的

5.5 离线强化学习

在线学习（On-line RL）
1.off policy

对于采样的到的数据放入到buffer中，能够再度学习使用。
2.on-policy
对于采样得到的数据学习后丢弃。
在这里插入图片描述

离线学习：只在数据上进行学习。

可以通过监督学习来学习policy（丢掉奖励），但offline rl能够比监督学习更好。
强化学习可以组合好的action。

直接使用离线学习会导致如下问题：
1.对于Q函数的overestimated
2.对于数据量的增大表现并未更好

对于不出现在数据中的点那么会有可能过高估计。
（如果预估的动作未出现在对应的训练的数据中，就有可能出现过高估计）

在在线学习中，这个问题也会发生，但是探索会一定程度解决这个问题。

对于离线学习：

1.解决：policy constraint（避免那些未曾见过的可能过高估计的点）
相关效果：

policy constraint 缺点：

由于policy constraint 通过避免。。。，但这会导致学习效率的降低。

另一种方式针对OverEstimate
conservative methods
他有两种实现方式：基于模型和模型无关
基于model：
可以对于未学习的区域进行reward的修改。以鼓励在区域内学习。
一些具体实现：

其他方法：
function regularization

CQL希望提高见过动作的价值，降低其他的。（过保守）

进行修改：

在r上加一个正则化。

Model Free offLine RL

1.Random Ensemble Mixture

2.Monto Carl dropout

总结：

多智能体离线学习：

参考文献：

Levine, Kumar, Tucker, Fu (2020). Offline Reinforcement Learning: Tutorial, Survey and Perspectives on Open Problems
• Kumar et al. (2019) Stabilizing Off-Policy Reinforcement Learning via Bootstrapping Error Reduction. NeurIPS 2019
• Fujimoto et al. (2019) Off-Policy Reinforcement Learning without Exploration. ICML 2019
• Wu et al. (2019). Behavior Regularized Offline Reinforcement Learning
• Peng et al. (2019). Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning
• Nachum and Dai (2019) Reinforcement Learning via Fenchel-Rockafeller Duality
• Wang et al. (2020). Critic-regularized Regression. NeurIPS 2020
• Kidambi et al. (2020) MOReL: Model-Based Offline Reinforcement Learning. NeurIPS 2020.
• Yu et al. (2020) MOPO: Model-based Offline Policy Optimization. NeurIPS 2020.
• Kumar et al. (2020) Conservative Q-Learning for Offline RL. NeurIPS 2020.
• Yu et al. (2021) COMBO: Conservative Offline Model-Based Policy Optimization
• Agarwal et al. (2020) An Optimistic Perspective on Offline Reinforcement Learning, ICML 2020
• Wu et al. (2021) Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning, ICML 2021
• Fu et al. D4RL: Datasets for Deep Data-Driven RL.
• Jiang and Lu (2021), Offline Decentralized Multi-Agent Reinforcement Learning.

5.6 模仿学习

监督学习：训练数据分布与现实数据独立同分布。（泛化效果）

无监督学习：
自监督学习：
将自己的输入作为样本输出。？

消减对于环境的交互（问题）快速学习

行为克隆（behavior cloning）：
转换数据为有标签。（动作为专家给与）

例子：

此时误差为泛化误差

走固定步数T时

如果是带折扣的无穷多步：

在最坏情况下就是（无法与环境进行交互）

算法
DAgger：

考虑专家的reward函数。

3.拷贝分布

六、多智能体学习

资源：

6.1 算法博弈论：

计算均衡点
在有限个玩家，nash均衡一定存在。

双人零和博弈：
可用动态规划求解。

Fitctitious Play：

Double Oracle
别人玩过的策略，算一个小的子问题的Nash均衡。

Policy Space Response Oracle

Lemke-Howson Method
打上标签是为了验证属于哪一种情况。
下标为player，上标为action

然后找能够覆盖所有标签的点。这就是Nash均衡点。

Potential Games
Harmonic Game=零和博弈

两种方法的对比：

6.2 智能体策略的学习和评估

（多个玩家做决策，动作和奖励依赖其他的动作）

不同的类型划分：

博弈假设状态转移函数和reward是已知的

Rl只能接受环境给与的状态s

SG:(零和博弈）

在强化学习中：

Nash-Q 多玩家：
对每个玩家维护一个Q函数

Joint Action learners(JALs）

（在对手的策略取期望下的策略，对于每个玩家都进行策略的估计）

Opponent Modelling：
所有的其他玩家的动作做一个联合的统计。

总结：
（都是对对手的策略做一个好的response
OM/JAL是对于对手的策略进行估计
）

评估：

对于多玩家的评估：

Transitive games：

Elo Rating for Chess
思想：

Glicko Rating System
对于胜率预测的修改。
RD：比赛的多样性（控制更新量）

TrueSkill：
根据比赛结果排序，来学习玩家的Skill
可以处理队伍对队伍的比赛进行学习（更新单个玩家的水平）

在石头剪刀布的游戏中，ELO Rating 无法准确预测胜率。
考虑 Elo rating 的适用性：
满足
elo rating适用。

改进后的算法
mElo2k

Nash Averaging：
对于反对称矩阵A的对称Nash策略。

α-rank（多个玩家）：

OptEval（考虑采样复杂度）
想法：

采样估计：

总结：

6.3 多智能体强化学习算法

（学习在复杂环境中协作）

在大多数情况下智能决策都在多智能体的环境。

多智能体系统分类：
1.协作多智能体

2.竞争多智能体

3.混合

6.3.1 多智能体协作决策

找到一个策略使得团队的收益最大。
模型：
联合及时回报共用

具体模型：

action为联合动作。

目标找到策略最大化团队报酬。
通过历史来做决策。
价值：当前状态下基于策略的期望报酬
策略：最大化系统的期望累计报酬

（NEXP 难于np）

强化学习主要思想如下：

多智能体强化学习：
多智能体之间的交互，协作

6.3.2 多智能体挑战

1.（scalability）智能体的大规模数量
2.（credit assignment）每个智能体对于团体的贡献
3.（Uncertainty）局部和噪声观测
4.（Heterogeneity）智能体的不同策略
5.（Exploration）主体间的协同探索

centralize 将多智能体看做一个个体，动作认为一个联合分布。（动作规模大）
Decentralized：将智能体作为一个单体，每个个体学习自己的策略。（受到其他智能体的影响）
Factorized：通过值分解结合前两种的优势
具体如下：

（IGM性质）对于联合价值函数Qmax，就等于对于每个个体的q进行max。（mix network）

如何设计 mixing network
1.线性值分解：
（最大化每个Qi）
每个agent的参数可以共享（参数变为单智能体的参数）

对应的credit assignment：
相当于考虑自己采取当前策略与采取之前策略的差别。

引入到Policy Gradient

限制：
1.表达有限（线性函数无法覆盖指数大的空间）
2

6.3.3 非线性值分解

QPLEX：
主要思想：拟合最大值并补偿其余值
具体：
在理论上：

6.3.4

智能体封闭式的学习可能会导致miscoordination

解决方法：Communication

NDQ：

reference：
Wang, T., Wang, J., Zheng, C. and Zhang, C., 2019. Learning nearly decomposable value functions via communication minimization. ICLR 2020

2.Role-based learning
agent的diverse behaviors

当智能体扮演same role时，可以采取相同的behaviors

通过推理对应的agent role来判断是否可以share policy

reference：
[1] Rashid, et. al. QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning. (ICML 2018)
[2] Vinyals, et al. Grandmaster level in starcraft ii using multi-agent reinforcement learning. (Nature 2019)
[3] Baker, et al. Emergent tool use from multi-agent autocurricula. (ICLR 2020)
[4] Lowe, et al. Multi-agent actor-critic for mixed cooperative-competitive environments. (NeurIPS 2017)

6.3.5 summary

6.4 平均场理论的多智能体起强化学习

个体相似时可以考虑使用平均场来减小计算量。
reference：

6.4.1 平均场原理近似非协作游戏

在Agent非常多的时候，可以用model base 方法来解决。
另一种想法：采用平均场原理
决策时个体因素的影响较小。

平均场对于模型的要求：
Nplay的模型：
1.我们需要假设agent是同分布的。
2.play i 有自己的policy
3.通过经验测量，玩家i依赖于其他代理（？）
可以让相同的agent形成一个group，group之间可以有些许不同。

MeanField Game

存在唯一解的条件：

找到NE：
考虑使用Qlearning是其他的agent不动
具体如下：

不稳定，不收敛

对应的问题：

收敛的算法 GMFG

参考文献：

6.4.2 平均场原理近似协作游戏

对应的Copperative MARL

central controller（直接用qlearning 计算量非常高）
我们考虑一个更小的MARL模型中
如下：
平均场的使用条件：

DPP（Dynamic Programming Principle）

通过贝尔曼方程来设计Q函数

平均场理论对于机器学习：

6.5 捉迷藏游戏策略和开放问题

考虑得到多样的策略，然后放到intuition中进行模拟评估。
（Reward Randomization for stag-Hunt）

6.6 深度学习求解大规模复杂博弈

求解Nash

补充：
虚拟遗憾最小化（CFR）

博弈论对于安全性：

七、专题报告

7.1 专题报告（一）强化学习训练系统

7.1.1 深度学习时代下的机器学习系统

深度学习成功的核心三要素：数据，算法，算力

深度学习+系统的进步：编程语言，优化，计算机体系结构，并行计算和分布式系统
 强化学习与机器学习的区别：强化学习需要实时采集数据

7.1.2 深度（分布式）强化学习系统

为什么需要分布式强化学习：

分布式强化学习：
其他的分布式强化学习
ape-x
R2D3

数据采集效率改进：
数据采集效率是收敛关键。

在强化学习中的数据采样过程：

解决方案：
1.提供复杂环境中的并行采样支持
2.提供简单的分布式采样接口

SeeRL：异构硬件上推理，优化和传输的改进

7.1.3 多智能体学习系统的额外挑战

零和博弈中的非传递性

使用基于种群的续联是提高算法表现和鲁棒性的有效方式（带来额外的复杂性）‘’
具体如下：

多智能体的系统需求

7.1.4 面向基于种群多智能体强化学习的并行训练框架

MALIB：

任务数据解耦：

训练模式层面的算法抽象：

7.2 多智能体通信与协同中的博弈论与强化学习

7.2.1 Role of informats in security games

偷猎问题：

保护者策略：
对应的博弈顺序：

Direct Defense Plan：
infrent 回报对应的被攻击的target，同时回报他自己的真实type

用线性规划对于每个target，然后找到其中最优的。

具体：

偷猎问题的无人机信号：
解决方案（线性规划）：

3.考虑对应问题为t轮博弈（偷猎问题）
此时Defender不告知对应的防护策略
且defender不知道attacker对于不同target的重视程度
具体如下：

即attacker 考虑当前收益和后续的收益（通过保护自己当前的策略）
这里目标找到一个均衡的策略。

首先考虑：

找完美贝叶斯均衡
通过反向寻找对应的点。

Coorelated equilibrium

EFCE？
求解算法：
1.通过subgradient descent method

2.a regret minization-based algorithm

7.2.4 food rescue patform

目标：保证更多的任务能够被完成。

ai的工作：

总结：

7.3 强化学习和游戏AI：技术演进&商业价值探讨

（CFR,DRL）

7.4 深度强化学习的挑战和落地

1.自动构造奖励
2.自动信任分配

Multiagent credit Assignment：

Multiagent Q-value Path Decomposition
更好的捕捉不同group之间的区别

global q-value的分解：

评估每个agent对于总体Q的贡献。

7.4.2

PeVF（Policy extended value function）
通过采样，然后评估，修改策略，迭代以得到更好的策略。

如何设计策略表征：
两种表征方式：
1.用神经网络的参数
2.用s，a对来表示

（策略的相似度，来更好的评估策略表征）

2.Environment Dynamics Decomposition Framework

对action的不同的划分（解耦）：

7.3

DRL Training 算子，用于生产一些难以得到的行为。

7.4 应用：

总结：

你可能感兴趣的:(RLChina强化学习笔记)

六十天前端强化训练之第十七天React Hooks 入门：useState 深度解析编程星辰海 #前端前端 react.js javascript
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、知识讲解1.Hooks是什么？2.useState的作用3.基本语法解析4.工作原理5.参数详解a)初始值设置方式b)更新函数特性6.注意事项7.类组件对比8.常见问题解答二、核心代码示例三、实现效果四、学习要点总结五、扩展阅读推荐官方文档优质文章推荐学习路径进阶资源六、实践步骤一、表单输入控制二、动态
大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建（initial）大模型科普人工智能强化学习
1.引言大型语言模型（LLM）在自然语言处理领域的突破，展现了强大的知识存储、推理和生成能力，为人工智能带来了新的可能性。强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。为了更好地理解这一融合的潜力，我们基于“LargeLanguageModela
强化学习-Chapter2-贝尔曼方程 Rsbs 算法机器学习概率论
强化学习-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…)∣St=s]=E[rt+1+γGt+1∣St=s]=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(R
【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力 accurater 人工智能深度学习 R1-Searcher
关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
【通缩螺旋的深度解析与科技破局路径】调皮的芋头机器学习神经网络
通缩螺旋的深度解析与科技破局路径一、通缩螺旋的形成机制与恶性循环通缩螺旋（DeflationarySpiral）是经济学中描述价格持续下跌与经济衰退相互强化的动态过程，其核心逻辑可拆解为以下链条：需求端萎缩：居民消费信心不足（如中国2023年消费者信心指数创历史新低），导致商品价格下行压力加剧。企业端收缩：企业收入增速放缓（2023年中国规上工业企业利润同比-2.3%），被迫削减投资/裁员（青年失
uCOS-II学习笔记(一) abc94 uCOS-II 任务 dos borland os 编译器数据结构
第一章：范例在这一章里将提供三个范例来说明如何使用µC/OS-II。这一章是为了让读者尽快开始使用µC/OS-II。1.00安装µC/OS-II1.01INCLUDES.H#include"includes.h"INCLUDE.H可以使用户不必在工程项目中每个*.C文件中都考虑需要什么样的头文件。换句话说，INCLUDE.H是主头文件。这样做唯一的缺点是INCLUDES.H中许多头文件在一些*.C
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
C语言学习笔记-进阶（17）预处理详解 John.Lewis c语言学习笔记
1.预定义符号C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC，其值为1，否则未定义举个例子：printf("file:%sline:%d\n",__FILE__,__LINE__);2
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
金融风控可解释性算法安全优化实践智能计算研究中心其他
内容概要在金融风险控制领域，算法的可解释性与安全性已成为技术落地的核心挑战。本文从实际业务场景出发，系统性梳理可解释性算法与联邦学习、特征工程的协同框架，通过超参数优化与动态模型评估机制，构建透明化决策链路。在技术实现层面，重点解析支持向量机与随机森林的改进方案，结合数据清洗与标注的标准化流程，强化风险预测模型在准确率、F1值等关键指标的表现，同时兼顾合规性与安全边界的设计要求。提示：金融机构在部
A800架构设计与实战智能计算研究中心其他
内容概要《A800架构设计与实战》围绕新一代计算架构的技术演进与工程落地展开系统性论述。全书以分布式运算优化原理为切入点，通过对核心模块的层级化拆解，深入剖析多节点协同计算中的资源分配、任务调度及通信瓶颈突破方法。为强化理论与实践的结合，书中引入智能制造与云渲染两大典型场景的完整案例，覆盖从需求分析、架构设计到性能调优的全生命周期。技术维度实现路径应用价值架构设计核心模块拆分与重组降低系统耦合度分
简单了解WIndow和Linux的路径含义 alive903 Linux linux windows
目录1>路径概念2>绝对路径2.1>window绝对路径2.2>Linux绝对路径3>相对路径3.1>window相对路径3.2>Linux相对路径很高兴你能看到这篇文章，同时我的语雀文档也更新了许多嵌入式系列的学习笔记希望能帮到你：https://www.yuque.com/alive-m4b9n1>路径概念路径是用来描述一个文件或目录在文件系统中的位置的方式。路径可以是文件系统中的唯一标识符，
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
仍未接入DeepSeek，字节有自己的计划！蜂耘人工智能业界资讯 ai
DeepSeek如烈火般蔓延，用深度思考之火席卷整个AI界，一时间，与AI相关的产品陆陆续续接入DeepSeek，百度、腾讯等大厂虽有自研AI，却依旧毫不犹豫地投入DeepSeek怀抱。君不见，腾讯接入DeepSeek后，短期内股价疯涨两次，这是由于DeepSeek强化了AI产品的竞争力，大家认为DeepSeek的技术与腾讯的用户基础结合，能碰撞出AI应用变现加速的火花。在腾讯元宝接入DeepSe
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
WPF学习笔记04-控件Control_Part1 一只只对技术感兴趣的程序员 WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了，这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中，打交道最多的控件无非就那么几种。1）布局控件。之前介绍过的，可以容纳多个控件或嵌套其他布局控件，用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件，他们都拥有共同父类---
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
【学习笔记】GitLab 使用技巧和说明和配置和使用方法铜锣烧1号 python git gitlab pycharm
GitLab使用技巧和说明1.注册账号和登录注册账号：访问GitLab官网，点击“Signup”按钮，填写必要的信息（如用户名、邮箱、密码）完成注册。普通用户注册后需要管理员审批，如果有管理员权限可以直接登录使用。登录：使用注册的账号和密码登录GitLab。2.创建项目创建项目：登录后，点击页面右上角的加号图标，选择“Newproject”创建新项目。在项目创建页面，填写项目名称、描述和可见性等信
『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用 AI大模型前沿研究大模型笔记 macos ffmpeg M1
MAC系统电脑安装FFmpeg文章目录一.安装FFmpeg1.1.MACbrew安装FFmpeg1.2.MAC官网下载FFmpeg压缩包1.3.Windows安装1.4.Linux安装二.FFmpeg的使用2.1.音频操作2.1.1.如果不转换，直接输出aac2.1.2.将音频输出为wav2.1.3.将aac转换为wav2.1.4.双声道分离2.1.5.使用FFmpeg将音频和视频合并2.2.字幕
渗透学习笔记（四）window基础2 nnnimok 学习笔记
声明！学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/350329294)五、Windows网
C++ 并发编程实战学习笔记 myc13381 c++笔记
C++并发编程学习笔记目录一.基本接口二.初步了解多线程三.线程所属权管理四.线程间共享数据五.同步并发操作六.C++内存模型和原子类型操作七.基于锁的并发数据结构设计八.无锁数据结构九.并发代码设计十.高级线程管理十一.并行算法十二.参考资料基本接口std::thread常用成员函数构造和析构函数//默认构造函数，创建一个线程，什么也不做thread()noexcept;//初始化构造函数，创建
一文读懂强化学习：从基础到应用 LHTZ 算法时序数据库大数据数据库架构动态规划
强化学习是什么强化学习是人工智能领域的一种学习方法，简单来说，就是让一个智能体（比如机器人、电脑程序）在一个环境里不断尝试各种行为。每次行为后，环境会给智能体一个奖励或者惩罚信号，智能体根据这个信号来调整自己的行为，目的是让自己在未来能获得更多奖励。就像训练小狗，小狗做对了动作（比如坐下），就给它零食（奖励），做错了就没有零食（惩罚），慢慢地小狗就知道怎么做能得到更多零食，也就是学会了最优行为。强
RecyclerView学习笔记(1) ChildHelper.Bucket 奋斗小小鸟cy Android android 数据结构
简介toString方法set方法get方法clear方法countOnesBefore方法reset方法insert方法remove方法总结简介RecyclerView中的ChildHelper.Bucket是一个工具类，实现了类似List的数据结构，从而达到减少内存占用的目的。Bucket是一个链表结构，有两个字段：mData用于存储当前信息，next指向下一个数据publicstaticcl
RxSwift 学习笔记第二篇之Observables 我叫柱子哥 #RxSwift rxswift Observable Swift
目录前言一、什么是Observables二、创建Observable的几种方式1.just1.含义2.实用场景2.of1.含义3.from4.create5.interval三、订阅Observable四、取消订阅（DisposeBag）五、常见操作符六、总结前言这篇博客主要介绍Observables的用法。一、什么是ObservablesObservables是Rx的核心。在Rx中我们看到“Ob
C++20 新特性总结 arong-xu Modern C++c++20 算法
简要总结C++20引入了四项非常大的更新,分别是:概念(Concepts).用来简化模板编程,强化表达能力.并且使得出错原因更容易查找.模块(Modules).这是代码组织方面非常大的更新.提供了新的方式来组织代码,并且可以减少编译时间.范围库(RangesandViews).轻量级的,非拥有的范围库,允许对数据进行各种操作.协程(Coroutine).多线程编程方面的一次重大更新.本文将会对C+
React学习笔记16 充气大锤 React学习笔记 react.js 学习笔记 javascript 前端 vue.js
一、useReducer作用：和useState的作用类似，用来管理相对复杂的状态数据使用：1、定义一个reducer函数（根据不同的action返回不同的新状态）2、在组件中调用useReducer，并传入reducer函数的状态和初始值import{useReducer}from"react"functionreducer(state,action){switch(action.type){c
QwQ-32B企业级本地部署：结合XInference与Open-WebUI使用大势下的牛马搭建本地gpt RAG 知识库人工智能 QwQ-32B
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型，拥有320亿参数，基于Transformer架构，采用大规模强化学习方法训练而成。它在数学推理、编程等复杂问题解决任务上表现出色，性能可媲美拥有6710亿参数的DeepSeek-R1。QwQ-32B在多个基准测试中表现出色，例如在AIME24基准上，其数学问题解决能力得分达到79.5，超过OpenAI的o1-mini。它在LiveBench、
C语言进阶指针学习笔记 flashier C语言学习记录 c语言学习笔记
文章目录字符指针指针数组数组指针数组名数组传参函数指针函数指针数组指向函数指针数组的指针回调函数Qsort的使用通过冒泡排序模拟实现qsort大部分的内容都写在代码注释中指针有类型，指针的类型决定了指针的±整数的步长，指针解引用操作的时候的权限字符指针#includeintmain(void){constchar*str1="Hello,World!";constchar*str2="Hello,
Python个人学习笔记（14）：函数（匿名函数、内置函数（下）、三元表达式） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
九、匿名函数lambda表达式语法规则：变量=lambda参数1,参数2,…:返回值例：用lambda简化下述操作deffunc(a,b):returna+bret=func(1,2)print(ret)代码：fn=lambdaa,b:a+bprint(fn)print(fn(12,13))结果：at0x000001E751EAAF20>25可以帮我们一句话创建函数可以与某些内置函数一起用十、内置
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">