Promethe_us

[阅读笔记]蘑菇书《Easy RL》

文章目录

- 一、强化学习基础
- - 1.1 强化学习与监督学习
  - 1.2 一些基本概念
  - 1.3 Agent
  - 1.4 gym使用例子: MountainCar-v0
- 二、Markov
- - 2.1 Markov奖励过程和Markov决策过程
  - 2.2 预测与控制
  - 2.3 策略迭代和价值迭代
  - - 2.3.1 策略迭代
    - 2.3.2 价值迭代
- 三、表格型方法
- - 3.1 如何求 $V_\pi(s)$ $(m o d e l - f ree)$ ?
  - - 3.1.1 蒙特卡洛方法
    - 3.1.2 时序差分(TD)
  - 3.2 如何把策略迭代应用到model-free情境下?
  - 3.3 Sarsa (on-policy的时序差分)
  - 3.4 Q-Learning (off-policy的时序差分)
  - 3.5 Sarsa与Q-Learning的区别
- 四、策略梯度
- - 4.1 基础概念
  - 4.2 实现PG要注意的两个点
  - - 4.2.1 给奖励添加常数
    - 4.2.2 分配合适的分数
  - 4.3 REINFORCE:蒙特卡洛策略梯度
- 五、PPO
- - 5.1 重要性采样
  - 5.2 PPO
  - - 5.2.1 PPO-Penalty
    - 5.2.2 PPO-Clip
- 六、七、八、DQN
- - 6.1 目标网络
  - 6.2 探索
  - 6.3 经验回放
  - 7.1 Double DQN
  - 7.2 Dueling DQN
  - 8.1 DQN(连续动作)
- 九、Actor-Critic
- - 9.1 PG和DQN回顾
  - 9.2 优势演员-评论员算法(A2C)
  - 9.3 异步优势演员-评论员算法(A3C)
  - 9.4 路径衍生策略梯度(PDPG)
- 十、稀疏奖励
- - 10.1 Reward Shaping
  - 10.2 Curriculum Learning
  - 10.3 Hierarchial RL（分层强化学习）
- 十一、模仿学习
- - 11.1 行为克隆
  - 11.2 逆强化学习（IRL）
- 十二、DDPG

一、强化学习基础

1.1 强化学习与监督学习

对于 supervised-learning ，有两个假设:
- ① 输入的数据都是independent and identically distributed (i.i.d.)
- ② 必须要立刻获得反馈(error)
强化学习的后续数据来自于后续动作，我们希望得到有稳定提升的数据，即在强化学习里面一个非常重要的问题就是，怎么让智能体的动作一直稳定地提升。
监督学习的数据都是人打标签做到的，因此监督学习的上限就是标签，但是强化学习是Agent在环境中自己探索，强化学习的上限是无法预知的。
强化学习是根据当前状态输出下一步动作，很多时候无法对下一步动作进行标注

1.2 一些基本概念

预演(rollout): 在当前状态下，尝试多种action,直到一局游戏结束。
序列决策过程: 智能体动作，从环境中获得奖励和状态，根据状态进行下一步动作。
一个回合(episode)/一个试验(trial)：就是一局游戏，从开始到结束。
轨迹: 即一条路走到结束，并且记录每一步的 $St a t e 和 A c t i o n$

$\tau = (s_0, a_0,s_1, a_1,s_2, a_2,s_3, a_3...)$
历史:

$H_t = (o_1,r_1,a_1,o_2,r_2,a_2...o_t,r_t,a_t)$

$S_t = f(H_t)$
状态S和观测O:
- 观测（Observation）是指观测到或能感知到的所有参数的集合，如通过摄像头采集的图像，通过传感器获取的各种信号
- 状态（State）是对某一个情景的完备性描述,例如，我们可以用 RGB 像素值的矩阵来表示一个视觉的观测，可以用机器人关节的角度和速度来表示一个机器人的状态。
- 严格来说，智能体通过接受观测输出动作和智能体的状态，环境接受智能体的动作，输出环境的状态，在强化学习的设定里面，环境的状态才是真正的所有状态。
  
  当智能体的状态与环境的状态等价的时候，即当智能体能够观察到环境的所有状态时，我们称这个环境是完全可观测的，这种情况下可以用可观测Markov模型解决。
  
  在马尔可夫决策过程中， $o_t = s_t^a = s_t^e$
生活中，智能体无法观测全部环境状态，即部分可观测Markov模型，下面是POMDP的七元组

$(S,A,T,R,\Omega,\gamma)$

(状态空间，动作空间，状态转移概率，奖励函数，观测概率，观测空间，折扣系数)
$T(s^{'}|s,a)为状态转移概率，\Omega(o|s,a)为观测概率$

深度强化学习：有了深度网络，就有了端到端的能力，我们就不用去考虑特征。可以直接设计一个输入State输出Action的函数。

1.3 Agent

强化学习智能体要包含以下三种能力:

Agent

策略函数

价值函数

状态转移模型
- ① 策略: 根据当前的观测和状态->输出下一步动作
  - 随机性策略： $\pi(a|s),输入当前状态，输出执行动作空间各个动作的概率$
  - 确定性策略: $[\pi(a|s)]，输入当前状态，输出一个动作$
- ② 价值函数: 输入当前智能体的状态，价值函数评估此状态的价值
  
  V函数只评估状态的价值，Q函数评估(当前状态+下一步动作)的价值
  - $V_x(s)=E_{\pi}[G_t|s_t=s]=E_{\pi}[\Sigma{\gamma^kr_{t+k+1}|s_t=s}]$
  - $Q_{\pi}(s,a)=E_{\pi}[G_t|s_t=s,a_t=a]=E_{\pi}[\Sigma{\gamma^kr_{t+k+1}|s_t=s,a_t=a}]$
- ③ 模型: 智能体对环境状态的理解
  
  $模型的输入是(s_t,a_t),输出是“执行a后状态转移到s^{'}的概率”$
  
  $p_{s->s^{'}} ^a= p(s_{t+1}=s^{'}|s_t=s,a_t=a)$

**根据如何利用价值函数和策略函数，**我们可以把智能体分为Value-based和Policy-based，即对于智能体来说，根据环境中的不同状态，输出的是动作还是当前状态的价值。

**基于价值的智能体（value-based agent）**显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。**基于策略的智能体（policy-based agent）**直接学习策略，我们给它一个状态，它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。

根据是否有状态转移模型，我们把智能体分为model-based和model-free

状态转移模型是智能体对环境进行的拟合，是智能体通过对环境的感知自己构建的虚拟环境

$对于强化学习任务，最重要的是 < S, A, P, R >, 即状态空间，动作空间，状态转移模型，奖励函数$

如果以上信息已知，那么智能体具有足够能力对真实环境进行仿真
- model-baesd:
  
  均已知且容易设置，就可以采取model-based的策略
- model-free:
  
  通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，这时就需要采用免模型强化学习。免模型强化学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，等待奖励和状态迁移，然后根据这些反馈信息来更新动作策略，这样反复迭代直到学习到最优策略。
  
  （model-free需要大量数据， model-based需要的数据少一些）

什么是探索和利用:
- t探索: 将所有的尝试机会平均分配给每个摇臂（即轮流按下每个摇臂），最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。
- 利用: 按下目前最优的（即到目前为止平均奖励最大的）摇臂，若有多个摇臂同为最优，则从中随机选取一个。

事实上，探索（估计摇臂的优劣）和利用（选择当前最优摇臂)这两者是矛盾的，因为尝试次数（总投币数）有限，加强了一方则自然会削弱另一方，这就是强化学习所面临的探索-利用窘境（exploration-exploitation dilemma）。

gym环境: https://www.gymlibrary.ml/environments/classic_control/

1.4 gym使用例子: MountainCar-v0

import gym
env = gym.make('MountainCar-v0')
print('观测空间 = {}'.format(env.observation_space))
print('动作空间 = {}'.format(env.action_space))
print('观测范围 = {} ~ {}'.format(env.observation_space.low,
        env.observation_space.high))
print('动作数 = {}'.format(env.action_space.n))

output：

观测空间 = Box(2,) #观测空间是形状为(2,)的浮点型 np.array
动作空间 = Discrete(3) #动作空间是取 {0,1,2} 的 int 型数值
观测范围 = [-1.2  -0.07] ~ [0.6  0.07]
动作数 = 3

二、Markov

2.1 Markov奖励过程和Markov决策过程

马尔可夫性质: 在一个随机过程给定过去状态和当前状态下，未来状态的条件概率分布仅仅取决于当前状态

即 $p(X_{t+1}=x_{t+1}|X_{0:t}=x_{0:t})=p(X_{t+1}=x_{t+1}|X_t=x_t)$

离散时间的马尔可夫过程也称为马尔可夫链

马尔可夫奖励过程:

回报是奖励的累加，即: $G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+2} + ...$

当我们有了回报之后，就可以定义状态的价值了，

对于马尔可夫决策过程，状态价值函数被定义为回报的期望即:

(我们对策略进行采样得到一个期望)
$状态价值函数: V^t(s)=E[G_t|s_t=s]$
当我们有了一些轨迹的实际回报时，怎么计算它的价值函数呢？比如我们想知道 $s_1$ 的价值，即当我们进入 $s_1$ 后，它的价值到底如何？一个可行的做法就是我们可以生成很多轨迹，然后把轨迹都叠加起来。比如我们可以从 $s_1$ 开始，采样生成很多轨迹，把这些轨迹的回报都计算出来，然后将其取平均值作为我们进入 $s_1$ 的价值。这其实是一种计算价值函数的办法，也就是通过蒙特卡洛采样的方法计算 $s_1$ 的价值。但是这样搞，太麻烦了，而且采样效果不一定好。

因此，引入了贝尔曼方程
贝尔曼方程的作用就是如何根据一堆轨迹的回报去设计状态价值函数

下面的是马尔可夫奖励过程的价值函数的贝尔曼方程
$\gamma \Sigma p(s^{'}|s)V(s^{'}) \\$
贝尔曼方程就是当前状态与未来状态的迭代关系，表

示当前状态的价值函数可以通过下个状态的价值函数来计算。

求状态价值函数的方法

1.蒙特卡洛大量轨迹求均值

2.借助贝尔曼方程自举迭代
奖励函数(策略 $\pi$ 状态s下的奖励函数)
$r_{\pi}(s) = \Sigma \pi(a|s)R(s,a)$
- 马尔可夫过程/奖励过程中：状态 $s_1$ 转移到状态 $s_2$ 的状态转移概率
- 马尔可夫决策过程: 状态 $s_1$ 且执行动作 $a_1$ 转移到状态 $s_2$ 的状态转移概率

$\\ V_\pi(s) = E_\pi [G_t|s_t=s] \\ \\ Q函数叫动作价值函数: 在某一个状态采取一个动作，可能得到的回报的期望\\ Q_\pi(s,a) = E_\pi [G_t|s_t=s,a_t=a]$
Q函数是针对某个(s,a)的，V函数才是针对某个s的，故:
$V_\pi(s) = \Sigma \pi(a|s)Q_\pi(s,a) \\$

先用V计算Q，再用Q计算V。
$\\ V_\pi(s) = \Sigma \pi(s|a)Q_\pi(s|a) \\ \\ (c) \\ Q_\pi(s|a) = R(s,a) + \gamma \Sigma p(s^{'}|s,a)V_\pi(s^{'}) \\$
一开始的时候，我们对*V(s′)进行初始化，不同的 V(s’) 都会有一个值；接着，我们将V(s′)*代入贝尔曼期望方程里面进行迭代，就可以算出它的状态价值。

策略评估: 如何计算 $V_{\pi}(s)$ 呢？
$V_\pi ^t(s) = \Sigma p(\pi(s)=a)(r(s,a) + \gamma\Sigma p(s^{'}|s,a) )$
一开始的时候，我们对V(s′)进行初始化，不同的 V(s′) 都会有一个值；接着，我们将V(s′)代入贝尔曼期望方程里面进行迭代，就可以算出它的状态价值。

2.2 预测与控制

预测是给定一个马尔可夫决策过程以及一个策略 $\pi$ , 计算 $V 函数$

input output

$\gamma$ $V_\pi(s)$

input	output
$\gamma$	$V_\pi(s)$

控制是搜索最佳策略的过程，输出最佳价值函数和最佳策略

input	output
$\gamma$	$最佳价值函数V^和最佳策略函数\pi^$

控制问题要做的就是，给定同样的条件，求出在所有可能的策略下最优的价值函数是什么，最优策略是什么。

2.3 策略迭代和价值迭代

什么是最佳策略？什么是最优价值函数?
$\pi^*(s)=\underset{_{}^{}}{_{}^{}}{argmax}_\pi^{} V_\pi(s) \\ 最佳价值函数: V^*(s) = \underset{_{}^{}}{_{}^{}}{max}_\pi^{} V_\pi(s)$
我们该怎么找到最佳策略?

穷举法效率极低，常用的方法有两种: ① 策略迭代； ② 价值迭代；

2.3.1 策略迭代

策略迭代用于优化策略函数,策略迭代分为两步: ① 策略评估； ②策略改进；

① 策略评估: $根据MDP和\pi求V_\pi(对任意s)$
$V_\pi = \begin{bmatrix} V_\pi(s_1) \\V_\pi(s_2) \\... \\ V_\pi(s_{|S|}) \end{bmatrix} \\ V_\pi(s) = E_\pi[G_t|s_t=s] = E_\pi[R_{t+1}+\gamma V_\pi(s_{t+1})] \\ = \Sigma \pi(a|s) [\Sigma_{s^{'},r} p(s^{'},r|a) (r+\gamma V_\pi(s^{'})) ] \\ = \Sigma \pi(a|s) [\Sigma_{s^{'},r} p(s^{'},r|a) r] + \gamma \Sigma \pi(a|s) [\Sigma_{s^{'},r} p(s^{'},r|a) V_\pi(s^{'}) \quad (2-1) \\ 前面记作: R_\pi(s),R_\pi(s)有S个，因为对于每个S，策略都是固定的 \\ 式(2-1) = V_\pi(s) = R_\pi(s)+ \gamma \Sigma p_\pi(s,s^{'})V_\pi(s^{'})$
在代码中，就是 $V_\pi = r_\pi + \gamma P_\pi V_\pi \quad (r_\pi, P_\pi都是对环境的描述)$

迭代求解说白了就是设计一个数列 $V_1,V_2,V_3...最终满足上面的收敛条件$
$V_{k+1}(s) = \Sigma \pi(a|s) [\Sigma_{s^{'},r} p(s^{'},r|a) (r+\gamma V_k(s^{'})) ]$

② 策略改进: $使用新的\pi^{'}改进之前的\pi,使得V_{\pi^{‘}}>V_\pi$

策略改进定理: $对任意状态s，如果Q_\pi(s,\pi^{'}(s)) > V_\pi(s) \Rightarrow 对任意状态s,V_{\pi^{‘}}(s)>V_\pi(s)$
贪心策略: $\pi^{'}(s) = \underset{a}{argmax} Q_\pi(s,a)$

一直这样更新下去，直到 $V_\pi = V_{\pi^{'}}$
实际计算中，策略评估其实也是一个迭代计算的过程(直到数列收敛)，我们可以截断一下，减小计算量。即当迭代的 $V_\pi$ 比之前的大多少的时候或者经过多少轮迭代就终止

2.3.2 价值迭代

初始化: k = 1，对于所有的s， $V_0(s)=0$
对于 k = 1： H (H是让V(s)收敛所需要的迭代次数)

对于所有状态s:

$Q_{k+1}(s,a) = R(s,a) + \gamma \Sigma p(s^{'}|s,a)V_k(s^{'})$
$V_{k+1} = max Q_{k+1}(s,a)$
k = k + 1
$\pi(s) = argmax [R(s,a) + \gamma \Sigma p(s^{'}|s,a)V_{H+1}(s^{'}]$

价值迭代是极端情况下的策略迭代( $V_\pi只进行简单的更新$ )

贝尔曼等式:

$\gamma PV$

Iterative Algorithm（动态规划方法）： 可用来计算价值函数的值。通过一直迭代对应的Bellman Equation，最后使其收敛。当这个最后更新的状态跟你上一个状态变化并不大的时候，这个更新就可以停止。
Q函数是动作价值函数，即Q(s,a)
根据Q函数求最优的策略有三种方法:
- ① 穷举法
- ② 策略迭代
- ③ 价值迭代
价值函数 $V_\pi(s)$ 与当前状态s和策略函数 $\pi$ 有关，因此所谓的最有价值函数，就是选择自变量函数 $\pi$ 使得 $V_\pi(s)$ 最大

记作: $最有价值函数V^*(s) = \underset{_{}^{}}{_{}^{}}{max}_\pi^{} V_\pi(s) = \underset{_{}^{}}{_{}^{}}{max}_\pi^{} Q_\pi(s,a)$

三、表格型方法

我们使用状态转移函数和奖励函数来描述环境。
什么是动态规划方法?

使用迭代的方法求解贝尔曼期望方程:
$V_\pi(s) = \Sigma \pi(a|s) [\Sigma p(s^{'},r|s,a)(r+\gamma V_\pi{s^{'}})]$
在 $m o d e l - f ree$ 的方案中:
- $V (s)$ 用于判断状态是好的还是坏的。
- $Q$ 函数用于判断在 $s$ 下采取什么a可以获得最大的 $G_t$
在Chapter2中的策略迭代和价值迭代都是需要 $p(s^{'}|s,a)和r(s,a)$ 的，但是在很多实际问题中，环境描述起来非常困难，所以当 $M D P$ 的模型未知或者很大时，我们可以使用 $m o d e l - f ree$ 的强化学习方法。

RL

model-based

model-free

value-based

on-policy

Sarsa

off-policy

Q-Learning

DQN

DDPG

policy-based

Policy-Gradient

Actor-Critic

A3C

TRPO

PO
Q表格:

(对于悬崖行走问题)

强化是指我们可以用下一个状态的价值来更新当前状态的价值，其实就是强化学习里面自举的概念。

在强化学习里面，我们可以每走一步更新一次 Q 表格，用下一个状态的 Q 值来更新当前状态的 Q 值，这种单步更新的方法被称为时序差分方法

3.1 如何求 $V_\pi(s)$ $(m o d e l - f ree)$ ?

3.1.1 蒙特卡洛方法

多次采样得到多条以当前状态 $s$ 为起点的轨迹:
$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^{2} r_{t+3} + ... \\ V_\pi(s) = E[G_t|s_t=s]$

蒙特卡洛方法不需要 $M D P$ 的状态转移函数和奖励函数，并且不需要像动态规划那样用自举的方法。

如何使用蒙特卡洛方法更新Q表格呢? (即新采到一条轨迹后，如何更新)
$N(s_t) += 1 \\ V(s_t) = V(s_t) + \alpha (G_t - V(s_t))$

循环(each trajectory):
由 $\pi$ 生成一条轨迹 $S_0,A_0,R_1,S_1,A_1,R_2...S_{T-1},A_{T-1},R_{T},S_{T}$

循环(each step) $t = T - 1, T - 2, ...0$ ：

$\leftarrow \gamma G + R_{t+1}$
若 $S_t$ 未出现在 $S_{0:t-1}$ :

将G加入到 $return(S_t)$
$V(S_t) = average(return(S_t))$

3.1.2 时序差分(TD)

自举: 根据 $V_(s_t)和\pi去估计V_(s_{t+1})$

演示例子: https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html

每往前走一步，就做一部自举，用得到的“估计回报” $r_{t+1}+\gamma V_t(s+1)$ 来更新 $v (S)$
$V(s_t) = V(s_t) + \alpha (r_{t+1}+\gamma V_t(s+1)- V(s_t))$

对比蒙特卡洛与时序差分:
- 在蒙特卡罗方法里， $G_{i,t}$ 是走完一条轨迹后实际得到的值，但是 $T D$ 只执行一步，状态的值就更新。
- 时序差分方法可以在线学习（online learning），每走一步就可以更新，效率高。蒙特卡洛方法必须等游戏结束时才可以学习。
- n步TD
  $1:G_t = r_{t+1} + \gamma V(s_{t+1}) \\ n = 2:G_t = r_{t+1} + \gamma V(s_{t+1}) + \gamma^2 V(s_{t+2}) \\ ... n = ∞: G_t = r_{t+1} + \gamma V(s_{t+1}) + \gamma^2 V(s_{t+2}) + ...$
  可见，无穷阶TD就是蒙特卡洛方法

自举是指更新时使用了估计。

3.2 如何把策略迭代应用到model-free情境下?

试探性出发假设: $任意一对 (s, a) 都有大于 0 的概率被选中。$
- 用于生成样本的策略(行动策略) = 待评估待改进的策略(目标策略)，叫on-policy。
- 但是我们无法确保我们的环境和策略是满足试探性出发假设的，因此有了off-policy。
  - off-policy中分为行动策略和目标策略, 行动策略探索性随机性较强，保证尽可能满足试探性出发假设。
策略迭代: $Q$ 函数评估 + 贪心方法改进策略

但是没有 $p(s^{'},r|s,a)$ 和 $r (s, a)$ ，该如何执行策略迭代呢?
- ① 使用MC方法替代原有的DP方法进行价值评估。
- ② 使用贪心方法改进策略:
  
  并不是一直取 $argmaxQ(s_t)$ ,而是有 $\epsilon$ 的概率采取随机策略，这就是** $\epsilon-greedy 方法$ **
下面三种是value-based三种主要思想

3.3 Sarsa (on-policy的时序差分)

Sarsa就是用时序差分的方法更新Q函数，是on-policy的方法(采样的Q和待更新的Q是同一套策略)

更新公式中: 我们用 $S_t,A_t,R_{t+1},S_{t+1},A_{t+1})$ 来更新 $Q$ 函数
sarsa算法图:

算法参数: 步长 $\alpha<1$ 极小值 $\epsilon$ （两个超参数)
对于所有 $Q (s, a)$ 随机初始化，终点处$ Q(s_{end},a) = 0$

for (each trajectory):

初始化 $S$

$a_t = \epsilon -greedy \quad(s_t)$

for (each step):

执行 $a_t$ ，得到 $r_{t+1},s_{t+1})$

$a_{t+1} = \epsilon -greedy \quad(s_{t+1})$

$Q(s_{t},a_{t})=Q(s_{t},a_{t})+\alpha[r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]$

$s_t = s_{t+1},a_t = a_{t+1}$

3.4 Q-Learning (off-policy的时序差分)

Q-Learning 有两种策略:
- 目标策略(待优化的策略)： $\pi$
- 行为策略(实际执行并采样的策略): $\mu$
算法参数: 步长 $\alpha<1$ 极小值 $\epsilon$ （两个超参数)

对于所有 $Q (s, a)$ 随机初始化，终点处$ Q(s_{end},a) = 0$

for (each trajectory):

初始化 $S$

for (each step):

$a_{t} = \epsilon -greedy \quad(s_{t})$

执行 $a_t$ ，得到 $r_{t+1},s_{t+1})$

$a_{t+1} = \epsilon -greedy \quad(s_{t+1})$

$Q(s_{t},a_{t})=Q(s_{t},a_{t})+\alpha[r_{t+1}+\gamma \underset{a}{max}Q(s_{t+1},a)-Q(s_{t},a_{t})]$

$s_t = s_{t+1}$

3.5 Sarsa与Q-Learning的区别

Sarsa 在更新 Q 表格的时候，它用到的 A’ 。我要获取下一个 Q 值的时候，A’ 是下一个 step 一定会执行的 action 。这个 action 有可能是 ε-greddy 方法 sample 出来的值，也有可能是 max Q 对应的 action，也有可能是随机动作。但是就是它实实在在执行了的那个动作。
Q-learning 在更新 Q 表格的时候，它用到这个的Q(S’,a’)对应的那个 action ，它不一定是下一个 step 会执行的实际的 action，因为你下一个实际会执行的那个 action 可能会探索。

四、策略梯度

强化学习有三个组成部分: ① actor； ② environment；③ reward function；

这三者里，只有actor的策略是我们可以控制的，我们唯一需要做的就是调整演员里面的策略，使得演员可以得到最大的奖励。
策略是一个网络，输入是游戏的画面，它通常是由像素组成的；对于动作空间是离散的问题: 输出是我们可以执行的动作，有几个动作，输出层就有几个神经元。
一场游戏称为一个回合(episode)
policy-based适用场景:
- ① 随即策略
- ② 动作空间连续

4.1 基础概念

$\tau = {s_1,a_1,s_2...s_t,a_t}$
如果我们知道策略网络函数 $p (a ∣ s)$ 和环境中的状态转移概率 $p(s^{'}|s,a)$ ，就可以计算某个轨迹发生的概率:（ $\theta是策略网络的参数$ ）

$P_\theta(\tau) = p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_2|s_2)..$

( $p_\theta(\tau)$ 是 $\tau$ 轨迹出现的概率)

我们希望期望奖励越大越好，因此可以采用梯度上升的方法来最大化期望奖励:
$\bigtriangledown \bar{R_\theta} = \Sigma R(\tau) \bigtriangledown p_\theta(\tau) \\ =\Sigma R(\tau) p_\theta(\tau)\bigtriangledown ln[ p_\theta(\tau)] \quad (4-1)$
（依旧是采样多条轨迹）
$\bigtriangledown ln[ p_\theta(\tau)] = \bigtriangledown ln[p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_2|s_2)..]\\ =ln[p(s_1)] + \bigtriangledown \underset{t}{\Sigma} ln[p_\theta(a_t|s_t)] + \bigtriangledown \underset{t}{\Sigma} ln[p(s_{t+1}|s_t,a_t)] \\ 因为是对\theta求梯度，只有\bigtriangledown \underset{t}{\Sigma} ln[p_\theta(a_t|s_t)]与\theta有关，剩余两项仅由环境决定: \\ 即 \bigtriangledown ln[ p_\theta(\tau)] = \sum_{t=1}^{T} \bigtriangledown ln[p_\theta(a_t|s_t)] \quad (4-2)$

将式(4-2)带入到式(4-1)中可以得到:

（说明: (n)代表第那条轨迹，即 $a_3^{(2)}$ 代表第2条轨迹第3个时间步上执行的策略。）
$\bigtriangledown \bar{R_\theta} = \Sigma R(\tau) \bigtriangledown p_\theta(\tau) ≈ \frac{1}{N}\sum_{n=1}^{N} R(\tau^{(n)}) \bigtriangledown p_\theta(\tau^{n}) \\ = \frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T^{(n)}} R(\tau^{(n)}) \bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})] \quad (4-3)$

假设 $s_{t_2},a_{t_2})$ 发现 $\tau$ 的奖励是正的，我们就要增大 $p_\theta(a_{t_2}|s_{t_2})$ ，反之减小。

我们该如何改变参数 $\theta$ 呢?
$\theta = \theta + \eta \bigtriangledown \bar{R_\theta}$
我们要用参数为 θ的智能体与环境交互，也就是拿已经训练好的智能体先与环境交互，交互完以后，就可以得到大量游戏的数据。

策略梯度(policy gradient,PG)采样的数据只会用一次(因为采样都是根据上一时刻的策略网络进行的)。我们采样这些数据，然后用这些数据更新参数，再丢掉这些数据。接着重新采样数据，才能去更新参数。

假设在采样的过程中，在某个状态下，我们采样到要采取动作 a，那么就把动作 a 当作标准答案（ground truth）。比如，我们在某个状态下，采样到要向左。因为是采样，所以向左这个动作不一定概率最高。假设我们采样到向左，在训练的时候，让智能体调整网络的参数，如果看到某个状态，我们就向左。

4.2 实现PG要注意的两个点

4.2.1 给奖励添加常数

如果给定 $状态 s$ 采取动作 $a$ , 整场游戏得到正的奖励，就要增加 $(s, a)$ 的概率，反之减小。
$\theta = \theta + \eta \bigtriangledown \bar{R_\theta}$
但是在很多游戏里面(比如乒乓球游戏)，奖励总是正的，最低是0。分数为0~21分，这种情况下围殴了避免全部提升概率可能导致的。我们直接在奖励里面减去一个常数，这样就有负有正。

4.2.2 分配合适的分数

在同一场游戏里面，也许哟写动作是好的，有些动作是不好的，即使整场游戏的结果是好的，并不代表该场内每个动作都是好的。

我们希望可以给每个不同的动作都乘不同的权重。

如果整场游戏得到的分数是 +3 分，因此在训练的时候，每一个状态-动作对都会被乘上 +3，但是同样的状态-动作对在不同的轨迹下乘的值( $R(\tau)$ )是不同的。为了解决这个问题：把执行这个动作以后发生的所有奖励加起来，才是这个动作真正的贡献。
$\bigtriangledown \bar{R_\theta} =\frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T^{(n)}} [\sum_{\tau=1}^{T^{(n)}} r_t^{(n)} ]\bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})] \quad (4-4)$
更进一步，我们把未来的奖励做一个折扣，即：
$\bigtriangledown \bar{R_\theta} =\frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T^{(n)}} [\sum_{\tau=1}^{T^{(n)}} \gamma^{\tau-t} r_t^{(n)} ]\bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})] \quad (4-5)$
再结合3.2.1的内容，可得:
$\bigtriangledown \bar{R_\theta} =\frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T^{(n)}} [\sum_{\tau=1}^{T^{(n)}} (\gamma^{\tau-t} r_t^{(n)} -b)]\bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})] \quad (4-6)$
我们把 R-b 这一项称为优势函数（advantage function，用 $A^{\theta}(s_t,a_t)$ 来代表优势函数， $A^{\theta}(s_t,a_t)$ 通常可以由一个网络估计出来，这个网络称为评论员(critic)。

4.3 REINFORCE:蒙特卡洛策略梯度

① REINFORCE是先产生一个回合的数据(REINFORCE必须得到一个完整的episode才进行更新)，如:
$s_1,a_1,G_1),(s_2,a_2,G_2),(s_3,a_3,G_3)...(s_T,a_T,G_T)$
( $G_t = r_{t+1} + \gamma G_{t+1}$ )

② 针对每个动作计算梯度 $\bigtriangledown ln_\pi(a_t|s_t,\theta)$

对于每一个action,假设策略函数输出为[0.2,0.5,0.3]
$损失=-G_t\cdot [0,1,0]\cdot ln[0.2,0.5,0.3]$

REINFORCE算法流程:

输入: 可微调的策略参数 $\pi(a|s,\theta)$

算法参数: 步长大小 $\alpha>0$

初始化的策略参数 $\theta$

循环(each trajectory):

根据 $\pi(\cdot|\cdot,\theta)$ ，生成 $S_0,A_0,R_1,...S_{T-1},A_{T-1},R_{T}$

对一个回合的每一步进行循环, $t = 0, 1, ..., T - 1$

$\sum_{k=t+1}^{T} \gamma^{k-t-1} R_k$

$\theta = \theta + \alpha \gamma^t G \bigtriangledown ln[\pi(a_t|s_t,\theta)]$

五、PPO

如果要学习的那个 agent，一边跟环境互动，一边做学习这个叫 on-policy。如果它在旁边看别人玩，通过看别人玩来学习的话，这个叫做 off-policy。
近端策略优化(Proximal Policy Optimization, 简称PPO)是PG的一个变形，是现在OpenAi默认的强化学习算法。

5.1 重要性采样

PG是on-policy的方法，根据 $p_\theta(a|s)$ 采样若干条轨迹更新策略函数为 $p_\theta^{'}(a|s)$ ,之后再根据 $p_\theta^{'}(a|s)$ 采样若干条轨迹重新学习，这种方式很浪费时间。我们可以再找一个actor来采样，然后把采样的数据存起来，可能之后还用得到。
$\int p(x)f(x)dx = \int \frac{p(x)}{q(x)}q(x)f(x)dx$

即我们使用 $\theta^{'}$ 进行采样, 采样结果服从 $q (x)$ , 因我们要用这个采样轨迹去更新 $\theta$ ，就要补上重要性权重: $\frac{p(x)}{q(x)}$

$A^{\theta}(s_t,a_t) \doteq [\sum_{\tau=1}^{T^{(n)}} (\gamma^{\tau-t} r_t^{(n)} -b)]$

$\bigtriangledown \bar{R_\theta} = E[\frac{p_\theta(s_t,a_t)}{p_\theta^{'}(s_t,a_t)}A^{\theta}(s_t,a_t)\bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})]] \\ p_\theta(s_t,a_t) = p_\theta(a_t|s_t)p_\theta(s_t), \quad p_\theta^{'}(s_t,a_t) = p_\theta^{'}(a_t|s_t)p_\theta^{'}(s_t) \\ 假设模型是 \theta 的时候，你看到 s_t的概率，跟模型是 \theta'的时候，你看到 s_t 的概率是差不多的，即 p_{\theta}(s_t)=p_{\theta'}(s_t) \\ 同时:\frac{p_\theta(a_t|s_t)}{p_\theta^{'}(a_t|s_t)}是可以直接根据现有的两个网络计算出来的$
$\quad ① 用 \theta^{'}去跟环境做互动，采样出 s_t,a_t;\\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad ② 计算 s_t跟 a_t的 advantage，然后再乘\frac{p_\theta(a_t|s_t)}{p_\theta^{'}(a_t|s_t)}$

5.2 PPO

有一个问题：如果 $p_\theta(a_t|s_t)和p_\theta^{'}(a_t|s_t)$ 相差太多，重要性采样的结果就会不好。怎么避免它差太多呢？这个就是 Proximal Policy Optimization (PPO) 在做的事情。
PPO是on-policy的算法。
Proximal Policy Optimization (PPO)： 避免在使用important sampling时由于 $p_\theta(a_t|s_t)和p_\theta^{'}(a_t|s_t)$ 相差太多，导致important sampling结果偏差较大而采取的算法。具体来说就是在training的过程中增加一个constrain，这个constrain对应着 θ跟 θ′ output 的 action 的 KL divergence，来衡量 θ与θ′的相似程度。
为了使训练过程中 $p_\theta(a_t|s_t)和p_\theta^{'}(a_t|s_t)$ 尽可能接近，我们在训练的时候，多加一个约束。这个约束是 $\theta$ 跟 $\theta^{'}$ 输出的动作的 KL 散度(KL divergence)，简单来说，这一项的意思就是要衡量 $\theta$ 跟 $\theta^{'}$ 有多像。

所以在 PPO 里面有两个部分，一方面是优化本来要优化的东西，但再加一个约束。这个约束就好像正则化的项一样，这样正则化做的事情就是希望最后学习出来的 $\theta$ 不要跟 $\theta^{'}$ 太不一样。
PPO 有一个前身叫做信任区域策略优化(Trust Region Policy Optimization，TRPO)，

PPO 是直接把约束放到你要优化的那个式子里面，然后你就可以用梯度上升的方法去最大化这个式子。但 TRPO 是把 KL 散度当作约束。

TRPO 的式子如下式所示：
$E[\frac{p_\theta(s_t,a_t)}{p_\theta^{'}(s_t,a_t)}A^{\theta}(s_t,a_t)] \\ subject \quad to: \\ KL(\theta,\theta^{'})< \delta \quad$
直接把 KL 散度当做一个函数，输入是θ 跟 θ*′，但我的意思并不是说把 θ 或 θ′* 当做一个分布，算这两个分布之间的距离。所谓的 θ 跟 θ′ 的距离并不是参数上的距离，而是行为(behavior)上的距离。我们真正在意的是这个 actor 的行为上的差距，而不是它们参数上的差距。
如何将 $\theta$ 跟 $\theta^{'}$ 输出的动作的 KL 散度放到你要优化的那个式子里面?

有两种思路: ① PPO-Penalty ② PPO-Clip

5.2.1 PPO-Penalty

在这个方法里面，你先设一个你可以接受的 KL 散度的最大值。假设优化完这个式子以后，你发现 KL 散度的项太大，那就代表说后面这个惩罚的项没有发挥作用，那就把 β 调大。
另外，你设一个 KL 散度的最小值。如果优化完上面这个式子以后，你发现 KL 散度比最小值还要小，那代表后面这一项的效果太强了，所以你要减少 β。

5.2.2 PPO-Clip

$\sum_{s_t,a_t} min[\frac{p_\theta(s_t,a_t)}{p_\theta^{'}(s_t,a_t)}A^{\theta}(s_t,a_t),clip(\frac{p_\theta(s_t,a_t)}{p_\theta^{'}(s_t,a_t)},1-\epsilon,1+\epsilon)A^{\theta}(s_t,a_t)]$

第二项前面有个 clip 函数，clip 函数的意思是说，
- 在括号里面有三项，如果第一项小于第二项的话，那就输出 1−ε 。
- 第一项如果大于第三项的话，那就输出 1+ε

六、七、八、DQN

状态价值函数 $V_\pi(s_t)$ : 评论员无法凭空评价一个状态的好坏，它所评价的是在给定某一个状态的时候，如果接下来交互的演员的策略是 $\pi$ ,我们会得到多少奖励，这个奖励就是我们评价得出的值。因为就算是同样的状态，接下来的 $\pi$ 不一样，得到的奖励也是不一样的
传统的离散Q函数只能是对应于离散的“状态-动作对”，对于状态or动作是连续的问题，无法用Q表格，而是要使用深度网络来代替Q表格，称为 Q 网络(Q-network)。
如何计算状态价值函数 $V_\pi(s)$ ?
- ① 蒙特卡罗方法(MC)：分局采集到的数据做一个回归网络
- ② 时序差分方法(TD)：
MC与TD有啥区别？
- ① 蒙特卡罗方法最大的问题就是方差很大，我们可以把 $G_a$ 看作是一个随机变量，因为我们每次到 $s_a$ 的时候，得到的 $G_a$ 是不一样的。(因为是随机采样若干条轨迹求出来的)
- ② 时序差分中， $V_\pi(s_t)=r+V_\pi(s_{t+1})$ ， $r$ 具有随机性，但是比 $G$ 的方差小很多
我们学习出一个Q函数以后，就可以找到一个新的策略 $\pi^{'}$ ，策略会 $\pi^{'}$ 比原来的策略 $\pi$ 要好。所以假设我们有一个Q函数和某一个策略 $\pi$ ，根据策略 $\pi$ 学习出策略 $\pi$ 的Q函数，
$\pi^{'}(s) = \underset{a}{argmax} Q_\pi(s,a)$
接下来可以找到一个新的策略 $\pi^{'}$ ，它会比 $\pi$ 要好。我们用 $\pi^{'}$ 取代 $\pi$ ，再去学习它的 Q 函数，得到新的Q函数以后，再去寻找一个更好的策略。这样一直循环下去，策略就会越来越好。

6.1 目标网络

$Q_\pi(s_t,a_t) = r_t + Q_\pi(s_{t+1},\pi(s_{t+1}))$

假如我们以 $Q_\pi(s_t,a_t)$ 为预测值， $r_t + Q_\pi(s_{t+1},\pi(s_{t+1}))$ 为 $l ab e l$ , 我们发现 $l ab e l$ 是变动的，这会导致训练变得不太稳定。所以我们会把其中一个Q网络固定住，在训练的时候只有等式左侧的Q网络发生参数更新，等式右侧的网络参数固定(被称为目标网络)，我们只调整左侧Q网络的参数

在实现的时候，我们会把左边的 Q 网络更新多次，再用更新过的 Q 网络替换目标网络。但这两个网络不要一起更新，一起更新，结果会很容易不好。一开始这两个网络是一样的，在训练的时候，我们会把右边的 Q 网络固定住，在做梯度下降的时候，只调整左边Q网络的参数。

6.2 探索

$\underset{a}{argmax}Q(s,a)$

不难发现这个算式并不具备随机性，这并不是一个好的更新方式，假设我们对于状态 $s_1$ 一直采取 $a_2$ 那么其他的价值我们是无法准确估计到的，即便是对于Q网络。

假设我们用深度Q网络玩slither.io网页游戏，我们有一条蛇，在环境里走来走去，吃到星星，就加分。假设一开始蛇往上走，然后吃到星星，就可以得到分数，那接下来可能他就会一直只在此位置采取往上走的策略。可能会忽略下面较远处的一大团星星，这个问题就是探索-利用窘境，有两个方法可以增大探索性解决此问题：① $\epsilon贪心；②玻尔兹曼探索；$

$\epsilon贪心$
$\left\{\begin{matrix} \underset{a}{argmax}Q(s,a) & 1-\epsilon的概率\\ 随机& \epsilon的概率 \end{matrix}\right.$
（我们通常设置 $\epsilon为0.1)$
② $玻尔兹曼探索$
$\pi(a|s)=\frac{e^{Q(s,a)/T}}{\Sigma e^{Q(s,a^{'})/T}}$
- a被选中的概率与 $e^{Q(s,a)/T}$ 成正比
- T是一个可调参数，如果T很大，所有动作几乎以等概率选择（探索）；如果 T 很小，Q值大的动作更容易被选中（利用）；如果T趋于0，我们就只选择最优动作。

6.3 经验回放

经验回放(experience replay)会构建一个回放缓冲区(replay buffer)。回访缓冲区是指现在有一个策略 $\pi$ 与环境交互，他会去收集数据，我们把收集到的数据放在数据缓冲区里。

我们会迭代的训练Q函数，在每次迭代里面，从回访缓冲区中随机挑选一个batch，我们根据这个batch去更新Q函数。

如果某个算法使用了经验回放的训练方法，该算法就变成了 $o ff - p o l i cy$ 的算法，因为实际上回访缓冲区里存储的这些经验不是通通来自 $\pi$ ，有些是过去策略遗留下来的经验。

经验回放有两个好处:
- ① 强化学习过程中，最花时间的是与环境交互，训练网络反而是比较快的。使用回访缓冲区可以减小与环境交互的次数。
- ② 对于数据集，我们希望一个批量的数据越多样越好，如果经验缓冲区里的经验统统来自不同的策略，我们采样到的一个批量里面的数据会是比较多样的。
回放缓冲区放的都是一项一项的 $s_t,a_t,r_t,s_{t+1})$

DQN算法流程:

初始化函数 $Q$ 、目标函数 $\hat{Q}$ ,令 $\hat{Q}=Q$
for(each episode)

for(each step)

$a_t = [\epsilon-greedy](s_t)$
$s_{t+1},r_t= env.step(a_t)$

将 $s_t,a_t,r_t,s_{t+1})$ 存储到缓冲区中

从缓冲区中采样

$y=r_i+\underset{a}{max}\hat{Q}(s_{i+1},a)$

更新Q的参数使得 $Q(s_i,a_i)$ 尽可能接近于y

$\hat{Q}=Q$

深度Q网络将Q学习与深度学习结合，用深度网络来近似动作价值函数，而 Q学习则是采用表格存储；深度Q网络采用了经验回放的训练方法，从历史数据中随机采样，而Q学习直接采用下一个状态的数据进行学习。

Deep Q-Network是基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经验回放（Experience Replay）的方法进行网络的训练。

7.1 Double DQN

在实际过程中，通过海量采样计算出的Q值被我们称为真实的Q值，我们发现估计出的Q值是比真实的Q值高的。(over estimate)

所以今天要提出 Double DQN 的方法，它可以让估测的值跟实际的值是比较接近的。

为什么 Q 值总是被高估了呢？
$Q_\pi(s_t,a_t) = r_t + Q_\pi(s_{t+1},\pi(s_{t+1}))$
我们总希望左侧的算式和右侧的接近，一旦出现高估的现象，这种影响就会被扩大。即假设是第一个动作被高估了，那这个目标就会选这个动作，然后就会选这个高估的 Q 值来加上 $r_t$ ，来当作你的目标。所以你总是会选那个 Q 值被高估的，你总是会选那个 reward 被高估的动作当作这个 max 的结果去加上 $r_t$ 当作你的目标，所以你的目标总是太大。

在double DQN里，我们有两个Q-network：
- $Q :$ 决定哪一个动作的Q值最大(把所有的a带入Q中，看看哪一个Q值最大)
- $Q^{'}:$ 在决定了动作之后， $Q$ 值是用 $Q^{'}$ 算出来的

假设Q高估了他现在选出来的动作a，但是只要 $Q^{'}$ 没有高估这个动作的值，算出来的就还是正常的Q值。

假设 $Q^{'}$ 高估了某一个动作的值，那只要前面这个Q不要选那个动作出来就没事了。

Double DQN相较于原来的DQN没有过多的改动，它几乎没有增加任何运算量，连新的网络都没有，因为原来就有两个网络了。唯一的改变就是：本来在找Q值最大的a的时候，是用 $Q^{'}$ 来算；现在改用Q来算。

7.2 Dueling DQN

Dueling DQN 也蛮好做的，相较于原来的 DQN，它唯一的差别是改了网络的架构。
本来的 DQN 就是直接输出 Q 值的值，dueling DQN不直接输出 Q 值的值，它分成两条路径去运算：
- 第一条路经会输出一个scalar— $V (s)$
- 第二条路径会输出一个vector— $A (s, a)$

8.1 DQN(连续动作)

与PG相比，DQN是比较稳的，PG没有太多游戏玩得起来，在PPO出现之前我们很难用PG做什么事情。DQN比较容易训练的一个理由是：在DQN里面，你只要能估计出Q函数，就保证你一定可以找到一个比较好的策略。
但是DQN在处理动作连续的问题上存在这样的问题:
$\underset{a}{argmax}Q(s,a)$
假设a是离散的，我们可以把每一个可能的动作都带到Q里面计算它的Q值。但是假如a是连续的，你无法穷举所有的连续动作，那怎么解决这个问题呢?

方案①: 自己列举N个a值然后比哪个最大

方案②: 梯度上升的方法去求最大值，这种方法的计算量非常大。

方案③: 设计一个容易求解argmax的Q函数

先输入s，得到 $\mu,\Sigma,V$ ,然后再输入 $a$ ,接下来把 $a$ 和 $\mu$ 相减。欲求Q(s,a)的最值很方便，因为 $(a-\mu(s))^T\Sigma(s)(a-\mu(s))一定是正的，那么(a-\mu(s))越小，Q就越大$

九、Actor-Critic

在演员-评论员算法里面，最知名的算法就是异步优势演员-评论员算法。如果我们去掉异步，则为优势演员-评论员（advantage actor-critic，A2C）算法。A2C算法又被译作优势演员-评论员算法。如果我们加了异步，变成异步优势演员-评论员算法。
Actor是策略函数 $\pi_\theta(a|s)$ ,即学习一个策略以得到一个尽可能高的回报。Critic是指价值函数 $V_\pi(s)$ .借助于价值函数，Actor-Critic可以进行单步更新。

9.1 PG和DQN回顾

PG：

首先智能体与环境交互，可以计算出在某一个状态 $s$ 采取某一动作 $a$ 的概率 $p_{\theta}(a_t|s_t)$ ，接下来计算状态 $s$ 采取动作 $a$ 之后直到游戏结束的累计奖励 $(\underset{t^{'}=t}{\Sigma} \gamma^{t^{'}-t}r^t-b)$ , 之后更新策略函数:
$\bigtriangledown \bar{R_\theta} =\frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T^{(n)}} [\sum_{\tau=1}^{T^{(n)}} \gamma^{\tau-t} r_t^{(n)} -b]\bigtriangledown ln[p_\theta(a_t^{(n)}|s_t^{(n)})] \quad(9-1)$
DQN:

深度Q网络有两种函数: ① $V_\pi(s)$

你可能感兴趣的:(人工智能,python,深度学习,pytorch)

【Hugging Face全面拥抱LangChain：全新官方合作包】
文末有福利！❝最近HuggingFace官宣发布langchain_huggingface，这是一个由HuggingFace和LangChain共同维护的LangChain合作伙伴包。这个新的Python包旨在将HuggingFace最新功能引入LangChain并保持同步。通过HuggingFace官方包的加持，开发小伙伴们通过简单的api调用就能在langchain中轻松使用HuggingFa
【技术工具】python人员照片简介批量对照（千人级） Allen_Lyb 医疗高效编程研发 python 开发语言自然语言处理健康医疗语言模型
要实现根据照片上的工号批量添加人员姓名和工号到照片上，可以按照以下步骤操作（使用Python+PIL/Pillow+OpenCV+pytesseract）：解决方案步骤准备数据创建人员信息表（CSV格式）：姓名,工号确保所有照片文件名包含工号（如工号.jpg），或照片中有清晰可见的工号文本安装依赖库pipinstallpillowopencv-pythonpandaspytesseract#额外安
推荐项目： Few-Shot-Adversarial-Learning-for-face-swap 邱晋力
推荐项目：Few-Shot-Adversarial-Learning-for-face-swap去发现同类优质开源项目:https://gitcode.com/1、项目介绍Few-Shot-Adversarial-Learning-for-face-swap是一个基于PyTorch的开源实现，重演了三星AI实验室的一项前沿研究——“Few-ShotAdversarialLearningofReal
Linux机器上Selenium+Python3+Chrome使用driver.get()只能获取到标签而没有内容的解决方法
代码：#!/usr/bin/python3#coding=utf8fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=Options()chrome_options.add_argument('--headless')chrome_options.add_argume
解决 python 中的 huggingface_hub code_welike python 前端数据库
解决python中的huggingface_hub.utils._validators.HFValidationErrorRepoidmustbeintheformrepo_nameorname问题在使用python的huggingface_hub库时，有时候会遇到类似于“huggingface_hub.utils._validators.HFValidationErrorRepoidmustbe
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
深入解析与实战应用：利用Python和Amazon Product Advertising API实战分析不进则退i python 开发语言
在电商平台的运营中，关键词搜索接口是不可或缺的一部分，特别是在亚马逊这样的全球电商平台。通过关键词搜索接口，商家可以高效地获取商品信息，优化选品策略，提升销售业绩。本文将详细介绍如何接入亚马逊的关键字搜索接口，并提供一个Python代码示例。点击获取key和secret1.注册开发者账号并获取API权限首先，你需要访问亚马逊开发者中心，注册一个开发者账号，并获取相应的API权限。在注册过程中，你将
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
【python】向AWS Dynamodb中插入数据
一、背景AWSDynamodb数据库在架构中起到的作用是配置数据库，s3上buckect_a-->bucket_b-->bucket_c对应着层与层之间的关系，总所周知，Dynamobd是非关系型数据库，数据插入的格式是键值对形式的二、代码importboto3importjsonimportpandasaspdAWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY='
在Python中对嵌套对象(DynamoDB和表)使用模拟潮易 python 开发语言
在Python中，我们可以使用boto3库来模拟AWSDynamoDB的行为。以下是一个简单的例子，说明如何使用boto3来模拟DynamoDB的表，然后插入和查询数据：首先，你需要安装boto3库。你可以使用pip来安装：```bashpipinstallboto3```然后，你可以创建一个模拟器，并添加一些模拟的数据：```pythonimportboto3frombotocore.stubi
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度解析：Python生成器中yield与return的混合使用机制
核心结论：这是有意设计，不是缺陷！在生成器函数中，return语句确实是通过抛出StopIteration异常来实现的，这是Python生成器协议的有意设计而非缺陷。这种机制实现了四个关键目标：✅保持与迭代协议的兼容性✅清晰区分中间值（yield）和最终结果（return）✅支持yieldfrom的高级用法✅提供获取最终结果的标准化方式（通过异常值）生成器执行流程图是否是否是开始执行生成器函数遇到
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
Python 协程 & 异步编程(asyncio) GeekAGI python 开发语言
文章目录协程&异步编程(asyncio)1.协程的实现1.1greenlet1.2yield1.3asyncio1.4async&awit1.5小结2.协程的意义2.1爬虫案例2.2小结3.异步编程3.1事件循环3.2协程和异步编程3.2.1基本应用3.2.2await3.2.3Task对象3.2.4asyncio.Future对象3.2.5futures.Future对象3.2.6异步迭代器3.
python asyncio模型事件循环 __xa__ py 异步异步基础模型事件循环 asyncio
异步建立在事件循环上.简单来说事件循环:1.把要执行的函数放入队列2.取出函数,执行3.看看还要不要继续放入此函数4.继续第一步一个简单的例子说明:"""1.yield挂起当前函数.2.使用调度器循环3.使用next唤醒此函数继续执行"""deff1():foriinrange(3):print('f1%d'%i)yielddeff2():foriinrange(5):print('f2%d'%i
简单理解 Python EventLoop 事件循环 Python_P叔 python 开发语言数据库
简介在python3中，加入了asyncio模块，来实现协程，其中一个很重要的概念是事件循环，整个异步流程都是事件循环推动的。下面自己实现一个相对简单的EventLoop，了解一下事件循环是如何进行运转的。事件循环下面看一下整个流程的实现过程将以下代码写入spider_event_loop.py文件：#spider_event_loop.pyimporttimeimportosimportsock
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
Python 事件循环与 asyncio 的底层实现代码界的灵魂舞者 python java 数据库
```htmlPython事件循环与asyncio的底层实现Python事件循环与asyncio的底层实现在现代的异步编程中，事件循环扮演着至关重要的角色。Python的asyncio模块是其核心，它提供了一种优雅的方式来处理异步任务和并发操作。本文将深入探讨Python中事件循环的概念以及asyncio的底层实现。什么是事件循环？事件循环（EventLoop）是一种控制流机制，它负责管理任务队列
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
Python异步编程：深入理解事件循环与协程
引言：从餐厅服务员说起想象你是一家高档餐厅的服务员。传统方式下，你接到顾客A的点餐后，需要一直等在厨房，直到菜品做好才能去服务顾客B。这显然效率很低。聪明的服务员会这样做：接到顾客A的订单后，把单子交给厨房，然后立即去服务顾客B、C、D…当厨房通知某个菜做好了，再去取餐送给相应的顾客。这就是事件循环的工作方式——不傻等，而是充分利用等待时间去做其他事情。一、事件循环：异步编程的心脏1.1什么是事件
Selenium 知识点详解：从基础操作到代码实战壮志凌云不假 selenium python 测试工具
在自动化测试领域，Selenium是一款备受瞩目的工具。一、Selenium简介Selenium是一个用于Web应用程序测试的工具，它支持多种浏览器和编程语言，能模拟用户在浏览器上的各种操作，如点击、输入文本等，从而实现对Web应用的自动化测试，帮助开发者快速发现潜在问题，提高开发效率。二、环境配置要使用Selenium，需先进行环境配置。以Python为例，首先需安装Selenium库，可通过p
Python开发中，SQLAlchemy 的同步操作和异步操作封装，以及常规CRUD的处理。老少女王烦烦 python oracle 数据库开发语言
在我们使用Python来和数据库打交道中，SQLAlchemy是一个非常不错的ORM工具，通过它我们可以很好的实现多种数据库的统一模型接入，而且它提供了非常多的特性，通过结合不同的数据库驱动，我们可以实现同步或者异步的处理封装。1、SQLAlchemy介绍SQLAlchemy是一个功能强大且灵活的PythonSQL工具包和对象关系映射（ORM）库。它被广泛用于在Python项目中处理关系型数据库的
自动化测试秘籍：Selenium Python API实战指南 May Wei Selenium Python API 自动化测试元素交互弹窗处理
背景简介Selenium是一个用于Web应用程序测试的工具，它允许开发者模拟用户与浏览器的交互。在现代软件开发中，自动化测试是确保应用质量和效率的关键环节。本文将基于Selenium的PythonAPI，探讨如何高效地进行网页元素交互和自动化测试。标题1：操作下拉菜单和列表SeleniumWebDriver提供了一个名为Select的特殊类，用于与网页上的列表和下拉菜单进行交互。Select类提供
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。