新缸中之脑

强化学习简明教程

到目前为止，我们主要关注监督学习问题（主要是分类）。在监督学习中，我们得到某种由输入/输出对组成的训练数据，目标是能够在学习模型后根据一些新输入来预测输出。例如，我们之前研究过 MNIST 的卷积神经网络 (CNN) 分类模型；给定 60000 个数字图像和相应数字标签（例如“5”）的训练集，我们学习了一个能够预测新 MNIST 图像的数字标签的模型。换句话说，类似于（但不完全是）这样的东西：

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎

如果我们想学习如何执行更复杂的行为，而数据收集可能会很昂贵，该怎么办？如何教机器人走路？自动驾驶汽车？如何在围棋游戏中击败人类冠军？

1、强化学习

在强化学习中，我们的模型 — 在这种情况下通常称为代理（agent）— 通过采取行动 a 与环境进行交互，并以奖励的形式从环境中接收某种反馈。从这个意义上说，强化学习算法是通过经验来学习的。我们将任务从开始到结束的轨迹称为情节（episode），并且我们的智能体通常会通过经历许多情节来学习。

许多强化学习算法都被建模为马尔可夫决策过程 (MDP)。在这些设置中，我们有一个状态的概念，它封装了代理的情况（例如位置、速度）。从每个状态，代理采取行动，这会导致从一种状态转换到另一种状态+1。在许多设置中，这种转变存在随机性，这意味着在 +1 上存在以和为条件的分布。通常，其中一些状态被认为是情节结束，之后代理无法再进行任何转换或收集更多奖励。这些对应于诸如达到最终目标、游戏结束或坠落悬崖等状态。最后，我们的目标是学习策略或从状态到动作的映射。

在 MDP 中，我们假设我们总能知道我们的智能体处于哪个状态。但是，情况并非总是如此。有时，我们所能获得的只是观察结果，它们提供了状态的信息，但足以精确地确定确切的状态。我们将这种设置称为部分可观察马尔可夫决策过程（POMDP）。想象一下，例如，Roomba 正在接受 RL 训练，可以在客厅中导航。从其红外和机械“碰撞”传感器中，它接收到有关其可能所在位置的部分信息（ot），但不是明确的位置（）。作为 POMDP 运行给 RL 算法增加了一整层的复杂性。不过，在今天剩下的时间里，我们将重点关注 MDP，因为它们更简单、更容易用来教授基本概念。

2、一个简单的 MDP 示例

在上面的示例中，我们可以看到代理有 3 个可能的状态：0、1 和 2，每个状态有 2 个操作 0 和 1。我们可以看到，每个操作都不会导致到下一阶段的确定性过渡，如每个操作的多个路径所示。请注意，行动的每个结果都标有 0 到 1 之间的小黑色数字。这表示给定行动的结果（我们最终达到的状态）的概率；由于这些是概率，因此在给定先前状态 st 和所选操作的情况下，到达下一个状态 +1 中的每个状态的概率之和为 1。

2.1 目标

代理的目标是最大化它可以通过多个步骤获得的总奖励R。重要的是要确保奖励真正体现了我们希望代理实现的真正目标。代理将尽职尽责地尝试最大化其给出的目标，而不考虑人类可能期望的任何隐含目标。关于 RL 代理通过利用奖励函数的某些方面来学习不良行为的（有趣的）轶事有很多。因此，定义这种奖励需要特别小心。

强化学习研究人员通常采用的一种对策是折扣奖励的概念。这是通过乘法项完成的：未来步后得到的奖励被折扣为。使用折扣可以鼓励代理尽快完成任务，而不是推迟，这是一个常见的隐含标准。通过折扣，RL 代理的目标是最大化：

这远不是让我们的奖励准确地体现我们期望的目标的完整解决方案，但尽早而不是推迟获得更高的奖励几乎是普遍的偏好，所以我们几乎总是添加它。设计一个好的奖励函数可以说是一门艺术，高度依赖于任务。

2.2 强化学习 vs. 监督学习

乍一看，这似乎与我们之前看过的监督方法没有太大不同，并且可能会出现一些自然问题：

为什么我们不能将强化学习视为一项有监督的任务？为什么我们不能使用奖励（或者更确切地说，奖励的负数）作为我们的监督损失？

与监督学习不同，在强化学习中，我们通常没有预先分配的数据集可供学习。在某些问题设置中，我们可能有其他代理（通常是人类）执行所需任务的示例，但这些不一定是如何最大化奖励的最佳示例，而这正是我们想要学习的。在大多数强化学习设置中，除了我们的智能体通过试错所经历的情况之外，我们没有任何状态动作轨迹的例子，这甚至是次优的。

3、OpenAI Gym

在我们深入实施强化学习模型之前，首先需要一个环境。请记住，我们的目标是学习一个可以按照我们想要的方式与环境交互的智能体，因此我们需要智能体可以与之交互并从中获得奖励的东西。在机器人技术中，这通常是现实世界（或现实世界中的某些设置）。然而，首先在模拟设置中测试我们的算法通常更便宜、更快。有许多任务是强化学习社区的流行基准，例如cart pole、mountain car 或 Atari 2600 游戏。本着加速研究社区进步和促进开放的精神，Open AI 很好地编写了 Open AI Gym，其中实现了许多此类环境供公众使用。我们将使用这些环境，因为它使我们能够专注于算法本身，而不是担心自己实现每个问题设置。

要使用它，我们首先需要下载并安装它。首先确保你处于 PyTorch 环境中！

# If you environment isn't currently active, activate it:
# conda activate pytorch
pip install gym

安装后我们可以像任何其他 Python 模块一样导入Gym：

import gym

3.1 FrozenLake世界

让我们从一个简单的环境开始：FrozenLake。以下是 OpenAI Gym 的官方描述：

冬天来了。你和你的朋友正在公园里扔飞盘，突然你猛烈地投掷，把飞盘扔到了湖中央。水大部分都结冰了，但有一些冰已经融化的洞。如果你踏入其中一个洞，你就会掉进冰冷的水中。目前全球飞盘都短缺，因此你必须穿越湖并取回飞盘。然而，冰很滑，所以你不会总是朝着你想要的方向移动。

FrozenLake 作为栅格世界的可视化：

在情节开始时，我们从左上角 (S) 开始。我们的目标是将自己移动到右下角（G），避免掉入洞中（H）。冰水很冷。

用强化学习术语来说，网格上的 16 个位置中的每一个都是一个状态，动作是尝试沿四个方向（左、下、右、上）之一移动。每次移动都会导致代理的状态从更改为+1，因为它改变了位置，除非它尝试向墙壁方向移动，这会导致代理的状态不变（代理不移动）。达到目标（G）后，我们会获得“+1”的正奖励，并根据花费的时间进行折扣。虽然掉入洞中并没有负奖励（H），但智能体仍然要支付惩罚，因为掉入洞是情节结束，因此阻止它获得任何奖励。我们想要学习一个策略，它可以用尽可能少的步骤将我们从起始位置（S）带到目标（G）。

为了真正确定我们在这里想要实现的目标，有必要澄清一些常见的最初误解：

状态和转移概率的知识：从自上而下的角度来看，你的第一个想法可能是绘制一条从起点到终点的路径，就像迷宫一样。然而，这个视图是提供给我们算法设计者的，这样我们就可以直观地看到手头的问题。学习任务的智能体并没有获得这些先验知识；我们要告诉的是，将会有 16 个状态，每个状态有 4 种可能的行动。更恰当的比喻是，如果我蒙住你的眼睛，把你扔到结冰的湖中央，每次你决定向四个方向之一迈出一步时，告诉你当前状态（位置），然后在你踩中飞盘时放烟花。
目标（奖励）知识：在 OpenAI 对环境的官方描述中，你（智能体）知道你希望实现什么：你想要取回飞盘，同时避免掉进冰里。代理并不知道这一点。相反，它通过体验奖励（或惩罚）来学习目标，并且算法更新其策略，以便它更有可能（或更少）再次执行这些操作。请注意，这意味着如果代理从未经历过某些奖励，它就不会知道它们的存在。
寻路、物理等先验知识：作为一个人，即使你以前没有解决过这个任务，你仍然会为这个问题带来大量的先验知识。例如，你知道到达目的地的最短路径是一条线。你知道北、南、东、西是方向，向北然后向南会带你回到原来的地方。你知道冰很滑。你知道冰水很冷。你知道在冰冷的水中是很糟糕的。重要的是要记住，我们的代理将开始不知道这些事情；它最初的政策本质上是完全随机选择行动。训练结束时，它仍然不知道“北/南”、“冷”或“滑”等抽象概念意味着什么，但它（希望）会学到一个好的策略，使其能够完成训练目标。

3.2 与FrozenLake互动

这个例子很简单，我们可以很容易地自己编写环境及其界面的代码，但 OpenAI 已经做到了，我们希望尽可能关注解决它的算法。我们可以用一行代码创建 FrozenLake 的实例：

env = gym.make('FrozenLake-v0')

开放 AI Gym 环境提供了一种观察环境状态的机制，并且由于 FrozenLake 是 MDP（与 POMDP 相对），因此观察就是状态本身。对于 FrozenLake，地图上有 16 个网格位置，这意味着我们有 16 个状态。我们可以通过查看我们刚刚创建的环境的 Observation_space 属性的大小来确认这一点：

env.observation_space

我们的代理将与该环境交互，导致其状态发生变化。对于 FrozenLake，我们有 4 个选项，每个选项对应于尝试朝特定方向迈进：[左、下、右、上]。我们可以通过查看环境的 action_space 的大小来确认这一点：

env.action_space

在与环境交互之前，我们必须首先重置它以对其进行初始化。重置还会返回重置后第一个状态的观察结果。在 FrozenLake 中，我们总是从左上角开始，它对应于状态 0。因此，我们看到 reset() 命令返回 0：

env.reset()

我们可以通过调用 render() 来可视化 FrozenLake 环境。在更复杂的任务中，这实际上会在视频中添加帧来显示我们代理的进度，但对于 FrozenLake，它只是打印出文本表示，其中突出显示的字符显示我们代理的当前位置。我们可以看到我们从左上角的“S”开始，正如所承诺的那样：

env.render()

现在，让我们尝试移动。需要记住的一件事是，最初的 FrozenLake 环境是“湿滑的”。因为有冰，如果你尝试朝一个方向走，你最终有 1/3 的机会朝你想要的方向和两个相邻的方向走。例如，如果我们尝试向右走，那么滑倒和上下移动的概率是相等的。这让事情变得更加复杂，所以现在，我们首先关闭随机性，并使其成为确定性转变。我们通过注册一种新类型的环境，然后实例化所述环境的副本来实现此目的，并确保首先重置它：

# Non-slippery version
from gym.envs.registration import register
register(
    id='FrozenLakeNotSlippery-v0',
    entry_point='gym.envs.toy_text:FrozenLakeEnv',
    kwargs={'map_name' : '4x4', 'is_slippery': False},
)
env = gym.make('FrozenLakeNotSlippery-v0')
env.reset()

我们使用 step() 方法在 OpenAI 环境中推动时间前进，该方法以 action 作为参数。让我们尝试向右移动，这对应于动作 2。请注意，输出是一个由四个元素组成的元组：下一个观察（对象）、奖励（浮点数）、剧集是否完成（布尔值）和字典可能对调试有用的信息（字典）（该字典不应在最终算法本身中使用）：

env.step(2)

接下来，让我们通过 render() 来可视化发生了什么。观察这个特定的环境打印出我们在顶部括号中采取的操作，在本例中为“（右）”，然后显示该操作的结果。请注意，虽然大多数时候，我们都能成功地朝着我们想要的方向前进，但有时我们会在冰上滑倒并朝着我们不希望的方向前进：

env.render()

我们可以根据需要多次重复此操作。由于我们在 Jupyter 中，我们可以继续运行相同的单元格（进行小的编辑来改变我们的操作）。

请注意，一旦我们掉进洞里，这一集就结束了，我们就不能再做任何事情了。达到目标后也是如此：

env.step(0)
env.render()

在我们进入任何强化学习之前，让我们看看随机动作在这个环境中如何执行：

env.reset()
done = False
while not done:
    env.render()
    action = env.action_space.sample()
    _, _, done, _ = env.step(action)

嗯。不是很好。好吧，很明显，随机选择步骤不太可能让我们达到目标。仅从地图上就可以明显看出我们可以学习更好的政策。我们要怎么做呢？

4、Q-learning

我们可以使用很多算法，但我们选择今天早些时候介绍过的 Q-learning。请记住，在 Q -learning（以及 SARSA，事实证明）中，我们试图学习系统中状态的 Q 值。

策略的 Q 值是状态 s 和操作 a 的函数，定义如下：

直观上，Q 值是如果智能体从状态采取行动 a，然后在该集的其余部分遵循策略，它将获得的总奖励（包括折扣）。正如人们所预料的那样，如果 Q 准确已知，并且策略选择具有最高 Q 值的 a，则代理将从中获得最高奖励。

好的，如果我们知道系统的 Q 值，那么我们就可以轻松找到最优策略。那么系统的Q值是多少呢？好吧，一开始我们不知道，但我们可以尝试通过经验来学习它们。这就是 Q-learning的用武之地。Q-learning通过以下方式迭代更新 Q 值：

请注意，Q 学习是一种off-policy方法，从某种意义上说，你实际上并没有从实际采取的轨迹中学习（否则就会成为 SARSA）。相反，我们从贪婪的过渡中学习，即我们知道如何采取的最佳行动。

就是这样！我们运行我们的智能体经历许多episode，经历许多→→+1 转换和奖励，就像这样，我们最终学习到一个好的 Q 函数（从而获得一个好的策略）。当然，现在有很多小细节和调整可以使其在实践中发挥作用，但我们稍后会讨论这些。

5、FrozenLake 中的 Q-learning

FrozenLake 是一个非常简单的设置，我们称之为玩具问题。只有 16 个状态和 4 个动作，只有 64 个可能的状态动作对 (16x4=64)，如果我们考虑到目标和情节结束时的漏洞，则数量会更少（但为了简单起见，我们不会这样做）。

通过这几个状态-动作对，我们实际上可以以表格的形式解决这个问题。让我们建立一个 Q 表，并将所有状态-动作对的 Q 值初始化为零。请注意，虽然我们可以，但在此示例中我们实际上并不需要 PyTorch； PyTorch 的 autograd 和神经网络库在这里是不必要的，因为我们只会修改数字表。相反，我们将使用 Numpy 数组来存储 Q 表：

import numpy as np
#Initialize table with all zeros to be uniform
Q = np.zeros([env.observation_space.n, env.action_space.n])

我们要设置的一些超参数：

alpha：Q 函数的学习率
gamma：未来奖励的折扣率
num_episodes：我们的代理将学习的情节数（从开始到目标/洞的轨迹）

我们还将把奖励存储在一个名为 rs 的数组中：

# Learning parameters
alpha = 0.1
gamma = 0.95
num_episodes = 2000
# array of reward for each episode
rs = np.zeros([num_episodes])

现在介绍算法本身的大部分内容。请注意，我们将循环该过程 num_episodes 次，每次都会重置环境。在每一步中，我们都会针对当前状态采取具有最高 Q 值的操作，并添加一些随机性（尤其是在开始时）以鼓励探索。在每个动作之后，我们都会根据所经历的奖励和下一个最佳动作贪婪地更新我们的 Q 表。我们还确保更新我们的状态、冲洗并重复。我们继续在一个情节中采取行动，直到它完成为止，并存储该情节的最终总奖励：

for i in range(num_episodes):
    # Set total reward and time to zero, done to False
    r_sum_i = 0
    t = 0
    done = False
    
    #Reset environment and get first new observation
    s = env.reset()
    
    while not done:
        # Choose an action by greedily (with noise) from Q table
        a = np.argmax(Q[s,:] + np.random.randn(1, env.action_space.n)*(1./(i/10+1)))
        
        # Get new state and reward from environment
        s1, r, done, _ = env.step(a)
        
        # Update Q-Table with new knowledge
        Q[s,a] = (1 - alpha)*Q[s,a] + alpha*(r + gamma*np.max(Q[s1,:]))
        
        # Add reward to episode total
        r_sum_i += r*gamma**t
        
        # Update state and time
        s = s1
        t += 1
    rs[i] = r_sum_i

我们做得怎么样？让我们看看我们保存的奖励。我们可以绘制奖励与情节数的关系图，希望我们能看到随着时间的推移有所增加。 RL 性能可能非常嘈杂，所以让我们绘制一个移动平均值：

## Plot reward vs episodes
import matplotlib.pyplot as plt
# Sliding window average
r_cumsum = np.cumsum(np.insert(rs, 0, 0)) 
r_cumsum = (r_cumsum[50:] - r_cumsum[:-50]) / 50
# Plot
plt.plot(r_cumsum)
plt.show()

结果如下：

不错。我们可能还对我们的代理实际达到目标的频率感兴趣。这不会考虑代理到达那里的速度（这可能也很有趣），但现在让我们忽略它。为了防止我们被数据点淹没，让我们将这些值分成 10 个区间，打印出每个区间有多少个情节导致找到目标：

# Print number of times the goal was reached
N = len(rs)//10
num_Gs = np.zeros(10)
for i in range(10):
    num_Gs[i] = np.sum(rs[i*N:(i+1)*N] > 0)
    
print("Rewards: {0}".format(num_Gs))

结果如下：

Rewards: [ 18. 185. 200. 200. 200. 200. 200. 200. 200. 200.]

当我们的 RL 代理的移动是确定性的时，它在冰湖中的导航确实做得很好，但毕竟，这应该是冰湖，所以如果湖面不滑，乐趣在哪里呢？让我们回到原来的环境，看看智能体是怎么做的：

env = gym.make('FrozenLake-v0')
#Initialize table with all zeros to be uniform
Q = np.zeros([env.observation_space.n, env.action_space.n])
# Learning parameters
alpha = 0.1
gamma = 0.95
num_episodes = 2000
# array of reward for each episode
rs = np.zeros([num_episodes])
for i in range(num_episodes):
    # Set total reward and time to zero, done to False
    r_sum_i = 0
    t = 0
    done = False
    
    #Reset environment and get first new observation
    s = env.reset()
    
    while not done:
        # Choose an action by greedily (with noise) from Q table
        a = np.argmax(Q[s,:] + np.random.randn(1, env.action_space.n)*(1./(i/10+1)))
        
        # Get new state and reward from environment
        s1, r, done, _ = env.step(a)
        
        # Update Q-Table with new knowledge
        Q[s,a] = (1 - alpha)*Q[s,a] + alpha*(r + gamma*np.max(Q[s1,:]))
        
        # Add reward to episode total
        r_sum_i += r*gamma**t
        
        # Update state and time
        s = s1
        t += 1
    rs[i] = r_sum_i
## Plot reward vs episodes
# Sliding window average
r_cumsum = np.cumsum(np.insert(rs, 0, 0)) 
r_cumsum = (r_cumsum[50:] - r_cumsum[:-50]) / 50
# Plot
plt.plot(r_cumsum)
plt.show()
# Print number of times the goal was reached
N = len(rs)//10
num_Gs = np.zeros(10)
for i in range(10):
    num_Gs[i] = np.sum(rs[i*N:(i+1)*N] > 0)
    
print("Rewards: {0}".format(num_Gs))

输出如下：

Rewards: [ 8.  3. 11. 24. 29. 31. 39. 31. 44. 33.]

困难得多。然而，我们可以看到该模型最终确实学到了一些东西。

6、强化学习中的 PyTorch

虽然前面的示例既有趣又简单，但它明显缺乏 PyTorch 的任何提示。

我们可以使用 PyTorch Tensor 来存储 Q 表，但这并不比使用 NumPy 数组更好。 PyTorch 的真正实用性来自于构建神经网络并自动计算/应用梯度，而学习 Q 表不需要这些。

6.1 连续域

在前面的例子中，我们提到，只有 16 个离散状态和 4 个动作/状态，Q 表只需要保存 64 个值，这是非常易于管理的。但是，如果状态或动作空间是连续的怎么办？你可以将其离散化，但随后必须选择一个解决方案，并且你的状态操作空间可能会呈指数级爆炸。将这些分箱状态或操作视为完全不同的状态也忽略了两个连续的分箱在所需策略中可能非常相似。你可以学会这些关系，但这样做效率极低。

那么，与其学习 Q 表，也许 Q 函数会更合适。该函数将状态和动作作为输入，并返回 Q 值作为输出。 Q 函数可能非常复杂，但正如我们过去几天了解到的那样，神经网络非常灵活并且适合逼近任意函数。 Deep Q Networks 就采用了这样的方法。

6.2 Cart Pole问题

接下来我们看一下Cart Pole问题。在这种情况下，我们将一根杆子连接到推车上的铰链上，目标是尽可能长时间地保持杆子垂直，而不是沿着轨道移动太远。由于重力的原因，除非推车正好位于杆的重心下方，否则杆将会掉落。为了防止杆子掉落，代理可以向小车施加 +1 或 -1 的力，以使其沿着轨道左右移动。对于杆保持垂直的每个时间戳，代理都会收到 +1 的奖励；当杆子与垂直方向倾斜超过 15 度或小车移动距离中心超过 2.4 个单位时，游戏结束。我们将获得 +200 的奖励称为“成功”；换句话说，代理需要在 200 个周期内避免上述故障情况。

首先，让我们创建一个Cart Pole环境的实例：

env = gym.make('CartPole-v0')

同样，我们可以查看该环境的 observation_space。也与 FrozenLake 类似，由于此版本的车杆是 MDP（与 POMDP 相对），因此观察就是状态本身。我们可以看到，小车杆的状态有 4 个维度，分别对应于[小车位置、小车速度、杆角度、杆角速度]。重要的是，请注意这些状态是连续值：

env.observation_space

我们也可以再次查看它们的 action_space。在cart pole问题中，代理可以执行两种操作：[向左施加力，向右施加力]。我们可以通过检查 action_space 属性来看到这一点：

env.action_space

重置环境返回我们的第一个观察结果，我们可以看到它有 4 个值，对应于前面提到的 4 个状态变量：

env.reset()

在开始任何强化学习之前，让我们看看如何在环境中执行操作：

done = False
while not done:
    env.render()
    action = env.action_space.sample()
    _, _, done, _ = env.step(action)

好吧，显然在每个时间步选择随机动作并不能真正实现我们保持杆子垂直的目标。我们需要更智能的东西。

让我们关闭渲染窗口。我们用 close() 来做到这一点。请注意，Gym渲染可能有点挑剔，尤其是在 Windows 上；可能需要 close() 或重新启动 Jupyter 内核才能关闭渲染的窗口：

env.close()

Cart Pole实际上是一个相当简单的问题（维度非常低），因此有更简单的方法可以做到这一点，但由于我们在深度学习中获得了很多乐趣，所以让我们使用神经网络。具体来说，让我们构建一个使用 Q 学习来学习如何平衡杆子的 DQN。我们将为 DQN 代理提供 1000 个情节，以尝试达到 200 个得分的目标。

使这些模型正常工作需要很多小细节，因此我们不逐一进行介绍，而是完整的代码：

# Based on: https://gym.openai.com/evaluations/eval_EIcM1ZBnQW2LBaFN6FY65g/
from collections import deque
import random
import math
import gym
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
class DQN(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(4, 24)
        self.fc2 = nn.Linear(24, 48)
        self.fc3 = nn.Linear(48, 2)
def forward(self, x):        
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.relu(x)
        x = self.fc3(x)
        return x
class DQNCartPoleSolver:
    def __init__(self, n_episodes=1000, n_win_ticks=195, max_env_steps=None, gamma=1.0, epsilon=1.0, epsilon_min=0.01, epsilon_log_decay=0.995, alpha=0.01, alpha_decay=0.01, batch_size=64, monitor=False, quiet=False):
        self.memory = deque(maxlen=100000)
        self.env = gym.make('CartPole-v0')
        if monitor: self.env = gym.wrappers.Monitor(self.env, '../data/cartpole-1', force=True)
        self.gamma = gamma
        self.epsilon = epsilon
        self.epsilon_min = epsilon_min
        self.epsilon_decay = epsilon_log_decay
        self.alpha = alpha
        self.alpha_decay = alpha_decay
        self.n_episodes = n_episodes
        self.n_win_ticks = n_win_ticks
        self.batch_size = batch_size
        self.quiet = quiet
        if max_env_steps is not None: self.env._max_episode_steps = max_env_steps
# Init model
        self.dqn = DQN()
        self.criterion = torch.nn.MSELoss()
        self.opt = torch.optim.Adam(self.dqn.parameters(), lr=0.01)
def get_epsilon(self, t):
        return max(self.epsilon_min, min(self.epsilon, 1.0 - math.log10((t + 1) * self.epsilon_decay)))
def preprocess_state(self, state):
        return torch.tensor(np.reshape(state, [1, 4]), dtype=torch.float32) 
    
    def choose_action(self, state, epsilon):
        if (np.random.random() <= epsilon):
            return self.env.action_space.sample() 
        else:
            with torch.no_grad():
                return torch.argmax(self.dqn(state)).numpy()
def remember(self, state, action, reward, next_state, done):
        reward = torch.tensor(reward)
        self.memory.append((state, action, reward, next_state, done))
    
    def replay(self, batch_size):
        y_batch, y_target_batch = [], []
        minibatch = random.sample(self.memory, min(len(self.memory), batch_size))
        for state, action, reward, next_state, done in minibatch:
            y = self.dqn(state)
            y_target = y.clone().detach()
            with torch.no_grad():
                y_target[0][action] = reward if done else reward + self.gamma * torch.max(self.dqn(next_state)[0])
            y_batch.append(y[0])
            y_target_batch.append(y_target[0])
        
        y_batch = torch.cat(y_batch)
        y_target_batch = torch.cat(y_target_batch)
        
        self.opt.zero_grad()
        loss = self.criterion(y_batch, y_target_batch)
        loss.backward()
        self.opt.step()        
        
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay
def run(self):
        scores = deque(maxlen=100)
for e in range(self.n_episodes):
            state = self.preprocess_state(self.env.reset())
            done = False
            i = 0
            while not done:
                if e % 100 == 0 and not self.quiet:
                    self.env.render()
                action = self.choose_action(state, self.get_epsilon(e))
                next_state, reward, done, _ = self.env.step(action)
                next_state = self.preprocess_state(next_state)
                self.remember(state, action, reward, next_state, done)
                state = next_state
                i += 1
scores.append(i)
            mean_score = np.mean(scores)
            if mean_score >= self.n_win_ticks and e >= 100:
                if not self.quiet: print('Ran {} episodes. Solved after {} trials ✔'.format(e, e - 100))
                return e - 100
            if e % 100 == 0 and not self.quiet:
                print('[Episode {}] - Mean survival time over last 100 episodes was {} ticks.'.format(e, mean_score))
self.replay(self.batch_size)
        
        if not self.quiet: print('Did not solve after {} episodes      '.format(e))
        return e
if __name__ == '__main__':
    agent = DQNCartPoleSolver()
    agent.run()
    agent.env.close()

强化学习可能有点噪音。从某种意义上说，这取决于你的智能体“幸运”地采取了正确的行为，以便它可以从中学习，有时一个人可能会陷入困境。即使你的智能体未能“解决”问题（即达到 200 个刻度），仍然应该看到平均生存时间随着智能体经历更多的事件而不断攀升。你可能需要重新运行学习几次才能使代理达到 200 个刻度。

原文链接：强化学习简明教程 - BimAnt

你可能感兴趣的:(机器学习,人工智能)

ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
【SoC基础】单片机之寄存器解析望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录1、寄存器位置2、寄存器种类2.1通用用途寄存器2.2CPU执行相关寄存器2.3外设控制寄存器3.寄存器在CPU访问外设过程中起到的作用1、寄
大模型时代的知识焦虑机载软件与适航机器学习-建模算法-代理模型人工智能大数据
引言：浪潮之巅，焦虑暗涌大模型时代已经浩荡而来，如同奔腾的浪潮，以令人惊叹的速度重塑着世界的面貌。从智能客服的温声细语，到AI绘画的妙笔生花，再到自动驾驶的日趋成熟，大型语言模型、图像模型等人工智能技术以前所未有的姿态，渗透进我们生活的方方面面。信息获取前所未有的便捷，知识创造空前高效，人机交互焕然一新，一个充满无限可能的智能化未来似乎触手可及。然而，在这令人眼花缭乱的技术盛景之下，一股无形的焦虑
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，