ShowMeAI

深度学习与计算机视觉教程(17) | 深度强化学习 (马尔可夫决策过程,Q-Learning,DQN)（CV通关指南·完结）

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/37
本文地址：https://www.showmeai.tech/article-detail/276
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

引言

在监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）之外，我们还有另外一类机器学习算法，叫做「强化学习」。

监督学习：从外部监督者提供的带标注训练集中进行学习（任务驱动型）
无监督学习：寻找未标注数据中隐含结构的过程（数据驱动型）。
强化学习：「试探」与「开发」之间的折中权衡，智能体必须开发已有的经验来获取收益，同时也要进行试探，使得未来可以获得更好的动作选择空间（即从错误中学习）。强化学习也可以理解为有延迟标签（奖励）的学习方式。

目前强化学习在包括游戏，广告和推荐，对话系统，机器人等多个领域有着非常广泛的应用。我们会在下面再展开介绍。

本篇重点

强化学习概念与应用
马尔可夫决策过程
Q-Learning 算法
DQN（Deep Q Network）算法

1.强化学习介绍与应用

1.1 强化学习介绍

强化学习是一类对目标导向的学习与决策问题进行理解和自动化处理的算法。它强调智能体通过与环境的直接互动来学习，无需像监督学习一样密集的样本级标签标注，通过奖励来学习合理的策略。

强化学习包含2个可以进行交互的对象：智能体(Agnet) 和 环境(Environment) ，它们的定义与介绍如下：

智能体(Agent) ：可以感知环境的状态(State) ，并根据反馈的奖励(Reward) 学习选择一个合适的动作(Action) ，我们希望它能最大化长期总收益。
环境(Environment) ：环境会接收智能体执行的一系列动作，对这一系列动作进行评价并转换为一种可量化的信号反馈给智能体。环境对智能体来说是一套相对固定的规则。

强化学习系统在智能体（Agnet） 和环境（Environment） 之外，还包含其他核心要素：策略（Policy） 、回报函数（Reward Function） 、价值函数（Value Function） 和环境模型（Environment Model）。

上述核心要素中「环境模型」是可选的。

策略（Policy） ：智能体在环境中特定时间的行为方式，策略可以视作环境状态到动作的映射。
回报函数（Reward Function） ：智能体在环境中的每一步，环境向其发送的1个标量数值，指代「收益」。
价值函数（Value Function） ：表示了从长远的角度看什么是好的。一个状态的价值是一个智能体从这个状态开始，对将来累积的总收益的期望。
环境模型（Environment Model） ：是一种对环境的反应模式的模拟，它允许对外部环境的行为进行推断。

1.2 强化学习应用

1) 游戏

AlphaGo 是于 2014 年开始由 Google DeepMind 开发的人工智能围棋软件。AlphaGo 在围棋比赛中战胜人类顶级选手取得成功，它包含了大量强化学习的算法应用，核心过程是使用蒙特卡洛树搜索（Monte Carlo tree search），借助估值网络（value network）与走棋网络（policy network）这两种深度神经网络，通过估值网络来评估大量选点，并通过走棋网络选择落点。

AlphaStar 是由 DeepMind 开发的玩 星际争霸 II 游戏的人工智能程序。它能够通过模仿学习星际争霸上玩家所使用的基本微观和宏观策略。这个初级智能体在 95% 的游戏中击败了内置的「精英」AI 关卡（相当于人类玩家的黄金级别）。

AlphaStar 神经网络结构将 Transformer 框架运用于模型单元（类似于关系深度强化学习），结合一个深度 LSTM 核心、一个带有 pointer network 的自回归策略前端和一个集中的值基线。超强的网络设计使得其适合长期序列建模和大输出空间（如翻译、语言建模和视觉表示）的挑战。它还还集成了多智能体学习算法。

OpenAI Five 是一个由 OpenAI 开发的用于多人视频游戏 Dota 2 的人工智能程序。OpenAI Five 通过与自己进行超过 10,000 年时长的游戏进行优化学习，最终获得了专家级别的表现。

Pluribus 是由 Facebook 开发的第一个在六人无限注德州扑克中击败人类专家的 AI 智能程序，其首次在复杂游戏中击败两个人或两个团队。

2) 广告和推荐

在淘宝京东等电商领域与字节跳动等信息流产品里，也可以见到强化学习的有效应用，它使得广告投放与推荐更具智能化。

3) 对话系统

Alphago 的成功使人们看到了强化学习在序列决策上的巨大进步，这些进步进而推动了深度强化学习算法在自动语音和自然语言理解领域的研究和应用，探索解决自然语言理解及响应等开展对话中存在的挑战。基于深度强化学习的 Bot 具有扩展到当前尚无法涉足领域的能力，适用于开放域聊天机器人的场景。

4) 机器人

复杂未知环境下智能感知与自动控制是目前机器人在控制领域的研究热点之一，在高维连续状态-动作空间中，运用深度强化学习进行机器人运动控制有很不错的效果，最终可以应用在自主导航、物体抓取、步态控制、人机协作以及群体协同等很多任务上。

2.从游戏说起强化学习

首先，让我们简单介绍一下 Breakout 这个游戏。在这个游戏中，你需要控制屏幕底端的一根横杆左右移动，将飞向底端的球反弹回去并清除屏幕上方的砖块。每次你击中并清除了砖块，你的分数都会增加——你获得了奖励。

假设你想教神经网络模型玩这个游戏，模型的输入是游戏机屏幕像素所构成的图片，输出是三种动作：向左，向右以及开火（把球射出）。把这个问题建模为分类问题是很合理的——对于每个屏幕画面，你都需要进行决策：是左移，右移，还是开火。

分类的建模方法看起来很直接。不过，你需要大量训练数据训练你的分类模型。传统的做法是找一些专家让他们玩游戏并且记录他们的游戏过程。

但人类肯定不是这样玩游戏的，我们不需要有人站在我们背后告诉我们向左还是向右。我们只需要知道在某些情况下我们做了正确的动作并且得分了，其他的依靠我们自身的学习机制完成。这个问题就是强化学习尝试解决的问题。

强化学习处于监督学习与无监督学习的中间地带。在监督学习中，每个训练实例都有一个正确标签；在无监督学习中，训练实例并没有标签。在强化学习中，训练实例有稀疏并延时的标签——奖励。基于奖励，强化学习中的智能体可以学习如何对环境做出正确的反映。

上述的观点看起来很直观，但是实际存在很多挑战。举例来讲，在 Breakout 这个游戏中，击中砖块并且得分和前一时刻如何移动横杆没有直接关系。最相关的是前面如何将横杆移动到正确位置并反弹球。这个问题叫做信用分配问题（credit assignment problem），即：建模获得奖励之前的哪些动作对获得奖励产生贡献以及贡献的大小。

如果你已经获得了某种策略并且通过它得了不少奖励，你应该继续坚持这种策略还是试试其他的可能获得更高分的策略？仍举 Breakout 这个游戏为例，在游戏开始时，你把横杆停在左边并把球射出去，如果你不移动横杆，你总是能得 10 分的（当然得分的下一秒，你就死了）。你满足于这个得分吗，或者你想不想再多得几分？这种现象有一个专门的名词——探索-利用困境（exploration-exploitation dilemma） 。决策时应该一直延用现有的策略还是试试其他更好的策略？

强化学习是人类（或者更一般的讲，动物）学习的一种重要模式。父母的鼓励，课程的分数，工作的薪水——这些都是我们生活中的奖励。功劳分配问题以及探索-利用困境在我们日常生活工作中经常发生。这就是我们研究强化学习的原因。而对于强化学习，游戏是尝试新方法的最佳的沙盒。

3. 马尔科夫决策过程

下面，我们的问题是如何形式化定义强化学习问题使其支持推断。最常用的表示方式是马尔科夫决策过程。

假想你是一个智能体（agent），面对某种场景（比如说 Breakout 游戏）。你所处的环境可以定义为状态（state）（比如横杆的位置，球的位置，球的方向，当前环境中的砖块等等）。

智能体能够在环境中采取一些动作（actions）（比如向左或向右移动横杆）。这些动作会导致一些奖励（reward）（比如分数的增加）。智能体采取动作将导致新的环境，也就是新的状态。在新的状态下，智能体能够继续采取动作，循环往复。你采取行动的原则叫做策略（policy）。

通常来讲，环境是很复杂的，智能体的下一状态可能带有一定的随机性（比如当你失去一个球发射另一个球时，它的方向是随机的）。

一系列的状态、动作、以及采取动作的规则构成了一个马尔科夫决策过程（Markov decision process）。一个马尔科夫决策过程（比如一局游戏）由一串有限个数的状态、动作、反馈组成，形式化地表示为：

$s_0, a_0, r_1, s_1, a_1, r_2, s_2, …, s_{n-1}, a_{n-1}, r_n, s_n$

其中 $s_i$ 代表状态， $a_i$ 代表动作， $r_{i+1}$ 代表进行动作后获得的奖励， $s_n$ 是终止状态。一个马尔科夫决策过程建立在马尔科夫假设上，即下一时刻的状态 $s_{i+1}$ 只和当前状态 $s_i$ 和动作 $a_i$ 有关，和之前的状态及动作无关。

4. 打折的未来奖励

为了在长期决策过程中表现的更好，我们不但要考虑采取一个动作后的即时奖励，也要考虑这个动作的未来奖励。那么问题来了，我们应该如何建模这个未来奖励？

给定一个马尔科夫决策过程，它对应的奖励总和很容易用如下方式计算：

$R=r_1+r_2+r_3+…+r_n$

而 $t$ 时刻的未来奖励可以表示为：

$R_t=r_t+r_{t+1}+r_{t+2}+…+r_n$

由于智能体所处的环境非常复杂，我们甚至无法确定在两次采取相同动作，智能体能够获得相同的奖励。智能体在未来进行的动作越多，获得的奖励越不相同。所以，我们一般采用一种「打折的未来奖励」作为 $t$ 时刻未来奖励的代替。

$R_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}…+\gamma^{n-t} r_n$

其中 $\gamma$ 是 $0$ 到 $1$ 之间的折扣因子。这个 $\gamma$ 值使得我们更少地考虑哪些更长远未来的奖励。数学直觉好的读者可以很快地看出 $R_t$ 可以用 $R_{t+1}$ 来表示，从而将上式写成一种递推的形式，即：

$R_t=r_t+\gamma (r_{t+1}+\gamma (r_{t+2}+…))=r_t+\gamma R_{t+1}$

如果 $\gamma$ 是 $0$ ，我们将会采取一种短视的策略。也就是说，我们只考虑即刻奖励。如果我们希望在即刻奖励与未来奖励之间寻求一种平衡，我们应该使用像 $0.9$ 这样的参数。如果我们所处的环境对于动作的奖励是固定不变的，也就是说相同的动作总会导致相同的奖励，那么 $\gamma$ 应该等于 $1$ 。

好的策略应该是：智能体在各种环境下采用最大（打折的）未来奖励的策略。

5. Q-learning算法

5.1 Q-Learning算法讲解

在 Q-learning 中，我们定义一个 $Q (s, a)$ 函数，用来表示智能体在 $s$ 状态下采用 $a$ 动作并在之后采取最优动作条件下的打折的未来奖励。

$Q(s_t,a_t)=max_{\pi} R_{t+1}$

直观讲， $Q (s, a)$ 是智能体「在 $s$ 状态下采取 $a$ 动作所能获得的最好的未来奖励」。由于这个函数反映了在 $s$ 状态下采取 $a$ 动作的质量（Quality），我们称之为Q-函数。

这个定义看起来特别奇怪。我们怎么可能在游戏进行的过程中，只凭一个状态和动作估计出游戏结束时的分数呢？实际上我们并不能估计出这个分数。但我们可以从理论上假设这样函数的存在，并且把重要的事情说三遍，「Q-函数存在，Q-函数存在，Q-函数存在」。Q-函数是否存在呢？

如果你还不相信，我们可以在假设Q-函数存在的情况下想一想会发生什么。假设智能体处在某个状态并且思考到底应该采用 $a$ 动作还是 $b$ 动作，你当然希望选取使游戏结束时分数最大的动作。如果你有那个神奇的Q-函数，你只要选取Q-函数值最大的动作。

$\pi(s) =argmax_a Q(s,a)$

上式中， $\pi$ 表示在 $s$ 状态下选取动作的策略。

然后，我们应该如何获得Q-函数呢？首先让我们考虑一个转移。我们可以采用与打折的未来奖励相同的方式定义这一状态下的Q函数。

$\gamma max_{a’}Q(s’,a’)$

这个公式叫贝尔曼公式。如果你再想一想，这个公式实际非常合理。对于某个状态来讲，最大化未来奖励相当于最大化即刻奖励与下一状态最大未来奖励之和。

Q-learning 的核心思想是：我们能够通过贝尔曼公式迭代地近似Q-函数。最简单的情况下，我们可以采用一种填表的方式学习Q-函数。这个表包含状态空间大小的行，以及动作个数大小的列。填表的算法伪码如下所示：

initialize Q[numstates,numactions] arbitrarily
observe initial state s
repeat
    select and carry out an action a
    observe reward r and new state s'
    Q[s,a] = Q[s,a] + α(r + γmaxa' Q[s',a'] - Q[s,a])
    s = s'
until terminated

Al gorithm 5 Q-learning 迭代算法

其中 $\alpha$ 是在更新 $Q [s, a]$ 时，调节旧 $Q [s, a]$ 与新 $Q [s, a]$ 比例的学习速率。如果 $\alpha=1$ ， $Q [s, a]$ 就被消掉，而更新方式就完全与贝尔曼公式相同。

使用 $max_{a’}Q[s’, a’]$ 作为未来奖励来更新 $Q [s, a]$ 只是一种近似。在算法运行的初期，这个未来奖励可能是完全错误的。但是随着算法迭代， $Q [s, a]$ 会越来越准（它的收敛性已经被证明）。我们只要不断迭代，终有一天它会收敛到真实的Q函数的。

5.2 Q-Learning案例

我们来通过一个小案例理解一下 Q-Learning 算法是如何应用的。

1) 环境

假设我们有5个相互连接的房间，并且对每个房间编号，整个房间的外部视作房间5。

以房间为节点，房门为边，则可以用图来描述房间之间的关系：

2) 奖励机制

这里设置一个agent（在强化学习中， agent 意味着与环境交互、做出决策的智能体），初始可以放置在任意一个房间， agent最终的目标是走到房间5（外部）。

为此，为每扇门设置一个 reward（奖励），一旦 agent 通过该门，就能获得奖励：

其中一个特别的地方是房间5可以循环回到自身节点，并且同样有100点奖励。

在 Q-learning 中， agent 的目标是达成最高的奖励值，如果 agent 到达目标，就会一直停留在原地，这称之为 absorbing goal。

对于 agent，这是i一个可以通过经验进行学习的 robot， agent 可以从一个房间（节点）通过门（边）通往另一个房间（节点），但是它不知道门会连接到哪个房间，更不知道哪扇门能进入房间5（外部）。

3) 学习过程

举个栗子，现在我们在房间2设置一个 agent，我们想让它学习如何走能走向房间5。

在 Q-leanring 中，有两个术语 state（状态）和 action（行为）。

每个房间可以称之为 state，而通过门进行移动的行为称之为 action，在图中 state 代表节点，action 代表边。

现在代理处于 state2 ( 节点2，房间2)，从 state2 可以通往 state3 ，但是无法直接通往 state1。

在 state3 ，可以移动到 state1 或回到 state2。

根据现在掌握的 state，reward，可以形成一张 reward table（奖励表），称之为矩阵 $R$ ：

只有矩阵 $R$ 是不够的， agent 还需要一张表，被称之为矩阵 $Q$ ，矩阵 $Q$ 表示 agent 通过经验学习到的记忆（可以理解为矩阵 $Q$ 就是模型通过学习得到的权重）。

起初，代理对环境一无所知，因此矩阵 $Q$ 初始化为 $0$ 。为了简单起见，假设状态数已知为6。如果状态数未知，则 $Q$ 仅初始化为单个元素 $0$ ，每当发现新的状态就在矩阵中添加更多的行列。

Q-learning 的状态转移公式如下：

$\ast Max[Q(next-state, all actions)]$

根据该公式，可以对矩阵 $Q$ 中的特定元素赋值。

agent 在没有老师的情况下通过经验进行学习（无监督），从一个状态探索到另一个状态，直到到达目标为止。每次完整的学习称之为 episode（其实也就相当于 epoch），每个 episode 包括从初始状态移动到目标状态的过程，一旦到达目标状态就可以进入下一个 episode。

4) 算法过程

设置gamme参数, 在矩阵R中设置reward
初始化矩阵Q
对于每一个episode:
    选择随机的初始状态(随便放到一个房间里)
    如果目标状态没有达成, 则
        从当前所有可能的action中选择一个
        执行action, 并准备进入下一个state
        根据action得到reward
        计算$Q(state, action) = R(state, action) + Gamma * Max[Q(next-state, all actions)]$
        将下一个state设置为当前的state.
        进入下一个state
结束

在算法中，训练agent在每一个episode中探索环境（矩阵 $R$ ），并获得reward，直到达到目标状态。训练的目的是不断更新agent的矩阵 $Q$ ：每个episode都在对矩阵 $Q$ 进行优化。因此，起初随意性的探索就会被通往目标状态的最快路径取代。

参数 gamma 取 $0$ 到 $1$ 之间。该参数主要体现在 agent 对于 reward 的贪心程度上，具体的说，如果 gamma 为 $0$ ，那么 agent 仅会考虑立即能被得到的 reward，而 gamma 为 $1$ 时， agent 会放长眼光，考虑将来的延迟奖励。

要使用矩阵 $Q$ ， agent 只需要查询矩阵 $Q$ 中当前 state 具有最高 $Q$ 值的 action：

① 设置当前 state 为初始 state
② 从当前 state 查询具有最高 $Q$ 值的 action
③ 设置当前 state 为执行 action 后的 state
④ 重复2，3直到当前 state 为目标 state

5) Q-learning模拟

现在假设 $g amm e = 0.8$ ，初始 state 为房间 $1$ 。

初始化矩阵 $Q$ ：

同时有矩阵 $R$ ：

① episode 1

现在 agent 处于房间1，那么就检查矩阵 $R$ 的第二行。agent 面临两个action，一个通往房间3，一个通往房间5。通过随机选择，假设agent选择了房间5。

$\ast Max[Q(next state, all actions)]$

$\ast Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 \ast 0 = 100$

由于矩阵 $Q$ 被初始化为 $0$ ，因此 $Q (5, 1)$ ， $Q (5, 4)$ ， $Q (5, 5)$ 都是 $0$ ，那么 $Q (1, 5)$ 就是 $100$ 。

现在房间5变成了当前 state，并且到达目标 state，因此这一轮 episode 结束。

于是 agent 对矩阵 $Q$ 进行更新。

② episode 2

现在，从新的随机 state 开始，假设房间3为初始 state。

同样地，查看矩阵 $R$ 的第四行，有3种可能的 action：进入房间1、2或者4。通过随机选择，进入房间 $1$ 。计算 $Q$ 值：

$\ast Max[Q(next state, all actions)]$

$\ast Max[Q(1, 3), Q(1, 5)] = 0+ 0.8 \ast 100 = 80$

现在 agent 处于房间 $1$ ，查看矩阵 $R$ 的第二行。此时可以进入房间3或房间5，选择去5，计算Q值：

$\ast Max[Q(next state, all actions)]$

$\ast Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 \ast 0 = 100$

由于到达目标 state，对矩阵 $Q$ 进行更新， $Q (3, 1) = 80$ ， $Q (1, 5) = 100$ 。

③ episode n

之后就是不断重复上面的过程，更新 $Q$ 表，直到结束为止。

6) 推理

假设现在 $Q$ 表被更新为：

对数据标准化处理( $matrix_Q / max(matrix_Q)$ )，可以将 $Q$ 值看作概率：

描绘成图：

到这里已经很清晰了，agent 已经总结出一条从任意房间通往房间5（外部)的路径。

6.Deep Q Network算法

6.1 算法介绍

Breakout游戏的状态可以用横杆的位置，球的位置，球的方向或者每个砖块是否存在来进行定义。然而，这些表示游戏状态的直觉只能在一款游戏上发挥作用。我们要问：我们能不能设计一种通用的表示游戏状态的方法呢？最直接的方法是使用游戏机屏幕的像素作为游戏状态的表示。像素可以隐式地表示出球速以及球的方向之外的所有游戏状态的信息。而如果采用连续两个游戏机屏幕的像素，球速和球的方向也可以得到表示。

如果 DeepMind 的论文采用离散的游戏屏幕作为状态表示，让我们计算一下使用连续四步的屏幕作为状态，可能的状态空间。屏幕大小 $84 \ast 84$ ，每个像素点有 $256$ 个灰度值，那么就有 $256^{84 \ast 84 \ast 4} \sim10^{67970}$ 种可能的状态。也就是说，我们的Q-表将要有 $10^{67970}$ 行。这个数字甚至多于宇宙中的原子个数！有人会说：有些屏幕状态永远不会出现，或者，能不能只用在学习过程中碰到过的状态作为Q-表的状态呢？即便如此，这种稀疏表示的Q-表里仍包含很多状态，并且需要很长时间收敛。理想的情况是，即便某些状态没有见过，我们的模型也能对它进行比较合理的估计。

在这种情况下，深度学习就进入了我们的视野。深度学习的一大优势是从结构数据中抽取特征（对数据进行很好的表示）。我们可以用一个神经网络对Q-函数进行建模。这个神经网络接收一个状态（连续四步的屏幕）和一个动作，然后输出对应的Q-函数的值。当然，这个网络也可以只接受一个状态作为输入，然后输出所有动作的分数（具体来讲是动作个数大小的向量）。这种做法有一个好处：我们只需要做一次前向过程就可以获得所有动作的分数。

DeepMind 在论文中使用的网络结构如下：

Layer	Input	Filter size	Stride	Num filters	Activation	Output
conv1	84x84x4	8×8	4	32	ReLU	20x20x32
conv2	20x20x32	4×4	2	64	ReLU	9x9x64
conv3	9x9x64	3×3	1	64	ReLU	7x7x64
fc4	7x7x64			512	ReLU	512
fc5	512			18	Linear	18

这个网络是普通的神经网络：从输入开始，三个卷积层，接着两个全连接层。熟悉使用神经网络做物体识别的读者或许会意识到，这个网络没有池化层（pooling layer）。但是细想一下我们就知道，池化层带来位置不变性，会使我们的网络对于物体的位置不敏感，从而无法有效地识别游戏中球的位置。而我们都知道，球的位置对于决定游戏潜在的奖励来讲有非常大的意义，我们不应该丢掉这部分信息。

输入是 $84 \ast 84$ 的灰度图片，输出的是每种可能的动作的Q-值。这个神经网络解决的问题变成了一个典型的回归问题。简单的平方误差可以用作学习目标。

$L=\frac{1}{2}[\underbrace{r + \gamma max_{a'}Q(s',a')}_{\text{target}} - \underbrace{Q(s,a)}_{\text{prediction}}]^2$

给定一个转移，Q-表的更新算法只要替换成如下流程就可以学习Q-网络。

对于当前状态 s，通过前向过程获得所有动作的Q-值
对于下一个状态s’，通过前向过程计算Q-值最大的动作 $max_{a’} Q(s’, a’)$
将 $r+\gamma max_{a’} Q(s’, a’)$ 作为学习目标，对于其他动作，设定第一步获得的Q-值作为学习目标（也就是不会在反向过程中更新参数）
使用反向传播算法更新参数。

6.2 经验回放

到现在，我们已经知道如何用 Q-learning 的算法估计未来奖励，并能够用一个卷积神经网络近似Q-函数。但使用Q 值近似非线性的Q-函数可能非常不稳定。你需要很多小技巧才能使这个函数收敛。即使如此，在单GPU上也需要一个星期的时间训练模型。

这其中，最重要的技巧是经验回放（experience replay）。在玩游戏的过程中，所有经历的都被记录起来。当我们训练神经网络时，我们从这些记录的中随机选取一些mini-batch作为训练数据训练，而不是按照时序地选取一些连续的。在后一种做法中，训练实例之间相似性较大，网络很容易收敛到局部最小值。同时，经验回放也使 Q-learning 算法更像传统监督学习。我们可以收集一些人类玩家的记录，并从这些记录中学习。

6.3 探索-利用困境

Q-learning 算法尝试解决信用分配问题。通过 Q-learning ，奖励被回馈到关键的决策时刻。然而，我们还没有解决探索-利用困境。

我们第一个观察是：在游戏开始阶段，Q-表或Q-网络是随机初始化的。它给出的Q-值最高的动作是完全随机的，智能体表现出的是随机的「探索」。当Q-函数收敛时，随机「探索」的情况减少。所以， Q-learning 中包含「探索」的成分。但是这种探索是「贪心」的，它只会探索当前模型认为的最好的策略。

对于这个问题，一个简单的修正技巧是使用 $\epsilon$ - 贪心探索。在学习Q-函数时，这种技巧以 $\epsilon$ 的概率选取随机的动作做为下一步动作， $1-\epsilon$ 的概率选取分数最高的动作。在DeepMind的系统中， $\epsilon$ 随着时间从 $1$ 减少到 $0.1$ 。这意味着开始时，系统完全随机地探索状态空间，最后以固定的概率探索。

6.4 Deep Q-learning算法流程

最后给出使用经验回放的 Deep Q-learning 算法

initialize replay memory D
initialize action-value function Q with random weights
observe initial state s
repeat
    select an action a
        with probability ε select a random action
        otherwise select a = argmaxa’Q(s,a’)
    carry out action a
    observe reward r and new state s’
    store experience  in replay memory D
    sample random transitions  from replay memory D
    calculate target for each minibatch transition
        if ss’ is terminal state then tt = rr
        otherwise tt = rr + γmaxa’Q(ss’, aa’)
    train the Q network using (tt - Q(ss, aa))^2 as loss
    s = s'
until terminated

中文版算法流程如下：

初始化回放存储D
使用随机权重初始化动作价值函数Q
观察初始状态s
重复
    选择一个动作s
        以概率ε选择一个随机动作
        否则选择 a=argmaxa'Q(s,a')
    执行动作a
    观察奖励r和新状态s'
    在回放存储D中保存经验
    从回放存储D中进行样本随机变换
    为每个微批数据变换计算目标
        如果ss′是终点状态,那么tt=rr
        否则tt=rr+Ymax a' Q(ss',aa′)
    使用(tt-Q(ss,aa))2作为损失训练Q网络 
    s=s'

除了上述技巧，DeepMind 还使用了一系列其他的技巧，比如：目标网络、误差截断、回馈截断等等。但是这些已经超出本文的范畴了。

最令人惊喜的是这种算法可以应对各种学习问题。在算法的运行初期，Q-函数用来学习模型参数的数据几乎完全是（随机猜测的）垃圾数据，在运行过程中，也只能通过一些偶然的奖励学习参数。这种事情想想就很疯狂，它是怎么学到一个很好的模型呢？但事实上，它确实学到了一个很好的模型。

7.DQN后续

自从 Deep Q-learning 提出之后，很多工作尝试对他进行提升，其中包括：Double Q-learning, Prioritized Experience Replay, Dueling Network Architecture, extension to continuous action space 等等。如果要跟进最新的研究成果，可以关注 NIPS 2015 deep reinforcement learning workshop 以及ICLR 2016（用「reinforcement」作为关键词搜索）。有一点需要注意的是 Deep Q-learning 已经被谷歌申请专利了。

我们常说我们还没搞清楚什么是人工智能。一旦我们搞清其中的工作原理，它看起来就不那么智能。但是深度Q-网络仍在不断地给我带来惊喜。观察 Q-learning 学习玩一个新游戏的过程就像观察野外的动物。通过不断地与环境交互获得奖励从而成为更强的物种。

8.拓展学习

可以点击 B站查看视频的【双语字幕】版本

【字幕+资料下载】斯坦福CS231n | 面向视觉识别的卷积神经网络 (2017·全16讲)

本篇部分内容翻译自博文DEMYSTIFYING DEEP REINFORCEMENT LEARNING
【课程学习指南】斯坦福CS231n | 深度学习与计算机视觉
【字幕+资料下载】斯坦福CS231n | 深度学习与计算机视觉 (2017·全16讲)
【CS231n进阶课】密歇根EECS498 | 深度学习与计算机视觉
【深度学习教程】吴恩达专项课程 · 全套笔记解读
【Stanford官网】CS231n: Deep Learning for Computer Vision

9.要点总结

本篇介绍了强化学习：

强化学习是不同于监督学习与无监督学习的另外一类算法，主要是「智能体」与「环境」交互学习。
强化学习没去在「游戏」「广告与推荐」「智能对话」「机器人」等领域都有应用。
GAN 是目前能生成最好样本的模型，但是训练需要技巧且不稳定，查询推断上也有一些问题。
马尔科夫决策过程
打折未来奖励及其计算方式
Q-Learning 算法
Deep Q-Learning 算法

ShowMeAI 斯坦福 CS231n 全套解读

深度学习与计算机视觉教程(1) | CV引言与基础 @CS231n
深度学习与计算机视觉教程(2) | 图像分类与机器学习基础 @CS231n
深度学习与计算机视觉教程(3) | 损失函数与最优化 @CS231n
深度学习与计算机视觉教程(4) | 神经网络与反向传播 @CS231n
深度学习与计算机视觉教程(5) | 卷积神经网络 @CS231n
深度学习与计算机视觉教程(6) | 神经网络训练技巧 (上) @CS231n
深度学习与计算机视觉教程(7) | 神经网络训练技巧 (下) @CS231n
深度学习与计算机视觉教程(8) | 常见深度学习框架介绍 @CS231n
深度学习与计算机视觉教程(9) | 典型CNN架构 (Alexnet, VGG, Googlenet, Restnet等) @CS231n
深度学习与计算机视觉教程(10) | 轻量化CNN架构 (SqueezeNet, ShuffleNet, MobileNet等) @CS231n
深度学习与计算机视觉教程(11) | 循环神经网络及视觉应用 @CS231n
深度学习与计算机视觉教程(12) | 目标检测 (两阶段, R-CNN系列) @CS231n
深度学习与计算机视觉教程(13) | 目标检测 (SSD, YOLO系列) @CS231n
深度学习与计算机视觉教程(14) | 图像分割 (FCN, SegNet, U-Net, PSPNet, DeepLab, RefineNet) @CS231n
深度学习与计算机视觉教程(15) | 视觉模型可视化与可解释性 @CS231n
深度学习与计算机视觉教程(16) | 生成模型 (PixelRNN, PixelCNN, VAE, GAN) @CS231n
深度学习与计算机视觉教程(17) | 深度强化学习 (马尔可夫决策过程, Q-Learning, DQN) @CS231n
深度学习与计算机视觉教程(18) | 深度强化学习 (梯度策略, Actor-Critic, DDPG, A3C) @CS231n

ShowMeAI 系列教程推荐

大厂技术实现：推荐与广告计算解决方案
大厂技术实现：计算机视觉解决方案
大厂技术实现：自然语言处理行业解决方案
图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学基础：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程
图解机器学习算法：从入门到精通系列教程
机器学习实战：手把手教你玩转机器学习系列
深度学习教程：吴恩达专项课程 · 全套笔记解读
自然语言处理教程：斯坦福CS224n课程 · 课程带学与全套笔记解读
深度学习与计算机视觉教程：斯坦福CS231n · 全套笔记解读

你可能感兴趣的:(#,深度学习与计算机视觉教程,◉,斯坦福CS231n最全笔记,人工智能,计算机视觉,Q-Learning,DQN,强化学习)

brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
手把手教你完成 MATLAB 的下载安装与激活（详细图文教程）徐浪老师徐浪老师大讲堂 matlab 开发语言
引言MATLAB是当前最流行的科学计算软件之一，被广泛应用于工程、数学、金融等多个领域。对于新用户而言，下载安装MATLAB可能会遇到一些困惑。本文将以详细步骤、清晰截图的形式，为您介绍MATLAB的下载、安装及激活的完整过程。一、下载安装前的准备工作在开始下载安装之前，请确保以下事项已准备妥当：1.系统需求MATLAB对系统配置有一定要求，具体包括：操作系统：Windows10或更新版本，mac
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
CCNP之IGP学习笔记（2022）码龄4年审核中笔记 OSPF RIP EIGRP IGP CCNP
evecommunityedition2.0.3-92_v1.4.1.ovaOVF（OpenVirtualizationFormat：开放虚拟化格式）和OVA（OpenVirtualizationAppliance：开放虚拟化设备）appliance器具collaborative合作的；协力完成的translation翻译；译文；译本；转化CollaborativeTranslationFrame
conda安装R语言环境并部署至pycharm 楚门留香 r语言开发语言
优先看这个：[win10系统使用Pycharm-professional配置R语言-知乎(zhihu.com)](https://zhuanlan.zhihu.com/p/546788455)要安装R4.0.0的时候看这个：[R语言的安装（详细教程）_r语言安装教程-CSDN博客](https://blog.csdn.net/xhmico/article/details/122443660)r语言
致现在的我与未来的我：编程长河中的摆渡手札星糖曙光后端语言（node javascript vue等等）笔记学习深度学习人工智能网络
致现在的我与未来的我：编程长河中的摆渡手札一、技术积累：从萤火微光到星河初现（约3000字）前端的启蒙：HTML/CSS与"所见即所得"的魔法“代码是诗，但诗未必能成为产品”，初学编程时，我如《禅与摩托车维修艺术》中追寻"良质"的探索者，在W3School的教程中笨拙地敲下第一行。记得仿写京东首页时，一个浮动布局的错位让我通宵调试，最终发现竟是未闭合的标签——这让我想起《代码大全》中的警示：“计算
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
鸿蒙特效教程06-可拖拽网格苏杰豪鸿蒙特效教程 HarmonyOS Next harmonyos 鸿蒙华为
鸿蒙特效教程06-可拖拽网格实现教程本教程适合HarmonyOSNext初学者，通过简单到复杂的步骤，一步步实现类似桌面APP中的可拖拽编辑效果。效果预览我们要实现的效果是一个Grid网格布局，用户可以通过长按并拖动来调整应用图标的位置顺序。拖拽完成后，底部会显示当前的排序结果。实现步骤步骤一：创建基本结构和数据模型首先，我们需要创建一个基本的页面结构和数据模型。我们将定义一个应用名称数组和一个对
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
178.HarmonyOS NEXT系列教程之列表交换组件错误处理机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件错误处理机制效果演示1.错误处理架构1.1错误类型定义//错误类型枚举enumErrorType{DATA_ERROR,//数据错误OPERATION_ERROR,//操作错误NETWORK_ERROR,//网络错
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
197.HarmonyOS NEXT系列教程之图案锁振动反馈实现详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁振动反馈实现详解效果预览1.振动功能实现startVibrator(vibratorCount?:number){try{vibrator.startVibration({//设置为'preset'，可使用系统预置振动效
187.HarmonyOS NEXT系列教程之列表切换案例交互实现详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例交互实现详解效果演示1.交互系统概述1.1交互类型//支持的交互类型1.长按拖动排序2.左滑删除3.点击选择4.拖拽动画1.2手势配置//组合手势配置.gesture(GestureGroup(GestureMod
188.HarmonyOS NEXT系列教程之列表切换案例工具类与最佳实践 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例工具类与最佳实践效果演示1.日志工具类1.1Logger类实现classLogger{privatedomain:number;privateprefix:string;privateformat:string='
186.HarmonyOS NEXT系列教程之列表切换案例数据管理详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例数据管理详解效果演示1.数据模型设计1.1ListInfo类@ObservedexportclassListInfo{//列表项数据结构icon:ResourceStr='';//图标资源name:Resource
181.HarmonyOS NEXT系列教程之列表交换组件整体架构详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件整体架构详解效果演示1.组件概述1.1功能介绍ListExchangeViewComponent是一个支持列表项交换和删除的自定义组件，主要用于实现如扣款列表等场景。主要功能包括：列表项拖拽排序滑动删除自定义列表项
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
《面向模式的软件体系结构3-资源管理模式》读书笔记（7）--- Coordinator模式 weixin_33699914 人工智能
3.3Coordinator模式Coordinator（协调者）模式描述了如何通过协调涉及多个参与者（每个参与者都包含资源、资源使用者和资源提供者）的任务的完成来维护系统的一致性。这个模式提出了一个解决方案，使得在涉及多个参与者的任务中，或者所有参与者的任务都完成，或者一项任务都没有完成。这确保了系统总是处于一致的状态。1.问题很多系统都会执行涉及不止一个参与者的任务。一个参与者是一个主动实体，既
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源