zkl99999

用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

http://blog.csdn.net/songrotek/article/details/50951537

标签：深度增强学习DQN

2016-03-22 00:11 704人阅读评论(0) 收藏举报

分类：

Deep Reinforcement Learning（6）

目录(?)[+]

前言

2013年DeepMind 在NIPS上发表Playing Atari with Deep Reinforcement Learning 一文，提出了DQN（Deep Q Network）算法，实现端到端学习玩Atari游戏，即只有像素输入，看着屏幕玩游戏。Deep Mind就凭借这个应用以6亿美元被Google收购。由于DQN的开源，在github上涌现了大量各种版本的DQN程序。但大多是复现Atari的游戏，代码量很大，也不好理解。

Flappy Bird是个极其简单又困难的游戏，风靡一时。在很早之前，就有人使用Q-Learning 算法来实现完Flappy Bird。http://sarvagyavaish.github.io/FlappyBirdRL/
但是这个的实现是通过获取小鸟的具体位置信息来实现的。

能否使用DQN来实现通过屏幕学习玩Flappy Bird是一个有意思的挑战。（话说本人和朋友在去年年底也考虑了这个idea，但当时由于不知道如何截取游戏屏幕只能使用具体位置来学习，不过其实也成功了）

最近，github上有人放出使用DQN玩Flappy Bird的代码，https://github.com/yenchenlin1994/DeepLearningFlappyBird【1】
该repo通过结合之前的repo成功实现了这个想法。这个repo对整个实现过程进行了较详细的分析，但是由于其DQN算法的代码基本采用别人的repo，代码较为混乱，不易理解。

为此，本人改写了一个版本https://github.com/songrotek/DRL-FlappyBird

对DQN代码进行了重新改写。本质上对其做了类的封装，从而使代码更具通用性。可以方便移植到其他应用。

当然，本文的目的是借Flappy Bird DQN这个代码来详细分析一下DQN算法极其使用。

DQN 伪代码

这个是NIPS13版本的伪代码：

<code class="hljs livecodeserver has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;">Initialize replay memory D <span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">to</span> size N
Initialize action-<span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">value</span> <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">function</span> <span class="hljs-title" style="box-sizing: border-box;">Q</span> <span class="hljs-title" style="box-sizing: border-box;">with</span> <span class="hljs-title" style="box-sizing: border-box;">random</span> <span class="hljs-title" style="box-sizing: border-box;">weights</span></span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> episode = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>, M <span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">do</span>
    Initialize state s_1
    <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> t = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>, T <span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">do</span>
        With probability ϵ select <span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">random</span> action a_t
        otherwise select a_t=max_a  Q($s_t$,<span class="hljs-operator" style="box-sizing: border-box;">a</span>; $θ<span class="hljs-title" style="box-sizing: border-box;">_i</span>$)
        Execute action a_t <span class="hljs-operator" style="box-sizing: border-box;">in</span> emulator <span class="hljs-operator" style="box-sizing: border-box;">and</span> observe r_t <span class="hljs-operator" style="box-sizing: border-box;">and</span> s_(t+<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)
        Store transition (s_t,a_t,r_t,s_(t+<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)) <span class="hljs-operator" style="box-sizing: border-box;">in</span> D
        Sample <span class="hljs-operator" style="box-sizing: border-box;">a</span> minibatch <span class="hljs-operator" style="box-sizing: border-box;">of</span> transitions (s_j,a_j,r_j,s_(j+<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)) <span class="hljs-built_in" style="color: rgb(102, 0, 102); box-sizing: border-box;">from</span> D
        Set y_j:=
            r_j <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> terminal s_(j+<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)
            r_j+γ*max_(<span class="hljs-operator" style="box-sizing: border-box;">a</span>^<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">' )  Q(s_(j+1),a'</span>; θ<span class="hljs-title" style="box-sizing: border-box;">_i</span>) <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> non-terminal s_(j+<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)
        Perform <span class="hljs-operator" style="box-sizing: border-box;">a</span> gradient step <span class="hljs-command" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">on</span> (<span class="hljs-title" style="box-sizing: border-box;">y_j-Q</span>(<span class="hljs-title" style="box-sizing: border-box;">s_j</span>,<span class="hljs-title" style="box-sizing: border-box;">a_j</span>; θ<span class="hljs-title" style="box-sizing: border-box;">_i</span>))^<span class="hljs-title" style="box-sizing: border-box;">2</span> <span class="hljs-title" style="box-sizing: border-box;">with</span> <span class="hljs-title" style="box-sizing: border-box;">respect</span> <span class="hljs-title" style="box-sizing: border-box;">to</span> θ</span>
    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">end</span> <span class="hljs-title" style="box-sizing: border-box;">for</span></span>
<span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">end</span> <span class="hljs-title" style="box-sizing: border-box;">for</span></span></code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li></ul>

基本的分析详见Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
基础知识详见Deep Reinforcement Learning 基础知识（DQN方面）

本文主要从代码实现的角度来分析如何编写Flappy Bird DQN的代码

编写FlappyBirdDQN.py

首先，FlappyBird的游戏已经编写好，是现成的。提供了很简单的接口：

<code class="hljs fix has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"><span class="hljs-attribute" style="box-sizing: border-box;">nextObservation,reward,terminal </span>=<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;"> game.frame_step(action)</span></code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li></ul>

即输入动作，输出执行完动作的屏幕截图，得到的反馈reward，以及游戏是否结束。

那么，现在先把DQN想象为一个大脑，这里我们也用BrainDQN类来表示，这个类只需获取感知信息也就是上面说的观察（截图），反馈以及是否结束，然后输出动作即可。

完美的代码封装应该是这样。具体DQN里面如何存储。如何训练是外部不关心的。
因此，我们的FlappyBirdDQN代码只有如下这么短：

<code class="hljs python has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"><span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># -------------------------</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Project: Deep Q-Learning on Flappy Bird</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Author: Flood Sung</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Date: 2016.3.21</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># -------------------------</span>

<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> cv2
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> sys
sys.path.append(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"game/"</span>)
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> wrapped_flappy_bird <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">as</span> game
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">from</span> BrainDQN <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> BrainDQN
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> numpy <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">as</span> np

<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># preprocess raw image to 80*80 gray image</span>
<span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">preprocess</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(observation)</span>:</span>
    observation = cv2.cvtColor(cv2.resize(observation, (<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>)), cv2.COLOR_BGR2GRAY)
    ret, observation = cv2.threshold(observation,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">255</span>,cv2.THRESH_BINARY)
    <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> np.reshape(observation,(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>))

<span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">playFlappyBird</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">()</span>:</span>
    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 1: init BrainDQN</span>
    brain = BrainDQN()
    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 2: init Flappy Bird Game</span>
    flappyBird = game.GameState()
    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 3: play game</span>
    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 3.1: obtain init state</span>
    action0 = np.array([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>])  <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># do nothing</span>
    observation0, reward0, terminal = flappyBird.frame_step(action0)
    observation0 = cv2.cvtColor(cv2.resize(observation0, (<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>)), cv2.COLOR_BGR2GRAY)
    ret, observation0 = cv2.threshold(observation0,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">255</span>,cv2.THRESH_BINARY)
    brain.setInitState(observation0)

    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 3.2: run the game</span>
    <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">while</span> <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>!= <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>:
        action = brain.getAction()
        nextObservation,reward,terminal = flappyBird.frame_step(action)
        nextObservation = preprocess(nextObservation)
        brain.setPerception(nextObservation,action,reward,terminal)

<span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">main</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">()</span>:</span>
    playFlappyBird()

<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> __name__ == <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">'__main__'</span>:
    main()</code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li><li style="box-sizing: border-box; padding: 0px 5px;">17</li><li style="box-sizing: border-box; padding: 0px 5px;">18</li><li style="box-sizing: border-box; padding: 0px 5px;">19</li><li style="box-sizing: border-box; padding: 0px 5px;">20</li><li style="box-sizing: border-box; padding: 0px 5px;">21</li><li style="box-sizing: border-box; padding: 0px 5px;">22</li><li style="box-sizing: border-box; padding: 0px 5px;">23</li><li style="box-sizing: border-box; padding: 0px 5px;">24</li><li style="box-sizing: border-box; padding: 0px 5px;">25</li><li style="box-sizing: border-box; padding: 0px 5px;">26</li><li style="box-sizing: border-box; padding: 0px 5px;">27</li><li style="box-sizing: border-box; padding: 0px 5px;">28</li><li style="box-sizing: border-box; padding: 0px 5px;">29</li><li style="box-sizing: border-box; padding: 0px 5px;">30</li><li style="box-sizing: border-box; padding: 0px 5px;">31</li><li style="box-sizing: border-box; padding: 0px 5px;">32</li><li style="box-sizing: border-box; padding: 0px 5px;">33</li><li style="box-sizing: border-box; padding: 0px 5px;">34</li><li style="box-sizing: border-box; padding: 0px 5px;">35</li><li style="box-sizing: border-box; padding: 0px 5px;">36</li><li style="box-sizing: border-box; padding: 0px 5px;">37</li><li style="box-sizing: border-box; padding: 0px 5px;">38</li><li style="box-sizing: border-box; padding: 0px 5px;">39</li><li style="box-sizing: border-box; padding: 0px 5px;">40</li><li style="box-sizing: border-box; padding: 0px 5px;">41</li><li style="box-sizing: border-box; padding: 0px 5px;">42</li><li style="box-sizing: border-box; padding: 0px 5px;">43</li><li style="box-sizing: border-box; padding: 0px 5px;">44</li></ul>

核心部分就在while循环里面，由于要讲图像转换为80x80的灰度图，因此，加了一个preprocess预处理函数。

这里，显然只有有游戏引擎，换一个游戏是一样的写法，非常方便。

接下来就是编写BrainDQN.py 我们的游戏大脑

编写BrainDQN

基本架构：

<code class="hljs python has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"><span class="hljs-class" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">class</span> <span class="hljs-title" style="box-sizing: border-box; color: rgb(102, 0, 102);">BrainDQN</span>:</span>
    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">__init__</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># init replay memory</span>
        self.replayMemory = deque()
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># init Q network</span>
        self.createQNetwork()
    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">createQNetwork</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">trainQNetwork</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">setPerception</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,nextObservation,action,reward,terminal)</span>:</span>
    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">getAction</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">setInitState</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,observation)</span>:</span></code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li></ul>

基本的架构也就只需要上面这几个函数，其他的都是多余了，接下来就是编写每一部分的代码。

CNN代码

也就是createQNetwork部分，这里采用如下图的结构（转自【1】）：

这里就不讲解整个流程了。主要是针对具体的输入类型和输出设计卷积和全连接层。

代码如下：

<code class="hljs avrasm has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;">    def createQNetwork(self):
        <span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;"># network weights</span>
        W_conv1 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.weight</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">8</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">8</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>])
        b_conv1 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.bias</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>])

        W_conv2 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.weight</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])
        b_conv2 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.bias</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])

        W_conv3 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.weight</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])
        b_conv3 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.bias</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])

        W_fc1 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.weight</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1600</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>])
        b_fc1 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.bias</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>])

        W_fc2 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.weight</span>_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>,self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.ACTION</span>])
        b_fc2 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.bias</span>_variable([self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.ACTION</span>])

        <span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;"># input layer</span>

        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.stateInput</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.placeholder</span>(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>,[None,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>])

        <span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;"># hidden layers</span>
        h_conv1 = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.nn</span><span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.relu</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.conv</span>2d(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.stateInput</span>,W_conv1,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>) + b_conv1)
        h_pool1 = self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.max</span>_pool_2x2(h_conv1)

        h_conv2 = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.nn</span><span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.relu</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.conv</span>2d(h_pool1,W_conv2,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>) + b_conv2)

        h_conv3 = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.nn</span><span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.relu</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.conv</span>2d(h_conv2,W_conv3,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>) + b_conv3)

        h_conv3_flat = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.reshape</span>(h_conv3,[-<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1600</span>])
        h_fc1 = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.nn</span><span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.relu</span>(tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.matmul</span>(h_conv3_flat,W_fc1) + b_fc1)

        <span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;"># Q Value layer</span>
        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.QValue</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.matmul</span>(h_fc1,W_fc2) + b_fc2

        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.actionInput</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.placeholder</span>(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>,[None,self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.ACTION</span>])
        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.yInput</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.placeholder</span>(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>, [None]) 
        Q_action = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.reduce</span>_sum(tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.mul</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.QValue</span>, self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.actionInput</span>), reduction_indices = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)
        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.cost</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.reduce</span>_mean(tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.square</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.yInput</span> - Q_action))
        self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.trainStep</span> = tf<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.train</span><span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.AdamOptimizer</span>(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1e-6</span>)<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.minimize</span>(self<span class="hljs-preprocessor" style="color: rgb(68, 68, 68); box-sizing: border-box;">.cost</span>)</code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li><li style="box-sizing: border-box; padding: 0px 5px;">17</li><li style="box-sizing: border-box; padding: 0px 5px;">18</li><li style="box-sizing: border-box; padding: 0px 5px;">19</li><li style="box-sizing: border-box; padding: 0px 5px;">20</li><li style="box-sizing: border-box; padding: 0px 5px;">21</li><li style="box-sizing: border-box; padding: 0px 5px;">22</li><li style="box-sizing: border-box; padding: 0px 5px;">23</li><li style="box-sizing: border-box; padding: 0px 5px;">24</li><li style="box-sizing: border-box; padding: 0px 5px;">25</li><li style="box-sizing: border-box; padding: 0px 5px;">26</li><li style="box-sizing: border-box; padding: 0px 5px;">27</li><li style="box-sizing: border-box; padding: 0px 5px;">28</li><li style="box-sizing: border-box; padding: 0px 5px;">29</li><li style="box-sizing: border-box; padding: 0px 5px;">30</li><li style="box-sizing: border-box; padding: 0px 5px;">31</li><li style="box-sizing: border-box; padding: 0px 5px;">32</li><li style="box-sizing: border-box; padding: 0px 5px;">33</li><li style="box-sizing: border-box; padding: 0px 5px;">34</li><li style="box-sizing: border-box; padding: 0px 5px;">35</li><li style="box-sizing: border-box; padding: 0px 5px;">36</li><li style="box-sizing: border-box; padding: 0px 5px;">37</li><li style="box-sizing: border-box; padding: 0px 5px;">38</li><li style="box-sizing: border-box; padding: 0px 5px;">39</li><li style="box-sizing: border-box; padding: 0px 5px;">40</li></ul>

记住输出是Q值，关键要计算出cost，里面关键是计算Q_action的值，即该state和action下的Q值。由于actionInput是one hot vector的形式，因此tf.mul(self.QValue, self.actionInput)正好就是该action下的Q值。

training 部分。

这部分是代码的关键部分，主要是要计算y值，也就是target Q值。

<code class="hljs python has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;">    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">trainQNetwork</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 1: obtain random minibatch from replay memory</span>
        minibatch = random.sample(self.replayMemory,self.BATCH_SIZE)
        state_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        action_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        reward_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        nextState_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 2: calculate y </span>
        y_batch = []
        QValue_batch = self.QValue.eval(feed_dict={self.stateInput:nextState_batch})
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> i <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> range(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>,self.BATCH_SIZE):
            terminal = minibatch[i][<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>]
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> terminal:
                y_batch.append(reward_batch[i])
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span>:
                y_batch.append(reward_batch[i] + GAMMA * np.max(QValue_batch[i]))

        self.trainStep.run(feed_dict={
            self.yInput : y_batch,
            self.actionInput : action_batch,
            self.stateInput : state_batch
            })</code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li><li style="box-sizing: border-box; padding: 0px 5px;">17</li><li style="box-sizing: border-box; padding: 0px 5px;">18</li><li style="box-sizing: border-box; padding: 0px 5px;">19</li><li style="box-sizing: border-box; padding: 0px 5px;">20</li><li style="box-sizing: border-box; padding: 0px 5px;">21</li><li style="box-sizing: border-box; padding: 0px 5px;">22</li><li style="box-sizing: border-box; padding: 0px 5px;">23</li></ul>

其他部分

其他部分就比较容易了，这里直接贴出完整的代码：

<code class="hljs python has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"><span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># -----------------------------</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># File: Deep Q-Learning Algorithm</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Author: Flood Sung</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Date: 2016.3.21</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># -----------------------------</span>

<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> tensorflow <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">as</span> tf 
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> numpy <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">as</span> np 
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> random
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">from</span> collections <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> deque 

<span class="hljs-class" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">class</span> <span class="hljs-title" style="box-sizing: border-box; color: rgb(102, 0, 102);">BrainDQN</span>:</span>

    <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Hyper Parameters:</span>
    ACTION = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>
    FRAME_PER_ACTION = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>
    GAMMA = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0.99</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># decay rate of past observations</span>
    OBSERVE = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">100000.</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># timesteps to observe before training</span>
    EXPLORE = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">150000.</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># frames over which to anneal epsilon</span>
    FINAL_EPSILON = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0.0</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># final value of epsilon</span>
    INITIAL_EPSILON = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0.0</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># starting value of epsilon</span>
    REPLAY_MEMORY = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">50000</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># number of previous transitions to remember</span>
    BATCH_SIZE = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># size of minibatch</span>

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">__init__</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># init replay memory</span>
        self.replayMemory = deque()
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># init Q network</span>
        self.createQNetwork()
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># init some parameters</span>
        self.timeStep = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>
        self.epsilon = self.INITIAL_EPSILON

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">createQNetwork</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># network weights</span>
        W_conv1 = self.weight_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">8</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">8</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>])
        b_conv1 = self.bias_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>])

        W_conv2 = self.weight_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">32</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])
        b_conv2 = self.bias_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])

        W_conv3 = self.weight_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])
        b_conv3 = self.bias_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">64</span>])

        W_fc1 = self.weight_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1600</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>])
        b_fc1 = self.bias_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>])

        W_fc2 = self.weight_variable([<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">512</span>,self.ACTION])
        b_fc2 = self.bias_variable([self.ACTION])

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># input layer</span>

        self.stateInput = tf.placeholder(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>,[<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">None</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">80</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>])

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># hidden layers</span>
        h_conv1 = tf.nn.relu(self.conv2d(self.stateInput,W_conv1,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>) + b_conv1)
        h_pool1 = self.max_pool_2x2(h_conv1)

        h_conv2 = tf.nn.relu(self.conv2d(h_pool1,W_conv2,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>) + b_conv2)

        h_conv3 = tf.nn.relu(self.conv2d(h_conv2,W_conv3,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>) + b_conv3)

        h_conv3_flat = tf.reshape(h_conv3,[-<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1600</span>])
        h_fc1 = tf.nn.relu(tf.matmul(h_conv3_flat,W_fc1) + b_fc1)

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Q Value layer</span>
        self.QValue = tf.matmul(h_fc1,W_fc2) + b_fc2

        self.actionInput = tf.placeholder(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>,[<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">None</span>,self.ACTION])
        self.yInput = tf.placeholder(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"float"</span>, [<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">None</span>]) 
        Q_action = tf.reduce_sum(tf.mul(self.QValue, self.actionInput), reduction_indices = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>)
        self.cost = tf.reduce_mean(tf.square(self.yInput - Q_action))
        self.trainStep = tf.train.AdamOptimizer(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1e-6</span>).minimize(self.cost)

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># saving and loading networks</span>
        saver = tf.train.Saver()
        self.session = tf.InteractiveSession()
        self.session.run(tf.initialize_all_variables())
        checkpoint = tf.train.get_checkpoint_state(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"saved_networks"</span>)
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> checkpoint <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">and</span> checkpoint.model_checkpoint_path:
                saver.restore(self.session, checkpoint.model_checkpoint_path)
                <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">print</span> <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"Successfully loaded:"</span>, checkpoint.model_checkpoint_path
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span>:
                <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">print</span> <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"Could not find old network weights"</span>

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">trainQNetwork</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 1: obtain random minibatch from replay memory</span>
        minibatch = random.sample(self.replayMemory,self.BATCH_SIZE)
        state_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        action_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        reward_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]
        nextState_batch = [data[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">3</span>] <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> data <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> minibatch]

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Step 2: calculate y </span>
        y_batch = []
        QValue_batch = self.QValue.eval(feed_dict={self.stateInput:nextState_batch})
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span> i <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">in</span> range(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>,self.BATCH_SIZE):
            terminal = minibatch[i][<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">4</span>]
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> terminal:
                y_batch.append(reward_batch[i])
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span>:
                y_batch.append(reward_batch[i] + GAMMA * np.max(QValue_batch[i]))

        self.trainStep.run(feed_dict={
            self.yInput : y_batch,
            self.actionInput : action_batch,
            self.stateInput : state_batch
            })

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># save network every 100000 iteration</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> self.timeStep % <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">10000</span> == <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>:
            saver.save(self.session, <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">'saved_networks/'</span> + <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">'network'</span> + <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">'-dqn'</span>, global_step = self.timeStep)


    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">setPerception</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,nextObservation,action,reward,terminal)</span>:</span>
        newState = np.append(nextObservation,self.currentState[:,:,<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>:],axis = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>)
        self.replayMemory.append((self.currentState,action,reward,newState,terminal))
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> len(self.replayMemory) > self.REPLAY_MEMORY:
            self.replayMemory.popleft()
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> self.timeStep > self.OBSERVE:
            <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># Train the network</span>
            self.trainQNetwork()

        self.currentState = newState
        self.timeStep += <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">getAction</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self)</span>:</span>
        QValue = self.QValue.eval(feed_dict= {self.stateInput:[self.currentState]})[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>]
        action = np.zeros(self.ACTION)
        action_index = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> self.timeStep % self.FRAME_PER_ACTION == <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>:
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> random.random() <= self.epsilon:
                action_index = random.randrange(self.ACTION)
                action[action_index] = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>
            <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span>:
                action_index = np.argmax(QValue)
                action[action_index] = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">else</span>:
            action[<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0</span>] = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span> <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># do nothing</span>

        <span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;"># change episilon</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span> self.epsilon > self.FINAL_EPSILON <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">and</span> self.timeStep > self.OBSERVE:
            self.epsilon -= (self.INITIAL_EPSILON - self.FINAL_EPSILON)/self.EXPLORE

        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> action

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">setInitState</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,observation)</span>:</span>
        self.currentState = np.stack((observation, observation, observation, observation), axis = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>)

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">weight_variable</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,shape)</span>:</span>
        initial = tf.truncated_normal(shape, stddev = <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0.01</span>)
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> tf.Variable(initial)

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">bias_variable</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,shape)</span>:</span>
        initial = tf.constant(<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">0.01</span>, shape = shape)
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> tf.Variable(initial)

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">conv2d</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,x, W, stride)</span>:</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> tf.nn.conv2d(x, W, strides = [<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>, stride, stride, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>], padding = <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"SAME"</span>)

    <span class="hljs-function" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">def</span> <span class="hljs-title" style="box-sizing: border-box;">max_pool_2x2</span><span class="hljs-params" style="color: rgb(102, 0, 102); box-sizing: border-box;">(self,x)</span>:</span>
        <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">return</span> tf.nn.max_pool(x, ksize = [<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>], strides = [<span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">2</span>, <span class="hljs-number" style="color: rgb(0, 102, 102); box-sizing: border-box;">1</span>], padding = <span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"SAME"</span>)

</code><ul class="pre-numbering" style="box-sizing: border-box; position: absolute; width: 50px; top: 0px; left: 0px; margin: 0px; padding: 6px 0px 40px; border-right-width: 1px; border-right-style: solid; border-right-color: rgb(221, 221, 221); list-style: none; text-align: right; background-color: rgb(238, 238, 238);"><li style="box-sizing: border-box; padding: 0px 5px;">1</li><li style="box-sizing: border-box; padding: 0px 5px;">2</li><li style="box-sizing: border-box; padding: 0px 5px;">3</li><li style="box-sizing: border-box; padding: 0px 5px;">4</li><li style="box-sizing: border-box; padding: 0px 5px;">5</li><li style="box-sizing: border-box; padding: 0px 5px;">6</li><li style="box-sizing: border-box; padding: 0px 5px;">7</li><li style="box-sizing: border-box; padding: 0px 5px;">8</li><li style="box-sizing: border-box; padding: 0px 5px;">9</li><li style="box-sizing: border-box; padding: 0px 5px;">10</li><li style="box-sizing: border-box; padding: 0px 5px;">11</li><li style="box-sizing: border-box; padding: 0px 5px;">12</li><li style="box-sizing: border-box; padding: 0px 5px;">13</li><li style="box-sizing: border-box; padding: 0px 5px;">14</li><li style="box-sizing: border-box; padding: 0px 5px;">15</li><li style="box-sizing: border-box; padding: 0px 5px;">16</li><li style="box-sizing: border-box; padding: 0px 5px;">17</li><li style="box-sizing: border-box; padding: 0px 5px;">18</li><li style="box-sizing: border-box; padding: 0px 5px;">19</li><li style="box-sizing: border-box; padding: 0px 5px;">20</li><li style="box-sizing: border-box; padding: 0px 5px;">21</li><li style="box-sizing: border-box; padding: 0px 5px;">22</li><li style="box-sizing: border-box; padding: 0px 5px;">23</li><li style="box-sizing: border-box; padding: 0px 5px;">24</li><li style="box-sizing: border-box; padding: 0px 5px;">25</li><li style="box-sizing: border-box; padding: 0px 5px;">26</li><li style="box-sizing: border-box; padding: 0px 5px;">27</li><li style="box-sizing: border-box; padding: 0px 5px;">28</li><li style="box-sizing: border-box; padding: 0px 5px;">29</li><li style="box-sizing: border-box; padding: 0px 5px;">30</li><li style="box-sizing: border-box; padding: 0px 5px;">31</li><li style="box-sizing: border-box; padding: 0px 5px;">32</li><li style="box-sizing: border-box; padding: 0px 5px;">33</li><li style="box-sizing: border-box; padding: 0px 5px;">34</li><li style="box-sizing: border-box; padding: 0px 5px;">35</li><li style="box-sizing: border-box; padding: 0px 5px;">36</li><li style="box-sizing: border-box; padding: 0px 5px;">37</li><li style="box-sizing: border-box; padding: 0px 5px;">38</li><li style="box-sizing: border-box; padding: 0px 5px;">39</li><li style="box-sizing: border-box; padding: 0px 5px;">40</li><li style="box-sizing: border-box; padding: 0px 5px;">41</li><li style="box-sizing: border-box; padding: 0px 5px;">42</li><li style="box-sizing: border-box; padding: 0px 5px;">43</li><li style="box-sizing: border-box; padding: 0px 5px;">44</li><li style="box-sizing: border-box; padding: 0px 5px;">45</li><li style="box-sizing: border-box; padding: 0px 5px;">46</li><li style="box-sizing: border-box; padding: 0px 5px;">47</li><li style="box-sizing: border-box; padding: 0px 5px;">48</li><li style="box-sizing: border-box; padding: 0px 5px;">49</li><li style="box-sizing: border-box; padding: 0px 5px;">50</li><li style="box-sizing: border-box; padding: 0px 5px;">51</li><li style="box-sizing: border-box; padding: 0px 5px;">52</li><li style="box-sizing: border-box; padding: 0px 5px;">53</li><li style="box-sizing: border-box; padding: 0px 5px;">54</li><li style="box-sizing: border-box; padding: 0px 5px;">55</li><li style="box-sizing: border-box; padding: 0px 5px;">56</li><li style="box-sizing: border-box; padding: 0px 5px;">57</li><li style="box-sizing: border-box; padding: 0px 5px;">58</li><li style="box-sizing: border-box; padding: 0px 5px;">59</li><li style="box-sizing: border-box; padding: 0px 5px;">60</li><li style="box-sizing: border-box; padding: 0px 5px;">61</li><li style="box-sizing: border-box; padding: 0px 5px;">62</li><li style="box-sizing: border-box; padding: 0px 5px;">63</li><li style="box-sizing: border-box; padding: 0px 5px;">64</li><li style="box-sizing: border-box; padding: 0px 5px;">65</li><li style="box-sizing: border-box; padding: 0px 5px;">66</li><li style="box-sizing: border-box; padding: 0px 5px;">67</li><li style="box-sizing: border-box; padding: 0px 5px;">68</li><li style="box-sizing: border-box; padding: 0px 5px;">69</li><li style="box-sizing: border-box; padding: 0px 5px;">70</li><li style="box-sizing: border-box; padding: 0px 5px;">71</li><li style="box-sizing: border-box; padding: 0px 5px;">72</li><li style="box-sizing: border-box; padding: 0px 5px;">73</li><li style="box-sizing: border-box; padding: 0px 5px;">74</li><li style="box-sizing: border-box; padding: 0px 5px;">75</li><li style="box-sizing: border-box; padding: 0px 5px;">76</li><li style="box-sizing: border-box; padding: 0px 5px;">77</li><li style="box-sizing: border-box; padding: 0px 5px;">78</li><li style="box-sizing: border-box; padding: 0px 5px;">79</li><li style="box-sizing: border-box; padding: 0px 5px;">80</li><li style="box-sizing: border-box; padding: 0px 5px;">81</li><li style="box-sizing: border-box; padding: 0px 5px;">82</li><li style="box-sizing: border-box; padding: 0px 5px;">83</li><li style="box-sizing: border-box; padding: 0px 5px;">84</li><li style="box-sizing: border-box; padding: 0px 5px;">85</li><li style="box-sizing: border-box; padding: 0px 5px;">86</li><li style="box-sizing: border-box; padding: 0px 5px;">87</li><li style="box-sizing: border-box; padding: 0px 5px;">88</li><li style="box-sizing: border-box; padding: 0px 5px;">89</li><li style="box-sizing: border-box; padding: 0px 5px;">90</li><li style="box-sizing: border-box; padding: 0px 5px;">91</li><li style="box-sizing: border-box; padding: 0px 5px;">92</li><li style="box-sizing: border-box; padding: 0px 5px;">93</li><li style="box-sizing: border-box; padding: 0px 5px;">94</li><li style="box-sizing: border-box; padding: 0px 5px;">95</li><li style="box-sizing: border-box; padding: 0px 5px;">96</li><li style="box-sizing: border-box; padding: 0px 5px;">97</li><li style="box-sizing: border-box; padding: 0px 5px;">98</li><li style="box-sizing: border-box; padding: 0px 5px;">99</li><li style="box-sizing: border-box; padding: 0px 5px;">100</li><li style="box-sizing: border-box; padding: 0px 5px;">101</li><li style="box-sizing: border-box; padding: 0px 5px;">102</li><li style="box-sizing: border-box; padding: 0px 5px;">103</li><li style="box-sizing: border-box; padding: 0px 5px;">104</li><li style="box-sizing: border-box; padding: 0px 5px;">105</li><li style="box-sizing: border-box; padding: 0px 5px;">106</li><li style="box-sizing: border-box; padding: 0px 5px;">107</li><li style="box-sizing: border-box; padding: 0px 5px;">108</li><li style="box-sizing: border-box; padding: 0px 5px;">109</li><li style="box-sizing: border-box; padding: 0px 5px;">110</li><li style="box-sizing: border-box; padding: 0px 5px;">111</li><li style="box-sizing: border-box; padding: 0px 5px;">112</li><li style="box-sizing: border-box; padding: 0px 5px;">113</li><li style="box-sizing: border-box; padding: 0px 5px;">114</li><li style="box-sizing: border-box; padding: 0px 5px;">115</li><li style="box-sizing: border-box; padding: 0px 5px;">116</li><li style="box-sizing: border-box; padding: 0px 5px;">117</li><li style="box-sizing: border-box; padding: 0px 5px;">118</li><li style="box-sizing: border-box; padding: 0px 5px;">119</li><li style="box-sizing: border-box; padding: 0px 5px;">120</li><li style="box-sizing: border-box; padding: 0px 5px;">121</li><li style="box-sizing: border-box; padding: 0px 5px;">122</li><li style="box-sizing: border-box; padding: 0px 5px;">123</li><li style="box-sizing: border-box; padding: 0px 5px;">124</li><li style="box-sizing: border-box; padding: 0px 5px;">125</li><li style="box-sizing: border-box; padding: 0px 5px;">126</li><li style="box-sizing: border-box; padding: 0px 5px;">127</li><li style="box-sizing: border-box; padding: 0px 5px;">128</li><li style="box-sizing: border-box; padding: 0px 5px;">129</li><li style="box-sizing: border-box; padding: 0px 5px;">130</li><li style="box-sizing: border-box; padding: 0px 5px;">131</li><li style="box-sizing: border-box; padding: 0px 5px;">132</li><li style="box-sizing: border-box; padding: 0px 5px;">133</li><li style="box-sizing: border-box; padding: 0px 5px;">134</li><li style="box-sizing: border-box; padding: 0px 5px;">135</li><li style="box-sizing: border-box; padding: 0px 5px;">136</li><li style="box-sizing: border-box; padding: 0px 5px;">137</li><li style="box-sizing: border-box; padding: 0px 5px;">138</li><li style="box-sizing: border-box; padding: 0px 5px;">139</li><li style="box-sizing: border-box; padding: 0px 5px;">140</li><li style="box-sizing: border-box; padding: 0px 5px;">141</li><li style="box-sizing: border-box; padding: 0px 5px;">142</li><li style="box-sizing: border-box; padding: 0px 5px;">143</li><li style="box-sizing: border-box; padding: 0px 5px;">144</li><li style="box-sizing: border-box; padding: 0px 5px;">145</li><li style="box-sizing: border-box; padding: 0px 5px;">146</li><li style="box-sizing: border-box; padding: 0px 5px;">147</li><li style="box-sizing: border-box; padding: 0px 5px;">148</li><li style="box-sizing: border-box; padding: 0px 5px;">149</li><li style="box-sizing: border-box; padding: 0px 5px;">150</li><li style="box-sizing: border-box; padding: 0px 5px;">151</li><li style="box-sizing: border-box; padding: 0px 5px;">152</li><li style="box-sizing: border-box; padding: 0px 5px;">153</li><li style="box-sizing: border-box; padding: 0px 5px;">154</li><li style="box-sizing: border-box; padding: 0px 5px;">155</li><li style="box-sizing: border-box; padding: 0px 5px;">156</li><li style="box-sizing: border-box; padding: 0px 5px;">157</li><li style="box-sizing: border-box; padding: 0px 5px;">158</li><li style="box-sizing: border-box; padding: 0px 5px;">159</li><li style="box-sizing: border-box; padding: 0px 5px;">160</li><li style="box-sizing: border-box; padding: 0px 5px;">161</li><li style="box-sizing: border-box; padding: 0px 5px;">162</li><li style="box-sizing: border-box; padding: 0px 5px;">163</li><li style="box-sizing: border-box; padding: 0px 5px;">164</li></ul>

一共也只有160代码。
如果这个任务不使用深度学习，而是人工的从图像中找到小鸟，然后计算小鸟的轨迹，然后计算出应该怎么按键，那么代码没有好几千行是不可能的。深度学习大大减少了代码工作。

小结

本文从代码角度对于DQN做了一定的分析，对于DQN的应用，大家可以在此基础上做各种尝试。

你可能感兴趣的:(深度增强学习,DQN)

7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
深入理解DDQN AI-星辰动手实现强化学习 python 机器学习人工智能
深入理解DDQN1.引言双深度Q网络（DoubleDeepQ-Network，DDQN）是对原始DQN算法的一个重要改进。本文将帮助你深入理解DDQN的核心概念，并通过一个生动的例子来阐释其工作原理。2.DDQN的核心概念2.1DQN的过估计问题DQN使用相同的网络来选择和评估动作，这可能导致Q值的过度估计。2.2DDQN的解决方案DDQN通过解耦动作选择和动作评估来解决这个问题：使用当前网络选择
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）程序猿鑫 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
强化学习（TD3） sssjjww 强化学习 python 神经网络深度学习
TD3——TwinDelayedDeepDeterministicpolicygradient双延迟深度确定性策略梯度TD3是DDPG的一个优化版本，旨在解决DDPG算法的高估问题优化点：①双重收集：采取两套critic收集，计算两者中较小的值，从而克制收集过估量成绩。DDPG源于DQN，DQN源于Q_learning，这些算法都是通过估计Q值来寻找最优的策略，在强化学习中，更新Q网络的目标值ta
DQN的理论研究回顾 Jay Morein 强化学习与多智能体深度学习学习
DQN的理论研究回顾1.DQN简介强化学习（RL）（Reinforcementlearning:Anintroduction,2nd,ReinforcementLearningandOptimalControl）一直是机器学习的一个重要领域，近几十年来获得了大量关注。RL关注的是通过与环境的交互进行连续决策，从而根据当前环境制定指导行动的策略，目标是实现长期回报最大化。Q-learning是RL中
OpenAI Gym 中级教程——强化学习实践项目 Echo_Wish Python算法 Python 笔记 python scipy 算法
PythonOpenAIGym中级教程：强化学习实践项目在本篇博客中，我们将通过一个实际项目来演示如何在OpenAIGym中应用强化学习算法。我们选择一个简单而经典的问题：CartPole，这是一个控制小车平衡杆的问题。我们将使用深度Q网络（DQN）算法来解决这个问题。1.安装依赖首先，确保你已经安装了必要的依赖：pipinstallgym[box2d]tensorflow2.强化学习项目实践2.
一起学习飞桨深度强化学习算法DQN 路人与大师学习 paddlepaddle 算法
LEARN_FREQ=5#trainingfrequencyMEMORY_SIZE=200000MEMORY_WARMUP_SIZE=200BATCH_SIZE=64LEARNING_RATE=0.0005GAMMA=0.99#trainanepisodedefrun_train_episode(agent,env,rpm):total_reward=0obs=env.reset()step=0w
不同的强化学习模型适配与金融二级市场的功能性建议路人与大师金融
DQNESDDPGA2CTD3SACQMIXMADDPGPPOCQLIMPALA哪个模型适合进行股票操作在考虑使用哪种模型进行股票操作时，需要考虑模型的特点、适用场景以及实现复杂度等因素。以下是对您列出的几种强化学习模型的简要概述，以帮助您做出选择：DQN(DeepQ-Network):适合：适用于离散动作空间的强化学习任务。特点：通过神经网络近似Q函数，使用经验回放和目标网络来提高学习的稳定性和
人工智能时代的十大核心技术：重塑未来的无限可能 - 第八章 - 深度增强学习，开启AI智能新篇章百家峰会人工智能深度学习人工智能
在这个日益智能化的时代，人工智能技术正在改变着我们的世界。其中，深度增强学习（DeepReinforcementLearning,DRL）作为AI领域的一颗璀璨明星，正引领着AI系统在复杂环境中实现更高的智能水平。那么，深度增强学习究竟是什么呢？本文将带您走进深度增强学习的世界，一起探索它的奥秘。一、什么是深度增强学习？深度增强学习是一种结合了深度学习（DeepLearning）和增强学习（Rei
OpenAI Gym 中级教程——深入强化学习算法 Echo_Wish Python 笔记 Python算法算法
PythonOpenAIGym中级教程：深入强化学习算法OpenAIGym是一个用于开发和比较强化学习算法的工具包，提供了多个环境，包括经典的控制问题和Atari游戏。本篇博客将深入介绍OpenAIGym中的强化学习算法，包括深度Q网络（DeepQNetwork,DQN）和深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）。1.安装OpenAIGym首先
深度强化学习之价值学习-王树森课程笔记淀粉爱好者机器学习神经网络深度学习
学习资料深度强化学习课程-王树森目录一、Value-basedlearning二、DeepQ-Network(DQN)1.原理2.DQN结构（以超级玛丽为例）3.用DQN操作Agent打游戏三、TemporalDifferenceLearning（TD算法）1.原始算法（类似BP）2.TD算法3.用TD算法学习DQN3.1应用条件3.2更新模型参数【基本思想】学习一个函数来近似Q∗Q^*Q∗函数一
强化学习原理python篇06——DQN WuRobb 强化学习 python 开发语言
强化学习原理python篇05——DQNDQN算法定义DQN网络初始化环境开始训练可视化结果本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningDeepQ-learning章节，请各位结合阅读，本合集只专注于数学概念的代码实现。DQN算法1）使用随机权重（w←1.0）（w←1.0）（w←1.0）初始化目标网络Q(s,a,w)Q
Webots搭建强化学习二轮避障小车（看看吧蛮详细的）小雅不采薇练习机器人人工智能强化学习 python 算法
作为一个刚接触webots数日的新手，来着手使用webots搭建一个二轮小车并实现避障的任务,以及使用webots进行强化学习的尝试。该文章主要有如下的内容：大概内容：1.Webots简要介绍2.Webots搭建双轮小車3.Webots双轮小车避障简单的控制逻辑4.Pycharm编写控制程序连接并控制Webots中实体的方法5.Tensorflow编写DQN强化学习算法用于小车的避障6.Webot
深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法丰。。神经网络论文研读学报论文研读学习边缘计算算法人工智能深度学习
本人学识浅薄，如有理解不到位的地方还请大佬们指出，相互学习，共同进步概念引入强化学习DQN算法边缘计算边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可
强化学习 - Deep Q Network (DQN) 草明数据结构与算法机器学习人工智能深度学习算法
什么是机器学习DeepQNetwork（DQN）是一种结合深度学习和强化学习的方法，用于解决离散动作空间的强化学习问题。DQN是由DeepMind团队提出的，首次应用于解决Atari游戏，但也被广泛用于其他领域，如机器人学和自动驾驶。以下是一个使用Python和TensorFlow/Keras实现简单的DQN的示例代码。请注意，这是一个基本的实现，实际应用中可能需要进行更多的优化和调整。impor
【机器学习】强化学习（六）-DQN(Deep Q-Learning)训练月球着陆器示例十年一梦实验室机器学习人工智能
概述DeepQ-Learning（深度Q学习）是一种强化学习算法，用于解决决策问题，其中代理（agent）通过学习在不同环境中采取行动来最大化累积奖励。LunarLander是一个经典的强化学习问题，其中代理的任务是控制一个着陆舱在月球表面着陆，最小化着陆过程中的燃料消耗。以下是使用DeepQ-Learning解决LunarLander问题的基本步骤：环境建模：首先，需要对LunarLander环
【强化学习】DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 学习笔记如果皮卡会coding 强化学习强化学习 DQN
文章目录DQN(DeepQ-Network)说明伪代码应用范围DoubleDQN说明伪代码应用范围DuelingDQN实现原理应用范围伪代码PerDQN(PrioritizedExperienceReplayDQN)应用范围伪代码NoisyDQN伪代码应用范围部分内容与图片摘自：JoyRL、EasyRLDQN(DeepQ-Network)说明DQN通过深度学习技术处理高维状态空间，它的核心是使用深
强化学习12——策略梯度算法学习 beiketaoerge 强化学习算法学习机器学习强化学习
Q-learning、DQN算法是基于价值的算法，通过学习值函数、根据值函数导出策略；而基于策略的算法，是直接显示地学习目标策略，策略梯度算法就是基于策略的算法。策略梯度介绍将策略描述为带有参数θ\thetaθ的连续函数，可以将策略学习的目标函数定义为：J(θ)=Es0[Vπθ(s0)]J(\theta)=\mathbb{E}_{s_0}[V^{\pi_\theta}(s_0)]J(θ)=Es0[
强化学习11——DQN算法 beiketaoerge 强化学习算法强化学习
DQN算法的全称为，DeepQ-Network，即在Q-learning算法的基础上引用深度神经网络来近似动作函数Q(s,a)Q(s,a)Q(s,a)。对于传统的Q-learning，当状态或动作数量特别大的时候，如处理一张图片，假设为210×160×3210×160×3210×160×3，共有256(210×60×3)256^{(210×60×3)}256(210×60×3)种状态，难以存储，但
【强化学习】----训练Flappy Bird小游戏子衿JDD 微项目深度学习计算机视觉神经网络
文章目录一、游戏介绍与问题定义1.1游戏简介1.2问题定义二、算法介绍2.1预处理2.1.1去除背景颜色2.1.2灰度处理2.2Q-Learning2.3神经网络2.4DQN结构2.4.1增加样本池2.4.2利用神经网络计算Q值2.5组成元素2.6算法设计2.7.1Train.py算法2.7.2test.py算法三、实现方法及参数设置3.1实现方式3.2参数设置四、实验结果及分析4.2各指标关系图
JoyRL策略梯度 __如果人工智能机器学习
与基于价值的算法（包括DQN等算法）不同，这类算法直接对策略本身进行近似优化。在这种情况下，我们可以将策略描述成一个带有参数θ的连续函数，该函数将某个状态作为输入，输出的不再是某个确定性的离散动作，而是对应的动作概率分布，通常用表示，称作随机性策略9.1基于价值算法的缺点无法表示连续动作。由于DQN等算法是通过学习状态和动作的价值函数来间接指导策略的，因此它们只能处理离散动作空间的问题，无法表示连
(202401)深度强化学习基础2：策略梯度早上真好参与dw开源学习深度学习
文章目录前言策略梯度1基于价值算法的缺点2策略梯度算法3REINFORCE算法本章小结前言感谢Datawhale成员的开源本次学习内容的文档地址为第九章策略梯度策略梯度这个章节会开始介绍基于策略梯度的算法。前面的算法都是针对“奖励”或者说“回报（reward）”的，而这次的则是直接对策略本身进行近似优化。这与之前的差别很大，我这里也大约明白了一点为什么任务一直接让人跳到DQN但是却不跳过第二章“马
（202401）深度强化学习基础与实践1：马尔科夫过程、DNQ算法回顾早上真好参与dw开源学习 pytorch 深度学习
文章目录序言马尔科夫决策过程含义性质回报状态转移矩阵DQN算法深度网络经验回放目标网络实战DQN算法DQN算法进阶DoubleDQNDuelingDQNNoisyDQNPERDQNC51算法序言本文章记录Datawhale开源学习组织2024年第一期学习，《深度强化学习基础与实践》第二期的任务一。这项课程是有第一期的，但是由于那段时间本人学校课程比较多，同时又有一摊子的事情需要去完成，因此没有参与
深度强化学习DQN系算法理解静斋强化学习
致谢进行DQN方法整理时，主要对原文进行了学习，并参考了几位作者的笔记，在此一并表示感谢。索引网页如下：https://www.jianshu.com/p/6fe18d0d8822https://www.jianshu.com/p/0fb311d96da4https://www.cnblogs.com/pinard/p/9797695.htmlhttps://blog.csdn.net/mike1
Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法 RessCris 强化学习笔记算法
文章目录参考马尔可夫过程DQN算法（DeepQ-Network）如何用神经网络来近似Q函数如何用梯度下降的方式更新网络参数强化学习vs深度学习提高训练稳定性的技巧经验回放目标网络代码实战DQN算法进阶DoubleDQNDuelingDQN算法代码实战参考在线阅读文档github教程开源框架JoyRLdatawhalechina/joyrl:AneasierPyTorchdeepreinforcem
基于DQN和TensorFlow的LunarLander实现（全代码）全栈O-Jay 人工智能 tensorflow 人工智能 python 深度强化学习强化学习深度学习
使用深度Q网络（DeepQ-Network,DQN）来训练一个在openai-gym的LunarLander-v2环境中的强化学习agent，让小火箭成功着陆。下面代码直接扔到jupyternotebook或CoLab上就能跑起来。目录安装和导入所需的库和环境Q网络搭建经验回放实现DQNAgent实现训练安装和导入所需的库和环境安装和设置所需的库和环境，使其能够在JupyterNotebook中运
【挑战全网最易懂】深度强化学习 --- 零基础指南 Debroon #强化学习人工智能
深度强化学习介绍、概念强化学习介绍离散场景，使用行为价值方法连续场景，使用概率分布方法实时反馈连续场景：使用概率分布+行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度Q网络DQN演员-评论家算法：多智能体强化学习核心框架PPO近端策略优化算法演员-评论家的改进算法：近端策略优化算法PPO、优势演员-评论家算法A2C、异步优势演员-评论家算法A3C、深度确定性策略梯度DDP
基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR... weixin_39572442
作者：知乎用户@王沃河编者按深度强化学习(DRL）的一炮走红，让人们一谈起强化学习首先想到的往往是DRL，而强化学习最早的起源来自optimalcontroltheory。LQR和iLQR作为最优控制/基于模型的强化学习算法，在环境动态系统已知的情况下能更加高效的利用样本，并在化工生产过程，无人驾驶，机械臂控制等实际应用场景取得了很好的效果。1背景强化学习（RL）本质上是一种控制算法。大多语境下R
深度强化学习Task1：马尔可夫过程、DQN算法回顾卡拉比丘流形深度学习算法人工智能深度学习神经网络 python 强化学习
本篇博客是本人参加Datawhale组队学习第一次任务的笔记【教程地址】https://github.com/datawhalechina/joyrl-book【强化学习库JoyRL】https://github.com/datawhalechina/joyrl/tree/main【JoyRL开发周报】https://datawhale.feishu.cn/docx/OM8fdsNl0o5omox
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR