wbbhcb

股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）

接上一篇文章继续介绍一些强化学习基础。

1 DQN（Deep Q Network）

DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢？Q-learning算法的核心是学习Q-table，然而真实世界的状态非常多，这些状态多到计算机已经无法储存了。比如在围棋中，不同的牌面布局就有很多种。因此DQN被提出来，其核心思想就是利用神经网络来近似这个Q-table。

举个例子：假设一个学习好的Q-table如下：

假设我们用一个神经网络来近似这个Q-table，输入状态（state）和动作（action），就能利用神经网络输出其对应Q-table中的Q值。或者我们输入一个状态，神经网络可以输出所有动作对应的Q值。

但是单纯的用神经网络代替Q-table又是不可行的，其原因主要如下 [2]：

1）DL（Deep learning，深度学习）是监督学习需要学习训练集，强化学习不需要训练集只通过环境进行返回奖励值reward，同时也存在着噪声和延迟的问题，所以存在很多状态state的reward值都是0也就是样本稀疏。

2）DL每个样本之间互相独立，而RL（ReinforcementLearning，强化学习）当前状态的状态值是依赖后面的状态返回值的。

3）当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题。

首先我们看Q-learning的算法，为什么直接将Q-table替换成神经网络会出现以上问题。

1）Q-learning算法是单步更新，单步更新也致使每次更新都是一个样本输入更新，这种更新方式导致神经网络不好更新（神经网络都是利用mini_batch更新的）。

2）在更新的前期阶段（在获得reward之前）很多更新都是无用的，在计算loss=rt+1 +gamma * max Q(St+1, a) - Q(St, at)时，更新是比较依赖一条好的路径（即能找到正向reward的路径），但这些路径在更新早期阶段又是非常少的。

3）若单步更新Q网络可能会导致Q网络震荡厉害，网络不易收敛。
（这三点是我根据算法所提出的个人观点）

**那么DQN怎么解决上述问题呢？**DQN中的两大利器解决了以上问题

1）通过experience replay（经验池）的方法来存储过往路径

2）使用两个网络代替Q-table，一个是每个batch更新一次的Q1网络，一个是相对于Q1网络更新频率低的Q2网络。

接下来我们从伪代码的角度看，DQN怎么解决这些问题的。

1）首先初始化两个Q网络，下面我们称Q网络为Q现实网络（可获得当前状态），Q_hat为Q估计网络（获得Q估计网络）

2）初始化一开始的状态，就是令agent在起始点，

3）利用贪婪规则选下一时刻动作

4）进行状态移动，并记录状态移动情况（这是DQN的核心之一，存储过往情况）

5）进行mini_batch的更新，从记忆库中选取一些记忆计算loss并更新，下面的phi表示状态，a就是动作，r就是reward。这里更新只更新Q网络（当前网络）。（核心二，解决神经网络minibatch问题，同时解决单步更新经常没有reward的问题）

6）每C步更新一次Q_hat网络（真实网络），直接将Q网络的参数赋给Q_hat网络。（核心三，解决只用一个Q网络导致收敛不好的问题）

以上就是DQN的一些个人见解。

2 Actor-critic

Actor-critic也是强化学习中一个比较基础的算法，目前很多前沿强化学习算法都是在这个基础上修改的。在介绍Actor-critic前先了解下Policy-based算法。

Policy-based

Q-learing、Sarsa等算法都是利用Q-table得到各个动作的价值，然后根据动作的价值来选取动作（一般来说优先选择动作价值最大的动作），这类算法可以称为Value-based RL。

与value-based算法相对的算法就是Policy-based 算法。Policy-based 算法是回合更新的，在一个回合之后，根据获得的reward，会加大或缩小路径上下次选择的概率。获得reward多的那条路径所对应的节点下次选择的概率会增大，相反如果获得的reward少，相应的节点概率选择变小。policy-based算法其中一个基础算法就是Policy gradients。

我们先看Policy gradients的核心伪代码。

看伪代码可能不好理解，这里我们通俗讲下。Policy-based是回合更新的。一个回合以后会根据reward给路径上的不同动作赋一个权重（也就是伪代码中的vt），当然这个权重会根据离获得权重的位置进行一定的衰减（离获得reward距离越近衰减幅度越小）。然后一定比例放大路径上不同动作在下回合选择的概率。

Actor critic算法合并了以值为基础 (value-based RL，比如 Q learning) 和以动作概率为基础 (policy-based, 比如 Policy Gradients) 两类强化学习算法.

Actor critic算法主要包括两个模块：actor和critic。Actor其前生就是policygradients（就是基于动作）， critic的前生就是Q-learning（就是基于价值）。用一点通俗的话描述这两个模块 [3]：

Actor（玩家）：为了玩转这个游戏得到尽量高的reward，需要一个策略：输入state，输出action。（可以用神经网络来近似这个函数。剩下的任务就是如何训练神经网络，得更高的reward。这个网络被称为actor）
Critic（评委）：因为actor是基于策略policy的所以需要critic来计算出对应actor的value来反馈给actor，告诉他表现得好不好。所以就要使用到之前的Q值。（当然这个Q-function所以也可以用神经网络来近似。这个网络被称为critic。)

关于actor-critic的训练可以看下面这个流程图。

1）Actor根据环境（state）输出一个action的概率分布，然后以一定概率选择最终的action。

2）Environment通过选择的action和当前状态更新state，并将reward给critic，critic利用reward、当前状态的评估和上一状态的评估计算td_error。（可以理解critic是一个神经网络，输入状态，输出该状态的value）

3）利用td_error单步更新critic和actor网络。Critic网络为回合更新，actor网络为单步更新。

4）重复1 2 3.

Actor Critic 方法的优点: Actor Critic也属于policy-based算法，Policy Gradient算法是回合更新；而Actor Critic可以进行单步更新, 比传统的Policy Gradient收敛速度要快.

但是Actor critic有个缺点：Actor critic的训练取决于 Critic 的价值判断（计算td_error）, 但是 Critic 难收敛, 再加上 Actor 的单步更新, 就更难收敛 [1].为了解决收敛问题, Google Deepmind 提出了Actor Critic 升级版 Deep Deterministic Policy Gradient. 后者融合了 DQN 的优势, 解决了收敛难的问题.

结语

一些基本的强化学习算法就介绍到这，我现在理解的还比较浅薄，只是大概知道了算法如何更新。强化学习算法更底层一些的数学原理来源于马尔可夫决策过程（Markov Decision Processes,MDPs）。目前这部分还没有仔细研究。

参考:

[1] https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-1-A-DQN/

[2] https://blog.csdn.net/qq_30615903/article/details/80744083

[3] https://blog.csdn.net/qq_30615903/article/details/80774384

对量化、数据挖掘、深度学习感兴趣的可以关注公众号，本人不定期分享有关这些方面的研究。

个人知乎：
https://www.zhihu.com/people/e-zhe-shi-wo/activities

微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

股票操作之强化学习基础（三）（Deep Q Network、Actor-critic、Policy gradients）