1.1 量化技术篇—技术框架选择

------从零开始学量化------
:量化目录传送门
知乎:量化目录传送门


1. 技术框架选择

python + mongodb(HDF5备选) + tensorflow

2. 为什么选择这一套技术框架

2.1 为什么是python

在其他领域,语言的选择可能不是一个重要的问题,但在量化方向,我相信语言的选择是一个很重要的问题,语言将直接决定你的生产率。why???

  1. python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
  2. python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
  3. python在数据分析、量化建模、量化回测方向,有许多优秀的开源框架,你不用自己去造这些轮子!!!
    重要的事情说3遍!!!

下面我们看一下github上star数排在前列的量化开源框架,清一色的python,这最具有说服力,(列表中的统计时间为2018-06-27)。

排名 开源项目 Star数量 开发语言 项目用途
1 zipline 7.2k python 量化回测框架
2 tushare 5.9k python 财经数据接口包
3 vn.py 5.9k python 交易平台开发框架
4 rqalpha 2.7k python 量化交易框架
5 abu 5.3k python 量化交易框架
6 easytrader 2.2k python 交易平台开发框架

我曾经尝试用java去写量化,但java的量化开源框架实在太少,金融指标都要自己实现,在做量化的时候,慢慢地发现,我根本不是在做量化,而是在写框架代码。90%的时间去造轮子,只有10%时间去做量化,根本没有一点生产力。最终完全放弃java,对我3年java职业生涯说再见,一切从新开始。

2.2 为什么选择mongodb

金融数据主要有两个特点:

  • 金融数据是典型的时间序列数据。数据存入数据库后就很少再需要修改了,最主要的操作是查询。
  • 数据量级大,tick级的数据很容易上tb级别。

因此存储金融数据,可以选择:

  • 关系型数据库(mysql, sqlserver等)
  • 非关系型数据库(mongodb, redis等)

关系型数据库,我在工作中用的比较多,也很熟悉,用的最多的是mycat + mysql的组合。实际操作中,如果选用mysql,数据库engin选择myisam,存储数据采用行转列,当数据量达到亿级别,数据库性能会出现明显下降。如果采用分片分表,对于个人来说,会增加硬件成本和维护成本,得不偿失。不过关系型数据库用来记录交易流水等业务,是个不错的选择,可以很方便的使用事务。

非关系型数据库,待更新。。。。

数据库的选择,知乎上有一个问答,推荐使用hdf5,具体详情,可以查看传送门。

一次线下和雪山讨论的时候,他向我推荐了mongodb,因为mongdb在3.0版本已经支持数据压缩,所以存储tick级别的数据已经不是什么问题。他也提到可以选择hdf5,但是hdf5在并行写的时候,可能会存在性能的瓶颈。所以此处,我听从老司机的建议,优先选择mongodb。

2.3 为什么选择tensorflow

机器学习选择google的tensorflow,主要是因为:

  • google的研发实力。
  • 商业化的产品必然优于学院派,这是资本驱动的力量。

而框架中加入tensorflow,是因为我一直坚信,机器学习是未来的方向,现在的机器学习就像萌芽中的互联网,当他走向成熟之后,他迸发出的能量将横扫众多传统领域。

金融与机器学习的结合将是未来的趋势,而这两个领域的结合,也堪称完美。一边是金融,不会使得自己囊中羞涩。一边是机器学习,紧跟时代的步伐,走在趋势的前沿。(至于金融是如何帮助我们实现财务自由,我安利一本周金涛的涛动周期论,当我在阅读这本书的时候,我被作者的金融大局观深深折服。书中提到2019年将是85后人生中的第一次机会,2019年将是资产的低点,让我们拭目以待。)

对于计算机专业,想转量化的同学,我觉得机器学习是我们的一个突破口。因为从计算机跨领域到金融,意味着一切从零开始,在起跑线上暂时输给了职业量化者。但是机器学习的学习壁垒高,我们可以扬长避短,用机器学习作为突破口,从程序员转型成一个宽客。

3. 量化中使用的Python开源框架

  • tushare
  • pandas
  • ta-lib
  • seaborn
  • zipline
  • vnpy

其中:
tushare用于获取股票历史数据,在量化系统中,作为量化数据的来源。
pandas提供了大量金融数据分析的工具,在量化系统中,作为量化数据的存储结构。
ta-lib提供了金融指标的实现方法,在量化系统中,作为金融技术指标的计算库。
seaborn提供了数据可视化的接口,在量化系统中,作为量化结果的可视化展示库。
zipline提供了量化交易回测的框架,在量化系统中,作为量化回测引擎。
vnpy提供了交易和数据的接口,基本覆盖了国内外常规交易品种(证券、期货、期权、外汇、CFD),在量化系统中,作为实盘自动化交易的框架。

后面的章节,将一步一步使用以上框架,开始量化之旅。


如果你对我的文章有兴趣,可以关注一下我的和知乎,后期会在和知乎上定期更新,传送门在下方:
:潇潇夜雨归何处
知乎:潇潇夜雨
我相信,有趣的灵魂总会相遇!!!
你的关注,是我前进的动力!!!

参考资料

  1. 量化投资—为什么选择Python?
  2. Python金融行业必备工具

你可能感兴趣的:(1.1 量化技术篇—技术框架选择)