在给本系列博文拟定标题时,我原先写下的是《股票交易信息获取及分析系统》。之后感觉这个名字过于高大上,又不自觉的在草稿中写下《码农技术炒股之路》。这个名称让我会心一笑,因为它即突出了我的身份,又点名了本系列博文要介绍的东西——技术炒股。最后“之路”一词可以让我好好介绍下这个项目的前因后果,希望大家也感受下这个项目的温度,因为它的产生并非我一人杜撰出来的愿景。(转载请指明出于breaksoftware的csdn博客)
首先回忆下我入市的经历。我非常荣幸的于15年5月进入A股市场,然后就经历了难得一见的股灾,其结果是我现在仍然在努力的“回本”。最开始时,选择股票我也是人云亦云——我相信现在很多人炒股都是如此。之后便沉下心来做一些技术分析,因为我相信A股市场还是一个庄家炒散户的投机性市场,而我们这些小散要做的就是顺势而为。于是“势”的预测是一个重点。预测是需要数据的,而我们一般人都很少有这么大量且完整的历史数据,这是摆在技术炒股人面前的第一个难题。假如我们解决了这个难题,剩下的就是我们如何设计一个“盈”率很高的模型,这是第二个难题。
第一个难题的解决方案将是《码农技术炒股之路》的重点。因为它具有很大的确定性,即每个人都要获取的是准确的数据。而第二个难题就具有多样性了,因为“仁者见仁智者见智”,每个人都有自己喜欢的技术指标。即使两人喜欢运用的技术指标相同,也可能喜欢不同的指标特征。所以这块内容我将在最后做个介绍,并运用点简单的指标来筛选股票。
目前来说,上述两个问题都有比较简单的解决方案——直接使用工具软件。我们日常使用的同花顺、大智慧等软件都提供了编写公式分析股票的功能。如果读者觉得工具软件提供的功能足够使用,那么这系列博文剩下的内容可能就没什么乐趣了。因为这类软件可以让我们更多的关注于“模型”而非本系列介绍的重点——“数据”。如果觉得这些软件提供的信息还不够,或者它们的分析还非常低效,时效性差——我想这是真正探究过这些软件公式的人的真实想法,则本系列博文将向你介绍我解决这些问题的思路,供大家借鉴批判。
介绍了这么多背景,现在我们开始回归技术。因为技术才是我们介绍的根本。
数据获取方式的选择是至关重要的,因为它关系到整个系统的稳定性和持久性。我们先来看看几种获取方式及其优劣:
数据源的选择也是非常重要的。因为我们是从头开始搭建整个系统,所以历史数据是空的。于是我们可以获取的数据如下:
由于个股以秒为单位的历史数据非常大,且我认为过去的已经失去时效性,所以没有将其列入我要抓取的范围之中。
由于经常有新股上市,所以我们的股票池中会不定期新增一些股票。而其他接口都是以股票代码为参数,所以在抓取个数数据之前,我们先要获取当前市面上所有股票的基本信息——代码和名称。抓取的URL是:
http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx/JS.aspx?type=ct&st=(FFRank)&sr=1&p=1&ps=3500&js=var%20mozselQI={pages:(pc),data:[(x)]}&token=894050c76af8597a853f5b408b759f5d&cmd=C._AB&sty=DCFFITAM&rt=49461817
我们先看下这个URL的重要参数,上面例子中p为1是代表获取第1页的数据,ps代表每页获取的股票数据。由于目前A股股票不足3500支,所以我就将URL中ps参数设置为3500,即抓取全部股票数据。对于数据抓取参数的设置,我的一个原则是——最安全的最大化一次性拉取。其他参数可以一直重用,不用反复变更——哪怕是token字段。(该接口在本文撰写时2017-03-29仍是有效的)
我们看看通过上述接口,获取2支股票时接口返回信息
var mozselQI={pages:1703,data:["1,603656,泰禾光电,55.90,100.00,1,10.00,78.19,8,61.05,74.11,12,-,机械行业,BK05451,2017-03-29 15:00:00","2,002774,快意电梯,11.69,100.00,2,9.97,41.78,31,-,41.78,31,-,机械行业,BK05451,2017-03-29 15:00:00"]}
结果中=号右侧为一个json格式数据。data字段是一个字符串数组,其中每个字符串是一支股票信息。字符串中数据以逗号分隔。第一个字段可以是1或者2,1表示沪市、2表示深市。第二个字段是股票代码。第三个字段是股票名称。因为我们尚不用获取诸如市值等信息,所以上述接口可以满足获取其最基本信息的需求。最主要的是该接口可以一次性拉取所有股票数据。(该接口从http://data.eastmoney.com/zjlx/list.html#sha网页请求中分析得出,如果以后该接口不能用,大家可以尝试照此分析)
历史数据我只关心“天”级别的数据。这儿要非常感谢网易,它提供了一个非常简便的接口。以000001股票为例,数据可以从http://quotes.money.163.com/trade/lsjysj_000001.html网页中下载数据。我们再深挖一下该网页,可以发现数据的直接下载地址是:http://quotes.money.163.com/service/chddata.html?code=1000001&start=19910102&end=20170329&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP
code字段是由市场类型和股票代码组成。第一位如果是0,代表股票为沪市的;如果是1,则代表是深市的。之后跟着的6位则是股票代码。
start字段是数据抓取的起始时间,end是数据抓取的结束时间。
fields字段表示要抓取的数据类型。这个组合是以分号分割,我们可以根据自己的需求确定抓取那些数据。
抓取的数据是以csv格式返回的,对这种格式不熟悉的朋友可以查看《一种准标准CSV格式的介绍和分析以及解析算法》一文。最后我们看下000001股票的抓取结果节选
日期,股票代码,名称,收盘价,最高价,最低价,开盘价,前收盘,涨跌额,涨跌幅,换手率,成交量,成交金额,总市值,流通市值
2017-03-29,'000001,平安银行,9.11,9.15,9.09,9.13,9.12,-0.01,-0.1096,0.3553,60114068,548060692.96,1.56422447544e+11,1.54123045938e+11
2017-03-28,'000001,平安银行,9.12,9.17,9.1,9.16,9.14,-0.02,-0.2188,0.2845,48137276,439405816.17,1.56594151658e+11,1.54292226011e+11
个股实时数据的内容则比较繁杂,比如有股价、竞卖情况、竞买情况,还有更高级的如大资金流入流出、中资金流入流出、小资金流入流出等数据。所以这块数据我们可能没法通过一个接口一次性获取。
这儿提供一些比较有价值的数据源(以000001为例):
var hq_str_sz000001="平安银行,9.120,9.110,9.070,9.120,9.060,9.060,9.070,38301159,347937617.390,2913880,9.060,2622600,9.050,2205600,9.040,994700,9.030,871800,9.020,122460,9.070,755266,9.080,729720,9.090,771040,9.100,937120,9.110,2017-03-30,11:35:00,00";
其字段的对应关系如下:股票名称,今日开盘价、昨日收盘价、当前价格、今天最高价、今天最低价、竞买价、竞卖价、成交量、成交总价、买1数量、买1价格、买2数量、买2价格、买3数量、买3价格、买4数量、买4价格、买5数量、买5价格、卖1数量、卖1价格、卖2数量、卖2价格、卖3数量、卖3价格、卖4数量、卖4价格、卖5数量、卖5价格、当前日期、当前时间、未知字段(可能代表股票是否退市)var% vDUaFOen={pages:3408,date:%"2017-13-21%",data:["1,600545,新疆城建,15.04,10.02,35911.38,19.12,37222.87,19.81,-1311.49,-0.70,-21393.11,-11.39,-14518.27,-7.73,2017-03-30 13:25:28"]}
其字段的对应关系是:市场类型(1沪市,2深市)、股票代码、股票名称、股价、涨幅、主力进流入、主力进流入占比、超大单净流入、超大单净流入占比、大单净流入、大单净流入占比、中单净流入、中单净流入占比、小单净流入、小单净流入占比、时间。掌握了这么多数据源,下一步我们看看如何设计一个良好的架构和程序结构来让它们发挥价值。