第三届中青杯B题思路

赋闲在家,于是连续参加了泰迪杯广州数模联赛MathorCup,之后,就是中青杯了。目前广州数模联赛已经进入复试,我也有幸成为了得奖的候补。 至于泰迪杯,我仍旧在等一等奖的电话(希望有!)。我不想当幸运儿,因为这是我努力达到的。这几个比赛都是我一个人参加的,所有的建模、论文、编程都是一人包办,我相信自己不会比三个人差。找队友固然好,但一个人做更不会 Out of Control。主要是之前和队友参加了几个比赛,心理产生了阴影…

我们是幸运的,因为大数据的福音,使得越来越多的数学建模变得越来越像泰迪杯这类数据挖掘挑战赛。不论是之前参加过的 MathorCup、国赛、美赛、数联,都有大数据的题目。虽然中青杯很扯淡地帮我们把题目给选了,但是第三届的中青杯,还是有数据挖掘的影子。这不,本科组题目(博主本科):股票预测问题,这明显是机器学习入门者,玩浪了的题目嘛。

B题背景知识

对于混迹指数基金多年的我,现在接触股票领域,虽然有点力不从心,但勉强说得过去。首先是股票价格吧,股票分为发行价和市场价格。发行价是指企业在 IPO 时,股票的价格。即 IPO 时,公司把权力地位,以股票的形式“卖”给证券交易所,这时候的成交价就是发行价。而市场价格,是指股票的流通价格。所谓流通价格,就是股票在我们这些股民们每天的价格。一般流通价格会大于发行价,这是因为炒股票导致的虚高。

既然股票市场价格是流通价,价格是不断变化的。对于股票市价来说,一般用四个经典数值替代:开盘价、最低价、最高价、收盘价。开盘价是股票开始交易的价格,收盘价则不然,它不一定代表结束交易的价格。各个交易所对收盘价的定义不一样,泸市的定义为:收盘价为当日该证券最后一笔交易前一分钟所有交易的成交量加权平均价(含最后一笔交易)。

题目的关键词是指数,那么为什么要扯出股票价格呢?这是因为股票指数,全称为股票价格指数,这个价格,很明显是市价。目标指数股,即指数表现很好的股票集合。问题所提供的数据,我想就是从从属于同一个指数的股票(以下称为股票簇)中,抽样得出的集合把。因为指数是对一个股票簇的(如果每一个股票都有指数,那直接用股价不就行了?),所以投资者将指数表现良好的股票簇中的所有股票,全部买下来,就不会亏损。所以,这也是指数基金为什么稳赚不赔的理由。因为基金管理者有很多钱压(帮忙管理的),有实力买下和管理全部的指数股票簇。但散户就不一样了,首先没钱,其二没管理能力。于是,就诞生了这道题目:如何根据股票指数,购买股票簇中,几只股票,使得赚钱多,就是这么通俗。

第三问中,有一个计算股票指数波动、预测指数波动的题目。这个题目的意思应该是,根据股票簇(10只股票),首先计算出该股票簇的指数,再算出波动。结合今年的波动,预测下一年的波动。

有一个问题搞不明白的是,题目中给出的10只股票,是某个市场(属于一个指数)的股票除的全部股票吗?还是部分股票?个人倾向于后者。所以,第三问应该是一个以小见大的问题。即根据股票簇的部分抽样,求解出股票簇的指数、指数波动。并预测一年内指数波动的值。因此,股票的指数,并不是单单依靠证券交易所给出的指数公式,根据股票簇的所有股票的市价,在求解出来这么简单。这是因为,10只股票只是股票簇的抽样。所以,为了以小见大,还是要用到假设检验的方法!!

第一问是怎么做的?

第一问我觉得难点有两个,一是缺失数据填充;二是方案制定。对于问题一,我是用每一列来进行缺失值预测的(以列为单位)。我用了几乎所有的一元非线性函数(包括傅里叶,没有你想不到),之后将模型的预测值填充进缺失值。当然,我要训练40个(不弄交易量)模型,期间还有假设检验(用来判断模型是否显著)。

第一问与第二问一起上!!

第一问的第二个难点就是方案制作了,因为投资分长短线,很明显一个万金油方案是不存在的。这个就要结合很多数据分析了。首先,我画出了各只股票的线图、柱状图、箱型图(30天为单位)、自相关分析图等等。之后,对于长线,用整体呈现上升趋势的股票。对于短线,使用局部波动大、整体亦波动的股票(我用的是箱型图的面积来表征这些属性,当然箱型图以30天为单位)。

第三问是怎么做的?

假设检验,判断10只股票能否反应总体。然后根据是否能反应,设置指数的计算公式。在用箱型图表征其波动。对于预测,我用了 LSTM 模型。但是,感觉 6 月份以后模型的预测效果就不是很好了。这可能是所需的预测数据过多的缘故吧。

最终总结

中青杯B题作为一道数学建模的题来说,至少他有建模的成分。作为一道数据挖掘的题来说,他也有数据挖掘的成分。他更像两者的结合,因此导致了我在解题过程中遇到非常多的问题。这场比赛,我用了2天构思,1天做完。比起泰迪杯的4天做完、联赛、Mathorcup 的2天做完、他是花费时间最少的一个比赛了。或者说,这就是所谓的一鼓作气再而衰三而竭了吧。可能,也许这是我大学中的最后一场数学建模比赛了。

数学建模是有趣的,在没有队友的情况下更加有趣。而中青杯,我感觉他题目的质量最对得起数学建模比赛的名字。虽然,我觉得他是之前我参加的所有建模比赛中,最难的、也是耗费我最多精力的一场比赛。但他的确兼顾了建模+挖掘,两边都有战到。因此,希望在之后的学习生活中,能够和大家一起努力,共建辉煌。

你可能感兴趣的:(科学写作的工具与方法)