深度学习模型可以简单理解为一个高度非线性的复合函数,网路输入可以看作自变量x,输出可以看作因变量y。看过网上其他人做的一些双色球预测,基本上是基于BP神经网络(也就是全连接神经网络)和LSTM的预测方法。其中我认为基于LSTM的方法靠谱一些。但因为本身对LSTM不熟悉,以及我认为卷积神经网络也可以用来做双色球预测,接下来进行尝试。
深度学习模型是基于数据驱动的表达机制,因此首先我们需要获取双色球历史数据,爬虫代码如下:
import requests, bs4
import os, time
import operator
from itertools import combinations, permutations
import torch
class DoubleColorBall(object):
def __init__(self):
self.balls = {}
self.baseUrl = 'http://tubiao.zhcw.com/tubiao/ssqNew/ssqJsp/ssqZongHeFengBuTuAsc.jsp'
self.dataFile = './balls_data.txt'
def getHtml(self, url):
headers = {
'Referer':'http://tubiao.zhcw.com/tubiao/ssqNew/ssqInc/ssqZongHeFengBuTuAsckj_year=2016.html',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
self.session = requests.Session()
response = self.session.get(url, headers=headers)
return response.text
def getBall(self):
for year in range(2003, 2021):
url = self.baseUrl + '?kj_year=%s' % (year, )
print(url)
html = self.getHtml(url)
self.bs = bs4.BeautifulSoup(html, 'html.parser')
if self.bs:
data = self.bs.find_all(class_='hgt')
self.parseBall(data)
def parseBall(self, data):
self.balls = {}
for row in data:
if not isinstance(row, bs4.element.Tag):
continue
center = row.find(class_="qh7").string.strip()
print(center)
if center.startswith("模拟"):
break
redBalls = row.find_all(class_="redqiu")
blueBall = row.find(class_="blueqiu3").string.strip()
self.balls[center] = [r.string for r in redBalls] + [blueBall]
self.saveBall(self.balls)
def saveBall(self, data):
with open(self.dataFile, 'a+') as f:
for r in sorted(data,reverse=True):
f.write(str(r) + ' ' + ' '.join(data[r]) + '\n')
if __name__ == '__main__':
ball = DoubleColorBall()
ball.getBall()
我爬取的数据是2003~2020年的所有双色球数据,并将其保存在txt文档中,保存格式如下:每行是期号对应的中奖号码。
20044 7 8 16 17 19 24 7
20043 1 11 24 25 27 30 7
20042 2 6 7 11 14 31 3
20041 6 7 16 22 24 25 13
20040 1 6 12 16 19 21 4
20039 2 9 10 11 16 29 2
20038 1 6 7 18 23 24 15
20037 1 4 11 13 17 24 15
20036 7 9 16 22 24 32 6
3、模型搭建
其他人提供的模型大多是利用上一期预测下一期,我认为应该用多期预测下一期,因此我将十期的数据堆叠成一个二维数组作为网络输入,将紧接着的下一期作为前十期的标签。同时考虑到这是个双色球预测回归的任务,我使用扁平卷积进行特征提取,利用1x3卷积提取单期内开奖号码之间的联系,利用3x1卷积提取多期开奖号码之间的关联性,同时借鉴了Googlenet的分支结构和Resnet的残差结构。我把自己设计的这个模块称为致富模块~
class Rich_Block(nn.Module):
def __init__(self,input_c,output_c):
super(Rich_Block,self).__init__()
self.conv_1x1 = nn.Conv2d(in_channels=input_c,out_channels=16,kernel_size=1)
self.convh_3x3 = nn.Conv2d(in_channels=16,out_channels=16,kernel_size=(1,3),padding=1)
self.convv_3x3 = nn.Conv2d(in_channels=16,out_channels=16,kernel_size=(3,1))
self.conv_last = nn.Conv2d(in_channels=32,out_channels=output_c,kernel_size=1)
self.relu = nn.ReLU(inplace=True)
def forward(self,x):
x = self.conv_1x1(x)
x1 = self.convh_3x3(x)
x1 = self.relu(x1)
x1 = self.convv_3x3(x1)
x1 = self.relu(x1)
x_cat = torch.cat((x1,x),dim=1)
x_out = self.conv_last(x_cat)
return x_out
接下来就是利用致富模块和全连接层搭建完整模型,模型并不复杂,代码如下:
class Get_Rich(nn.Module):
def __init__(self):
super(Get_Rich,self).__init__()
self.block1 = Rich_Block(1,16)
self.block2 = Rich_Block(16,32)
self.block3 = Rich_Block(32,32)
self.block4 = Rich_Block(32,32)
self.block5 = Rich_Block(32,64)
self.block6 = Rich_Block(64,64)
self.block7 = Rich_Block(64,64)
self.block8 = Rich_Block(64,128)
self.block9 = Rich_Block(128,128)
self.avg_pool = nn.AdaptiveAvgPool2d((1,1))
self.line1 = nn.Linear(128,128)
self.line2 = nn.Linear(128,64)
self.line3 = nn.Linear(64,64)
self.line4 = nn.Linear(64,7)
def forward(self,x):
x = self.block1(x)
x = self.block2(x)
x = self.block3(x)
x = self.block4(x)
x = self.block5(x)
x = self.block6(x)
x = self.block7(x)
x = self.block8(x)
x = self.block9(x)
x = self.avg_pool(x)
x = x.view(x.size(0), -1)
x = self.line1(x)
x = self.line2(x)
x = self.line3(x)
x = self.line4(x)
return x
def _initialize_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
m.weight.data.normal_(0, math.sqrt(2. / n))
if m.bias is not None:
m.bias.data.zero_()
elif isinstance(m, nn.Linear):
n = m.weight.size(1)
m.weight.data.normal_(0, 0.01)
m.bias.data.zero_()
至于数据前处理和模型训练的代码就不一一贴出了,因为网络输出为线性输出,损失函数我使用的是均方差损失函数-mse loss,优化器使用SGD,训练过程中使用学习率衰减。
4、总结
网上很多模型的预测结果也只能在正确开奖号码附近波动,那么我们的结果是振奋人心的,我的模型水平竟然和他们是一样的,哈哈哈哈~~~,09152期进行预测结果如下图所示:
尝试了很多期的预测结果都是在开奖号码附近波动,这个结果也预料到了,因为训练loss值在下降到10左右就稳定了,我认为模型结构依然有一些问题,后续会持续改进。勇者敢于尝试,但在尝试过程中能够懂得分析问题,懂得趋吉避凶,我认为这就是智勇双全。因此,先从自身做起,我买了30注双色球,如下图所示,大手笔!!!顺便忽悠好兄弟也买了两注。希望今晚吃鸡!同时我建了一个双色球每日推荐群:725477359。感兴趣的可以加一下,你的支持就是我的动力。
意意大神保佑,今晚中奖!