python爬虫+mongoDB存储DOTA2比赛数据总结

dota2比赛数据分析到现在,第一阶段已经差不多结束了。
分析一下这阶段主要的成果。
1、对python有了初步的了解。大概了解了面向对象编程方法,但总觉得思想精髓没体会到。

2、对网络爬虫技术有了一些了解,知道了百度的整个网络原来是爬出来的,以前倒没网这方面想过。并利用python的类库做了一个简单的爬虫,爬了dotamax上比赛的数据。

3、自己定义了一个json数据格式,用来存储每局比赛的数据,并用mongoDB在云服务器上存储,方便在任何地方都可以获取数据。

4、自己做了一些数据分析的函数,包括:任意英雄及组合的胜率,任意两个战队对战的胜率,最常用的英雄组合等。也为输出的结果写了专门的博客进行分析。

再来分析下不足,以及下一步要做的:
1、继续研究python以及面向对象编程,需要买书,还在物色。

2、不再使用爬虫技术获取数据,使用v社提供的webAPI获取数据,这样不再依赖于dotamax上已有的数据,其未分析的数据同样可以得到。

3、更改下存储的数据,原来存储的数据为:对阵双方,胜利方,pick英雄,ban英雄,比赛名称。
准备更增加几项:比赛开始时间戳(与版本挂钩),比赛双方选手(方便分析选手)。

4、为最终目标,无论是神经网络,SVM还是什么其他的算法做准备,另外还有些基本的分析可以添加。
如:选手最爱英雄,选手英雄胜率等。

5、把代码托管到github上,建立开源项目,宣传下,看有没有一起玩的兄弟。

所以,先把目前用到的记录下。嗯。。大概要写3篇的样子。

你可能感兴趣的:(机器学习,python)