基于python sqlite3将KDD-99数据集插入数据库中

hello,又是我,哈哈
转载记得标明出处
http://blog.csdn.net/isinstance/article/details/51328894

今天来聊聊怎样使用python中的sqlite3模块将KDD-99数据集插入数据库中
sqlite3和sql语句我就不赘述了
直接进入正文
因为插入数据库操作的IO速率一直很慢很慢,所有这里我实现了通过一个量core控制插入的线程数然后,core值也是生成的数据库个数.core在代码的42行修改.你也可以修改为1,就是一个线程一个数据库,也可以32,那就是32个线程和拆分生成32个数据库.但是提醒一下,一个线程处理kdd-99-10-precent也是很慢低...
然后思想啥的理论的我就不说了
自己理解呗最后贴上代码github位置

多啦A梦传送门
还是那句话,对代码有好的意见或者啥的,可以联系我,邮件联系.然后,说句实话,在大数据分析里使用数据库是个不好的想法,用spark也好,hadoop也好,还是csv文件来的顺畅一些.因为光插入这些数据都得两天...没错..还不如直接csv读取.虽说从数据库中读取数据很快,而且sqlite也是标称是与fopen()竞争的,但是插入的花销太大.所以后来我对kdd-99数据集的大数据分析是建立在csv文件的基础上的.

你可能感兴趣的:(数据库,线程,python,数据,sqlite3)