Python篇----多线程1TB数据生成脚本

0 前言


    Sorry,我骗了你!!!
    “多线程”,在Python中就是鸡肋,我只是想得到很多份1TB数据文件而已。
    “1TB数据”,这个大小是可以改的,生成1G,1M的数据随便都行。数据,目前只是随机数。这种随机数是伪随机数,有一个规律的,网上有解释,可以自行百度。
    “脚本”,这真的是个Python脚本。。。。。
    提示:我在小学弟的电脑上开了8个线程去跑,结果,他的CPU快到100摄氏度了,差点go die!不作死,就不要弄那么多线程。。。
    重要的事情:
    在Windows和Mac操作系统下,生成的数据会大于自己定义的size,但是没有超出很多,这是文件管理系统的锅。
    在Ubuntu Server 14.04系统下,生成的数据文件大小和size一样。
    我也不知道为什么。。。。一定是文件管理系统的锅!!!


1 代码展示


# -*- coding: utf-8 -*-
import os
import random
import thread

####
## 作者:谷震平
## blog:http://blog.csdn.net/guzhenping
## 时间:2016-01-30
## 地点:天津工业大学大数据实验室
####


#Windows的存放目录
#dx = os.path.getsize("D:\\Users\\wyj\\Desktop\\s-manyuser\\a.txt")

#生成随机数,并写入filename文件中,存放在file目录下。
#提示:默认生成".txt"的文件
def randomNumber(filename,size):
    
    #文件大小初始化
    dx=0

    #Mac的存放目录
    file = '/Users/tanishindaira/Desktop/express/'+filename+'.txt'

    #只要生成的数据量小于size(自己定义的生成大小),就一直追加写入
    while( dx < size ):
        f = open(file, "a")
        f.write(str(random.random())+"\n")  #此处可以改动,可以不用写入随机数
        dx = os.path.getsize(file)
    f.close()

#执行代码。多线程执行。
try:
    thread.start_new_thread(randomNumber,("a",1024*1024*1024*1024))
    thread.start_new_thread(randomNumber,("b",1024*1024*1024*1024))
    #thread.start_new_thread(randomNumber,("c",1024*1024*1024*1024))
    #thread.start_new_thread(randomNumber,("d",1024*1024*1024*1024))
except:
    print "有异常,线程冲突,请查看文件路径"



2 开源提示


    代码很短,但是很方便。
    需要改动的地方:
  • filename :你生成的数据文件名,
  • file:存放路径(Mac和Windows是不同的) ,
  • size:文件大小(1字节*1024KB*1024MB*1024GB*1024TB)

你可能感兴趣的:(Python,项目经验,python,大数据,多线程,数据生成器,数据分析)