Python 2.7
IDE Pycharm 5.0.3
sklearn 0.17.
目前接口库
@MrLevo520--数据转化接口
仍在不断更新
目的
将一堆数据中随机或者按比例抽取部分作为训练样本并保存txt/csv
准备工作
请先安装相关科学计数包,numpy,sklearn等,具体看包导入情况进行相应安装
接口代码1-按数量随机抽样
首先新建一个py文件,我以demo.py为例这个名字随便取,只要调用时候用到就可以了),输入以下内容:
import numpy as np
from sklearn import cross_validation
import random
import string
def SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000):
dataMat=[]
fr = open(ReadPath,"r")
for line in fr.readlines():
curLine = str(line.strip())
dataMat.append(curLine)
fr.close()
try:
slice = random.sample(dataMat,SelectNum)
except Exception as ex:
print ex
fw = open(SavePath,"a")
for newline in slice:
fw.write(str(newline).strip())
fw.write("\n")
fw.close()
# test
if __name__ == '__main__':
SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)
接口说明
SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# SelectNum是txt中的需要随机采样的个数。
接口(函数)调用实例
在同一工程目录下的另一个py文件中只需要操作如下
import demo
demo.SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)
执行效果
左边是原始数据集,右边是随机抽取的1500个样本
接口代码2-按比例随机抽样
在刚才demo.py继续 输入以下内容(单独的话需要再重复导入包):
def SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1):
dataCombineLabel =np.genfromtxt(ReadPath,delimiter=delimiter,dtype=None)
selected,others = cross_validation.train_test_split(dataCombineLabel,test_size=1-SelectPrerc,random_state=randomState)
fw = open(SavePath,"a")
for line in selected:
linelist = list(line)
print linelist
linestr = ",".join(map(str,linelist))
fw.write(linestr)
fw.write("\n")
fw.close()
接口说明
SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# delimiter是制表分隔符,就是你的txt中是如何存储数据的具体而定,默认","
# SelectPrerc是需要随机采样的比例,默认20%
# randomState是随机数种子,随机数种子一样的话每次随机出来结果都一样
接口(函数)调用实例
import demo
demo.SelectPercSamping2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",",",0.2,1)
执行效果
左边是原始数据集,右边是随机按比例抽取的12830x0.2=2566个样本
Pay Attention
1.使用genfromtxt时,产生字符串读取为nan情况,参考官方文档,将其参数dtype=None
设置即输出字符串和数字组合形式的元组类型,这时候如果要以csv这个格式输入txt,则需要先转换为list,使用list(tuple)
,转化为list之后,再使用map函数,map(str,list)
,可以把list中元素全部转化为str类型,再使用",".join(list)
方式转化为可以写入txt的字符串形式,具体的可以看个例子:
>>list1 = ['a', 'b', 'c', 'd', 'e']
>>str_convert = ','.join(list1)
>>str_convert
输出形式
"a,b,c,d,e"
ok,这样就可以组成新的str然后写入txt了。
2.对于list写入txt,还有一个笨方法,限用于数量少的list,使用格式化字符串,举个例子
>>list1 = ['a', 3, 4.556]
>>str1 = "%s,%d,%.2f"%(list1[0],list1[1],list1[2])
>>print str1
输出
"a,3,4.56"
#适用于list小,而且定制化程度较高的例子
最后
有些接口经常用到,自己写了对以后帮助还是蛮大的,直接调用即可,等接口够多了,我整理一下写个小库出来,可以方便调用。
致谢
@CC要当程序猿--Numpy学习笔记1--genfromtxt
@pizi06--python string与list互转
@李博Garvin--【机器学习算法-python实现】采样算法的简单实现