随机采样接口(子函数)

Python 2.7
IDE Pycharm 5.0.3
sklearn 0.17.


目前接口库

@MrLevo520--数据转化接口

仍在不断更新


目的

将一堆数据中随机或者按比例抽取部分作为训练样本并保存txt/csv


准备工作

请先安装相关科学计数包,numpy,sklearn等,具体看包导入情况进行相应安装


接口代码1-按数量随机抽样

首先新建一个py文件,我以demo.py为例这个名字随便取,只要调用时候用到就可以了),输入以下内容:

import numpy as np
from sklearn import cross_validation
import random
import string

def SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000):

    dataMat=[]
    fr = open(ReadPath,"r")
    for line in fr.readlines():
        curLine = str(line.strip())
        dataMat.append(curLine)
    fr.close()
    try:
        slice = random.sample(dataMat,SelectNum)

    except Exception as ex:
        print ex

    fw = open(SavePath,"a")
    for newline in slice:
        fw.write(str(newline).strip())
        fw.write("\n")
    fw.close()

# test
if __name__ == '__main__':
    
    SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

接口说明

SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# SelectNum是txt中的需要随机采样的个数。

接口(函数)调用实例

在同一工程目录下的另一个py文件中只需要操作如下

import demo
demo.SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

执行效果

左边是原始数据集,右边是随机抽取的1500个样本

这里写图片描述

接口代码2-按比例随机抽样

在刚才demo.py继续 输入以下内容(单独的话需要再重复导入包):

def SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1):

    dataCombineLabel =np.genfromtxt(ReadPath,delimiter=delimiter,dtype=None)
    selected,others = cross_validation.train_test_split(dataCombineLabel,test_size=1-SelectPrerc,random_state=randomState)
    fw = open(SavePath,"a")
    for line in selected:
        linelist = list(line)
        print linelist
        linestr = ",".join(map(str,linelist))
        fw.write(linestr)
        fw.write("\n")
    fw.close()

接口说明

SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# delimiter是制表分隔符,就是你的txt中是如何存储数据的具体而定,默认","
# SelectPrerc是需要随机采样的比例,默认20%
# randomState是随机数种子,随机数种子一样的话每次随机出来结果都一样

接口(函数)调用实例

import demo
demo.SelectPercSamping2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",",",0.2,1)


执行效果

左边是原始数据集,右边是随机按比例抽取的12830x0.2=2566个样本

这里写图片描述

Pay Attention

1.使用genfromtxt时,产生字符串读取为nan情况,参考官方文档,将其参数dtype=None设置即输出字符串和数字组合形式的元组类型,这时候如果要以csv这个格式输入txt,则需要先转换为list,使用list(tuple),转化为list之后,再使用map函数,map(str,list),可以把list中元素全部转化为str类型,再使用",".join(list)方式转化为可以写入txt的字符串形式,具体的可以看个例子:

>>list1 = ['a', 'b', 'c', 'd', 'e']
>>str_convert = ','.join(list1)
>>str_convert

输出形式

"a,b,c,d,e"

ok,这样就可以组成新的str然后写入txt了。

2.对于list写入txt,还有一个笨方法,限用于数量少的list,使用格式化字符串,举个例子

>>list1 = ['a', 3, 4.556]
>>str1 = "%s,%d,%.2f"%(list1[0],list1[1],list1[2])
>>print str1

输出

"a,3,4.56"
#适用于list小,而且定制化程度较高的例子

最后

有些接口经常用到,自己写了对以后帮助还是蛮大的,直接调用即可,等接口够多了,我整理一下写个小库出来,可以方便调用。


致谢

@CC要当程序猿--Numpy学习笔记1--genfromtxt
@pizi06--python string与list互转
@李博Garvin--【机器学习算法-python实现】采样算法的简单实现

你可能感兴趣的:(随机采样接口(子函数))