随机采样接口(子函数)

Python 2.7
IDE Pycharm 5.0.3
sklearn 0.17.

目前接口库

@MrLevo520--数据转化接口

仍在不断更新

目的

将一堆数据中随机或者按比例抽取部分作为训练样本并保存txt/csv

准备工作

请先安装相关科学计数包，numpy，sklearn等，具体看包导入情况进行相应安装

接口代码1-按数量随机抽样

首先新建一个py文件，我以demo.py为例这个名字随便取，只要调用时候用到就可以了)，输入以下内容：

import numpy as np
from sklearn import cross_validation
import random
import string

def SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000):

    dataMat=[]
    fr = open(ReadPath,"r")
    for line in fr.readlines():
        curLine = str(line.strip())
        dataMat.append(curLine)
    fr.close()
    try:
        slice = random.sample(dataMat,SelectNum)

    except Exception as ex:
        print ex

    fw = open(SavePath,"a")
    for newline in slice:
        fw.write(str(newline).strip())
        fw.write("\n")
    fw.close()

# test
if __name__ == '__main__':
    
    SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

接口说明

SelectRandomSampling2txt(ReadPath,SavePath,SelectNum=1000)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# SelectNum是txt中的需要随机采样的个数。

接口(函数)调用实例

在同一工程目录下的另一个py文件中只需要操作如下

import demo
demo.SelectRandomSampling2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",1500)

执行效果

左边是原始数据集，右边是随机抽取的1500个样本

这里写图片描述

接口代码2-按比例随机抽样

在刚才demo.py继续输入以下内容(单独的话需要再重复导入包)：

def SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1):

    dataCombineLabel =np.genfromtxt(ReadPath,delimiter=delimiter,dtype=None)
    selected,others = cross_validation.train_test_split(dataCombineLabel,test_size=1-SelectPrerc,random_state=randomState)
    fw = open(SavePath,"a")
    for line in selected:
        linelist = list(line)
        print linelist
        linestr = ",".join(map(str,linelist))
        fw.write(linestr)
        fw.write("\n")
    fw.close()

接口说明

SelectPercSamping2txt(ReadPath,SavePath,delimiter=",",SelectPrerc=0.2,randomState=1)
# ReadPath是需要转换的txt路径
# SavePath是需要写入的txt路径
# delimiter是制表分隔符，就是你的txt中是如何存储数据的具体而定，默认","
# SelectPrerc是需要随机采样的比例，默认20%
# randomState是随机数种子，随机数种子一样的话每次随机出来结果都一样

接口(函数)调用实例

import demo
demo.SelectPercSamping2txt("C:\\Users\\MrLevo\\PycharmProjects\\test\\OneClassOneFile\\Class1.txt","Class1test.txt",",",0.2,1)

执行效果

左边是原始数据集，右边是随机按比例抽取的12830x0.2=2566个样本

这里写图片描述

Pay Attention

1.使用genfromtxt时，产生字符串读取为nan情况，参考官方文档，将其参数dtype=None设置即输出字符串和数字组合形式的元组类型，这时候如果要以csv这个格式输入txt，则需要先转换为list，使用list(tuple)，转化为list之后，再使用map函数，map(str,list)，可以把list中元素全部转化为str类型，再使用",".join(list)方式转化为可以写入txt的字符串形式，具体的可以看个例子：

>>list1 = ['a', 'b', 'c', 'd', 'e']
>>str_convert = ','.join(list1)
>>str_convert

输出形式

"a,b,c,d,e"

ok,这样就可以组成新的str然后写入txt了。

2.对于list写入txt，还有一个笨方法，限用于数量少的list，使用格式化字符串，举个例子

>>list1 = ['a', 3, 4.556]
>>str1 = "%s,%d,%.2f"%(list1[0],list1[1],list1[2])
>>print str1

输出

"a,3,4.56"
#适用于list小，而且定制化程度较高的例子

最后

有些接口经常用到，自己写了对以后帮助还是蛮大的，直接调用即可，等接口够多了，我整理一下写个小库出来，可以方便调用。

致谢

@CC要当程序猿--Numpy学习笔记1--genfromtxt
@pizi06--python string与list互转
@李博Garvin--【机器学习算法-python实现】采样算法的简单实现

随机采样接口(子函数)

目前接口库

目的

准备工作

接口代码1-按数量随机抽样

接口说明

接口(函数)调用实例

执行效果

接口代码2-按比例随机抽样

接口说明

接口(函数)调用实例

执行效果

Pay Attention

最后

致谢

你可能感兴趣的:(随机采样接口(子函数))