机器学习——数据导入/CSV文件导入

在训练机器学习的模型时,数据通常会以csv的格式来存储,将csv数据导入到Python中的方法大概有三种:
1.通过标准的Python库导入csv文件。
2.通过NumPy导入csv文件。
3.通过Pandas导入csv文件。

CSV文件

csv文件是用逗号(,)分隔的文本文件
1.文件头
如果csv的文件里包括文件头的信息,可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息,需要自己手动设定读入文件的字段属性名称。数据导入时,设置字段属性名称,有助于提高数据处理程序的可读性。
2.注释
注释行是以“井”号(#)开头的。是否需要对读入的注释行做处理,取决于采用什么方式读入csv文件。
3.分隔符
csv文件的标准分隔符是逗号(,),当然也可以使用Tab键或空格键作为自定义的分隔符。当使用这两种分隔符时,文件读取是要指明分隔符的。
4.引号
当有的字段值中有空白时,这些值通常都会被引号引起来,默认使用双引号来标记这些字段值。如果采用自定义格式,那么在文件读取时要明确在文件中采用的自定义格式。

采用标准Python类库导入数据

Python提供了一个标准类库csv,用来处理csv文件。这个类库中的reader()函数用来读入csv文件。当csv文件被读入后,可以利用这些数据生成一个NumPy数组,用来训练算法模型。首先下载数据文件到应用目录下,并命名文件为pima.csv。这个文件中所有的数据都是数字,并且数据中不含有文件头。

from csv import reader 
import numpy as np 
#使用标准的Python类库导入csv数据
filename ='pima data.csv' 
with open(filename ,'rt') as raw_data: 
	readers = reader(raw data, delimiter=',') 
	x   = list(readers) 
	data = np.array(x).astype('float') 
	print(data.shape)

采用NumPy导入数据

也可以使用NumPy的loadtxt()函数导入数据。使用这个函数处理的数据没有文件头,并且所有的数据结构是一样的,也就是说,数据类型是一样的。

from numpy import loadtxt 
#使用NumPy导入csv数据
filename ='pima data.csv' 
with open(filename ,'rt') as raw_data: 
	data= loadtxt(raw_data, delimiter=',') 			  
	print(data.shape)

采用Pandas导入数据

通过Pandas来导入csv文件要使用pandas.read_ csv()函数。这个函数的返回值是DataFrame,可以很方便地进行下一步的处理。这个函数的名称非常直观,便于代码的阅读和后续对数据的处理。在机器学习的项目中,经常利用Pandas来做数据清洗与数据准备工作。因此,在导入csv文件时,推荐大家使用这个方法。

from pandas import read_csv 
#使用Pandas导入csv数据
filename ='pima_data.csv' 
names = ['preg','plas','pres','skin','test','mass','pedi','age', 'class'] 
data = read_csv(filename, names=names)
print(data.shape)

你可能感兴趣的:(机器学习数据分析笔记,机器学习,python,数据分析)