Pandas

前言

Pandas是python的一个扩展程序库,用于数据分析。

可以从各种文件格式比如CSV、JSON、SQL导入数据,对各种数据进行运算操作;

Series

类似于表格中的一个列,一维数组,可以保存任何数据类型。由索引和列组成:

Pandas_第1张图片

Pandas_第2张图片

 如果不传入index参数,则默认索引从0开始。

 

DataFrame

是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型

Pandas_第3张图片

data = {'sites':["Google", "Runoob", "Wiki"], 'Age':[10,20,30]}
myvar = pd.DataFrame(data)
print(myvar)

 Pandas_第4张图片

可以使用loc属性返回指定行数据,默认第一行索引是0

data = {'sites':["Google", "Runoob", "Wiki"], 'Age':[10,20,30]}
myvar = pd.DataFrame(data)
print(myvar)
print('--------------------')
print(myvar.loc[1])

 Pandas_第5张图片

CSV文件

其文件以纯文本形式存储表格数据,csv是一种常用的,相对简单的文件格式。

df = pd.read_csv('nba.csv')
print(df)

 Pandas_第6张图片

只显示了前五行与末尾五行,如果要显示全部内容:print(df.to_string())

也可以使用to_csv()将DataFrame存储为csv文件:

 

myvar.to_csv('demo.csv)

数据处理

head(n)方法用于读取前面的n行,如果没有参数n,默认返回5行。

tail(n)方法用于读取末尾n行,没有参数n,默认但会五行,空行各个字段值返回NaN

info()方法返回表格的基本信息

JSON

是存储和交换文本信息的语法,类似于XML。

使用to_string()将json数据类型转换为DataFrame(表格)数据

你可能感兴趣的:(python机器学习,pandas,python,机器学习)