Python自学入门(六):Pandas之数据结构

Python自学入门(一):环境安装
Python自学入门(二):数据类型和运算符
Python自学入门(三):数据类型详解
Python自学入门(四):流程控制
Python自学入门(五):函数和模块

五、Pandas

Pandas是python中用于数据分析的一个扩展库,安装pandas,在命令行中执行

pip3 install pandas

Python自学入门(六):Pandas之数据结构_第1张图片

安装成功后,执行可以在程序中引入pandas

import pandas

5.1 数据结构

Pandas中的数据结构,包括Series和DataFrame两种。

Series相当与一维数组,可以看作表格中的一个列,可以保存任何类型的数据,通过索引访问元素。

DataFrame是二维数组(表格),由行和列组成。

Python自学入门(六):Pandas之数据结构_第2张图片

5.1.1 Series

pandas.Series( data, index, dtype, name, copy)
  • data:一组数据。
  • index:数据索引标签,如果不指定,默认从 0 开始。
import pandas
a = ['Java','Python','HTML5']
s1 = pandas.Series(a)
print(s1)
print(s1[0]) #根据索引访问元素,索引默认从0开始递增
s2 = pandas.Series(a,index=['x','y','z'])  #指定索引
print(s2)
print(s2['y'])  #根据索引访问
#使用字典创建Series,key会变成索引
dic={"k1":"java","k2":"python","k3":"h5"}
s3 = pandas.Series(dic)
print(s3)
#只需要字典中的一部分,指定需要保留的key
s4 = pandas.Series(dic,index=["k1","k2"])
print(s4)
print(s4.index)  #索引
print(s4.values) #值

5.1.2 DataFrame

Python自学入门(六):Pandas之数据结构_第3张图片

DataFrame可以被看做是多个Series组成的表格,每一列是一个Series,它们共用一个索引。

  • data:一组数据。
  • index:数据索引标签,如果不指定,默认从 0 开始。
  • columns:列名
#使用列表创建
data1=[['Kate',18],['John',17],['Tom',19]]
df1 = pandas.DataFrame(data1,columns=['Name','Age'])
print(df1)
#使用 ndarrays 创建
data2 = {'Name':['Kate', 'John', 'Tom'], 'Age':[18, 17, 19]}
df2 = pandas.DataFrame(data2,index=['A','B','C'])
print(df2)
#使用字典创建
data3 = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df3 = pandas.DataFrame(data3)
print(df3)

DataFrame常用属性

grades=['A','B','C','D']
subject=['数学','语文','英语']
array=[[5,30,40],[23,19,46],[76,35,43],[56,43,21]]
data=pandas.DataFrame(data=array,index=grades,columns=subject)
print(data.shape)  #形状(行,列)
print(data.index)  #索引
print(data.columns) #列名
print(data.values)  #值
print(data.T)  #转置
print(data.head(3))  #前几行
print(data.tail(2))  #后几行
#修改索引,不支持单独修改某一行的索引,需要全部修改
grades=['甲','乙','丙','丁']
data.index=grades
print(data)
d1=data.reset_index() #旧索引会变成一列
print(d1)
d2=data.reset_index(drop=True) #不保留旧索引
print(d2)
d3=data.set_index('数学') #设置某一列为索引,drop=True删除原来的列
print(d3)

你可能感兴趣的:(Python,python,pandas,数据结构)