import pandas as pd
import numpy as np
Pandas Series 类似表格的一个列,与一维数组类似,可以保存任何数据类型,由索引和列组成,若不指定索引,默认从0开始;
pandas.Series( data, index, dtype, name, copy)
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
#字典构成Series
d = {'a': 10, 'b': 20, 'c': 30}
s = pd.Series(d)
print(s)
print(d['a'])
#一组随机数构成Series
data = np.random.randn(5)
index = ['a', 'b', 'c', 'd', 'e']
s1 = pd.Series(data, index)
print(s1)
Pandas DataFrame 是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型,既有行索引又有列索引,类似于二维数组;
pandas.DataFrame( data, index, columns, dtype, copy)
data:一组数据(ndarray、series, map, lists, dict 等类型)。
index:索引值,或者可以称为行标签。
columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
dtype:数据类型。
copy:拷贝数据,默认为 False。
#Series构成的字典 构成DataFrame
d1 = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df1 = pd.DataFrame(d1)
print(df1)
#列表构成的字典构成DataFrame
d2 = {'one': [1, 2, 3, 4], 'two': [4, 3, 2, 1]}
df2 = pd.DataFrame(d2,index=['a', 'b', 'c', 'd'])
#可处理多种文件,此处以.csv为例
csv = pd.read_csv("XXX.csv")
csv.to_csv("XXX.csv")