pandas的一些学习和使用
import pandas as pd
data= pd.read_csv(data_path, sep=",")
# 当读取路径中包含中文的文件,且中文文件编码为utf8的时候,需要使用open操作,否则会报错。【之前会报错,最近不适用open读取路径中包含中文的时候,也不会报错了,不知道是否是pandas解决了这个问题】
data= pd.read_csv(open(data_path, encoding="utf8"), sep=",")
# index=None写入的时候不写入pandas自己生成的索引列,
# header=None 写入的时候不写入列名(第一行)
df_d.to_csv(data_path, index=None, header=None)
loc: 基于行、列的label
iloc: 基于行和列的index
at:根据指定行、列的label定位
iat:根据行、列的index定位
ix:loc和iloc的结合体,既可以通过index,也可以通过label来定位
import pandas as pd
import numpy as np
df = pd.DataFrame({
'name': ['Mary', 'Tom', 'Jack','Jim','Tonny'],
'age': [20,22,17,30,40],
'sex': ['Female', 'Male', 'Male', 'Male', 'Female']})
# 为了清晰说明loc iloc的区别,这里定义了行索引
df.index = ['A','B','C','D','E']
# 这两个是等价的,loc选择的是从第A行到第C行,列为name和age的内容。
# 等价于iloc中从第1行到第3行,列为第0,1列。
df.loc['A':'C', ['name','age']]
df.iloc[1:4, [0,1]]
# 上面对行进行了切片,列也可以进行切片。
df.loc['A':'B', 'name':'sex']
df.iloc[1:3, 0:3]
# 同理,这两个的结果是一样的
df.at['A','name']
df.iat[0,0]
# 当然使用loc也可以实现相同的操作。
df.loc['A','name']
# 混合使用,索引和label混合使用也是可以的
df.ix[0,'name']
df.ix['A',0]
# 使用列名、行名进行删除, inplace表示直接在df对象上修改,也就是不返回结果
df.drop(columns=['name','age'], inplace=True)
df.drop(index=['A', 'C'],inplace=True)
# 使用索引删除
df.drop(df.columns[[1,2]], axis=1, inplace=True)
df.drop(df.index[[1,2]], axis=0,inplace=True)
# 使用切片
# 删除第1-3列(不包含第3列)
df.drop(df.columns[1:3], axis=1, inplace=True)
DataFrame.insert(loc, column, value, allow_duplicates=False)
# 直接在df上进行的修改,返回值为None
df.insert(2, 'height', 180) # 180是int类型,此时该列的所有值都是180。
for index, row in df.iterrows():
print(index, row['name']) # index是行索引,A,B,C,D,E;row表示该行的所有列值,使用对应的列名就可以得到对应的值
# 修改值
# 下面代码:如果年龄大于20,就将年龄修改为error
for index, row in df.iterrows():
if row['age'] > 20:
df.loc[index, 'age'] = 'error'
df_new = df[['name','age']]
df = df.set_index('name') # 这个需要接收返回值。
drop_duplicate(subset=None, keep=‘first’, inplace=False)
# 删除重复数据,根据name列去重,也就是删除列name中值一样的记录,保存最后一个。
df.drop_duplicates('name','last', inplace=True)
df.rename(columns={
'name':'姓名','age':'年龄','sex':'性别'})
res = df['sex'].value_counts()
res
# Male 3
# Female 2
# Name: sex, dtype: int64
type(res) # pandas.core.series.Series
# 访问对应的值和次数
res.index # Index(['Male', 'Female'], dtype='object')
res.values # array([3, 2], dtype=int64)
res.to_numpy # 同上
res.to_list # [3, 2]
# 将返回df中符合列名为column_name,值为Mary的df
df = df[df['colume_name'] == 'Mary']
Series是带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,Python对象等)。轴标签统称为索引。创建Series的基本方法是调用:
s = pd.Series(data, index=index)
这里,data可以是许多不同的东西:
传入的索引是轴标签的列表。
# 此时的data是ndarray,索引的长度需要和数据长度相同,如果没有传入索引,会自动创建[0至len(data)-1]长度的索引
s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])
s = pd.Series([1,3,6,np.nan,44,1])
s.index
Out[4]:
a 0.2735
b 0.6052
c -0.1692
d 1.8298
e 0.5432
dtype: float64
Out[5]: Index([u'a', u'b', u'c', u'd', u'e'], dtype='object')
使用标量的时候。
s = pd.Series(5, index=['a','b','c','d','e'])
s
Out[10]:
a 5.0
b 5.0
c 5.0
d 5.0
e 5.0
dtype: float64
具体使用字典的时候这里就暂时不显示,目前很少用到。
# Series 可以看做一个固定大小的字典,可以通过使用index作为索引来获取和设置值
s['a']
s['b'] = 12
# 判断是否有e这个索引值
'e' in s
# 获取某个索引的值,有两种方法
s['f'] # 若不存在f索引,则会报错
s.get('f') # 若不存在f索引,则会返回None,或者指定默认值
和Numpy数组方法一致,不用一个值一个值遍历序列
s = pd.Series(np.array([1,2,3,4,5]))
s+s
s*3 # 每一个值对应乘三,结果[3,6,9,12,15]
np.exp(s) #对每一个值求其以e为底的值
与numpy数组不同的地方在于:Series上的操作会自动根据标签自动对齐数据,比如:可以分别看一下s[1:] 和 s[:-1]
s[1:]+s[:-1]
0 NaN
1 4.0
2 6.0
3 8.0
4 NaN
dtype: float64
DataFrame是带有标签的二维数据结构,列的类型可能不同,可以想象成一个电子表格或者SQL表。
DataFrame是带有标签的二维数据结构,列的类型可能不同。你可以把它想象成一个电子表格或SQL表,或者 Series 对象的字典。它一般是最常用的pandas对象。像 Series 一样,DataFrame 接受许多不同类型的输入:
和数据一起,您可以选择传递index(行标签)和columns(列标签)参数。如果传递索引或列,则会用于生成的DataFrame的索引或列。因此,Series 的字典加上特定索引将丢弃所有不匹配传入索引的数据。
主要包含 index, columns, dtypes, values, shape
df.index # Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
df.columns #Index(['name', 'age', 'sex'], dtype='object')
df.dtypes
# name object
# age int64
# sex object
# dtype: object
df.values # 将dataframe转化为numpy的数组类型,可以使用这个属性进行转化
# array([['Mary', 20, 'Female'],
# ['Tom', 22, 'Male'],
# ['Jack', 17, 'Male'],
# ['Jim', 30, 'Male'],
# ['Tonny', 40, 'Female']], dtype=object)
df.shape # (5,3)
index是各种列索引的并集,
d = {
'one': pd.Series([1,2,3], index=['a','b','c']),
'two': pd.Series([1,2,3,4], index=['a','b','c','d'])
}
df = pd.DataFrame(d)
# df = pd.DataFrame({'time':pd.Series(time), 'count':pd.Series(count)})
df = pd.DataFrame(d, index=['c','a','d'])
df = pd.DataFrame(d, index=['c','a','d'], columns=['two','three'])
df
one two
a 1.0 1
b 2.0 2
c 3.0 3
d NaN 4
# 如果在DataFrame中增加了index和columns两个属性,那么在新建对象的时候新增的索引和列会根据Series中的index取
one two
c 3.0 3
a 1.0 1
d NaN 4
two three
c 3 NaN
a 1 NaN
d 4 NaN
list_columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11']
df_local = pd.DataFrame(columns=list_columns) # 创建一个只有列索引的空数据
df_local
# 将数据类型object转换成日期类型
df['time'] = pd.to_datetime(df['time'])
score = np.array([[80, 88], [82, 81], [84, 75], [86, 83], [75, 81]])
df = pd.DataFrame(score, columns=['math','english'])
df.min() # 获取每一列的最小值
type(df.min()) # pandas.core.series.Series
# 标准化, gray.min()获取的是每一列的最小值 gray——DataFrame结构
# 计算灰色关联分析里面得到的
gray=(gray - gray.min()) / (gray.max() - gray.min())