1、文件方式创建:
df = pd.read_csv('C:\\Users\\dfzha\\2019\\SLTJ\\prd_data.csv',encoding='utf-8') #需换成自己的目录
2、数据统计:
df.describe() # 数值列的摘要统计信息
df.mean() # 返回均值的所有列
df.corr() # 返回DataFrame中各列之间的相关性
df.count() # 返回非空值的每个数据帧列中的数字
df.max() # 返回每列中的最高值
df.min() # 返回每一列中的最小值
df.median() # 返回每列的中位数
df.std() # 返回每列的标准偏差
3、查看数据:
# 查看基本信息
df.index #查看行索引
df.columns #查看列索引
df.values #查看值
df.head(n)) #查看前n行
df.tail(n) #查看最后n行
# 查看全局信息
df.shape #查看行数和列数
df.info() #查看索引、数据类型和内存信息
df.describe() #查看数值型列的汇总统计
# 查看缺失情况
df.isnull() #查看空值
df.notnull() #查看非空值
df.isnull().sum() #查看缺失值数量
# 查看列分布
df['gender'].unique()) #查看列分类范围
df['gender'].value_counts()) #查看某列的数据分布:
4、DataFrame是一个二维的表格型数据结构,既有行索引,也有列索引。其中每列可以是不同的值类型。 特点 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算。
data = [[1,2,3],
[4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index=index, columns=columns)
5、增加数据:
直接增一行 df1.loc[‘行索引’] = 列表
函数增多行 pd.concat(objs, axis=0) objs: list of DataFrame; axis: 取0,进行行增加操作。
直接增一列 df1['列名'] = 列表
函数增多列 pd.concat(objs, axis=1) objs: list of DataFrame; axis: 取1,进行行增加操作。
#增加行
df1.loc['c'] = [7,8,9]
#增加多行
df1 = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C']) #创建数据,指定列索引
pd.concat([df, df1], axis=0 )
df1.append(df2) # 将df2添加 df1的末尾 (各列应相同)
pd.concat([df1, df2],axis=1) # 将 df1的列添加到df2的末尾 (行应相同)
df1.join(df2,on=col1,how='inner') # SQL样式将列 df1 与 df2 行所在的列col 具有相同值的列连接起来。'how'可以是一个 'left', 'right', 'outer', 'inner'
6、数据统计