Pandas数据挖掘常用方法

1、文件方式创建:

df = pd.read_csv('C:\\Users\\dfzha\\2019\\SLTJ\\prd_data.csv',encoding='utf-8') #需换成自己的目录

2、数据统计:

df.describe()    # 数值列的摘要统计信息 
df.mean()        # 返回均值的所有列 
df.corr()        # 返回DataFrame中各列之间的相关性 
df.count()       # 返回非空值的每个数据帧列中的数字 
df.max()         # 返回每列中的最高值 
df.min()         # 返回每一列中的最小值 
df.median()      # 返回每列的中位数 
df.std()         # 返回每列的标准偏差

3、查看数据:

# 查看基本信息
df.index                           #查看行索引
df.columns                         #查看列索引
df.values                          #查看值
df.head(n))                        #查看前n行
df.tail(n)                         #查看最后n行

# 查看全局信息
df.shape                           #查看行数和列数
df.info()                          #查看索引、数据类型和内存信息
df.describe()                      #查看数值型列的汇总统计

# 查看缺失情况
df.isnull()                        #查看空值
df.notnull()                       #查看非空值
df.isnull().sum()                  #查看缺失值数量

# 查看列分布
df['gender'].unique())             #查看列分类范围
df['gender'].value_counts())       #查看某列的数据分布:


 4、DataFrame是一个二维的表格型数据结构,既有行索引,也有列索引。其中每列可以是不同的值类型。 特点 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算。 

data = [[1,2,3],
        [4,5,6]]
index = ['a','b']
columns = ['A','B','C']
df = pd.DataFrame(data=data, index=index, columns=columns)

5、增加数据:

直接增一行 df1.loc[‘行索引’] = 列表

函数增多行 pd.concat(objs, axis=0) objs: list of DataFrame; axis: 取0,进行行增加操作。

直接增一列 df1['列名'] = 列表

函数增多列 pd.concat(objs, axis=1) objs: list of DataFrame; axis: 取1,进行行增加操作。

#增加行
df1.loc['c'] = [7,8,9]  

#增加多行
df1 = pd.DataFrame([[22,33,44],[55,66,77]], index = ['c','d'],columns = ['A','B','C']) #创建数据,指定列索引
pd.concat([df, df1], axis=0 ) 

df1.append(df2)                   # 将df2添加 df1的末尾 (各列应相同) 
pd.concat([df1, df2],axis=1)      # 将 df1的列添加到df2的末尾 (行应相同) 
df1.join(df2,on=col1,how='inner') # SQL样式将列 df1 与 df2 行所在的列col 具有相同值的列连接起来。'how'可以是一个 'left', 'right', 'outer', 'inner'

6、数据统计

你可能感兴趣的:(Python,pandas,数据挖掘,python)