数据分析 numpy基础(三)

1. 合并数据

堆叠合并数据

横向堆叠,将两个表在x轴向拼接在一起:

pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'

参数名称 说明
objs 接受多个series,dataframe,panel组合,表示参与的组合
axis

连接的轴向,axis=0纵向拼接,axis=1横向拼接

join 接受inner或outer,表示是按交集(inner)还是并集(outer)进行合并
join_axes 接受index对象。表示其他n-1条轴的索引

纵向堆叠:append()法,前提是两张列表名字需要完全一样

pd.append(self,other,ignore_index=false

主键合并

 pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)

pd.join(self,other,on=none,how="left")#两个主键名字必须相同

重叠合并

pd.dataframe.combin_first(other)

2.清洗数据

记录去重

def delRep(list1):
    list2=[]
    for i in list1:
        if i not in list2:
           list2.append(i)
   return list2

或者使用set函数进行去重,但会数据排列 

使用pd.dataframe.drop_duplicates(self,subset=None,keep="first',inplace=false),不会改变但是只能用打他发么或者series

 4.检查和处理缺失值

isnull()识别缺失值,notnull()识别非缺失值,可以结合sum()来检查缺失值

pd.dateframe.dropna(self,axis=0,how='any',inplace=false),删除缺失值

pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替换缺失值

常用异常值检查:3σ原则和箱线图分析

5.标准化处理

离散标准化:标准化后数据限定在[0,1]的区间里

标准差标准化:数据分布影响小

小数定标标准化:比较好用

6.转变数据

哑变量处理:

pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)

data是处理的数据,prefix是哑变量化后列名的前缀,columns需要编码的列名

离散化:

          等宽法:pd.cut(x,bins,right=true,labels=none,retbins=false)

参数名称 说明
x 处理的数据
bins 若为int,代表离散化的类别数目,如果为序列数据,这表示切分的区间
right 代表右侧是否为闭区间
labels 离散化后的类别名称
retbins 返回区间标签

 

 

你可能感兴趣的:(数据分析)