横向堆叠,将两个表在x轴向拼接在一起:
pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'
参数名称 | 说明 |
---|---|
objs | 接受多个series,dataframe,panel组合,表示参与的组合 |
axis | 连接的轴向,axis=0纵向拼接,axis=1横向拼接 |
join | 接受inner或outer,表示是按交集(inner)还是并集(outer)进行合并 |
join_axes | 接受index对象。表示其他n-1条轴的索引 |
纵向堆叠:append()法,前提是两张列表名字需要完全一样
pd.append(self,other,ignore_index=false
pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)
pd.join(self,other,on=none,how="left")#两个主键名字必须相同
pd.dataframe.combin_first(other)
def delRep(list1):
list2=[]
for i in list1:
if i not in list2:
list2.append(i)
return list2
或者使用set函数进行去重,但会数据排列
使用pd.dataframe.drop_duplicates(self,subset=None,keep="first',inplace=false),不会改变但是只能用打他发么或者series
isnull()识别缺失值,notnull()识别非缺失值,可以结合sum()来检查缺失值
pd.dateframe.dropna(self,axis=0,how='any',inplace=false),删除缺失值
pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替换缺失值
常用异常值检查:3σ原则和箱线图分析
离散标准化:标准化后数据限定在[0,1]的区间里
标准差标准化:数据分布影响小
小数定标标准化:比较好用
pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)
data是处理的数据,prefix是哑变量化后列名的前缀,columns需要编码的列名
等宽法:pd.cut(x,bins,right=true,labels=none,retbins=false)
参数名称 | 说明 |
---|---|
x | 处理的数据 |
bins | 若为int,代表离散化的类别数目,如果为序列数据,这表示切分的区间 |
right | 代表右侧是否为闭区间 |
labels | 离散化后的类别名称 |
retbins | 返回区间标签 |