数据预处理—Python常用函数归纳

join方法

功能

join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

语法

str.join(sequence)

用法

str = "-";
seq = ("a", "b", "c"); # 字符串序列
print str.join( seq );#输出:a-b-c

pd.concat方法

功能

将多个Dataframe进行合并

语法

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False,
copy=True)

objs:待合并的对象集合,可以是Serice,Dataframe
axis:{0,1,…}合并方向,默认为0,表示纵向,1表示横向
join:{inner,outer}:合并方式,默认为outer,表示并集,inner表示交集
join_axes:按哪些对象的索引保存
ignore_index:{False,True},是否忽略原index,默认为不忽略
keys:为原始dataframe添加一个键,默认为无

用法

pandas contact 之后,一定要记得用reset_index去处理index,不然容易出现莫名的逻辑错误

Dataframe.ix & iloc &loc方法

功能

loc——通过行标签索引行数据
iloc——通过行号索引行数据
ix——通过行标签或者行号索引行数据(基于loc和iloc 的混合)

用法

import pandas as pd
data=[[1,2,3],[4,5,6]]
index=['a','b']#行号
columns=['c','d','e']#列号
df=pd.DataFrame(data,index=index,columns=columns)#生成一个数据框

#print df.loc['a']
'''
c    1
d    2
e    3
'''
import pandas as pd
data=[[1,2,3],[4,5,6]]
index=['a','b']#行号
columns=['c','d','e']#列号
df=pd.DataFrame(data,index=index,columns=columns)#生成一个数据框

print df.ix[0]
'''
c    1
d    2
e    3
'''
print df.ix['a']
'''
c    1
d    2
e    3
'''

分别使用loc、iloc、ix 索引第一列的数据:

import pandas as pd
data=[[1,2,3],[4,5,6]]
index=['a','b']#行号
columns=['c','d','e']#列号
df=pd.DataFrame(data,index=index,columns=columns)#生成一个数据框

print df.loc[:,['c']]

print df.iloc[:,[0]]

print df.ix[:,['c']]

print df.ix[:,[0]]
#结果都为
'''
   c
a  1
b  4
'''

你可能感兴趣的:(python)