Df.map(),参数里可以传入一个函数或者有映射关系的字典型对象
Df.replace(, ),将某个值替换成另外一个值,可以一次性替换多个值,可以每个值都有不同的替换值,传入的参数也可以是字典
Pd.rename(index = str.title, columns = str.upper),重命名轴索引,这里的index设置为原有index首字母为大写,columns设置为原有的全部大写
Pd.cut(bins, labels),将数据进行划分,划分的依据是bins,比如bins如果为[18, 25, 35, 60, 100],那么就是前开后闭,labels参数,是用来设置面元名称的,如果传入的是面元的数量,那会根据数据的最小值和最大值计算等长分割
Pd.qcut(),可以根据分位数对数据进行划分,这个就是每个划分都有相同的频数,需要传入的划分数,也可以支持传入自定义的分位数,如[0, 0.1, 0.5, 0.9, 1.]
Np.sign(),符号函数
Np.random.permutation(),产生一个表示新顺序的整数数组
Df.take(),获取数据
Df.sample(n = 3, replace = True),选取随机子集,replace参数,是否有放回的取数据
Pd.get_dummies(df[‘key’], prefix = ‘key’),将分类变量转换成“哑变量”,prefix参数为将DataFrame列加上一个前缀,df_with_dummy = df[[‘data1’]].join(dummies)
Pd.unique(),返回不重复的值
Pd.get_dummies(pd.cut(values, bins)),get_dummies和cut组合操作
‘::’.join(pieces),用两个冒号把所有元素和连起来
Python内置字符串方法:
Count:返回子串在字符串中的出现次数
Endswith、startswith:如果字符串以某个后缀结尾,返回True
Join:将字符串连接其他字符串序列
Index:如果字符串中找到子串,返回第一个字符所在的位置,如果没有返回-1
Find:返回第一个发现的子串的第一个字符所在的位置,如果没有返回-1
Rfind:返回最后一个发现的子串的第一个字符所在的位置,没有返回-1
Repalce:用另一个字符串替代指定子串
Strip,rstrip,lstrip,出去空白符(包括换行)
Split,通过指定的分隔符拆分为一串子串
lower,upper,分别将字符串转换为大写和小写
Ljust,rjust,用空格填充字符串的空白
Ser.str.contains(‘gmail’),判断是否含有字符串
层次化索引,
Df.unstack(),将层次化索引解开
df.stack(),转化为层次化索引
Df.swaplevel(‘key1’, ‘key2’),将这两个层更换顺序
Df.sort_index(level = 1),根据层次1进行排序
Frame.swaplevel(0, 1).sort_index(level = 0)
Frame.sum(level = ‘key2’),根据某层进行汇总统计
Df.set_index([‘a’, ‘d’], drop = True),将一个或者多个列转换为行索引,并且会创建一个新的DataFrame,drop参数是是否把那些列删除,False表示不删除,保留下来
Df.reset_index(),将层次化的索引转移到列里面