numpy pandas 数据处理操作总结

  1. 打开文件
a = pd.read_csv('a.txt', header = None, sep = '[_\t]+')

header控制文件中是否包含列名,sep控制划分方式,可使用正则表达式

  1. 文件合并
c = pd.concat([a,b])

列相同的两个文件纵向连接

  1. 文件排序
a = a.sort_values(['col1','col2'])

先根据列’col1’的值进行排序,'col1’值相同的再根据’col2’的值进行排序

  1. 数值统计
b = a['col1'].value_counts()

统计a 'col1’这一列的数值分布
输出b有:b.index为a[‘col1’]中的各个值,b.values为对应每个值出现的次数

  1. isin
a['col1'].isin(b)

判断a 'col1’这一列的每一项是否在b中

  1. 分布直方图
a = np.array([22,87,5,43,56,73,55,54,11,20,51,5,79,31,27]) 
plt.hist(a, bins =  [0,20,40,60,80,100]) 
plt.title("histogram") 
plt.show()
  1. 判断是否为空:
pd.isnull(a)

设置为空:

a['col1'][0] = np.nan
  1. 去掉重复行
b = np.array(list(set([tuple(t) for t in a])))
  1. 归一化
y = np.linalg.norm(x, axis=1, keepdims=True)
x = x / y
  1. 数组拼接
np.concatenate((a,b),axis=0)
np.concatenate((a,b),axis=1)

axis控制拼接的轴,对于2维数组,0表示纵向拼接,1表示横向拼接

你可能感兴趣的:(技术总结)