数据框(DataFrame)是pandas中一种重要的数据结构,你可以将其想象为一个关系型数据表格,其中包含多个行和已命名的列。可以通过字典的方式创建DataFrame,示例代码如下:
import pandas as pd
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
我们打印cities,可以看到DataFrame的内容如下:
print(citys)
City name Population
0 San Francisco 852469
1 San Jose 1015785
2 Sacramento 485199
下面进入本次介绍的主要内容。DataFrame有一个属性被称为index,该属性会向DataFrame的每一行赋一个标识符值。默认情况下,在构造DataFrame时,pandas会赋给每一行0,1,2,3··· 这样的索引值。而且索引值在创建后是稳定的,也就是说,它们不会因为数据重新排序而发生改变。
通过上面一番解释,我们就会明白索引值与相应行的内容在一开始就绑定好了,所以我们要想随机对行进行排序,只需要打乱索引值的顺序即可。我们可以这样做:
cities.reindex([2, 0, 1])
通过DataFrame的reindex方法实现改变行的排序。但是通过这种方法只能实现特定方式的排序,并不能任意打乱,要实现随机任意排序,还需要借助numpy中的 random.permutation
函数。
import numpy as np
cities.reindex(np.random.permutation(cities.index))
最后还需要注意一点,通过上面的命令只是输出了乱序之后的中间数据框,并非cities本身,要实现彻底改变cities本身的行排序,不要忘记还需要将乱序后的中间DataFrame赋值给cities,如下:
cities = cities.reindex(np.random.permutation(cities.index))