一、sort_values函数（python-pandas库）

sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')

参数说明：

by: 可以填入字符串或者字符串组成的列表。也就是说，如果axis=0，那么by="列名"；如果axis=1，那么by="行名"。

axis: {0 or ‘index’, 1 or ‘columns’}, default 0，意思就是如果axis=0，就按照索引排序，即纵向排序；如果axis=1，则按列排序，即横向排序。默认是axis=0。

ascending: 输入布尔型，True是升序，False是降序，也可以可以是[True,False]，即第一个字段升序，第二个字段降序。

inplace: 输入布尔型，是否用排序后的数据框替换现有的数据框

kind: 排序的方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}，默认是使用‘quicksort’。这个参数用的比较少，大家可以试一试。

na_position : {‘first’, ‘last’}，缺失值的排序，也就说决定将缺失值放在数据的最前面还是最后面。first是排在前面，last是排在后面，默认是用last。

例子：

scores= pd.DataFrame([[87,56,85],[46,87,97],[34,65,86]],columns=['jack', 'rose', 'mike'])

scores

1.对‘rose’这一列进行降序排序：

df_sc=scores.sort_values(by='rose',ascending=False)

df_sc

2.对第0行进行升序排序：

scores.sort_values(by=0,axis=1,ascending=True)

3.第1行进行升序，第0行进行降序：

scores.sort_values(by=[1,0],axis=1,ascending=[True,False]

4.观察数据

data.head：

查看数据的前五行。

data.tail：

查看数据的后五行。

data.shape ：

查看矩阵或数组的维数，或者是说数据表的结构（有几行几列）。

data.info：

查看数据的基本信息，如：数据类型、缺失值数量等。

二、中英文分类

#brand目标：中文-中英-英文

2.1 包含中文，纯英文

for i in range(0,len(file1)):

result = re.compile(u'[\u4e00-\u9fa5]')

contents = file1['brand'][i]

match = result.search(contents)

if match:

file1.loc[i,['index1']]=0 #0为包含中文

else:

file1.loc[i,['index1']]=1 #1为纯英文

2.1 包含英文，纯中文

for i in range(0,len(file1)):

file1.loc[i,['index2']]=len(re.findall('[a-zA-Z]+', file1['brand'][i]) ) #0为纯中文，1为包含英文