Python数据分析常用的函数,比如:groupby、merge...等

记录一些数据分析用到的函数

1.groupby

df.groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)

trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)
tst_click['rank'] = tst_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)

2.merge
merge函数参数表格

merge(left,right,how='inner',on=None,left_on=None,right_on=None,
left_index=False,right_index=False,sort=False,suffixes=   
('_x','_y'),copy=True,indicator=False,validate=None)

Python数据分析常用的函数,比如:groupby、merge...等_第1张图片
本baseline用到trn_click = trn_click.merge(item_df, how='left', on=['click_article_id'])

3.describe

describe会返回一系列参数,count,mean,std,min,25%,50%,75%,max。

describe()返回值的解释如下:

  1. count:返回数组的个数,如上述为4个元素,所以返回为4;
  2. mean:返回数组的平均值,1 3 5 9的平均值为4.5;
  3. std:返回数组的标准差;
  4. min:返回数组的最小值;
  5. 25%,50%,75%:返回数组的三个不同百分位置的数值,也就是统计学中的四分位数,其中50%对应的是中位数。
  6. max:返回列表的最大值。

4.nunique()
Pandas nunique() 用于获取唯一值的统计次数。

#训练集中的用户数量为20w
trn_click.user_id.nunique()

5.reset_index()
数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。
Python数据分析常用的函数,比如:groupby、merge...等_第2张图片

记录时间:2020年11月27日,会持续更新。

你可能感兴趣的:(#,2020年CCF数据科学竞赛,机器学习比赛分享,数据分析,python,机器学习)