pandas学习笔记

一、访问某列

df[‘video_frame’]

二、添加一列

df[‘game_play’]

三、drop_duplicates()

添加链接描述
作用:
去除重复项。
用法:
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
参数:
subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

四、df.sample()

添加链接描述
添加链接描述
用法:
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
n是要抽取的行数。(例如n=20000时,抽取其中的2W行)
frac是抽取的比列。
random_state是随机数种子,相同种子随机抽取相同的数。

五、pandas的tolist()函数

添加链接描述
作用:
Pandas的tolist()函数用于将一个系列或数据帧中的列转换为列表。

六、pandas.isin()函数

添加链接描述
用来清洗数据,过滤某些行(选出想要的行)
pandas学习笔记_第1张图片
pandas学习笔记_第2张图片
可以看到输出的是一个布尔索引,最后其实就是根据布尔索引来筛选出想要的数据。
指定列名即可以用截图里的方式data.Admitted,也可以用data[‘Admitted’]这样的方式。
最后我们直接要上述的布尔索引,扔到data的索引里就筛选出数据了。
pandas学习笔记_第3张图片
实例:

def add_cols(df):
    df['game_play'] = df['video_frame'].str.split('_').str[:2].str.join('_')
    if 'video' not in df.columns:
        df['video'] = df['video_frame'].str.split('_').str[:3].str.join('_') + '.mp4'
    return df

if debug:
    helmets = add_cols(helmets)
    labels = add_cols(labels)
    # Select `n_debug_samples` worth of videos to debug with
    sample_videos = labels['video'].drop_duplicates() \
        .sample(n_debug_samples, random_state=random_state).tolist()
    sample_gameplays = ['_'.join(x.split('_')[:2]) for x in sample_videos]
    tracking = tracking[tracking['game_play'].isin(sample_gameplays)]
    helmets = helmets[helmets['video'].isin(sample_videos)]
    labels = labels[labels['video'].isin(sample_videos)]
tracking.shape, helmets.shape, labels.shape

七、df.groudby()

添加链接描述
**作用:**按参数分组,list之后的结果是元素是元组的列表。

你可能感兴趣的:(numpy学习笔记,python,机器学习,深度学习)