随机抽样方法——DataFrame.sample()

目录

  • 前言
  • 一、函数介绍
  • 二、函数使用
  • 总结


前言

在一些情况下,数据不太均衡,这时候我们需要对数据集进行随机的抽样,而Pandas库中自带了抽样的方法


一、函数介绍

# 参数介绍
# n:要抽取的行数
# frac:当我们需要抽取数据的百分比时,我们需要用到这个参数。
# 注意:frac和n参数不可以同时使用。
# replace: 是否允许重复抽样,默认情况下为False
# weights:代表的是每个样本的权重。
# random_state: 随机种子,给定一个具体的数字,保证每次抽样的数据都是相同的。
# axis: 选择抽取数据的是行还是列,axis=0时抽取的是行,axis=1的时候抽取的是列。默认情况下axis=0,即抽取的是行。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

二、函数使用

import pandas as pd
# mean:抽取样本20000行,允许重复抽样,随机种子选取为666,可以调整random_state来让自己的实验效果达到很好。
df.sample(n=20000, replace=True, random_state=666)

参考文章:


总结

中午没有睡觉,真的很困。

你可能感兴趣的:(数据分析,概率论,机器学习,深度学习)