组队学习-pandas数据处理与分析-第3章

当两个“*”指代的行元素和列元素在DataFrame的行索引和列索引中都为重复值,此时结果是什么类型?

组队学习-pandas数据处理与分析-第3章_第1张图片

完成以下索引的相关操作:

选出A学校和B学校的大一女生。

组队学习-pandas数据处理与分析-第3章_第2张图片

select_dtypes()是一个实用函数,它能够从表中选出或剔除相应类型的列。若要选出所有数值型的列,只需使用.select_dtypes(include='number');若要剔除所有布尔类型和int64类型的列,只需使用.select_dtypes(exclude=['bool', 'int64'])。请利用布尔列表选择的方法结合DataFrame的dtypes属性在learn_pandas数据集上实现这个功能。

组队学习-pandas数据处理与分析-第3章_第3张图片

 利用query()选出A学校和B学校的大一女生。

 组队学习-pandas数据处理与分析-第3章_第4张图片

 3.2.1节开头处利用from_product构造了df_multi,请分别利用from_tuples和from_arrays构造一个相同的DataFrame

组队学习-pandas数据处理与分析-第3章_第5张图片

尝试在rename_axis()中使用函数完成与例子中一样的功能,即把Upper和Other分别替换为Changed_row和Changed_col。

组队学习-pandas数据处理与分析-第3章_第6张图片

将上述df_temp的内层行索引合并到与外层行索引(用下划线连接)后删除内层行索引,即结果表压缩为两层列索引,同时再把外层行索引的索引名重命名为“Big_Other”。 

组队学习-pandas数据处理与分析-第3章_第7张图片

一、实现sample()函数

如果把DataFrame的每一行看作一个样本,或把每一列看作一个特征,再把整个DataFrame看作总体,想要对样本或特征进行随机抽样就可以用sample()函数。有时在拿到大型数据集后,想要对统计特征进行计算来了解数据的大致分布,但是这很费时间。同时,由于许多统计特征在等概率不放回的简单随机抽样条件下,是总体统计特征的无偏估计,比如样本均值和总体均值,那么就可以先从整张表中抽出一部分来做近似估计。

sample()函数中的主要参数为n、axis、frac、replace和weights,前三个分别是指抽样数量、抽样的方向(0为行、1为列)和抽样比例(0.3则为从总体中抽出30%的样本)。replace和weights分别是指是否放回和每个样本的抽样相对概率,replace=True则表示有放回抽样。例如,对下面构造的df_sample以value值的相对大小为抽样概率进行有放回抽样,抽样数量为3。

组队学习-pandas数据处理与分析-第3章_第8张图片

二、公司员工数据的索引操作

现有一份公司员工数据集:

分别只使用query()和loc选出年龄不超过四十岁且工作部门为Dairy或Bakery的男性。

组队学习-pandas数据处理与分析-第3章_第9张图片

选出员工ID号为奇数所在行的第1、第3和倒数第2列。

组队学习-pandas数据处理与分析-第3章_第10张图片

组队学习-pandas数据处理与分析-第3章_第11张图片

组队学习-pandas数据处理与分析-第3章_第12张图片

按照以下步骤进行索引操作。

把后三列设为索引后交换内外两层

恢复中间层索引

修改外层索引名为Gender

用下划线合并两层行索引

把行索引拆分为原状态

修改索引名为原表名称

恢复默认索引并将列保持为原表的相对位置

 

三、巧克力评价数据的索引操作

现有一份关于巧克力评价的数据集:

把列索引名中的换行符替换为空格。

组队学习-pandas数据处理与分析-第3章_第13张图片

 

巧克力Rating评分为1至5,每0.25分一档,请选出2.75分及以下且可可含量Cocoa Percent高于中位数的样本。

组队学习-pandas数据处理与分析-第3章_第14张图片

组队学习-pandas数据处理与分析-第3章_第15张图片

 组队学习-pandas数据处理与分析-第3章_第16张图片

 

选出Review Date在2012年之后且Company Location不属于France、Canada、Amsterdam或Belgium的样本。

组队学习-pandas数据处理与分析-第3章_第17张图片

 

 

你可能感兴趣的:(学习)