Pandas是python的一个数据分析包。最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初的开发目的是作为金融数据分析工具,所以pandas为时间序列分析提供了很好的支持。
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
返回唯一值
pandas.series返回唯一值的个数
pandas.series返回唯一值
得到的结果是一个Array:
删除满足特定条件的行
思考过程如下所示:
首先,想到的是df.drop(n, inplace=True)
实现的功能是根据行号n,查找到该行后,删除该行数据。并且通过inplace=True来实现新dataframe覆盖旧dataframe,使得删除操作生效。
接下来,要做的是返回满足特定条件的行号
正确的写法:
错误的写法:
最后一步,得到可以删除满足特定条件的行对应的代码
排序与分组
比如有这么一组数据:
先要排序:
再分组:
得到的结果如下所示:
pandas操作比较多,最权威的当然是查看python官方文档。不过实践中使用过后,大脑才会有比较深刻的印象。边用边学未尝不可。跟着三月桑一起,每天进步一点吧^_^
长按下方图片,识别图中二维码,关注“数据分析师手记”哦