数据分析之Pandas(基本操作)

目录

1. pandas简介

2. 导入pandas

3. Series的创建及属性

                  3.1 列表形式创建

       3.2 字典形式创建

       3.3 创建日期(periods为天数)

       3.4 Series的属性

4. DataFrame的创建及属性

        4.1 通过np.arange().reshape()进行创建              ​​​​​

        4.2 通过二维列表创建

        4.3 通过字典创建

        4.4 DataFrame的属性

5. 删除

6. 转置(行和列互换) 

7. 排序

        7.1 按值排序——sort_values

        7.2 按索引排序

8. 索引

        8.1 直接索引(使用标签筛选)

        8.2 loc(标签索引)

        8.3 iloc(位置索引)

        8.4 布尔索引

        8.5 设置行索引——set_index

        8.6 重设行索引——reindex

        8.7 还原索引——reset_index

9. 统计函数

        9.1 describe()

        9.2 unique()

        9.3 value_counts()

        9.4 head()

        9.5 tail()

        9.6 sample()

10. 读取和存储文件

11. 下章预告


1. pandas简介

        Pandas是Python的数据处理包,全名:Python Data Analysis Library,Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。

        Pandas主要有两种重要的数据结构: Series和DataFrame。Series:类似一个一维数组,一个Series对应DataFrame的一列。DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。
 

2. 导入pandas

 

3. Series的创建及属性

        3.1 列表形式创建

           数据分析之Pandas(基本操作)_第1张图片

         3.2 字典形式创建

        ​​​​​​   数据分析之Pandas(基本操作)_第2张图片

        3.3 创建日期(periods为天数)

       数据分析之Pandas(基本操作)_第3张图片

        3.4Series的属性

       数据分析之Pandas(基本操作)_第4张图片     

4. DataFrame的创建及属性

        4.1 通过np.arange().reshape()进行创建              ​​​​​

          数据分析之Pandas(基本操作)_第5张图片

        4.2 通过二维列表创建

          数据分析之Pandas(基本操作)_第6张图片

        4.3 通过字典创建

          数据分析之Pandas(基本操作)_第7张图片

        4.4 DataFrame的属性

          数据分析之Pandas(基本操作)_第8张图片

5.删除

数据分析之Pandas(基本操作)_第9张图片        axis参数:1代表删除列,0代表删除行。 

6. 转置(行和列互换) 

数据分析之Pandas(基本操作)_第10张图片

7. 排序

        7.1 按值排序——sort_values

          数据分析之Pandas(基本操作)_第11张图片

        7.2 按索引排序

         数据分析之Pandas(基本操作)_第12张图片

8. 索引

         1.Pandas里的直接索引是先列后行

         2.在布尔索引时,先筛选行 后筛选列 或者 先筛选列 后筛选行 都可以

         3.在loc, iloc筛选时是先行后列

        8.1 直接索引(使用标签筛选)

        数据分析之Pandas(基本操作)_第13张图片

        数据分析之Pandas(基本操作)_第14张图片 

        8.2 loc(标签索引)

         数据分析之Pandas(基本操作)_第15张图片

          loc与直接索引的区别:

                1.loc可以使用切片,直接索引不能。

                2.loc是先行后列,直接索引是先列后行。

        8.3 iloc(位置索引)

          数据分析之Pandas(基本操作)_第16张图片

          iloc是使用位置进行筛选,即元素下标,从0开始。

        8.4 布尔索引

          数据分析之Pandas(基本操作)_第17张图片

          生成一个布尔矩阵,然后返回True对应的元素值。

        8.5 设置行索引——set_index

          数据分析之Pandas(基本操作)_第18张图片

        8.6 重设行索引——reindex

          数据分析之Pandas(基本操作)_第19张图片

        8.7 还原索引——reset_index

          数据分析之Pandas(基本操作)_第20张图片

9. 统计函数

        9.1 describe()

          数据分析之Pandas(基本操作)_第21张图片

         describe:统计个数,平均值,标准差,四分位数等。

        9.2 unique()

          数据分析之Pandas(基本操作)_第22张图片

          unique:去除重复值。

        9.3 value_counts()

          数据分析之Pandas(基本操作)_第23张图片

         value_counts:统计元素出现的次数。

        9.4 head()

          数据分析之Pandas(基本操作)_第24张图片

        9.5 tail()

          数据分析之Pandas(基本操作)_第25张图片

        9.6 sample()

          数据分析之Pandas(基本操作)_第26张图片

10. 读取和存储文件

数据分析之Pandas(基本操作)_第27张图片

11. 下章预告

        数据分析当然离不开对缺失值的处理,下章给大家详细写一下在pandas中如果对缺失值进行处理。

        

        

        

你可能感兴趣的:(pandas,数据分析,数据挖掘,机器学习,python)