numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第1张图片

数据分析最常用到的三个包分别是:numpy、pandas和matplotlib,其中numpy用于数学计算,如线性代数中的矩阵计算,pandas是基于numpy的数据分析工具,能更方便的操作大型数据集,pandas中的DataFrame(数据框)方便对于数据表结构中的数据进行分析,matplotlib是专用于数据分析可视化的包。本章主要学习numpy和pandas的基础内容。

本章知识点汇总如下:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第2张图片

【一维数据】

一、Numpy(array)

1.1、数据包的导入及重命名

0371364c45170c0457c6a7bfb9ff83d2.png

1.2、定义一维数组

3bfb7d9da0f126e7809e81be0ed95387.png

1.3、如何查询数组中的元素

访问数组中的元素时,采用方括号"[]"加想要获取元素所在的位置来获取,且第一个元素是从0开始,a[0]表示第1个元素,以此类推。

2ccba851bb89fab90f1d0165b5f75ea9.png

1.4、切片访问

当想要获取数组中某几个元素时,采用的冒号间隔的方式,且获取的元素时默认为前闭后开的方式,即a[1:3]表示获取数组中a[1]和a[2](第2和第3个元素),并不包含a[3](第4个)元素。

21a0279a06d44384dfff25fdf6c2b0aa.png

1.5、循环访问

循环访问数组中的每一个元素时采用for i in a 的方式

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第3张图片

1.6、查看数据类型

6a73e8cb8b4db8b2298baef12118a145.png

二、Pandas(Series)

2.1、pandas定义一维数据

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第4张图片

2.2、获取描述性统计信息(describe)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第5张图片

2.3、切片访问(iloc和loc)

iloc通过索引(位置)来获取值,loc通过名称来获取值。

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第6张图片

2.4、向量化运算:向量相加

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第7张图片

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第8张图片

2.5、删除缺失值(dropna)

s3中的元素如下:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第9张图片

s3中存在缺失值,删除s3中的缺失值的方法:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第10张图片

2.6、填充缺失值

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第11张图片

【二维数据】

三、Numpy(array)

3.1、Numpy定义二维数组

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第12张图片

3.2、查询元素

f6441eefcc67159389a8bc6495e1b337.png

3.3、查询某一行或某一列所有元素

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第13张图片

3.4、求平均值

axis=1按行计算每一行元素的均值,axis=0按列计算每一列元素的均值。

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第14张图片

四、Pandas(DataFrame)

4.1、定义一个字典salesDict,将字典传入数据框salesDf

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第15张图片

4.2、有序数据框

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第16张图片

4.3、平均值

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第17张图片

4.4、查询——iloc和loc

iloc查询代码:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第18张图片

loc查询代码:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第19张图片

4.5、查询某几列

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第20张图片

4.6、通过条件判断筛选

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第21张图片

五、数据分析实践案例

数据分析基本过程:①提出问题,②理解数据需求 ,③数据清洗, ④构建模型 。⑤数据可视化;

数据清洗的基本过程:①选择子集,②列名重命名,③缺失数据处理,④数据类型转换,⑤数据排序,⑥异常值处理。

5.1、读取excel中的数据

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第22张图片

5.2、查看数据大小(shape)

645dfaf5969b7a570017f9ec4188341f.png

5.3、查看列的数据类型(dtypes)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第23张图片

5.4、描述性统计

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第24张图片

5.5、查看某几列内容

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第25张图片

5.6、重命名(rename)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第26张图片

5.7、缺失值处理

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第27张图片

5.8、数据类型转换(astype)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第28张图片

5.9、字符串分割(split)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第29张图片

对数据集中的购药时间(2018-01-01 星期五)以空格进行分列得到只有日期的结果:

定义分割函数splitSalestime,对购药时间进行分列:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第30张图片

5.9.1、将分割后的销售日期重新赋值给新的列名销售日期5.9.2

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第31张图片

5.10、将字符串类型转换为日期格式(to_datetime)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第32张图片

5.11、排序(sort_values,ascending=True表示升序,ascending=False表示降序)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第33张图片

但是排序后的行号依然是之前的索引值,重新修改行名(index)

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第34张图片

5.12、删除异常值

对df做描述性统计发现销售数量出现负值(异常),对异常值进行删除处理如下:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第35张图片

第二步:构建模型(理解业务指标的含义,并清楚数据计算统计口径)

指标1:月均消费次数=总消费次数/月份数,其中总消费次数计算时,同一天内,同一个人发生的所有消费算作一次消费

总消费次数:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第36张图片

月份数:

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第37张图片

月均消费次数:

1db0b929c58126788084149fad297a8d.png

指标2:月均消费金额=总消费金额/月份数

numpy genfromtxt 读取字符_Numpy和Pandas常用数据处理方法_第38张图片

指标3:客单价=总消费金额/总消费次数

cd3477866e6f6e07491ed8a7393f4ac8.png

你可能感兴趣的:(numpy,genfromtxt,读取字符,pandas,series,相加,pandas,对某一行标准化,pandas获取行号)