python pandas 的简单使用

Pandas是python中数据分析的一个模块
       Pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive
上面是pandas源代码中对pandas的一段描述,说pandas是python中一个快速、灵活的数据处理包,提供了简单并且直观处理数据的方式(翻译水平一般大体就是这样子的)
(!!!一下所有方法均在python3.6下正常运行)
1.读取数据
pandas中提供了丰富的读取数据的方式
import pandas as pd
pd.read_excel('data路径',index_col='',usecols=[x,x])
还有读取其他文件类型的函数
python pandas 的简单使用_第1张图片
使用方法和read_excel方法一样
其中read_excel()函数中第一各参数是数据文件的路径,第二个参数是设置序列,例如user_id 、序号之类,第三个参数是选取那一列,填写一个列表,具体可以写列行,如果想选择1,3,5行直接写usecols=[1,3,5]即可 ,需要注意行数的下表是从0开始的,设置的序列也算作一列
2.数据处理
pandas读取数据之后的数据类型是 类似一个表格
当你再选取某一列的时候 数据类型是 类似一个列表
查看数据类型用  type() 函数就行了

数据进行运算生成新的一列的时候直接运算即可例如
data['new'] = data['old1']-data['old2']
还可以直接进行筛选例如
data = data[data['new']  > 100 ] # 筛选出new列中大于100的数据
像是一些max min sum std等常用数学函数直接可以使用

数据累加data.cumsum()函数

数据排序sort_values(['new'] , ascending=False) 对new列进行降序排列 true是升序

data.corr()['new'] 函数计算于new列与其他列的相关系数 默认用的是Parson相关系数

data.concat() 连接对象。。具体参数源代码中解释十分清楚

。。。常用的就是这些,如果遇到其他函数直接查看源代码就行,里面解释的非常清楚


你可能感兴趣的:(python,Python,数据分析,pandas)