Pandas是当前最流行、最常用的数据分析工具。当处理表格数据(比如存储在电子表格或数据库中的数据)时,pandas是最适合您的工具。它将帮助您探索、清理和处理您的数据。数据表被称为DataFrame,panda支持与多种文件格式或数据源的集成(csv、excel、sql、json、parquet…)。从每个数据源导入数据是由前缀为read *的函数提供的。类似地,to_*方法用于存储数据……选择或过滤特定的行和或列?过滤条件下的数据?在pandas中可以使用切片、选择和提取所需数据的方法。它是基于numpy,且集成了matplotlib模块。
全面支持数据分析项目的研发步骤 ( 获取->清洗 -> 处理并计算 -> 视图分析 );
提供获取、存储数据功能 ( csv、json、excel… );
清洗数据及扩充数据类型;
对数据进行过滤、选择;
聚合计算 ( max、min、mean… );
使用方法:
import pandas as pd
from pandas import Series
# 1、一维数组
sel = Series(data=[1,2,3,4], index=['a','b','c','d'])
result= list(sel.iteritems())
""" Result:
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]
"""
# 2、传入字典
dict = {"rad" : 100,'ji':200,'sad':900,'koo':800}
# 3、重新设定索引
new_sel= sel.reindex(['b','a','c','d','e'])
""" Result:
b 2.0
a 1.0
c 3.0
d 4.0
e NaN
dtype: float64
"""
# 4、删除数据
sel2 = pd.Series(range(4,10))
data = sel2.drop([2,3])
""" Result:
0 4
1 5
4 8
5 9
dtype: int64
"""
# 5、计算
sel3 = pd.Series(data=[12,23,14,15],index=['Aree','Rree','Miie','Kiie'])
sel4 = pd.Series(data=[11,13,24,25],index=['Oree','Rree','Aiie','Diie'])
""" Result:
Aiie NaN
Aree NaN
Diie NaN
Kiie NaN
Miie NaN
Oree NaN
Rree 10.0
# 6、过滤筛选
sel5 = pd.Series(data=[1,2,6,4],index=list('abcd'))
re = sel5[sel5>3]
"""Result:
c 6
d 4
dtype: int64
"""
#传入字典
data = {
'Name' : pd.Series(['zs','ls','we'], index=list('abc')),
'Age' : pd.Series(['10','20','30','40'], index=list('abcd')),
'Country' : pd.Series(['中国','日本','韩国'], index=list('abc'))
}
df2 = DataFrame(data) # 若该列无索引,则会填充NaN
# 将df2转化成字典
new
_ditc = df2.to_dict()
""" Result:
df2 Name Age Country
a zs 10 中国
b ls 20 日本
c we 30 韩国
d NaN 40 NaN
new_dict = {'Name': {'a': 'zs', 'b': 'ls', 'c': 'we', 'd': nan}, 'Age': {'a': '10', 'b': '20', 'c': '30', 'd': '40'},