pandas模块的作用和使用方法

Pandas是当前最流行、最常用的数据分析工具。当处理表格数据(比如存储在电子表格或数据库中的数据)时,pandas是最适合您的工具。它将帮助您探索、清理和处理您的数据。数据表被称为DataFrame,panda支持与多种文件格式或数据源的集成(csv、excel、sql、json、parquet…)。从每个数据源导入数据是由前缀为read *的函数提供的。类似地,to_*方法用于存储数据……选择或过滤特定的行和或列?过滤条件下的数据?在pandas中可以使用切片、选择和提取所需数据的方法。它是基于numpy,且集成了matplotlib模块。

    全面支持数据分析项目的研发步骤 ( 获取->清洗 -> 处理并计算 -> 视图分析 );
    提供获取、存储数据功能 ( csv、json、excel… );
    清洗数据及扩充数据类型;
    对数据进行过滤、选择;
    聚合计算 ( max、min、mean… );
   

使用方法:

import pandas as pd
from pandas import Series
# 1、一维数组
sel = Series(data=[1,2,3,4], index=['a','b','c','d'])
result= list(sel.iteritems())

""" Result:
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]
"""
# 2、传入字典
dict = {"rad" : 100,'ji':200,'sad':900,'koo':800}

# 3、重新设定索引
new_sel= sel.reindex(['b','a','c','d','e'])

""" Result:
b    2.0
a    1.0
c    3.0
d    4.0
e    NaN
dtype: float64
"""

# 4、删除数据
sel2 = pd.Series(range(4,10))
data = sel2.drop([2,3])

""" Result:
0    4
1    5
4    8
5    9
dtype: int64
"""

# 5、计算
sel3 = pd.Series(data=[12,23,14,15],index=['Aree','Rree','Miie','Kiie'])
sel4 = pd.Series(data=[11,13,24,25],index=['Oree','Rree','Aiie','Diie'])

"""    Result:
Aiie     NaN
Aree     NaN
Diie     NaN
Kiie     NaN
Miie     NaN
Oree     NaN
Rree    10.0

# 6、过滤筛选
sel5 = pd.Series(data=[1,2,6,4],index=list('abcd'))
re = sel5[sel5>3]

"""Result:
c    6
d    4
dtype: int64
"""

#传入字典

data = {
    'Name' : pd.Series(['zs','ls','we'], index=list('abc')),
    'Age' : pd.Series(['10','20','30','40'], index=list('abcd')),
    'Country' : pd.Series(['中国','日本','韩国'], index=list('abc'))
}
df2 = DataFrame(data)     # 若该列无索引,则会填充NaN
# 将df2转化成字典
new

_ditc = df2.to_dict()

""" Result:
df2      Name Age Country
    a   zs  10      中国
    b   ls  20      日本
    c   we  30      韩国
    d  NaN  40     NaN

new_dict = {'Name': {'a': 'zs', 'b': 'ls', 'c': 'we', 'd': nan}, 'Age': {'a': '10', 'b': '20', 'c': '30', 'd': '40'},

你可能感兴趣的:(pandas,python,数据分析)