pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
https://pandas.pydata.org/
pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool【pandas就是一个数据分析的工具】
编程模型【数据类型】
DataFrame is a 2-dimensional labeled data structure with columns of potentially different types
【DataFrame 就是一个 二维 标签数组,多个不同数据类型的列】
【 index (row labels) and columns】
【DataFrame就是一个table 有行有列】
如何创建df :
Dict of 1D ndarrays, lists, dicts, or Series
2-D numpy.ndarray
Structured or record ndarray
A Series
Another DataFrame
【df 可以由多种数据 转化而来】
a dict of Series objects
df =》 table =》 有行有列
DataFrame = DataFrame【Series】
数据加载
处理的数据文件格式:csv、 json、 text
结构化数据:
- csv: 按逗号进行分割 =》 excel打开的
- json:(k,v)
- text:普通文本数据
切片:取值
filter :
a=> b=> c
select
ifnull(name,0) as name_etl
from table
where
name is null
is not null
id name age score
select
name,
sum(score) as score_all
from table
group by
name ;
本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。