Pandas入门

Pandas官网

Pandas入门_第1张图片
pandas

pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

【百度】Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

两个主要数据结构:Series,DataFrame

Series

Series是一种类似于一维数组的对象,与Numpy中的一维array类似。

from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ser = Series([4, 6, 7, 2, 9])
print(ser)
print(ser.values)
print(ser.index)

ser1 = Series([4, 5, 7, 4], index=['d', 'b', 'a', 'c'])
print(ser1)
print(ser1.index)
print(ser1['c'])

pd.isnull(ser)
pd.notnull(ser)
ser.isnull()
'''
0    4
1    6
2    7
3    2
4    9
dtype: int64
[4 6 7 2 9]
RangeIndex(start=0, stop=5, step=1)
d    4
b    5
a    7
c    4
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')
4
Out[12]:
0    False
1    False
2    False
3    False
4    False
dtype: bool
'''

方法:pd.isnull(obj),pd.notnull(obj), obj.isnull()
属性:name, index.name

SeriesObj.name = 'SeriesTest'
SeriesObj.index.name = 'gender'

在算术运算中Series会自动对齐不同索引的数据进行运算

DataFrame

DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型,不仅有行索引也有列索引。

data1 = {
    'name': ['wills', 'april', 'chang', 'hang'],
    'gender': ['m', 'f', 'm', 'm'],
    'age': [30, 26, 30, 24]
}

df1 = DataFrame(data1)
#指定列的顺序
df2 = DataFrame(data1, columns=['age', 'gender', 'name'])

#删除某列
del df2['gender']
Pandas入门_第2张图片
dataframe
Pandas入门_第3张图片
删除某列

你可能感兴趣的:(Pandas入门)