利用Python Pandas进行数据预处理-数据清洗

概述 
Pandas是Python的一个数据分析包,Pandas最初被作为金融数据分析工具而开发出来,因此,Pandas为时间序列提供了很好的支持。

Pandas是基于Numpy构建的含有更高级数据结构和工具的数据分析包。

Pandas的数据结构:

  • Series:一维数组,与Numpy中的一位Array类似。二者与Python基本的数据结构List也很相近,区别是List可以放不同的数据类型,而Array和Series只能放相同的数据类型。
  • Time-Series:以时间为索引的Series。
  • DataFrame:二维表格型的数据结构。可以将DataFrame理解为Series的容器。
  • Panel:三维数组,可以理解为DataFrame的容器。Panel很少使用,但确是很重要的三维数组。
  • Panel4D:Panel4D是像Panel一样的4维容器,作为N维容器的一个测试。
  • PanelND:PanelND是一个拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。

Series

from pandas import Series,DataFrame

s=Series([1,2,3.0,'abc',"def"])

print(s)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

利用Python Pandas进行数据预处理-数据清洗_第1张图片

Series是一个类似一维的数组对象,包含一个数组的数据(任何Numpy类型)和一个与数组关联的数据标签,被叫做索引。

Series对象主要有两个属性:index和values,如果传给构造器的是一个列表,则index的值是从0递增的整数,如果传递的是一个类字典的键值对结构,就会生成index-value对应的Series。比如:

from pandas import Series,DataFrame

s=Series(data=[1,2,3.0,'abc',"def"],index=[100,200,300,400,500])

print(s.index)

print(s.values)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

这里写图片描述

from pandas import Series,DataFrame

s=Series(data=[1,2,3.0,'abc',"def"],index=[100,200,300,400,500])

print(s.index)

print(s.values)

print("....................")

s.name='a_series'
s.index.name='the_index'

print(s)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

利用Python Pandas进行数据预处理-数据清洗_第2张图片


DataFrame 
一个DataFrame类似一个表格,类似电子表格的数据结构,包含一个经过排序的列表集,他们每一个都可以有不同的类型值(数字、字符串、布尔),DataFrame有行和列的索引;他可以看作一个Series的字典。

from pandas import Series,DataFrame

data={'state':['a','b','c','d','e'], 'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}

frame=DataFrame(data)

print(frame)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

利用Python Pandas进行数据预处理-数据清洗_第3张图片

和Series一样,他的索引也是自动分配,并且对列进行了排序

也可以给列一个顺序,让它按照传递的顺序排列 
利用Python Pandas进行数据预处理-数据清洗_第4张图片

如果传递了一个行,但不在data中,他的结果将为NA值

from pandas import Series,DataFrame

data={'state':['a','b','c','d','e'], 'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}

frame=DataFrame(data,columns=['state','year','pop','newCol'],index=['one','two','three','four','five'])

print(frame)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

利用Python Pandas进行数据预处理-数据清洗_第5张图片

在DataFrame中的一列可以通过字典记法或属性来检索

from pandas import Series,DataFrame

data={'state':['a','b','c','d','e'], 'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}

frame=DataFrame(data,columns=['state','year','pop','newCol'],index=['one','two','three','four','five'])

print(frame['state'])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

利用Python Pandas进行数据预处理-数据清洗_第6张图片

行业可以通过位置或名字来索引,列入按ix索引成员

from pandas import Series,DataFrame

data={'state':['a','b','c','d','e'], 'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}

frame=DataFrame(data,columns=['state','year','pop','newCol'],index=['one','two','three','four','five'])

print(frame.ix['three'])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

利用Python Pandas进行数据预处理-数据清洗_第7张图片

列可通过赋值来修饰

from pandas import Series,DataFrame

data={'state':['a','b','c','d','e'], 'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}

frame=DataFrame(data,columns=['state','year','pop','newCol'],index=['one','two','three','four','five'])

frame['newCol']=100

print(frame)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

利用Python Pandas进行数据预处理-数据清洗_第8张图片

数据缺失、检测和过滤异常值、移除重复数据

数据缺失 
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

这里写图片描述

Python内置的None值也会被当作NA处理

from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述

处理NA的方法有四种:dropna,fillna,isnull,notnull

is(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。

dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。

问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。

fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。


过滤数据: 
对于一个Series,dropna返回一个仅含非空数据和索引值的Series:

from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

这里写图片描述

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这里写图片描述


不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。 
通过一个常数调用fillna就会将缺失值替换为那个常数值:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这里写图片描述

若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这里写图片描述

可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述



检测和过滤异常值 
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:

from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

这里写图片描述



移除重复数据 
DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.duplicated())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述

与此相关的还有一个drop_duplicated方法,它用于返回一个移除了重复行的DataFrame:

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_duplicates())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述


上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_duplicates(['k1']))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

这里写图片描述

duplicates和drop_duplicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个:

from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_duplicates(['k1','k2'],take_last=True))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

这里写图片描述

转自: http://blog.csdn.net/yen_csdn/article/details/53445616

你可能感兴趣的:(大数据)