昨儿个想处理一个百万数据量的时间序列数据,本来单纯的以为数据都是可以用float()转换的str,可是在执行下面代码时就会报错:
power = household_power.Global_active_power[6838:6840].apply(lambda x: float(x) if type(x)==str else 0)
于是怀疑自己的lambda是不是写错了,还是apply函数用错了,可最后发现没啥问题啊!直到最后我开始怀疑数据,用简单粗暴的方式,二分排查,最终终于找到了罪魁祸首:
In[1]:
household_power.Global_active_power[6838:6840]
Out[1]:
Date
21/12/2006 0.244
21/12/2006 ?
Name: Global_active_power, dtype: object
看到那个“?”了吗啊,没错就是他,害得我调了几个小时(主要还是因为我菜)
找到了问题就得解决,可是上百万的数据中,可能还有其他这种“?”,得找个方法过滤掉它,于是乎在尝试各种if,else判断无果后,我突然想起了try, except,哇!是真的好用!
def format(x):
try:
return float(x)
except ValueError:
x = 0.0
return x
这样一个格式化函数,可以在报错的“?”号处起到过滤效果,开始小激动了。
回到开始的地方,用在apply里
power = household_power.Global_active_power.apply(format)
plt.figure(figsize=(10, 8))
power.plot()
plt.show()
哦了,完美解决问题!菜鸡第一次感受到来自try except的爱!