*pandas数据清洗
*apply()函数、applymap()函数应用
*正则表达式
从某网中爬取了上海浦东地区的房价数据【数据下载】,如下所示,发现“单价”和“房屋总价”两项数据都是文本型数据,且都含有单位或者标点符号,不利于分析、应用。接下来,我就通过正则表达式的方式来对数据进行处理。
考虑到数据既有数字又有汉字和标点符号,而且“单价”中的数字是被逗号分隔开。那么可以通过采取将汉字和标点符号全部去除的方式,来保留纯数字。正则表达式如下:
re.sub("\D","",str)
\D:匹配费数字,sub函数将所有非数字替换成“”
接下来就是要解决怎么将“单价”和“房屋总价”两列数据都通过正则表达式,进行数据清洗。
apply()函数: 用于Series实现对每个值进行某种运算,或者是用于Dataframe实现对某个轴的Series进行某种运算;
applymap()函数: 只能用于DataFrame,用于处理对DataFrame的每个元素进行某种运算;
用法如下:
fun = lambda x:re.sub("\D","",x) #\D:匹配费数字,sub函数将所有非数字替换成“”
data['房屋总价'] = data['房屋总价'].astype(str)
#data['房屋总价'] = data['房屋总价'].apply(fun) #数据清洗
# data['单价'] = pd.to_numeric(data['单价'], errors='ignore')
data1 = data.loc[:,['单价', '房屋总价']]
data.loc[:, ['单价', '房屋总价']] = data.loc[:,['单价', '房屋总价']].applymap(fun)
至此,处理结果如下:
后续将推出在tableau中进行数据可视化分析的演示案例。
附:
1、全部源代码链接:数据爬虫源代码
2、数据:12月浦东二手房挂牌价