pandas数据清洗实例-apply|applymap

pandas数据清洗实例-apply|applymap

*pandas数据清洗
*apply()函数、applymap()函数应用
*正则表达式

前言

从某网中爬取了上海浦东地区的房价数据【数据下载】,如下所示,发现“单价”和“房屋总价”两项数据都是文本型数据,且都含有单位或者标点符号,不利于分析、应用。接下来,我就通过正则表达式的方式来对数据进行处理。
pandas数据清洗实例-apply|applymap_第1张图片

(一)利用正则表达式提取数字

考虑到数据既有数字又有汉字和标点符号,而且“单价”中的数字是被逗号分隔开。那么可以通过采取将汉字和标点符号全部去除的方式,来保留纯数字。正则表达式如下:

re.sub("\D","",str)

\D:匹配费数字,sub函数将所有非数字替换成“”

(二)将“单价”和“房屋总价”两列数据整体应用上述正则表达式

接下来就是要解决怎么将“单价”和“房屋总价”两列数据都通过正则表达式,进行数据清洗。
apply()函数: 用于Series实现对每个值进行某种运算,或者是用于Dataframe实现对某个轴的Series进行某种运算;
applymap()函数: 只能用于DataFrame,用于处理对DataFrame的每个元素进行某种运算;
用法如下:

    fun = lambda x:re.sub("\D","",x)                                                #\D:匹配费数字,sub函数将所有非数字替换成“”
    data['房屋总价'] = data['房屋总价'].astype(str)
    #data['房屋总价'] = data['房屋总价'].apply(fun)                                     #数据清洗
    # data['单价'] = pd.to_numeric(data['单价'], errors='ignore')
    data1 = data.loc[:,['单价', '房屋总价']]
    data.loc[:, ['单价', '房屋总价']] = data.loc[:,['单价', '房屋总价']].applymap(fun)

至此,处理结果如下:
pandas数据清洗实例-apply|applymap_第2张图片
后续将推出在tableau中进行数据可视化分析的演示案例。

附:
1、全部源代码链接:数据爬虫源代码
2、数据:12月浦东二手房挂牌价

你可能感兴趣的:(数据分析,爬虫,python,正则表达式,数据挖掘)