小案例(八):商户信息整理(python)

原文链接:小案例(八):商户信息整理(python)

微信公众号:机器学习养成记 


1、需求目的

本次小案例中,我们的样例数据是上海几家商户及其地址信息,其中地址信息包括市、区、具体门牌号,但所有信息均未进行拆分,因此无法对商户名称及地址信息进行更好的应用整理。原始数据如下

我们希望通过一系列整理,可以把数据拆分成商户名称、城市、区、详细地址的格式,并且将商户名称后面括号中的内容去掉,目标结果如下

2、 知识点

rfind():返回字符串最后一次出现的位置

根据官方给出的例子,我们要找到“is”最后出现的位置,“is”最后出现的地方前面分别是“t”,“h”,“i”,“s”,“ ”五个字符,最后出现的“is”位于第六个字符处,所以返回结果为5(python中第一个位置从0开始)。

str ="this is really a string example....wow!!!";

substr ="is";

print str.rfind(substr);

#输出结果为:5

正则表达式

python中的re模块可以通过正则表达式实现一系列的字符串匹配功能,其中re.sub()用于替换字符串中的匹配项,'\D'代表除数字以外的任意字符,官方示例中,展示了如何将所有的非数字字符替换为空(即去除所有非数字字符),在本次介绍的案例中我们也用此方法将商户名称后面()中的内容剔除掉。

import re

phone ="2004-959-559 

# 这是一个电话号码"

# 移除非数字的内容

num = re.sub(r'\D',"", phone)

print(num)

#输出结果为:2004959559

3、python代码实现

下面是可以满足需求实现的python代码,主要实现逻辑是:用rfind()逐行进行切分,并通过正则表达式剔除商户名称后面()中内容,生成4个维度的列表;然后把列表整理成字典形式;最后转化为dataframe进行返回。

def organizedData(data):

# name : 商户名称

# city : 城市

# community : 区

# detail : 详细地址       

    name = []   

    city = []   

    community = []   

    detail = []

    for line in range(0,data.shape[0]):

        r = data.iloc[line,0].rfind('上海市')

        d = data.iloc[line,0].rfind('区')

        #将店名后面括号中的内容删掉

        name.append(re.sub(r'\([\u4e00-\u9fa5a-zA-Z0-9]*\)','',data.iloc[line,0][0:r]))

        city.append('上海市')

        community.append(data.iloc[line,0][r+3:d+1])

        detail.append(data.iloc[line,0][d+2:])   

        #将列表转换为字典,然后生成数据框

        c = {"name": name,"city": city,"community":community,"detail":detail}   

        result = pd.DataFrame(c)

        return result

公众号后台回复“整理”获得完整代码


原文链接:小案例(八):商户信息整理(python)

微信公众号:机器学习养成记 

你可能感兴趣的:(小案例(八):商户信息整理(python))