在学python爬虫中,爬取到的数据要经过筛选导入数据库,我们爬到的数据通常用.txt存放,然后通过逗号分隔进行导入数据库,但是,一些网站中获取到的数据是自带中文逗号分隔,所以要中文标点符号转英文标点符号,才能顺利导入
例:
第5期,宝马520i,众筹170000元,分红4045.95元,万元收益231.2元,年化收益率10.05%,80天
转换为英文逗号
str = "第5期,宝马520i,众筹170000元,分红4045.95元,万元收益231.2元,年化收益率10.05%,80天"
str = str.replace(",",",")
输出的结果:
'第5期,宝马520i,众筹170000元,分红4045.95元,万元收益231.2元,年化收益率10.05%,80天'
正则表达式方法:
引用正则表达式库
import re
正则表达式库函数:
sub将字符串中所有符合指定正则表达式的项用另一个项代替
用法:
re.sub(正则表达式, 替换内容, str)
import re
str = "第5期,宝马520i,众筹170000元,分红4045.95元,万元收益231.2元,年化收益率10.05%,80天"
str = re.sub(",", ",", str)