python去除空白字符--高级

我们经常遇到需要出去空的的时候。需要清洗或是拼接。

尤其是用爬虫的时候!!!

但是各个去除空白字符的方法是有区别的。

strip

mystr = '   hello,python java PHP World   '
mystr.strip()
mystr.lstrip()
mystr.rstrip()

区别在于strip是去除两头的空白字符,当然也可以具体的指定去除的是什么。

lstrip是左边去除
rstrip是右边去除

replace

这是最需要注意的。

python的replace远没有其他语言中字符串replace方法强大,比如Perl和bash等,不如sed。只适用于固定的字符串,
所以只在单个具体的空白字符时有效。其他状况,可能起不到作用


a = ["\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t李从强;林刚;李克秀;宋运淳;熊志勇;何光源. 玉米和类玉米种间杂交后代细胞学鉴定[J]. 植物科学学报, 2006, 24(1): 1-5." +
"\t\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t     \t\t\t\t\t\t\t\t\t\t\t\t                                                                                                        \tLI Cong-Qiang;LIN Gang;LI Ke-Xiu;SONG Yun-Chun;XIONG Zhi-Yong;HE Guang-Yuan. Cytological Identification on the Interspecific Hybrid of ", ' and ', '. , 2006, 24(1): 1-5.\t\r\n                    \t\t\t\t\t\t\t\t\t\t\t\t\t\t\t']

比如这里的第一个字符串,相当的复杂。注意应要用双引号和加号,链接长字符串。

replace可以试一下,一次只能单个的去除一种。要连用三四次才能去除所有的空白字符。

re.sub

最推荐的方法,记住有三个参数

# 方案一,先去除空白字符再链接
b = "".join([ re.sub(r"\s+", "", i) for i in a])
# 方案二,先链接再去除空白字符
c = re.sub(r"\s+", "","".join(a))

是情况而定顺序。一般第二种好点。

join()方法+split()方法

# join为字符字符串合成传入一个字符串列表,split用于字符串分割可以按规则进行分割
>>> a = " a b c "
>>> b = a.split() # 字符串按空格分割成列表
>>> b ['a', 'b', 'c']
>>> c = "".join(b) # 使用一个空字符串合成列表内容生成新的字符串
>>> c 'abc'
# 快捷用法
>>> "".join(a.split())
'abc'

你可能感兴趣的:(python,python)