我们经常遇到需要出去空的的时候。需要清洗或是拼接。
尤其是用爬虫的时候!!!
但是各个去除空白字符的方法是有区别的。
mystr = ' hello,python java PHP World '
mystr.strip()
mystr.lstrip()
mystr.rstrip()
区别在于strip是去除两头的空白字符,当然也可以具体的指定去除的是什么。
lstrip是左边去除
rstrip是右边去除
这是最需要注意的。
python的replace远没有其他语言中字符串replace方法强大,比如Perl和bash等,不如sed。只适用于固定的字符串,
所以只在单个具体的空白字符时有效。其他状况,可能起不到作用。
a = ["\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t李从强;林刚;李克秀;宋运淳;熊志勇;何光源. 玉米和类玉米种间杂交后代细胞学鉴定[J]. 植物科学学报, 2006, 24(1): 1-5." +
"\t\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t \t\t\t\t\t\t\t\t\t\t\t\t \tLI Cong-Qiang;LIN Gang;LI Ke-Xiu;SONG Yun-Chun;XIONG Zhi-Yong;HE Guang-Yuan. Cytological Identification on the Interspecific Hybrid of ", ' and ', '. , 2006, 24(1): 1-5.\t\r\n \t\t\t\t\t\t\t\t\t\t\t\t\t\t\t']
比如这里的第一个字符串,相当的复杂。注意应要用双引号和加号,链接长字符串。
replace可以试一下,一次只能单个的去除一种。要连用三四次才能去除所有的空白字符。
最推荐的方法,记住有三个参数
# 方案一,先去除空白字符再链接
b = "".join([ re.sub(r"\s+", "", i) for i in a])
# 方案二,先链接再去除空白字符
c = re.sub(r"\s+", "","".join(a))
是情况而定顺序。一般第二种好点。
# join为字符字符串合成传入一个字符串列表,split用于字符串分割可以按规则进行分割
>>> a = " a b c "
>>> b = a.split() # 字符串按空格分割成列表
>>> b ['a', 'b', 'c']
>>> c = "".join(b) # 使用一个空字符串合成列表内容生成新的字符串
>>> c 'abc'
# 快捷用法
>>> "".join(a.split())
'abc'