python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法

https://blog.csdn.net/thewindkee/article/details/79890207

\xa0 是不间断空白符  
str.replace(u’\xa0’, u’ ‘)

\u3000 是全角的空白符
str.replace(u’\u3000’,u’ ‘)

title.strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)
content.strip(“”).strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)

你可能感兴趣的:(Python学习,爬虫)