python3默认支持utf-8,因此对于\uXXXX这种格式的中文,可以直接转换,但经常爬虫抓取回来的中文是\\uXXXX格式,因此需要进行转换
s1='\u65f6\u4e0d\u53ef\u5931\uff0c\u65f6\u4e0d\u518d\u6765\uff01'
print('s1=',s1)
s2='\\u65f6\\u4e0d\\u53ef\\u5931\\uff0c\\u65f6\\u4e0d\\u518d\\u6765\\uff01'
print('s2=',s2)
s3=s2.encode('utf-8').decode('unicode_escape')
print('s3=',s3)
s1= 时不可失,时不再来!
s2= \u65f6\u4e0d\u53ef\u5931\uff0c\u65f6\u4e0d\u518d\u6765\uff01
s3= 时不可失,时不再来!