python去除文本中html标签

例子如下:

python去除文本中html标签_第1张图片

现将以上文本从列表转换为字符串。代码如下:

b = ''.join(a)

效果如下:

python去除文本中html标签_第2张图片

利用正则表达式去除html标签。代码如下:

import re

c = re.sub('<[^<]+?>', '', b).replace('\n', '').strip()

效果如下:

python去除文本中html标签_第3张图片

总代码如下:

import re

a = response.xpath('*************').extract()
#print(a)
b = ''.join(a)
#print(b)
c = re.sub('<[^<]+?>', '', b).replace('\n', '').strip()
#print(c)

 

你可能感兴趣的:(python,scrapy,python,html)