python去除html标签的三种方法

import re
from bs4 import BeautifulSoup
from lxml import etree
 

页面

html = '

你好


哈哈大家好'

法一

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

法二

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

法三

response = etree.HTML(text=html)

print(response.xpath('string(.)'))

结果:
一、 你好哈哈大家好
二、 你好哈哈大家好
三、你好哈哈大家好

你可能感兴趣的:(Python)