Python lxml提取html标签内容 html.tostring中文乱码解决

解决方式:导入html.parser中的HTMLParser库 这个库好像过期了 但是还是可以用
最新解决方法:导入html
from html.parser import HTMLParser 
或者
import html 

 代码详细:

 with urllib.request.urlopen( '这里是要获取的URL') as f:
        data = f.read()
        document = data.decode('utf-8')
        doc = etree.HTML(document)
        name = doc.xpath('获取指定位置的html')
        name1 = html.tostring(name[0])
        # 这里的name1 取出的html 中文存在乱码,下面 HTMLParser()或者html进行转换
        name2 = html.unescape(name1.decode()) 最新 完美使用
        #name2 = HTMLParser().unescape(name1.decode()) 过期 仍可以使用,但是会提示警告
        #print(name2)
       

 

你可能感兴趣的:(python)