lxml.etree.XMLSyntaxError问题的解决方法

lxml解析数据,在使用parse加载本地的html文件的时候出现报错:
lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 18, column 258

原因:

html代码书写不规范,不符合xml解析器的使用规范

解决的办法:
使用parse方法的parser参数:
parser = etree.HTMLParser(encoding="utf-8")
selector = etree.parse('./data/lol_1.html',parser=parser)
result=etree.tostring(selector)
print(result)

你可能感兴趣的:(爬虫)