Python Xpath 提取指定 html 和 解码 HTMLDecode html 模块

Python Xpath 提取指定 html  和   解码 HTMLDecode html 模块

etree.tostring() 获取指定 html 源码

unescape()解码 HTMLDecode

escape() 编码 HTMLDecode

import requests
from lxml import etree
import html as ht

h = requests.get('https://www.vodtw.com/html/book/47/47969/28753269.html',verify=False).text
html = etree.HTML(str(h))

c = html.xpath('//div[@class="contentbox"]')[0]
content = etree.tostring(c).decode()
# 原格式
print(content)

# 解码 HTMLDecode 格式
print(ht.unescape(content))

# 小说内容
txt = html.xpath('//div[@class="contentbox"]/p/text()')
print(' '.join(txt))

# 编码
print(ht.escape('你好'))

 

你可能感兴趣的:(Python,Xpath)