readability-网页内容提取利器

如果你想提取网页上的文章内容,readability这个免费好用的工具绝对值得一试

官网:https://www.readability.com/
提取内容的api文档:https://www.readability.com/developers/api/parser
注册一下,在个人页面可以找到你自己的token

API - GET请求,带上token和url参数
https://www.readability.com/api/content/v1/parser?token=your_token&url=url_you_want_to_parse

响应示例---json格式返回数据

readability-网页内容提取利器_第1张图片
响应

来看个中文的

readability-网页内容提取利器_第2张图片
随便一篇网易博客

content部分就是提取的网页内容了,将其写入html文件,可以直接打开显示网页内容
如果你只是为了提取和保存内容,到这里就可以了。

如果你需要得到网页内容,并进行一些处理,那可能就得把&#x开头的内容转换成中文了&#x开头的是什么编码?,可能需要进行以下操作

# 去掉content中的html标记
def remove_html_tag(content):
    return re.sub(r']*>', '', content)
# 转换成中文
def convert_to_cn(text):
    # 需要将 × 这种先做补全,×
    text = re.sub(r'&#x([A-F0-9]{2});', r'�\1;', text)
    return text.replace('&#x', '\u') \
        .replace(';', '') \
        .decode('unicode-escape') \
        .encode('utf-8')

你可能感兴趣的:(readability-网页内容提取利器)