提取html网页正文信息

最近陆陆续续尝试了一些解析html的方法,场景不同,说不好孰优孰劣,请自行选择

版本一(goose):
py2版本: https://github.com/grangier/python-goose
py3版本:https://github.com/goose3/goose3

版本二(boilerpipe):
https://github.com/misja/python-boilerpipe

版本三(cx-extractor-python):
https://github.com/chrislinan/cx-extractor-python

版本四(mercury-parser):
https://github.com/postlight/mercury-parser

你可能感兴趣的:(Python常用模块)