网页去噪,网页正文文本提取方案一(readability)

提起网页正文提取和网页内容去噪,最有名的就是readability它了。现在有多种版本java,js,ios,android都有了。
介绍:In few words,Given a html document, it pulls out the main body text and cleans it up.
代码实例:
采用的是python-readability  项目git地址
from readability.readability import Document
import urllib
html = urllib.urlopen(url).read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()

效果拿一个url(http://blog.sina.com.cn/s/blog_4949b3d50102e81h.html?tj=1)
一个新浪的博客地址,有导航,评论,广告之类噪点信息
获得的正文信息如下:

一代百变歌后梅艳芳病逝至今10年,同时是她50岁冥寿,她的挚友刘培基为她的纪念活动拉开华丽庄重的序幕,早在今年7月展出梅艳芳多套经典舞台服饰,供歌迷凭吊。

叫人唏嘘的是,在她1010日生忌前夕,管理她遗产的基金要拍卖她的所有遗物,因为她生前的豪宅已出售套现,交去前需清理屋内所有物件,因此要开放已封闭10年、外人不得越雷池半步的香闺给买家参观拍卖品,她生前绝对不容曝光的睡床、厕所等任由一班陌生人细看、研究是否要竞投,逝者尊严何在?

更令人慨叹的是她生前珍而重之的贝克汉姆亲笔签名足球、刘德华手抄心经墨宝、具纪念价值的歌衫、打生打死赢回来的奖座、挂满衣柜的名牌时装等在她身故10年后急剧折旧,每件底价5001500港元,少于内地一张演唱会门票的价钱,多悲凉。

在舞台上光芒四射、享尽掌声欢呼声、万千宠爱、前呼后拥、丰衣足食,看似拥有全世界,现实中她充满无奈空虚和苦涩。

追求爱情的她,一生寻觅至爱,望能找到可倚靠的肩膀,爱神却没眷顾她,要她孤身走最后一程。

她离世10年后,林国斌终肯剖白他曾与梅艳芳拍拖3年,梅艳芳更决定为他退出歌坛,回归平淡生活,最后因小误会而分手。

在她病重期间,要托付人生最后一件大事:遗产分配,竟没一个身边人她认为可以信任,她宁愿将用一生青春血汗挣回来的财产交信托基金管理。她为年老的母亲计划好一切,每月付她7万元生活费,直至她百年归老。没有送她一大笔金钱,是怕她被人骗财,又怕她不善理财,很快把钱花光。

老人家不太领她情,用尽方法要夺得她其他的遗产,四出指有关人士及机构谋财害命,上演街头叫骂闹剧,完全不尊重女儿遗愿。

10年间,她的月生活费由7万增加超过一倍至15万,最后还是破产,梅艳芳的忧虑是对的。

梅艳芳的家人指拍卖梅艳芳遗物是对阿梅不敬。信托公司要拍卖的阿梅故居及遗物,就是为了要支付梅妈的生活费,对阿梅不敬、不尊重的到底是谁?

本博客内容未经许可禁止转载。

大陆地区经纪公司:北京点形文化传播公司 [email protected]

                                       86-10-87656628


加载中,请稍候......



测试地址:

我搭建了一个python版的测试环境

用途:

1.将网页上杂乱的文字和图片去除,只保留经过工整排版的正文部分。可以用来手机和平板端浏览,干净整洁,无广告。

2.抓去互联网上有效内容,用于网上有效信息获取,比如刚建站需要到网上抓一些信息回来,配合爬虫使用。

3.其他。


你可能感兴趣的:(网页正文提取)