正文抽取

如果是做正文抽取的话,想要做到很精准的效果是难的(尤其是准确剔除掉正文周边内容),尤其是来自一些不正规的站点网页。我能找到的相关开源产品有:boilerpipe、goose、jReadability、roadrunner(这个是抽模版的),还有一个忘记名字了,他们的效果都算不上太好(对正规的新闻站点会好些)。我自己实现了一个正文抽取的程序(也是很复杂的说,就别要代码了,暂时没有开源计划),可供测试的页面是:http://www.tuicool.com/te 。实际上,现在的实现算法不是我最初的想法,如果能基于浏览器内核分析出页面布局以及内容信息,对页面主体内容(不单单限于正文内容)的抽取效果会更好,而应用场景就更多了,这方面的经典算法就是微软研究院的VIPS,基于它也衍生了一堆论文。

 

http://www.v2ex.com/t/29123

 

 

创业-育森:提取web页面的正文(主体文本内容)不知道有没有什么好的算法或者是否有比较好的开源工具包呢!@金钱松 @TB本因 @梁斌penny @张某_ICT @sunli1223 @曾宪杰_华黎 @空谷松籁 @行空望远
  1. 大可不加冰_lonegunman

    以前中科计算所有一个控件很强悍,可以干净地剔除广告。
  2. 创业-育森

    回复@张某_ICT:好的,继续研究一下!
  3. 郑昀

    搜索基于文本密度的自动正文提取算法即可。或者搜索“Readability+你熟悉的开发语言名字+port”即可,如“Readability+python+port”。
  4. sunli1223

    参考这个插件的实现http://t.cn/a8acZU
  5. 张成_ICT

    这个真不了解。我用的一个evernote插件,挺不错的。
  6. 空谷松籁

    回复@创业-育森: 我没用过。你可以看看文档。他就是lucene的子项目,就是做文本抽取的。html肯定支持。
  7. 空谷松籁

    回复@创业-育森:org.apache.tika.parser.html Class BoilerpipeContentHandler : Uses the boilerpipe library to automatically extract the main content from a web page.
  8. 创业-育森

    回复@空谷松籁:这个能识别正文内容吗?去除网页上的其他的一些广告链接之类的噪音。。
  9. 创业-育森

    回复@空谷松籁:3Q,收到,研究一下!
  10. 空谷松籁

    Apache Tika - a content analysis toolkit
  11. 创业-育森

    回复@刘一丁Odin:3Q,研究一下!
  12. 刘一丁Odin

    有个叫readability的项目,不过是js写的,估计得改……http://t.cn/hbwq0C

你可能感兴趣的:(正文抽取)