网页正文抽取工具

PS:你知道weibo问答的力量有多么的强大了吧???
==
@西瓜大丸子汤
总结我用过的网页正文抽取工具: decruft  http://t.cn/S7bVEC python-readability http://t.cn/zYeoZ8b boilerpipe  http://t.cn/h41EEs python-boilerpipe http://t.cn/zYeoyPw pismo  http://t.cn/zYeoyP2 Goose  http://t.cn/zYeoZ8G Python Goose  http://t.cn/zYeoZ8q
@丕子:有个测试链接: http://jimplush.com/blog/goose 测试了个链接,goose没提出来,cx-ectractor提出来了;不过goose的metadata以及image等不错;谁有空写个吧,两者优点结合一下。
@52nlp: 转cx-ectractor( http://t.cn/hDO2xf )的维护者  @陈鑫Shin  @王利锋Fandy // @陈阿荣: cx-extractor // @马少平THU: 这个确实有难度,我们也没有什么好方法。 @王利锋Fandy: 在我的硕士论文中给出了形式化数学表示,详细请见: http://t.cn/zYeAJSc,希望对大家有帮助
木子海波:自吹自擂一下。 http://blog.csdn.net/marising/article/details/6101101
开源中国:可看看这个开源项目  http://t.cn/zYeL9Jn
数据挖掘研究院:h2w.iask.cn
licstar:NReadability  http://t.cn/zYewPMn
我不是勒瑟:搜一下这篇论文:DOM Based Content Extraction via Text Density
@梁斌 推一下,各大公司都有做这个的,搜狗这个叫PA,page analysis,我也短期维护过,目前是某哥们再搞
您可能也喜欢:

抓取网页碰到500错误时:User Agent

100个设计Blog,灵感或来于此
网页正文抽取工具_第1张图片
[酷图] 设计展览:”联系我”、沉浸型、清新型

CSS网页颜色代码表
网页正文抽取工具_第2张图片
SNS下的推荐系统、问答系统、自然语言以及Page Rank
无觅

相关文章

  • 搜狗竟然也有了基于内容图像检索应用 (3)
  • 机器视觉:监控录像实时转化成文字描述 (9)
  • latent Dirichlet allocation (LDA) (20)
  • 人的视觉和计算机的视觉 (14)
  • Formal Outline Guidelines-关于论文大纲的写法 (7)
  • 概率,先验概率与后验概率 (23)
  • Matlab矩阵数据的可视化 (5)
  • EndNote 技巧总结篇 不断完善 (4)
  • SIGGRAPH 2010论文:碎裂声音预测与合成 (14)
  • CBIR: Texture Features (0)

你可能感兴趣的:(技术,网页抽取)