Boilerplate Detection Using Shallow Text Features论文小笔记

网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.

昨天晚上在网上看到这个东西:

http://code.google.com/p/boilerpipe/

很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过正文抽取,当时完全按照别人的做法做,感觉思路很乱又要吹得多nb,当时也没有任何机器学习的知识,也就是抽取一些特定网站罢了,并不严谨.后来在yy网,是一个相熟的同事做的,直接用在index pipeline,应该做的不错,以为很高深没有细问...老实说,我觉得他可能是基于这个东西或者相关论文做的!

还没看代码,从google code页面点了作者(是个德国人)的论文:http://www.l3s.de/~kohlschuetter/boilerplate/

既然是shallow text features,就不选取ngram这些token level,主要是受主题,语言影响太大,训练样本不容易收齐.也不选择render之后抽取特征,因为要关联css等,还要渲染,复杂度,性能是个问题;也不选择site level.

shallow text features主要是文字稠密度,链接稠密度,平均每行word数等等,还有邻接块的这些feature,作者用决策树(或SVM)进行学习,发现选用text density,link density六个feature(包括cur,prev,next三块,所以总共六个),以及link density,numwords六个features能达到很好的结果,当然使用全部feature最后效果是最好的.

你可能感兴趣的:(template,text,决策树,feature,Boilerplate,detection,shallow,Full-Text,Extraction,removal)