Boilerplate Detection Using Shallow Text Features论文小笔记
网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.昨天晚上在网上看到这个东西:http://code.google.com/p/boilerpipe/很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过正文抽取,当时完