火车头过滤、替换、去除无用信息

使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。


火车头过滤、替换、去除无用信息

程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。

火车头过滤、替换、去除无用信息

这里的排除支持(*),

火车头过滤、替换、去除无用信息

这里支持参数型替换,注意这个是标准版有的功能。

需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。

看上边的图,这里的替换和排除是有顺序的。可以自己调顺序的。

你可能感兴趣的:(过滤)