火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理

火车头采集器 当前网址内容采集 以及软件误标为已经采集的处理

火车头采集当前一组网页内容,不需要采集下一级别网页的内容,只需要在添加网址时用文件导入(网址文件列表),当然如果网页少可以只手工添加几个。

另外如果发现采集的近1000文件中有几个损坏的,通常的原因是没有采集到内容,这是可以在data文件夹中找到数据库,把内容为空的记录复制到excel中,然后再只复制当前pageurl列到文本文件中,至此,有了网址列表,就可以采用以上的采集内容的方法了,已经试验过,效果很好。

你可能感兴趣的:(智者,办公,采集器)