最近一直在研究一个叫火车头的采集软件,现在终于有点眉目了,不过我的发布重点是在介绍怎么存储到本地access数据库上的,其他的我目前不需要也就暂时没去研究了,那么具体步骤是怎样的呢,让我们接着往下走~~~
1、为了方便管理,我们先建立测试站点,点击新建右边的小三角-->分组,先建立一个分组,再在分组下面建立测试的任务
2、接下来开始建立采集的任务,还是点击新建右边的小三角-->任务,打开新建任务对话框,如下图所示:
图1
这个就是任务的界面,好了,那么这边我就拿http://www.lawtime.cn/info/fangdichan/fcanli/这个做范例,因为首页和内页的规则是不一样的哦。因此,如下
2-1、第一步的采集网址规则,这边就是要把文章的地址先采集下来,所以我们分析了下页面发现要先分首页和内页问题。。所以我们先点击添加按钮如下:
图2
这个就是首页的地址,我们单独分开先添加一条单页地址采集规则。
2-2、然后重复上面的步骤,但是我们在添加采集地址的时候要选择击“批量/多页”命令,具体如下:
图3
好了我们已经分析好网址了,接下来就是截取文章的地址列表,,具体下面:
图4
一般我们只需要选中自动获取,然后去查看页面的源代码:找到文章列表的唯一标示符填入上面标注出来的框中就好了,然后记得点击http的请求方式:选中get方式,一般都是采用这个方式的。。如下源码:
图6
找到唯一标示符…….
然后就是测试对不对了。。点击“测试网址采集”出现下面情况就是好了
图7
这样第一步就完成了
再然后是分析文章地址了
http://www.lawtime.cn/info/fangdichan/fcanli/20110920161809.html 我这边拿这个来分析,主要是这个也有分页,刚好我们所要注意的都能在此体现。
界面上默认已经建立了标题、内容、作者、时间、出处5个规则,但是我们一般只要截取标题和内容,所以第一步见选择标题项,点击修改即可开始写截取标题的规则了,如下:
图8
出现如下界面:
图9
标题规则界面
接下来分析下该地址的标题截取,基本上来说我们都是选择“前后截取”的方式,然后我们再来看源码,我们看到有如下两种方式能得到标题:
图10
图11
以上,如果是将“标题规则界面”里面的title分别写成h1的话,在数据处理我们就可以放空,但是如果我们默认是截取title,会发现末尾有带“法律快车房地产法”几个关键字,那么怎么去掉呢,我们就可以在数据处理进行添加其他语法来过滤了,具体如下:
图12
这里我们选择内容替换选项,出现如下界面:
图13
1是写出要替换掉的文字规则,我这边后面带标签(*)指后面的都是可变的,前面几个文字不变,然后替换2为空。。点击确定,返回任务界面,在规则测试地址栏中填入我们刚分分析的地址。。点击测试,发现已经吧后面那串关键字去掉啦。。如下:
图14
在来是分析内容规则同样的选中内容选项点击修改,先来分析内容规则,如下:
图15
红色框呢,是唯一标识文章的框架,黑色的则是唯一标识分页的框架,所以我们规则如下写入界面里面:
图16
开始字符串,为什么我加了参数(*),是为了防止文章开头有添加其他样式这么写的,我有发现其他文章不是写了一个样式【isc-article-bd】名……但是末尾是固定的,然后我还添加了去除标签和关键字的过滤,还有最重要的黑色箭头指示的地方一定要勾选,否则你在怎么写分页的规则,我们测试的时候永远都只能匹配第一页的内容,而取不到第二页的内容
看下方,分页规则是在左下方编写的,我们只要选择自动识别,软件就能自动识别页码了,非常方便
图17
然后在点击测试你就会发现文章已经都被分析下来拉。。。
在来点击第三步:发布内容设置,我这边主要讲一下方式三,导入本地建立好的数据库【access】中,这边需慎重,你的数据库一定不要是在其他地方有在使用,否则你怎么测试sql语句都会提示出错,我之前就是一直没搞懂提示错误,因为我的数据库是另外一个网站的数据库,我正建立iis测试着了,我也没去在意结果在这上面分析了非常久,最终还是隔天灵光一现,吧数据库拷贝到桌面上才成功的。。【ps:最近换成win7系统,发现下载最新的火车头软件就可以共用数据库了~~~】好了废话不多说,我们接着往下走,我们在点击“数据库发布配置管理”,出现如下界面:
图18
因为我之前已经建立过一次了,所以一些必备字段都有填充了,例如测试发布那边我先手动定义了字段了,方便测试入库,当然现在这些先不管,我们接着往下走,
图19
根据上面步骤建立插入语句,点击保存模块,随便给个命名就好,这边说下,我数据库id是自动编号,access的sql语句要达到这个目的,放空就好,而不是像其他如mysql要写出字段,然后values是’’这样的形式这个一定要注意,其他想时间默认now的这边也放空了
接着选择数据库地址,测试入库语句,显示入库成功了的话,随便起个配置名,点击保存配置就好了。因为我之前已经建立过了,所以他显示的是修改配置,如下:
图20
我的测试入库语句INSERTINTO LstNews (newsTitle ,newsContent) VALUES ('[标签:标题]','[标签:内容]')
最终在我数据显示了记录,,如下:
图21
这样整个采集的配置就完成啦,最后返回的第三步:发布内容设置,在方式三里面的复选框勾选起我们刚建立的发布规则就可以采集了
ps:还有很多很多功能有待发现,最近发现点击内容过滤,还可以吧文章字数小于设定的字数过滤掉,真心很好用的一款采集软件