火车头采集器 v9免费版使用

1.进入火车头官网(http://www.locoy.com/download) 下载v9版
如下图:
火车头采集器 v9免费版使用_第1张图片

注意:如果电脑没有安装.NET 4.0框架 一定要在这个界面下载安装

2.装好软件之后开始使用:
如图:
火车头采集器 v9免费版使用_第2张图片
右击 ->测试分组:
然后可以选择新建分组 也可以直接新建任务 在下面新闻资讯等分组里面也可以新建任务
新建任务后 进入如下页面:
火车头采集器 v9免费版使用_第3张图片
采集过程无非分成三部:
1.网址采集(根据要采集的网址规律定义好规则) 2.内容采集规则(根据要采集的内容配置好采集规则) 3.内容发布规则(将采集的内容 发布到配置好的地方)
下面以采集58同城 求职招聘下 面试技巧栏目文章为例:
火车头采集器 v9免费版使用_第4张图片
该栏目第二页网址为 http://www.58.com/mianshizhinan/list_9_2.html
第三页为 http://www.58.com/mianshizhinan/list_9_3.html
根据规律 我们开始操作 直接点击向导添加:
火车头采集器 v9免费版使用_第5张图片

代表地址参数那个位置 从1开始到240停止 也就是从第一页到底240页结束
此时点击确定之后 可以 点击网址采集测试
如图:
火车头采集器 v9免费版使用_第6张图片
你会发现测试时 每个列表下会出现很多网址
而只有后面那种格式的才是文章页面的网址(在58网站点击文章进去就能发现)
自动获取链接网址下面 :有个链接过滤必须包含下面 写个 /20 此时再测试就能得到我们需要的了
如图:
火车头采集器 v9免费版使用_第7张图片

2.开始第二步 内容采集规则
如图:
火车头采集器 v9免费版使用_第8张图片
这里就不多说 就是根据页面html代码规律 来填写规则获取(左边)自己想要的内容
注:如果要重复匹配一个网页的内容 可以勾选循环匹配
数据处理里可以对采集的内容进行处理
3.开始第三部 内容发布规则
以连接MySQL 数据库为例
如图:
火车头采集器 v9免费版使用_第9张图片
连接之后保存 就可以开始采集任务了
注意:采集完成之后你会发现MySQL数据库里并没有任何东西
因为免费版的只会生成sqlite数据库文件的格式
如图:
火车头采集器 v9免费版使用_第10张图片

选中该任务 右击-> 打开Date文件夹 就可以看到这个sqlite数据库格式的文件夹了 然后数据库管理软件对数据库数据进行转换 转换成别的数据库文件就可以了
这里推荐使用 Navicat Premium 的数据传输功能 不过要注意每个数据库之间的差异性 有问题多百度吧 我当时数据转换成sql server 遇到很多问题 不过还好都解决了

第一次写博客 喜欢的加一波关注@@

你可能感兴趣的:(火车头采集器 v9免费版使用)