网络爬虫轻松入门笔记

常见网页抓取工具

火车头采集器:
老牌专业数据采集工具
效率高、功能全、接口齐全,可扩展
主要缺点:
1.只能抓取静态网页
现在越来越多的主流沾点和核心数据展示都是使用动态页面
2.无法实现国语复杂的流程和逻辑
次要缺点:采集规则的编写对不懂代码的用户来说有难度

八爪鱼
全鼠标拖放,图文操作界面
操作简介,易于理解,入门成本低
可以使用云采集方式运行,不需要本机开机
主要缺点:对用户进一步成长不利
1.对用户学习网络爬虫抓取相关知识帮助有限
2.复杂功能严重依赖软件开发商提供
次要缺点:所有操作都需要消耗积分,大量采集数据实际不免费
还有:杀毒软件总是报告他有木马?!

火车浏览器

  • 集合了八爪鱼和火车头采集器的优点
    像八爪鱼一样易学易用
    比火车头采集器功能更加强大
    可以抓取动态网页
  • 只要看得到的页面内容,全都可以采集下来!
  • 100%模拟真人对浏览器的操作动作,可以达成任何操作目的
  • 可实现任意复杂的操作逻辑
  • 可编译成EXE文件脱离平台直接发布并运行
  • 保持易用特征的同时,对学习相应的编程知识有非常有帮助
    缺点:
    抓取速度比火车头采集器明显要慢
    免费版一个项目只能抓取30分钟,超时后抓取程序会停止,必须手动重新启动
    收费版价格明显要比火车头采集器贵

案例:

  • 大众点评数据抓取
  • 淘宝数据抓取
  • 微信公众号文章检测与抓取
    微信是防抓取功能最为完善的社交网络软件之一
    必须互相关注才能看到个人发送的信息
    必须个人明确授权才能获取个人信息
    用模拟器登录会直接封账号
    没有网页版本可供抓取
    通讯内容有一定程度的加密(呵呵)

你可能感兴趣的:(网络爬虫轻松入门笔记)