网络爬虫介绍

目录

爬虫介绍

爬虫应用领域

爬虫的合法性

 反爬与反反爬

爬虫的基本套路 

 为什么要使用python语言来做爬虫呢????

 网页抓包工具_浏览器开发者工具


爬虫介绍

爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,就是用代码模拟人的行为,去各各网站溜达、点点按钮、查查数据。或者把看到的数据拿下来。

作用:

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

网络爬虫介绍_第1张图片

网络爬虫介绍_第2张图片

爬虫应用领域

  • 批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析
  • 批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销
  • 批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览
  • 开发一款火车票抢票程序,以实现自动抢票
  • 爬取评论,舆情监控
  • 爬取说说信息,分析上线时间
  • ...

爬虫的合法性

俗话说:

爬虫爬得欢,监狱要坐穿; 数据玩的溜,牢饭吃个够。 

网络爬虫介绍_第3张图片

爬虫是否违法视情况而定。 

合法的爬虫

  • 公开的数据,没有标识不可爬取
  • 不影响别人服务器
  • 不影响的业务

不合法的爬虫

  • 用户数据

  • 部分网站、APP数据超过指定数量

  • 明文规定不让爬取

    • 在域名后加上/robots.txt查看
    • 页面上标明
  • 影响业务

  • 影响服务器

    类似DDOS攻击的问题

 网络爬虫介绍_第4张图片

 disallow就是不允许爬虫,allow允许。

但是并非所有网站都会有robots.txt来提供是否允许爬虫的信息,这时候就看自己了哈哈哈哈哈。

我们能爬的数据并不代表合法,需要谨慎判断。 

提示

部分爬虫虽然违法,但公司、或企业不会直接报警。会采用反爬的手段,严重后才会报警。

 反爬与反反爬

反爬:有时企业不想自己的数据被别人拿到。这时就会设置反爬的手段,来不让爬虫获取数据。

反爬虫常用一些手段:

  • 合法检测:请求校验(useragent,referer,接口加签 ,等)
  • 验证码:识别文字、做题、滑动等
  • 小黑屋:IP/用户限制请求频率,或者直接拦截
  • 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  • ... ...

反反爬:破解掉反爬手段,再获取其数据。所有的手段都能破解吗?

道高一尺魔高一丈,这是一场没有硝烟的战争,程序员VS程序员

爬虫的基本套路 

  • 基本流程

    • 目标数据:想要什么数据

    • 来源地址

    • 结构分析

      • 具体数据在哪(网站、还是APP)
      • 如何展示的数据
    • 实现构思

    • 操刀编码

  • 基本手段

    • 破解请求限制

      • 请求头设置,如:useragant为有效客户端
      • 控制请求频率(根据实际情景)
      • IP代理
      • 签名/加密参数从html/cookie/js分析
    • 破解登录授权

      • 请求带上用户cookie信息
    • 破解验证码

      • 简单的验证码可以使用识图读验证码第三方库
  • 解析数据

    • HTML Dom解析

      • 正则匹配,通过的正则表达式来匹配想要爬取的数据,如:有些数据不是在html 标签里,而是在html的script 标签的js变量中
      • 使用第三方库解析html dom,比较喜欢类jquery的库
    • 数据字符串

      • 正则匹配(根据情景使用)
      • 转 JSON/XML 对象进行解析

 为什么要使用python语言来做爬虫呢????

  • 简单
  • 高效
  • 三方模块库多

 网页抓包工具_浏览器开发者工具

爬虫的核心就是发送请求,让 网络服务器返回相应的数据。而最为核心之一就是找到URL,这时就需要一个可以帮助我们分析URL的工具,浏览器开发者工具。

网络爬虫介绍_第5张图片

网络爬虫介绍_第6张图片

 网络爬虫介绍_第7张图片

你可能感兴趣的:(python爬虫,爬虫)