一起学爬虫(Python) — 01

一起学爬虫(Python) — 19 年轻人,进来学自动化

首先要了解爬虫

  • 1.什么是爬虫
    • 1.自言自语
  • 2.为什么要学爬虫
    • 1.为了赚钱
    • 2.为了私欲
  • 3.爬虫违法吗?
    • 如何避免踩坑
  • 爬虫的分类
  • 爬与反爬
  • robots.txt协议
  • http协议和https协议
    • 常用请求头信息(先知道有这个东西)
    • 常用响应头信息(同上,都要通过抓包工具查看)
  • 加密方式(大致知道就好)
  • 结尾

1.什么是爬虫

1.自言自语

深思良久…
所以为什么要问这个问题呢?
传统!
每学一门技术之前都要了解我学的是什么,为什么要学,好学吗……
但是小泽不要这么学,为什么呢?
如果跟别人一样的话,那有那么多优质的文章摆在前面,像我这种刚开始学习的,肯定比不过人家的啦。
所以,我要用我自己的方法,把原本可能比较难理解的东西,简单细化的分享给大家,同时也帮助自己巩固知识和提高学习的兴趣,独乐乐不如众乐乐嘛~
众所周知,学习是快乐的。
一起学爬虫(Python) — 01_第1张图片
爬虫就是…模拟我们去点击浏览器收集数据的过程,如果我们去下载图片就要一下一下点,但是用爬虫的话就可以批量快捷的下载自己需要的东西。

2.为什么要学爬虫

1.为了赚钱

这个理由很充分吧,钱钱钱钱钱,没有可是万万不能的!
一起学爬虫(Python) — 01_第2张图片

在日常生活中,有些人可以为了钱杀人放火,抢劫绑架,拐卖人口,贩卖毒品……
但是这些行为带来的后果往往是冰冷的绞刑架,是生命的付诸东流,是没有复活币的Game Over!
但是大部分人老老实实本本分分一辈子,还是难以过上有钱人的生活。高考是公平的,但在这个时代又不是那么公平,它影响了数万家庭的观念,给现代的孩子施加了沉重的压力,似乎只要学习不好就低人一等一样。
我安慰过很多因为成绩差所以觉得自己比别人笨的学弟学妹,还有很多没有被发现的“差学生”也有可能正在承担着这本不应该出现在这个年纪的压力,无处宣泄。
跑题了哈…
我想说的是,钱,真的很重要!赚钱的方式,也同样重要!
那么这跟学爬虫有什么关系呢?
既然能来到这里相信大家都明白往后是一个大数据的时代,谁手中掌握的数据多谁就有主动权,咱也不知道为什么会这样,但总之就是这样(这句是废话)。
而爬虫,能在这里可以用数据变现的时代则可以担当数据收集官这一重要角色!
数据=钱
至于怎么变成钱,懂的都懂(我也不懂)
总之就是目前还可以赚钱,并且比较容易赚钱,所以才学!
一起学爬虫(Python) — 01_第3张图片

2.为了私欲

咳咳,比如说夜深人静的时候……百无聊赖的时候……会想看那么几部动作电影,或者看点养生图片呀之类的,但是又不太方便,自己能找到的又属于看吐了的,没什么新意…咳咳,别想歪喽!
还有呀,平时用百度经常找了半天都是广告,不是自己要的东西,很烦吧?没事,用爬虫!
或者有些歌要付费,有些电影也要付费,这种时候,你就可以用爬虫去把它爬下来(咱还没有到那种地步,反正你得干的过服务器那边的程序员)。
还有什么是比一键收集动作电影更快乐的事呢?如果有,带我一个。
一起学爬虫(Python) — 01_第4张图片

3.爬虫违法吗?

目前来说,法律上没有禁止使用爬虫。
但是也有违法的可能,说不定会进局子哦~
那我来教你怎么违法吧!
爬取一些国家机密…
爬取某些网站声明禁止爬取的数据…
爬取动作片…(应该违法吧,hhh)
但是,大多网站还是喜欢被爬虫爬的(抖M体质)。
为什么呢?
比如说百度,你可以把它理解为一个大爬虫,爬到的网页就会供大家搜索,就相当于增加了流量。
但是如果你毫无节制的去爬人家,那就会被人家打。比如一秒钟下载几百次几千次美女图片,结果人家的服务器被你搞坏了。
所以很多服务器在你爱进行这么多次高频访问的时候就会意识到,你不是人!然后把你咔嚓喽。
一起学爬虫(Python) — 01_第5张图片

如何避免踩坑

  1. 访问人家的网站的时候不要突突突突突突一秒访问几十次
  2. 爬到的信息要看一看,如果觉得不对劲就赶紧删喽

爬虫的分类

  • 通用爬虫:
    抓取系统重要组成部分。抓取的是一整张页面数据。
  • 聚焦爬虫:
    是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
  • 增量式爬虫:
    检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬与反爬

我们要知道,服务器那边的人又不傻,不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽,所以说有爬的人,就有反爬的人。
这是一场没有硝烟的战争。
更像是套娃……
比如说你爬了人家,人家知道你是怎么爬的就针对你爬的方式想出了办法反爬,你又根据别人反爬的方式想出了办法继续爬,别人又根据你继续爬的方式想出了方法反爬,你又根据别人新的反爬的方式想出了新的办法继续爬……
道高一尺魔高一丈,所以不要怕!我们无论遇到什么反爬,微笑着面对他,奥利给!
大多时候都是爬的一方占优势,毕竟服务器如果分太多精力对付你,那就得不偿失了,而你用了那么多方法去一层一层爬出来,效率也会大打折扣,属于两边都可以接受吧。

robots.txt协议

关于这个协议,只要知道是君子协议就好啦。
有些网站会在robots.txt里标注哪些数据是可以爬的,哪些数据是不可以爬的,既然大家都不想进局子,就好好遵守吧,hhh

http协议和https协议

两个都是超文本传输协议,知道一下就好啦,就像是密码本之类的,https则更安全。

常用请求头信息(先知道有这个东西)

  • User-Agent:请求载体的身份标识(伪装身份的道具)

    • 在这里插入图片描述
  • Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息(同上,都要通过抓包工具查看)

  • Content-Type:服务器响应回客户端的数据类型
    • 一起学爬虫(Python) — 01_第6张图片

加密方式(大致知道就好)

  • 对称秘钥加密
    • 你给了我一份文件,同时给了我密码,我可以直接打开看
  • 非对称秘钥加密
    • 你给了我一份文件,同时给了我公共密码,我需要用公共密码和我知道的私人密码一起解开
  • 证书秘钥加密
    • 找个靠谱的中介

结尾

今天就先了解这些吧,学习编程的话,不要学得那么死,如果不是要深造就学到会用就可以,也不要担心我英语不好呀,我数学不好呀什么的,敲多了总会熟练的~
明天就开始实战喽!在努力之前先放松一个晚上吧~
一起学爬虫(Python) — 01_第7张图片

你可能感兴趣的:(爬虫,python,爬虫,大数据)