2-八爪鱼的自动识别(Cookie设置、翻页与循环)

目录

  • 2-1-知识储备
    • Cookie
  • 2-2-微博数据抓取(登陆Cookie设置)
    • 1-在八爪鱼页面打开微博的官网
    • 2-切换至“浏览模式”
    • 3-登录微博
    • 4-设置Cookie
    • 5-输入关键词
    • 6-自动识别网页,完成数据采集
  • 2-3-豆瓣图书数据抓取(翻页与循环)
    • 1-登陆八爪鱼,进入豆瓣的采集页面
    • 2-自动识别网页
    • 3-采集各个图书的链接
    • 4-循环打开各个网页采集相关信息
    • 5-点击采集开始对最终数据进行抓取
  • 2-4-采集流程逻辑
    • 1-八爪鱼的工作原理
    • 2-八爪鱼的流程逻辑
      • 案例1
      • 案例2
      • 案例3
  • 2-5-思考
  • 参考资料

2-1-知识储备

Cookie

Cookie是某些网站为了辨别用户身份在用户本地终端上的数据(通常经过加密),由用户计算机暂时或永久保存的信息。也就是如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

2-2-微博数据抓取(登陆Cookie设置)

1-在八爪鱼页面打开微博的官网

网址:https://www.weibo.com/

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第1张图片

2-切换至“浏览模式”

通过观察发现,想要搜索微博的相关信息需要先登陆微博的账号,我们先进入到浏览模式进行账号的登陆。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第2张图片

3-登录微博

进入浏览模式之后,会像进入微博网页版,点击右上角的登陆进入到微博账号的登陆界面。登陆完成后我们就进入到了全新的微博界面。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第3张图片

4-设置Cookie

首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击“使用指定的Cookie”后,点击“获取当前页面Cookie”。Cookie设置完成后,Cookie设置完成后,退出浏览模式进入到数据爬取规则设置阶段
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第4张图片

5-输入关键词

点击微博的搜索按钮,会出现智能提示,选择==“点击该链接”==,跳转至搜索界面。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第5张图片

点击搜索框,选中“输入文本”,然后输入待搜索词;
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第6张图片
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第7张图片

选中左侧流程图的输入文本,勾选输入后按回车键,然后点击“应用“
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第8张图片

6-自动识别网页,完成数据采集

使用自动识别网页功能对网页进行识别。识别完成后,默认采集了19个字段。如果字段有些不是我们想要的,可以将其删除。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第9张图片
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第10张图片
字段设置完成以后,点击生成采集设置,就可以对微博的数据进行爬取了。
最后将任务修改名称后保存,可以在我的任务中找到设置的相应任务。

2-3-豆瓣图书数据抓取(翻页与循环)

豆瓣图书的网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

1-登陆八爪鱼,进入豆瓣的采集页面

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第11张图片

2-自动识别网页

使用自动识别网页的功能对豆瓣的数据进行采集
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第12张图片

我们发现自动采集无法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢?

有以下两种解决思路:

第一个是先采集各个书的链接,然后再依次打开各个书的链接进行数据采集

第二个是打开豆瓣的网站,然后点击第一个链接进入采集数据,然后返回到链接列表然后采集第二个链接。

接下来以第一个思路作为示例!
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第13张图片

3-采集各个图书的链接

我们使用八爪鱼的自动识别功能对豆瓣网页进行识别。我们看到自动识别采集了11个字段,而我们只要书的名称以及链接这个2个字段,其它的都删除。

可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,减少采集的字段可以提升采集速度,因此将不需要的字段删除。

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第14张图片

点击生成采集设置,点击保存并开始采集,点击启动本地采集。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第15张图片

4-循环打开各个网页采集相关信息

将前面收集到的数据导入到八爪鱼中。
1)点击”新建“,选中”自定义输入“
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第16张图片
2)选择文件——选择工作簿——选择列——保存设置
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第17张图片
2)选中”活着“,选择”采集该元素的文本“;其他元素类似。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第18张图片
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第19张图片

5-点击采集开始对最终数据进行抓取

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第20张图片

2-4-采集流程逻辑

1-八爪鱼的工作原理

模拟人的行为,通过内置Chrome浏览器浏览网页数据,所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也需如此操作。

2-八爪鱼的流程逻辑

八爪鱼通过【采集流程】全自动采集数据。【采集流程】执行逻辑遵循2个原则:先从上至下、再由内而外
【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤,八爪鱼与网页发生互动。【灰色框】起记录网页的作用。
2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第21张图片

案例1

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第22张图片

案例2

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第23张图片

案例3

2-八爪鱼的自动识别(Cookie设置、翻页与循环)_第24张图片

2-5-思考

1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?

属于个人隐私数据,在使用过程中注意隐藏个人信息,避免信息泄露。

2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?

指定Cookie后,网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?

参考链接:https://www.bazhuayu.com/tutorial8/81xsrm9

参考资料

team-learning-program/2.自动识别初体验.md at master · datawhalechina/team-learning-program (github.com)

你可能感兴趣的:(#,八爪鱼爬虫,爬虫,爬虫)