Python网络爬虫与信息提取第四周测验答案

测验4: Python网络爬虫之框架 (第4周)

1. 下面哪个不是“网络爬虫与信息提取”相关的技术路线?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A bs4-re
  • B requests-bs4-re
  • C requests-re
  • D scrapy-bs4

正确答案 A
技术路线至少包含一个爬虫库和一个解析库,bs4和re都是解析库。

2. Requests库的方法与HTTP协议请求方法对应,下面哪个不是Requests库的对应方法?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A .patch()
  • B .get()
  • C .put()
  • D .push()

正确答案 D

3. 判断一个网络爬虫应用可行性的最主要因素是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 部署代价和经济成本
  • B Robots协议是否有允许
  • C 技术路线选取
  • D 网页条件,即尽量没有JavaScript脚本产生的数据

正确答案 B
Robots协议允许是爬虫能够实施的首要条件。

4. 下面哪个不是网络爬虫可能引发的问题?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 性能骚扰
  • B 法律风险
  • C 网络攻防对抗
  • D 隐私泄露

正确答案 C
爬虫不会造成网络攻防对抗,被爬取服务器可能会被爬虫攻击,但没有对抗。

5. 以下不是Scrapy框架组成模块的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Spiders
  • B Engine
  • C Blocklist
  • D Downloader

正确答案 C
Scrapy具有5+2结构,其中,5个模块分别是:Engine、Spiders、Scheduler、Downloader和Item Pipelines。

6. 在scrapy框架中,数据流最初始的请求来自于:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Engine
  • B Scheduler
  • C Spiders
  • D Downloader

正确答案 C
Spiders模块给出了Scrapy爬虫最初始的请求

7. 在Scrapy框架中,以下不是数据流所承载数据元素的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A RESPONSE
  • B URLS
  • C REQUESTS
  • D ITEMS

正确答案 B
Scrapy中使用REQUESTS表达URL,因此,URL不是其直接承载的元素。

8. 在Scrapy框架中,请求从Spider模块发出后,被Engine发送到:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Downloader
  • B ITEM Pipeline
  • C Scheduler
  • D 丢弃

正确答案 C
Spider->Engine->Scheduler,注意,Spider请求不直接到Downloader模块。

9. 在Scrapy框架中,Downloader爬取页面内容后,结果经Engine发送到哪个模块?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Scheduler
  • B ITEM Pipelines
  • C 丢弃
  • D Spiders

正确答案 D
Downloader->Engine->Spiders路径。

10. 在Scrapy框架中,Spiders模块产生的HTML分析结果经Engine模块发送给哪个模块?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Item Pipelines和Scheduler
  • B Item Pipelines
  • C Scheduler
  • D Downloader

正确答案 A
Spiders->Engine->(ITEMS) Item Pipelines
->(REQUESTS) Scheduler
根据不同类型的结果,有两个路径。

你可能感兴趣的:(Python网络爬虫与信息提取)