Python网络爬虫与信息提取第二周测验答案

测验2: Python网络爬虫之提取 (第2周)

1. 下面哪个Python库不能用于提取网页信息?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A re
  • B Beautiful Soup
  • C lxml
  • D requests

正确答案 D
requests是爬虫库,只用于获取页面,不对页面信息进行提取。

2. 下面代码中,BeautifulSoup指什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

from bs4 import BeautifulSoup
  • A bs4库中的一个函数名称
  • B 类的名称
  • C Python第三方库的名字
  • D 用户定义的变量名称

正确答案 B
from bs4 import BeautifulSoup
指从bs4库中引入一个元素(函数或类),这里BeautifulSoup是类。

3. 在bs4库中,下面说法错误的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 一个HTML文档可以包含多个标签树
  • B 一个HTML文档与一个标签树等价
  • C 标签树上除了标签外,节点还可能是字符串(NavigableString)类型。
  • D 一个HTML文档与BeautifulSoup对象等价

正确答案 A
一个文档只对应一个标签树

4. 下面代码中,href属于哪个类别?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

<a class="title" href="https://python123.io/ws/demo.html"> TEXT </a>
  • A 字符串
  • B 名称
  • C 属性
  • D 标签

正确答案 C
a是标签,href是属性。

5. 获得soup对象中,能够获得a标签全部属性的代码是:

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
  • A soup.a.attrs[0]
  • B soup.a[0].attrs
  • C soup.a.attrs[]
  • D soup.a.attrs

正确答案 D
a标签是HTML预定义标签,通过soup.a可以直接获取。

6. 下面哪个不是信息提取的思路?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 通过自然语言处理方式找到所需提取的信息。
  • B 结合部分格式解析和搜索的方式提取所需要的信息。
  • C 无视格式,直接搜索找到所需提取的信息。
  • D 按照信息格式完全解析,解析后找到所需提取的信息。

正确答案 A
自然语言理解一般针对语言文本,HTML等信息标记格式产生的文本需要采用信息提取方式获得语言文本,才使用自然语言理解方式进一步处理(如果有需要的话)。

7. 为什么Beautiful Soup库叫这个名字?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 开发者喜欢煲汤
  • B 原因不详,第三方库起名原因多种多样,没必要深究
  • C 之前有类似的库叫类似的名字
  • D Python Software Foundation要求开发者叫这个名字

正确答案 B
Python计算生态采用"集市"模式,命名权归贡献者。

8. Beautiful Soup库不可加载的解析器是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A lxml
  • B html.parser
  • C html5lib
  • D re

正确答案 D
bs4解析器是能够解释HTML或XML的一个第三方库,re是用来表达并匹配正则表达式的,不能够装载到bs4库中。

9. 不属于bs4库遍历标签树方法的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 下行遍历
  • B 跳跃遍历
  • C 平行遍历
  • D 上行遍历

正确答案 B
遍历树一般没有"跳跃遍历"。

10. 关于Beautiful Soup库说法错误的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A Beautiful Soup库能够对HTML和XML等格式进行解析
  • B Beautiful Soup库可常用于生成标签树
  • C Beautiful Soup库也叫bs4库
  • D Beautiful Soup库是解析、遍历、维护标签树的功能库

正确答案 B
Beautiful Soup库不能够生成标签树,只能解析、遍历和维护。

你可能感兴趣的:(Python网络爬虫与信息提取)