1.正则表达式中$匹配行尾。(2分)
A.正确
B.错误
2.(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。(2分)
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
3.POST提交的数据会放在URL之后。(1分)
A.正确
B.错误
4.正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(2分)
A.正确
B.错误
5.正则表达式中的饥饿模式匹配尽可能少的文本。(2分)
A.正确
B.错误
6.GET请求获取Request-URI所标识的资源。(1分)
A.正确
B.错误
7.聚焦爬虫爬行策略实现的关键是评价()的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。(2分)
A.页面内容
B.页面内容和链接
C.链接
D.表单信息
8.()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。(2分)
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
9.对于数据量大的系统,一般也常做一次性的数据抽取。(1分)
A.正确
B.错误
10.GET提交的数据大小有限制,最多只能有1024字节。(2分)
A.正确
B.错误
11.数据质量的时效性指数据是否在企业定义的可接受的范围之内。(1分)
A.正确
B.错误
12.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。(2分)
A.*
B.+
C.?
D.^
13.以下哪个属于HTTP请求信息()。(2分)
A.User-Agent
B.Content-Length
C.Accept-Ranges
D.Expires
14.PageRank优先策略常用于()。(2分)
A.通用网络爬虫
B.所有网络爬虫
C.增量式网络爬虫
D.DeepWeb爬虫
15.Java语言不支持正则表达式。。(1分)
A.正确
B.错误
16.DELETE请求服务器删除Request-URI所标识的资源。(1分)
A.正确
B.错误
17.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是()(2分)
A.a1
B.a
C.1
D.ab
18.以下不属于数据质量的规范、完整性要求的是()(2分)
A.参照完整性未被破坏:数据不会找不到参照
B.不存在交叉系统匹配违规,数据被很好集成
C.数据在内部一致
D.遗留系统相关信息与其他模块要一致
19.正则表达式的量词*表示0次或多次。(1分)
A.正确
B.错误
20.影响质量问题的原因不包括()。(2分)
A.数据的时间差异性问题
B.数据的获取方式多样性问题
C.数据的不稳定性问题
D.数据的依赖性问题
21.正则表达式中,()匹配除了换行符之外的任意字符。(2分)
A.^
B.\d
C..
D.\w
22.()的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。(2分)
A.广度优先
B.深度优先
C.基于目标特征
D.基于领域
23.以下不属于数据清洗要处理的对象的是()。(2分)
A.规范的数据
B.不完整的数据
C.错误的数据
D.重复的数据
24.爬虫工具只能用Java语言编写。(2分)
A.正确
B.错误
25.追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些"杂乱”的"脏”数据,就涉及到()技术。(2分)
A.数据采集
B.数据统计
C.数据清洗
D.数据预测
26.()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。(2分)
A.基于目标网页特征
B.基于领域概念
C.基于目标数据模式
D.深层网络爬虫
27.正则表达式中的贪婪模式匹配尽可能多的文本。(2分)
A.正确
B.错误
28.数据的预处理ETL的L表示()。(2分)
A.抽取
B.转换
C.加载
D.清洗
29.以下哪个不属于HTTP请求信息()。(2分)
A.User-Agent
B.Connection
C.Accept-Language
D.Expires
30.以下属于HTTP协议的主要特点的是()。(2分)
A.HTTP只允许传输指定类型的数据对象
B.HTTP协议是无状态协议
C.HTTP1.1使用非持续连接
D.HTTP不支持安全认证
31.聚焦网络爬虫数量非常多,页面更新慢。(2分)
A.正确
B.错误
32.超文本传输协议通常由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接。(1分)
A.正确
B.错误
33.、HTTP中()方法可用于请求查询服务器的性能,或者查询与资源相关的选项和需求。(2分)
A.OPTIONS
B.DELETE
C.PUT
D.TRACE
34.在HTTP请求中,通过()方法发送的数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连。(2分)
A.GET
B.POST
C.PUT
D.TRACE
35.正则表达式[^A-Za-z_0-9]等价于()。(2分)
A.^
B.\d
C.\W
D.\w
36.通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。(1分)
A.正确
B.错误
37.对发出的HTTP请求应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为()。(2分)
A.浏览器
B.播放器
C.用户代理
D.源服务器
38.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。(2分)
A.正确
B.错误
39.通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。(1分)
A.正确
B.错误
40.通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。(2分)
A.数据库
B.播放器
C.用户代理
D.源服务器
41.通过HTTP或者HTTPS协议请求的资源由()来标识。(2分)
A.HTML
B.URL
C.TCP
D.FTP
42.HTTP请求的PUT方法请求服务器回送收到的请求信息,主要用于测试或诊断。(1分)
A.正确
B.错误
43.增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。(2分)
A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法
44.HtmlParser是一个Java编写的html解析的库。(1分)
A.正确
B.错误
45.聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。(1分)
A.正确
B.错误
46.HTTP请求中的()方法用于请求服务器存储一个资源,并用Request-URI作为其标识。(2分)
A.GET
B.POST
C.PUT
D.TRACE
47.HTTP请求的Keep-Alive对服务器没有负面影响。(2分)
A.正确
B.错误
48.Java、Python等语言也支持正则表达式。(2分)
A.正确
B.错误
49.正则表达式的量词?表示0次或多次。(1分)
A.正确
B.错误
50.深度优先策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。(1分)
A.正确
B.错误
51.HTTP只允许传输文本类型的数据对象。(2分)
A.正确
B.错误
52.在HTTP响应信息中状态信息码是一个重要的信息。(1分)
A.正确
B.错误
53.以下不能匹配正则表达式"^[\d]+$"的是()。(2分)
A.12abc
B.12
C.123
D.10
54.一次HTTP由()组成。(2分)
A.一次请求
B.一次响应
C.一次请求和一次响应
D.2次请求
55.POST提交的数据大小有限制,最多只能有1024字节。(2分)
A.正确
B.错误
56.HTTP请求的()能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,避免了建立或者重新建立连接。(2分)
A.Host
B.Keep-Alive
C.Cookie
D.Referer
57.HTTP响应中的()用于重定向一个新的位置。(2分)
A.Location
B.Connection
C.Refresh
D.WWW-Authenticate
58.广度优先策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。(2分)
A.正确
B.错误
59.数据质量的()表示所有需要的数据是否都存在。(2分)
A.正确性
B.完整性
C.一致性
D.完备性
60.正则表达式无法实现特殊字符的匹配。(2分)
A.正确
B.错误
61.以下哪个HTTP响应状态表示客户端错误()。(2分)
A.200
B.300
C.403
D.500
62.HTTP请求中Referer头域的内容包含发出请求的用户信息。(1分)
A.正确
B.错误
63.正则表达式由一些普通字符和一些元字符组成。(1分)
A.正确
B.错误
64.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源。(2分)
A.URL列表
B.LVS表
C.爬行控制器
D.响应分析器
65.表层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页。(1分)
A.正确
B.错误
66.HTTP响应中的()表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。(2分)
A.Content-Type
B.Content-Range
C.Content-Length
D.Content-Encoding
67.HTTP请求中的Connection:keep-alive表示()(2分)
A.客户端设备类型
B.客户端到服务器端的连接持续有效
C.客户端网络类型
D.客户端指定请求uri的源资源地址
68.发送了一个HTTP请求后,客户端收到一个200的响应,这表示()。(2分)
A.拒绝访问
B.登录失败
C.重定向到其他URL
D.请求成功
69.深层网页中存储的信息量只占互联网中信息量的极少部分。(1分)
A.正确
B.错误
70.深度优先策略比较适合垂直搜索或站内搜索。(2分)
A.正确
B.错误
71.()描述了一种字符串匹配的模式,通常被用来检索、替换那些符合某个模式(规则)的文本。(2分)
A.网络爬虫
B.数据采集
C.字符集
D.正则表达式
72.使用()方法提交表单数据,会带来安全问题,比如一个登录页面,通过这种方式提交数据时,用户名和密码将出现在URL上,如果页面可以被缓存或者其他人可以访问这台机器,就可以从历史记录获得该用户的账号和密码。(2分)
A.GET
B.DELETE
C.PUT
D.TRACE
73.HTTP请求中的Keep-Alive功能使客户端到服务器端的连接持续有效。(2分)
A.正确
B.错误
74.正则表达式的规则中,()表示匹配所有非空白字符(2分)
A.\S
B.\d
C.\W
D.\w
75.以下关于网络爬虫的说法,不正确的是()。(2分)
A.网络爬虫实际上是一种"自动化浏览网络”的程序,或者说是一种网络机器人
B.网络爬虫被广泛用于互联网搜索引擎或其他类似网站
C.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
D.目前互联网上的信息分类大多数都是人工完成的
76.HTTP状态码400表示请求成功。。(2分)
A.正确
B.错误
77.HTTP请求中的Range头域可以请求实体的一个或者多个子范围。(1分)
A.正确
B.错误
78.HTTP请求方法中的DELETE用于请求服务器删除Request-URI所标识的资源。(1分)
A.正确
B.错误
79.聚焦网络爬虫又称主题网络爬虫。(2分)
A.正确
B.错误
80.HTTP请求中的()方法用于请求服务器回送收到的请求信息,主要用于测试或诊断。(2分)
A.GET
B.DELETE
C.PUT
D.TRACE
81.POST提交的数据大小有限制,最多只能有1024字节。(1分)
A.正确
B.错误
82.目前互联网上的信息分类大多数都是人工完成的。(2分)
A.正确
B.错误
83.HTTP响应中Content-Type用于指明响应的对象所用的自然语言。(2分)
A.正确
B.错误
84.以下能匹配正则表达式"^[A-Za-z]+$"的是()。(2分)
A.a3
B.abc
C.33
D.ab
85.HTTP请求中的()头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。(2分)
A.Accept
B.User-Agent
C.Cookie
D.Referer
86.正则表达式中的饥饿模式匹配尽可能多的文本。(2分)
A.正确
B.错误
87.数据清洗是一个一次性的过程。(2分)
A.正确
B.错误
88.()爬行过程中最重要部分就是表单填写及处理。(2分)
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
89.HTTP协议是无状态协议。(1分)
A.正确
B.错误
90.HTTP状态码500表示由于客户端原因造成的请求失败。(1分)
A.正确
B.错误
91.实际的网络爬虫系统通常是几种爬虫技术相结合实现的。(1分)
A.正确
B.错误
92.HTTP请求中的()头域的内容包含发出请求的用户信息。(2分)
A.Authorization
B.User-Agent
C.Cookie
D.Referer
93.网络数据采集一般是通过()或网站公开API等方式从网站上获取数据信息。(2分)
A.网络爬虫
B.网站日志
C.HTTP
D.表单
94.可以从一个HTTP请求中了解到一些信息,例如:发出请求的客户端,请求的语言,是否保持连接(keep-alive),等等。(1分)
A.正确
B.错误
95.实际的网络爬虫系统通常是几种爬虫技术相结合实现的。(2分)
A.正确
B.错误
96.HTTP请求中的Cookie表示客户端类型。(2分)
A.正确
B.错误
97.正则表达式中的量词可以匹配一个表达式多次出现,其中()表示0次或多次。(2分)
A.*
B.+
C.?
D.^
98.HTTP协议是无状态协议。(2分)
A.正确
B.错误
99.增量式爬虫不需要评价网页内容的重要性。(1分)
A.正确
B.错误
100.数据清洗是一个一次性的过程。(1分)
A.正确
B.错误