大数据采集技术与预处理


大数据概述

1

你搭建web服务器,建了一个网站。服务器的日志文件自动记录了每一个访问的IP地址等信息。现在要对这些信息进行收集,属于

  • A、

    数据采集

  • B、

    数据清洗

  • C、

    数据存储

  • D、

    数据挖掘

正确答案: A

2

你想做一个项目,收集某房产网站上的租房信息,这种数据采集属于

  • A、

    系统日志采集

  • B、

    应用程序日志采集

  • C、

    互联网信息采集

  • D、

    用户操作信息采集

正确答案: C 

3

某单位的数据库中,关于“性别”的信息有多重表达样式,比如“男”,“女”,“Man”,“Women”,对这些信息的规范化,属于

  • A、

    数据采集

  • B、

    数据预处理

  • C、

    数据挖掘

  • D、

    机器学习

正确答案: B 

采集到的原始数据具有 杂乱 重复 不完整性,通过预处理来进行处理

4

将多源数据(比如不同种类的数据库,文件等),组成统一视图,属于

  • A、

    数据清洗

  • B、

    数据集成

  • C、

    数据挖掘

  • D、

    数据归约

正确答案: B 

 

5

将某些数据改为布尔型的数据,属于

  • A、

    数据采集

  • B、

    数据变换

  • C、

    数据归约

  • D、

    数据显示

正确答案: B 

6

对于学生有100个属性可以描述,但是起主要区分作用的就没几个,想办法对100个属性进行删减,这种操作属于

  • A、

    数据采集

  • B、

    数据集成

  • C、

    数据归约

  • D、

    数据挖掘

正确答案: C 

7

啤酒和尿布的示例,是一种

  • A、

    数据采集

  • B、

    数据清洗

  • C、

    数据挖掘

  • D、

    数据归约

正确答案: C 

8

大数据采集技术与预处理_第1张图片

以上操作属于

  • A、

    数据采集

  • B、

    数据变换

  • C、

    数据分析

  • D、

    数据展示

正确答案: B 

9

以下概念哪个可以衡量数据的离散程度

  • A、

    均值

  • B、

    方差或者标准差

  • C、

    数据类型

正确答案: B 

二.判断题

1

自己写在代码里的日志信息,也可以作为日志进行采集。

正确答案:

2

防火墙的日志信息,系统日志,网络日志都可以进行自动化的数据采集。

正确答案:

3

爬虫程序用于爬取系统日志,而非互联网站上的信息。

正确答案:×

4

日志可以用于资源监控,以了解系统中各种资源的占有情况。

正确答案:

5

系统日志可以用于审计,以监控非授权行为。

正确答案:

6

日志可以用于对不安全行为造成的损失的评估。

正确答案:


 数据采集技术基础

1

计算机能够进行存储和处理的信息是

  • A、

    模拟信号

  • B、

    数字信号

  • C、

    正弦波形

  • D、

    传感器收集的信息

正确答案: B 

2

关于数据采集系统的软件,下列说法正确的是

  • A、

    数据采集系统不负责模拟信号采集

  • B、

    数据采集系统不负责数字信号采集

  • C、

    数据采集系统不负责脉冲信号采集

  • D、

    一般都有主控程序

正确答案: D 

二.多选题

1

关于传统数据采集,正确的是

  • A、

    数据量相对少

  • B、

    数据结构相对简单

  • C、

    数据量大,结构复杂

  • D、

    需要海量空间进行存储

正确答案: AB 

2

集散型数据采集系统相对于微型计算机数据采集系统来说,有如下特点

  • A、

    更为复杂

  • B、

    适应能力强

  • C、

    可靠性高

  • D、

    明显不同,二者没有任何关联度

正确答案: ABC 

3

关于数据采样,下列说法正确的是

  • A、

    只要按固定周期采样,信息就能恢复信号

  • B、

    必须遵循采样定理

  • C、

    采样频率需要大于信号频率两倍以上

  • D、

    采样频率可以等于信号频率

正确答案: BC 

4

关于数据采样,下列说法正确的是

  • A、

    可以不按固定周期采样

  • B、

    采样频率越高越好

  • C、

    可以变频采样

  • D、

    信号频率有变,可以保持精度不变

正确答案: ACD 

5

能够测量温度的传感器有

  • A、

    热电偶

  • B、

    热敏电阻

  • C、

    电感位移传感器

  • D、

    气敏传感器

正确答案: AB 

6

集散型数据采集系统的上位机

  • A、

    一般是PC机

  • B、

    直接收集传感器数据

  • C、

    接收数据采集站送来的数据

  • D、

    是单片机

正确答案: AC 

7

微信计算机数据采集系统中的模拟多路开关

  • A、

    可以减低成本

  • B、

    特定时间内只允许一路模拟信号输入

  • C、

    放大信号

  • D、

    对信号进行整形

正确答案: AB 

三.判断题

1

数据采集系统的精度是一个重要性能指标。

正确答案:

2

温度压力传感器采集的信息原本是数字信号,可以直接存入计算机处理

正确答案:×

3

模拟信号必须不间断采样,才能转为数字信号

正确答案:×

4

连续的模拟信号被采样后,变成了连续的数字信号

正确答案:×

5

连续信号经采样后变成了离散的采样信号,采样时间内信号也是离散的。

正确答案:×

6

采样信号还需要经过量化和编码过程才能变成计算机可以识别处理的数字信号。

正确答案:

 

 


11.1

1

下面哪些数据是结构化数据

  • A、

    关系数据库中的数据

  • B、

    xlsx文档

  • C、

    docx文档

  • D、

    图片

正确答案: A 

2

属于企业产生的数据是

  • A、

    ERP中的数据

  • B、

    电子政务

  • C、

    无线射频识别数据

  • D、

    社会网络数据

正确答案: A 

3

解决数据格式不一致的ETL环节是

  • A、

    E

  • B、

    T

  • C、

    L

  • D、

    ETL

正确答案: B 

4

不同用户,不同网站,不同形式的数据,说的是

  • A、

    高噪声

  • B、

    社会性

  • C、

    时效性

  • D、

    多元异构性

正确答案: D 

5

内容评价模块存在于哪种网络爬虫的架构中

  • A、

    通用网络爬虫

  • B、

    聚焦网络爬虫

  • C、

    增量式网络爬虫

  • D、

    分布式网络爬虫

正确答案: B 

通用网络(全网)爬虫 照单全收 覆盖范围大 高速 海量 并行 深度优先、广度优先

聚焦网络(主题)爬虫 有选择地爬 节省网络资源 判断页面的重要性 基于内容 基于链接

增量式网络爬虫 新产生 新更新 减少了爬行量 减少时间和空间消耗 增加了算法复杂度和实现难度

分布式网络爬虫 分布式爬取 并行化爬取 可应对海量页面 爬取能力更强大

6

通过多个单机爬虫系统的有效协作和配合,实现互联网大数据的数据抓取,这种爬虫被称为

  • A、

    通用网络爬虫

  • B、

    聚焦网络爬虫

  • C、

    增量网络爬虫

  • D、

    分布式网络爬虫

正确答案: D 

7

触发器技术可被应用于

  • A、

    全量数据抽取

  • B、

    增量数据抽取

  • C、

    对比日志

  • D、

    数据变换

正确答案: B 

二.多选题

1

下列说法正确的是

  • A、

    分布式技术包括分布式存储技术和分布式计算机技术

  • B、

    可以完成单机模式完成不了的海量复杂数据存储和计算

  • C、

    具有良好的伸缩性

  • D、

    当一个分布式节点出现问题时,整个系统的计算和存储服务会暂停

正确答案: ABC 

2

大数据来源有

  • A、

    政府

  • B、

    企事业单位

  • C、

    物联网

  • D、

    互联网

正确答案: ABCD 

3

大数据来源可以按照()进行划分

  • A、

    产生数据的主体

  • B、

    来源的行业

  • C、

    来源的形式

  • D、

    存储类型

正确答案: ABCD 

4

网络爬虫爬取数据的策略有

  • A、

    兴趣优先

  • B、

    质量优先

  • C、

    深度优先

  • D、

    广度优先

正确答案: CD

5

通用网络爬虫的特点有

  • A、

    爬行范围相对广泛

  • B、

    与某些主题相关

  • C、

    又称全网爬虫

  • D、

    时间和空间消耗相对低

正确答案: AC 

三.判断题

1

海量、复杂的数据采集、存储和处理任务可采用大型机这种集中式架构解决,保证了高负载情况下的高可用性和高性能。

正确答案:×

2

大数据分析更多从关联性着手,而不是因果关系。

正确答案:

3

数据科学家==数据分析师

正确答案:×

4

互联网数据的采集常常采用网络爬虫。网络爬虫不是计算机程序。

正确答案:×

5

语音属于半结构化数据

正确答案:×


 11.2

采集架构flume

1

下列大数据采集框架,哪个已经不处在活跃状态了?

  • A、

    Flume

  • B、

    Chukwa

  • C、

    Kafka

  • D、

    Logstash

正确答案: B 

2

Flume内部数据传输的基本单元是

  • A、

    HTTP

  • B、

    Event

  • C、

    Agent

  • D、

    HDFS

正确答案: B 

3

若想程序关闭或者宕机的情况下不丢失数据,应该使用的Channel种类是

  • A、

    file

  • B、

    memory

  • C、

    HDFS

  • D、

    avro

正确答案: A 

4

Sink中,不可以配置的参数是

  • A、

    属于Agent的Channel的类型为memory

  • B、

    类型为hdfs

  • C、

    存储路径

  • D、

    按时间分桶

正确答案: A 

二.多选题

1

Flume架构中的组件有

  • A、

    Source

  • B、

    Channel

  • C、

    Sink

  • D、

    HDFS

正确答案: ABC 

2

关于Flume的Source,下列说法正确的是

  • A、

    Source类型只能是avro

  • B、

    Source可以是其他Agent的Sink

  • C、

    一个Agent的Source可以从多个数据源接收数据

  • D、

    可以配置接收数据所使用的端口

正确答案: BCD 

3

Flume的Channel类型有

  • A、

    File

  • B、

    Memory

  • C、

    HDFS

  • D、

    其他Sink

正确答案: AB

4

关于Flume的Channel,可以配置的参数有

  • A、

    事件数量

  • B、

    事务可处理事件数量

  • C、

    大约最多占用内存

  • D、

    最少内存占有量

正确答案: ABC 

5

关于Sink,下列说法正确的是

  • A、

    Sink即数据源

  • B、

    Sink可以作为数据源

  • C、

    Sink即接收端

  • D、

    Sink可以是HDFS

正确答案: BCD 

三.判断题

1

Flume的Source可以是Web Server等服务器,也可以是其他Flume的Sink

正确答案:

2

Flume的Source可以配置为从远程的其他系统传输的数据。

正确答案:

3

从某种程度上说,Flume的角色是一个中间系统,对接应用系统的数据来源和存储平台。

正确答案:×

4

Flume中的Channel其实是Source和Sink之间的缓冲区

正确答案:

5

Flume无法指定Channel中的事件存储的磁盘

正确答案:×

6

如果Sink配置为hdfs,可以直接写入,无需认证。

正确答案:×


11.3

1

作为一个工具,Scribe是

  • A、

    大数据分析工具

  • B、

    可视化工具

  • C、

    日志收集系统

  • D、

    文件存储系统

正确答案: C 

2

Kafka集群中负责消息处理的节点称作

  • A、

    client

  • B、

    broker

  • C、

    producer

  • D、

    consumer

正确答案: B 

3

kafka架构中,哪个负责push信息到kafka cluster中?

  • A、

    producer

  • B、

    broker

  • C、

    consumer

  • D、

    connector

正确答案: A 

4

kafka架构使用的是发布订阅机制,是谁在订阅消息

  • A、

    producer

  • B、

    broker

  • C、

    consumer

  • D、

    connector

正确答案: C 

5

zookeeper是一个

  • A、

    分布式协调框架

  • B、

    数据采集工具

  • C、

    生产者

  • D、

    连接器

正确答案: A 

二.多选题

1

关于Kafka,下列说法正确的是

  • A、

    这是一个作家

  • B、

    这是一个大数据相关的工具

  • C、

    可以用作消息的发布和订阅

  • D、

    可以用于构建日志采集系统

正确答案: ABCD 

2

kafka架构中,哪些组件需要使用zookeeper?

  • A、

    producer

  • B、

    broker

  • C、

    consumer

  • D、

    connector

正确答案: BC 

3

下列说法正确的是

  • A、

    kafka采集的信息按topic进行管理

  • B、

    topic可以分布在不同的分区上

  • C、

    topic集中存储在一个分区

  • D、

    topic中的数据永久保存

正确答案: AB 

4

关于kafka的consumer,下列说法正确的是

  • A、

    如果没有订阅,consumer就收不到相应topic的消息

  • B、

    消息针对consumer是进行广播式发送的

  • C、

    consumer用组进行管理

  • D、

    consumer使用过程中存在与zookeeper关联

正确答案: ACD                   

5

zookeeper提供的功能有

  • A、

    名称服务

  • B、

    状态服务

  • C、

    集群管理

  • D、

    分布式应用配置

正确答案: ABCD 

三.判断题

1

Kafka无法用于高效处理大规模实时数据流

正确答案:×

2

kafka是不可以和flume结合使用的,两者功能冲突。

正确答案:×

3

kafka用于大数据采集时,系统日志不需要按kafka中的topic进行管理。

正确答案:×

4

对于push and pull机制来说,生产者负责pull信息。

正确答案:×

5

kafka可以作为应用系统之间的信息交互中间系统,管理大规模海量的信息。

正确答案:


1

ELK中,负责数据采集的是?

  • A、

    E

  • B、

    L

  • C、

    K

正确答案: B

2

ELK中,负责数据存储和索引的是

  • A、

    E

  • B、

    L

  • C、

    K

正确答案: A 

3

ELK中,负责数据可视化的是

  • A、

    E

  • B、

    L

  • C、

    K

正确答案: C 

4

假定日志文件中有ip地址,但是没有地理位置(经纬度)信息,可以通过配置Logstash中的哪一部分实现相关信息的添加?

  • A、

    input

  • B、

    filter

  • C、

    output

  • D、

    ipv4

正确答案: B 

5

如果采集的日志中,有ip地址,有访问页面,访问方法等,他们之间以“空格”分割,可对其进行切分,然后为每一个切分后的字串加上属性标签的配置是

  • A、

    grok

  • B、

    file

  • C、

    update

  • D、

    drop

正确答案: A 

6

如果Logstash采集的数据,输出到ElasticSearch中,同时配置索引,需要对Logstash的哪个部分进行设置?

  • A、

    input

  • B、

    filter

  • C、

    output

  • D、

    geoip

正确答案: C 

二.多选题(共3题,19.8分)

1

Logstash中,可配置的参数有哪些?

  • A、

    input

  • B、

    filter

  • C、

    output

  • D、

    浏览器种类

正确答案: ABC 

2

Logstash中,可配置为input的类型有

  • A、

    file

  • B、

    syslog

  • C、

    redis

  • D、

    beats

正确答案: ABCD 

3

如果你有大量的数据需要采集、预处理,然后存储起来,并且需要快速地进行查找和各种角度的分析和查看,可综合使用以下哪些工具?

  • A、

    Logstash

  • B、

    Elastic Search

  • C、

    Kibana

  • D、

    excel

正确答案: ABC 

三.判断题

1

Logstash无法监控系统操作日志,只能监控普通应用程序的日志。

正确答案:×

2

Logstash主要负责采集日志数据,无法对采集的数据进行格式调整等预处理工作。

正确答案:×

3

Logstash可以对采集的数据进行修改。

正确答案:

4

Kibana只能显示饼状图。

正确答案:×

5

ElasticSearch是水平可扩展的,所以可以应对海量数据的存储和索引。

正确答案:

答案解析:

6

Logstash采集的数据,无法进行分割处理。

正确答案:×


13.1

1

数据迁移使用的存储类型里,成本低,容量大的是

  • A、

    Cache

  • B、

    内存

  • C、

    磁盘

  • D、

    磁带

正确答案: D 

2

校验工作发生在数据迁移的哪个阶段?

  • A、

    迁移前

  • B、

    迁移中

  • C、

    迁移后

正确答案: C 

3

迁移的时候,会影响到主机整体计算资源的方式是

  • A、

    基于主机的迁移

  • B、

    基于存储的迁移

正确答案: A 

4

主存储,从存储,独立于主机系统的存储系统这种概念出现在

  • A、

    基于主机的数据迁移技术

  • B、

    基于存储的迁移技术

正确答案: B 

5

Access到MySQL的迁移,属于

  • A、

    同构数据库迁移

  • B、

    异构数据库迁移

正确答案: B 

6

我虚拟机关机,然后导出给你一个虚拟机镜像文件让你在自己电脑上做实验,这属于

  • A、

    冷迁移

  • B、

    热迁移

正确答案: A 

二.多选题

1

可持久化存储信息的存储有

  • A、

    CPU缓存

  • B、

    内存

  • C、

    磁盘

  • D、

    磁带

正确答案: CD 

2

Sqoop可以完成的任务有

  • A、

    MySQL->HDFS

  • B、

    MySQL->Hive

  • C、

    MySQL->HBase

  • D、

    HBase->MySQL

正确答案: ABCD 

三.判断题

1

Kettle是一个数据迁移的工具。可实现非结构化数据到结构化数据的迁移。

正确答案:


15.1

一.单选题

1

性别属性,是一种

  • A、

    标称属性

  • B、

    连续属性

  • C、

    非对称二元属性

  • D、

    数值属性

正确答案: A 

2

不同课程学分的情况下,可以更好体现出一个学生的学习成绩高低的概念是

  • A、

    平均分

  • B、

    加权平均分

  • C、

    分数中位数

  • D、

    分数众数

正确答案: B 

3

那种度量可以更好衡量某门课程的整体成绩高低?

  • A、

    平均分

  • B、

    中位数

  • C、

    众数

  • D、

    中列数

正确答案: B 

4

欧氏距离用于度量()数据之间的相似性

  • A、

    标称属性

  • B、

    二元属性

  • C、

    离散属性

  • D、

    数值属性

正确答案: D 

5

用于度量文本中词频向量的计算办法是

  • A、

    欧氏距离

  • B、

    曼哈顿距离

  • C、

    Jaccard系数

  • D、

    余弦相似性度量

正确答案: D 

二.多选题

1

数据对象,在不同学科中的同义表达是

  • A、

    元组

  • B、

  • C、

    数据点

  • D、

    样本

正确答案: ABCD 

2

不同学科中和“属性”是属于同义表达的说法是

  • A、

    特征

  • B、

  • C、

    变量

  • D、

    数据点

正确答案: ABC 

3

定性表达,没有实际大小、数量等可度量的属性种类有

  • A、

    标称属性

  • B、

    二元属性

  • C、

    离散属性

  • D、

    数值属性

正确答案: AB 

4

中心趋势度量的方法有

  • A、

    均值

  • B、

    中位数

  • C、

    众数

  • D、

    中列数

正确答案: ABCD 

5

以下概念哪些可以用于度量数据的分散程度。

  • A、

    极差

  • B、

    标准差

  • C、

    方差

  • D、

    加权平均

正确答案: ABC 

三.判断题

1

极差可用于度量数据发散的程度

正确答案:

2

百分位数需要一百个数据点

正确答案:×

3

方差用于度量数据中心,标准差用于度量分散程度。

正确答案:×

4

标称属性数据之间的相似性无法度量,数值型属性数据之间的相似性可以度量。

正确答案:×

5

如果数据集中的属性有标称属性,也有数值属性,则无法对该数据集中的数据进行相似性度量。

正确答案:×


15.2

1

去掉数据集中重复的记录,这种操作属于数据预处理技术中的

  • A、

    数据清理

  • B、

    数据集成

  • C、

    数据归约

  • D、

    数据变换

正确答案: A 

2

可用于发现标称属性之间的相关性的办法是

  • A、

    卡方检验

  • B、

    协方差

  • C、

    皮尔逊相关系数

  • D、

    欧氏距离

正确答案: A 

3

卡方检验中,需要计算实际数据和理论数据之间的差异,做出的前提假设是

  • A、

    两个属性之间是相互独立的

  • B、

    两个属性之间是相关的

  • C、

    两个属性的概率是多少

  • D、

    两个属性的频率是多少

正确答案: A 

4

什么情况下可以判断两个数值属性中没有冗余的属性

  • A、

    协方差比较大

  • B、

    协方差比较小

  • C、

    协方差绝对值比较小

  • D、

    协方差绝对值比较大

正确答案: C 

5

协方差可以用于判断数据之间的

  • A、

    相关性

  • B、

    相似性

  • C、

    中心趋势

  • D、

    分散趋势

正确答案: A 

6

以下那种操作可以实现图像的压缩

  • A、

    协方差计算

  • B、

    小波变换

  • C、

    方差计算

  • D、

    卡方检验

正确答案: B 

7

PCA方法进行特征降维(假设降到二维)时,选取用于降维的协方差矩阵的特征向量,是

  • A、

    最小的两个

  • B、

    最大的两个

  • C、

    平均值

  • D、

    随机选取两个

正确答案: B 

8

可用于消除不同数值属性之间的绝对值差异的操作是

  • A、

    数据集成

  • B、

    数据归约

  • C、

    数据清理

  • D、

    数据规范化

正确答案: D 

9

可避免孤立点对最终数据变换结果影响的方法是

  • A、

    最大最小值规范化

  • B、

    z分数规范化

  • C、

    小数定标规范化

正确答案: B

二.多选题(共4题,23.2分)

1

数据集成中,衡量一些冗余的属性,可以通过()进行

  • A、

    卡方检验

  • B、

    协方差计算

  • C、

    皮尔逊相关系数计算

  • D、

    小波变换

正确答案: ABC 

2

可以实现特征降维这种数据归约操作的是

  • A、

    小波变换

  • B、

    主成分分析

  • C、

    卡方检验

  • D、

    方差

正确答案: AB 

3

属性子集的选择,可以有()等方法

  • A、

    向前选择

  • B、

    向后删除

  • C、

    决策树

  • D、

    PCA

正确答案: ABC 

4

下列可以用于数据归约的方法有

  • A、

    聚类

  • B、

    回归

  • C、

    抽样

  • D、

    数据立方体

正确答案: ABCD 

三.判断题

1

卡方检验中的概率计算是用频率代替的

正确答案:

2

协方差的计算过程中,没有均值的计算。

正确答案:×

3

小波变换中的高频信息和低频信息表现的信息是类似的,都是原有数据的整体特征。

正确答案:×

4

根据属性的取值进行分区、分桶等操作,也属于“数据变换”

正确答案:

你可能感兴趣的:(作业习题,大数据)