m0_54000719

大数据采集与预处理

以下有关Interceptor说法中不正确的是(　　)

A. 拦截器需要实现org.apache.flume.interceptor.Interceptor接口

B. 拦截器采用了端口模式，多个拦截器可以按指定顺序拦截

C. 一个拦截器返回的事件列表被传递给链中的下一个拦截器

D. 如果要删除所有事件，只需返回一个空列表

A. D
B. B
C. A
D. C

我的答案：A正确答案：B

拦截器采用了责任链模式，多个拦截器可以按指定顺序拦截

下面有关Exec source说法正确的是（）

A. Flume source消耗从类似于web服务器这样的外部源传来的events

B. 外部数据源以一种Flume source能够认识的格式发送 event 给 Flume source

C. Flume source 组件可以处理各种类型、各种格式的日志数据

D. Agent是数据流的基本单元

A. A
B. B
C. C
D. D

我的答案：A,B,C,D正确答案：A,B,C

Flume Event 是数据流的基本单元

在Spooling Directory source中，以下说法中不正确的是(　　)

A. 一些情况下，如果发生某些下游故障，事件可能会重复发生
B. 当Flume被重新启动或终止，数据会部分丢失
C. 与Exec源不同，这个源是可靠的，不会丢失数据
D. 允许通过将文件放入磁盘上的文件夹目录来摄取数据

我的答案：C正确答案：B

与Exec源不同，这个源是可靠的，不会丢失数据，即使Flume被重新启动或终止。为了获得这种可靠性，必须将惟一命名的、不可变的文件放入假脱机目录。

以下有关selector说法中不正确的是(　　)

A. Channel Selectors，可以让不同的项目日志通过不同的Channel到不同的Sink中去。

B. 官方文档上Channel Selectors有两种类型Replicating Channel Selector和Multiplexing Channel Selector

C. Channel选择器是决定Source接收的一个特定事件写入哪些Channel的组件，并告知Channel处理器，然后由其将事件写入到每个channel。

D. 如果source的配置种没有指定选择器，那么会自动使用Multiplexing Channel Selector

A. A
B. D
C. B
D. C

我的答案：C正确答案：B

如果source的配置种没有指定选择器，那么会自动使用
复制Channel选择器（Replicating Channel Selector）

以下有关HDFS Sink说法中正确的是(　　)

A. HDFS Sink把events写进Hadoop分布式文件系统（HDFS）
B. HDFS Sink是从HDFS上读数据
C. 它目前支持创建文本，不支持序列文件，但支持在两种文件类型压缩
D. 根据运行时间、数据大小或事件数量非周期性地滚动文件

我的答案：D正确答案：A

以下有关HDFS Sink说法中正确的是(　　)

A. HDFS Sink把events写进Hadoop分布式文件系统（HDFS）

B. 它目前支持创建文本，不支持序列文件，但支持在两种文件类型压缩

C. 根据运行时间、数据大小或事件数量非周期性地滚动文件

D. 它还按时间戳或事件发生的机器等属性对数据进行桶/分区。

A. C
B. D
C. B
D. A

我的答案：A,B,C,D正确答案：B,D

支持创建文本，也支持序列文件，可以周期性滚动文件。

下列有关File Channel说法中不正确的是(　　)

A. File Channel将所有事件写到磁盘
B. File Channel不能被设置非阻塞模式，它总是以阻塞模式运行
C. 在程序关闭或机器宕机的情况下会丢失数据
D. 极大的降低flume的吞吐量，但要频繁的发生磁盘I/O

我的答案：B正确答案：C

程序关闭或机器宕机的情况下并不会造成丢失数据的情况发生

以下有关Interceptor说法中不正确的是(　　)

A. 拦截器设置在source和channel之间

B. source接收到后，在写入channel之前，拦截器都可以进行转换或者删除这些事件

C. flume内部默认设置了很多intercept组件，但不支持自定义拦截器

D. 每个拦截器只处理同一个source接收到的事件

A. B
B. C
C. A
D. D

我的答案：B正确答案：B

Flume也支持自定义拦截器

下列有关Multiplexing Channel说法中不正确的是(　　)

A. 可以根据Event的Header中的某个或几个字段的值将其映射到指定Channel

B. 一般都单独使用，不与其它搭配使用

C. Multiplexing channely 称作为多路复用通道

D. 一种能按先后顺序接收一系列来自不同信号的接收机通道

A. B
B. A
C. C
D. D

我的答案：B正确答案：A

一般都与 Interceptor 拦截器搭配使用

以下有关Interceptor说法中正确的是(　　)

A. 时间戳拦截器，Flume中一个最经常使用的拦截器，该拦截器的作用是将时间戳插入到flume的事件报头中

B. 如果不使用任何拦截器，flume接受到的只有message

C. 主机拦截器插入服务器的ip地址或者主机名，agent将这些内容插入到事件的报头中

D. 正则过滤拦截器，在日志采集的时候，可能有一些数据是我们不需要的，这样添加过滤拦截器，可以过滤掉不需要的日志，也可以根据需要收集满足正则条件的日志

A. C
B. D
C. B
D. A

我的答案：B,C,D,A正确答案：A,B,C,D

以下说法中不正确的是(　　)

A. 一个Sink只能有一个Channel

B. 多个Sink可以从同一个Channel获取数据

C. 选定的Sink从Channel中接受事件，并将事件写入到下一阶段或最终目的地

D. 每个Sink组可以包含偶数数量的Sink

A. C
B. D
C. B
D. A

我的答案：D正确答案：B

每个Sink组可以包含任意数量的Sink

下列有关channel说法中不正确的是(　　)

A. channel可以理解为一种临时的存储
B. flume内置2种channel选择器，一种是复制，一种是分发，默认情况下是分发的形式
C. Source添加events，Sink移除events
D. 设置选择器的时候，也可以通过optional来进行设置

我的答案：D正确答案：B

默认情况下是复制的形式

以下说法中不正确的是(　　)

A. 从Channel收集数据，将数据写到目标源(是下一个Source，也可以是HDFS或者HBase)

B. Sink是非完全事务性的，Channel批量删除数据之前，每个Sink用Channel启动一个事务

C. Sink将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent

D. Sink不断地轮询Channel中的事件且批量地移除它们

A. D
B. A
C. B
D. C

我的答案：A正确答案：C

Sink是完全事务性的

以下有关selector说法中不正确的是(　　)

A. Selector 默认是复制模式

B. 在复制模式下，当source接收到数据后，会复制多分，分发给每一个avro sink

C. selector.optional 标志通道为可选

D. selector.type replicating 表示分发模式

A. B
B. C
C. A
D. D

我的答案：B正确答案：D

selector.type replicating 表示复制模式

下列有关channel说法中不正确的是(　　)

A. Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作

B. Flume自带两种Channel：Memory Channel和File Channel

C. Channels是events在agent上进行的存储库

D. 以上说法均不正确

A. D
B. C
C. A
D. B

我的答案：A正确答案：A

以下有关selector说法中不正确的是(　　)

A. 复制Channel选择器，复制每个事件到通过Source的channels参数所指定所有Channels

B. 复制Channel选择器还有一个可选参数optional，该参数是空格分隔的channel名字列表

C. 多路复用channel选择器是一种专门用于动态路由事件的channel选择器，通过选择事件应该写入的channel

D. 自定义channel选择器需要实现channelSelector接口或继承AbstractChannelSelector类

A. C
B. B
C. A
D. D

我的答案：A,B,C,D正确答案：A,B,C,D

下列有关Memory Channel说法中正确的是(　　)

A. Memory Channel是内存中的链表

B. 适用在不需要关心数据丢失的情景下使用

C. 不适用于流量较高和由于agent故障而准备丢失数据的流程

D. 以上说法均不正确

A. B
B. D
C. A
D. C

我的答案：B正确答案：A

events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数据的流程来说，这是一个理想的选择。

下面有关Exec source说法不正确的是（）

A. ExecSource可实时搜集数据

B. 在Flume不运行或Shell命令出错的情况下，数据将会丢失。

C. ExecRunnable是Exec Source主要的实现类，继承了Runnable

D. 如果进程因为某些原因退出，Exce Source也将退出但仍然产生数据

A. B
B. D
C. A
D. C

我的答案：D正确答案：B

进程退出，Exce Source退出并且不会再产生数据。

在Thrift source中，以下说法中正确的是(　　)

A. Flume的Thrift Source是其实现的众多Source中的一个，Flume已经实现了服务器端

B. 我们可以用任意自己熟悉的语言编写自己的Thrift Source客户端来采集数据，然后发送给Thrift Source服务器端。

C. 定义了一个service类ThriftSourceProtocol，服务器端具体实现ThriftSourceProtocol里面的两个方法，再由客户端调用这些方法把数据传给Thrift Source服务器端。

D. Thrift Source定义一个简单的IDL文件来生成不同语言的代码，服务器端通过共享这个IDL文件来构建来完成通信。

A. C
B. B
C. A
D. D

我的答案：C,B,A,D正确答案：A,B,C

Thrift是Google开发的用于跨语言RPC通信，它拥有功能强大的软件堆栈和代码生成引擎，允许定义一个简单的IDL文件来生成不同语言的代码，服务器端和客户端通过共享这个IDL文件来构建来完成通信。

在NetCat TCP source中，以下说法中正确的是(　　)

A. 一种类似netcat的源，它侦听给定端口并将每行文本转换为事件

B. 它打开一个指定的端口并侦听数据

C. 每一行文本都被转换成水槽事件，并通过连接的通道发送。

D. 文本必需属性以粗体显示

A. D
B. B
C. C
D. A

我的答案：A,B,C,D正确答案：A,B,C,D

在flume中，以下说法中不正确的是(　　)

A. bin/flume-ng agent 使用ng启动agent
B. -Dflume.root.logger=INFO，console 将日志输入到控制台上
C. tar -zxvf flume /opt/ 解压到指定目录opt中
D. flume-ng version 查看flume版本号

我的答案：B正确答案：C

解压到指定目录opt中：tar -zxvf flume -C /opt/

在下面的flume配置文件中，以下说法中不正确的是(　　)

A. source，channel和sink各个组件的名称，其中a1是整个agent的名称。

B. 绑定的地址是localhost，端口号是44444，作用就是传输数据。

C. a1.channels.c1.*=*用来说明channel配置，其结构跟source一样，这里是内存类型，最多存储1000条数据。

D. a1.sources = r1说明a1这个agent用到的source有r1这一个，如果用到了多个的话，需要把所用到的都列举出来，r1可以自己定义。

a1.sources = r1

a1.sinks = k1

a1.channels = c1

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 44444

a1.sinks.k1.type = logger

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

A. C
B. B
C. A
D. D

我的答案：B正确答案：B

端口号是44444，作用就是监听端口数据。

下列说法正确的是(　　)

A. 空操作不做任何处理，一般作为流程的终点。

B. 过滤记录直接从输入行中过滤数据，将结果是TURE或FALSE的行输出到不同的节点。

C. Switch/Case可以对多种值进行相同的选择路径。

D. Switch/Case一定得有个默认的路径，先产生路径连接，再进行目标步骤。

A. B
B. D
C. C
D. A

我的答案：D正确答案：D

过滤记录通过使用一个表达式来过滤数据，Switch/Case先进行目标步骤后，再进行路径连接，当然对于多种类型的值进行不同的选择路径。

下列哪些是常见流程脚本控件(　　)

A. JavaScript代码、公式、转换步骤信息统计

B. 中止、检测空流、数据检验

C. 正则表达式、执行SQL脚本、空操作

D. 根据java代码过滤记录、记录注射

A. B
B. C
C. A
D. D

我的答案：B正确答案：B

转换步骤信息统计属于统计，数据检验属于检验，记录注射属于内联。

下列有关JavaScript代码控件说法正确的是(　　)

A. javascript脚本就是使用java语言通过代码编程来完成对数据流的操作。

B. 存在两种不同的模式，不兼容和兼容模式。

C. JS中有很多内置函数，可以在编写JS代码时查看。

D. 可以通过在JavaScript代码中定义新的变量来增加新的字段。

A. B
B. C
C. D
D. A

我的答案：A,B,C,D正确答案：A,B,C

javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作

下列有关脚本说法正确的是(　　)

A. 执行shell脚本，可以执行已经写好的shell脚本，且指定shell脚本路径即可

B. 编辑shell脚本可以把前一个步骤的执行结果当作参数传入

C. 执行SQL脚本时，但不可以插入编辑sql脚本

D. 在使用使用javascript脚本，可以进行空值的转换

A. C
B. A
C. D
D. B

我的答案：A,B,C,D正确答案：B,C,D

执行SQL脚本时，也可以插入编辑sql脚本

下列缓慢变化维说法中不正确的是(　　)

A在ETL的过程中，要考虑到缓慢变化维度的处理。

B. 常见的缓慢变化维度只有2种情况。

C. 在缓慢变化维度中，历史数据需要修改，也可以保留或者保留新增数据。

D. 新增数据维度成员改变属性也属于缓慢变化维度。

A. B
B. A
C. D
D. C

我的答案：A正确答案：A

缓慢变化维度第一种类型：历史数据需要修改。在这种情况下，我们使用update方法来修改维度表中的数据。缓慢变化维度的第二种类型：历史数据保留，新增数据也要保留。这是，要将原数据更新，将新数据插入，我们使用UPDATE/INSERT。缓慢变化维度第三种类型：新增数据维度成员改变了属性。

下列缓慢变化维说法中不正确的是(　　)

A. 修改历史数据，直接在原来维度的基础上进行更新，不会产生新的记录。

B. 保留历史数据和新增数据，修改原有的数据，重新产生一条新的记录，这样就可以追溯所有的历史记录。

C. 新增数据维度成员改变属性，直接在原来维度的基础上进行更新，不会产生新的记录，但是只会记录上一次的历史记录。

D. 某一维度成员新加入了一列，该列的历史数据中不能基于它浏览，而在目前数据和将来数据中可以按照它浏览，那么此时我们需要改变维度表属性，即加入新的字段列。

A. B
B. A
C. C
D. D

我的答案：A正确答案：A

重新产生一条新的记录，可以追溯所有的历史记录，前提是不应该修改原有的数据，从而保留历史数据。

下列缓慢变化维说法中不正确的是(　　)

A. 缓慢变化维为维度表里面的数据并非是始终不变的，总会随着时间和关键字发生变化。

B. 维度建模的数据仓库中，数据会发生缓慢变化的维度就叫“缓慢变化维”。

C. 处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。

D. 处理缓慢变化维的控件最常用的就是维度查询/更新控件。

A. D
B. A
C. C
D. B

我的答案：A正确答案：B

缓慢变化维总会随着时间发生变化，和关键字无任何变化关系。

在kettle说法中，以下说法中正确的是(　　)

A. Kettle是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。

B. 在生产场景中，涉及到大量数据的预处理，也可以使用kettle连接Hadoop进行处理。

C. 在jdk安装完成的基础上，完成部署搭建kettle环境。

D. ETL，是英文Extract-Transform-load的缩写，用来描述将数据从来源端经过萃取（extract）、转置（Transform）、加载（load）至目的端的过程。

A. C
B. A
C. D
D. B

我的答案：C,B,D,A正确答案：A,B,C,D

以下属于kettle控件正确的是(　　)

A. 映射、脚本控件
B. B.转换、应用控件
C. 拦截、定向控件
D. A.输入、输出控件

我的答案：B,D,A正确答案：A,B,D

拦截、定向控件不属于kettle控件

以下说法中正确的是(　　)

A. Kitchen一个数据转换引擎，可执行很多功能，例如从不同的数据源读取、操作和写入数据。

B. Kitchen可以运行利用XML或数据资源库描述的任务。

C. Job一个作业，由不同逻辑功能的entry组件构成，数据从一个entry组件传递到另一个entry组件，并在entry组件中进行相应的处理。

D. Transformation，完成针对数据的基础转换，即一个数据转换过程，是job的组成单元、执行单元。

A. D
B. B
C. C
D. A

我的答案：A正确答案：C

Pan 是一个数据转换引擎，它可以执行很多功能，从不同的数据源读取、操作和写入数据。 Kitchen 是一个可以运行利用
XML或数据资源库描述的任务，通常任务是在规定的时间间隔内用批处理的模式自动运行。
Entry:实体，即job型组件。用来完成特定功能应用，是job的组成单元、执行单元。

以下说法中不正确的是(　　)

A. ETL一词教常用在数据仓库，但其对象并不限于数据仓库。

B. ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。

C. ETL工具一般会进行一些功能上的扩充，例如工作流、调度引擎、脚本支持、统计信息等。

D. Spoon 是一个图形用户界面，它允许你运行转换或者任务，其中转换是用Kitchen工具来运行，任务是用Pan来运行。

A. B
B. C
C. D
D. A

我的答案：B正确答案：C

转换是用 Pan 工具来运行，任务是用 Kitchen 来运行。

下列有关索引使用遵循原则正确的是(　　)

A. 当插入的数据为数据表中的记录数量10%以上时，首先需要删除该表的索引来提高数据的插入效率，当数据全部插入后再建立索引。

B. 避免在索引列上使用函数或计算，在where子句中，如果索引列是函数的一部分，优化器将不使用索引而使用全表扫描。

C. 避免在索引列上使用NOT 和“！=”，索引只能告诉什么存在于表中，而不能告诉什么不存在于表中，当数据库遇到NOT和“！=”时，就会使用索引转而执行全表扫描，造成任务无法结束的情况。

D. 以上说法均正确。

A. D
B. A
C. B
D. C

我的答案：B,C正确答案：B,C

下列说法中不正确的是(　　)

A. 插入大量数据的时候尽量保留索引。
B. 尽量使用数据库连接池。
C. 远程数据库用文件+FTP的方式来传数据，文件要压缩。
D. kettle底层是Java，尽量用大一点的内存参数启动kettle。

我的答案：A正确答案：A

在进行大量数据操作时候，大量的索引会造成数据拥挤，任务卡顿延迟。

下列说法中正确的是(　　)

A. 性能调优在整个工程中可有可无，无关紧要。

B. 性能调优主要分两个方面，硬件调优和软件调优。

C. 可以直接调整JVM大小进行性能优化。

D. 尽量用kettle的calculate计算步骤，少用数据库本身的sql。

A. C
B. A
C. D
D. B

我的答案：D正确答案：D

性能优化是非常重要的，也是非常有必要的。
修改kettle定时任务中的kitchen与Pan脚本，可以调整JVM的大小，
kettle的calculate计算少用，否则会造成数据拥堵，尽量使用数据库本身的sql。

下列有关增加序列控件描述不正确的是 (　　)

A. 可以使用数据库自带的序列提供序列值。

B. 可以使用kettle自带的序列生成器提供序列值。

C. 可以设置起始值、增长根据、最大值。

D. 增加序列也可以在数据中增加需要的常量数据。（和控件没有关系）

A. C
B. A
C. D
D. B

我的答案：A正确答案：C

增加需要的常量可以使用增加常量控件，和增加序列控件没有任何关系。

下列有关剪切字符串控件描述不正确的是 (　　)

A. 剪切字符串属于转换控件。

B. 能操作的字段可能是字符类型。

C. 要剪切的字段包括输入流字段、输出流字段、起始位置、结束位置。

D. 可以更改输出流字段名。

A. A
B. B
C. C
D. D

我的答案：B正确答案：B

能操作的字段一定是字符类型

下列有关去重复记录控件描述正确的是 (　　)

A. 可根据指定的字段进行排除重复记录

B. 可统计出重复的数量

C. 使用前必须排序

D. 可将重复的记录重定向

A. D
B. C
C. B
D. A

我的答案：A,B,C,D正确答案：A,B,C,D

下列有关增加序列、字段选择控件描述正确的是 (　　)

A. 增加序列控件可以使用数据库自带的序列提供序列值

B. 增加序列控件也使用kettle自带的序列生成器提供序列值

C. 字段选择控件用于选择列，重命名列，指定列长度或精度

D. 字段选择控件可以手动增加需要的字段，但不可以更改字段值类型、样式，

A. B
B. A
C. C
D. D

我的答案：A,B,C,D正确答案：A,B,C

字段选择控件可以移除不需要的字段，可以更改字段值类型、样式，可以手动增加需要的字段

下列哪些是常见转换控件(　　)

A. 行转列、字段选择、比较表
B. 值映射、增加常量、追加流
C. 拆分字段、排序记录、过滤记录
D. 计算器、字符串操作、增加序列

我的答案：D正确答案：D

追加流、过滤记录都属于流程控件，比较表属于应用控件。

下列Kettle和Pan命令行参数描述不正确的是(　　)

A. file指定指定日志的文件名称。
B. listdir列出有效的仓库job/transform路径。
C. norep表示不连接到任何一个repository，避免自动登录很有用。
D. listjobs通过dir参数列出存在于仓库中有效jobs。

我的答案：B正确答案：A

file指定存储了job或者transform的文件，logfile指定日志的文件名称。

下列有关任务调度正确的是(　　)

A. 使用Pan命令行工具能够启动kettle任务和转换，而kitchen命令行工具无法启动。

B. Pan和kettle是环绕数据集成引擎的轻量级封装器。

C. Kitchen和pan是使用java运行任务和转换的。

D. Kettle中有两种方式监控job或者transform的运行情况，它们分别是邮件通知和后台监控。

A. C
B. B
C. A
D. D

我的答案：B正确答案：B

除了Pan命令行工具可以启动kettle任务和转换，kitchen命令行工具同样也可以；Kitchen和pan是shellscripts运行任务和转换的，邮件通知和日志表是两种监控job和transform的方式。

下列有关任务调度不正确的是(　　)

A. 对于ETL来说，调度是独一无二的。

B. Windows系统上的任务调度器，能够通过调度kettle命令行程序来运行任务和转换。

C. 调度器构建成Pentalo BI服务器能够被用来运行一系列执行kettle任务和转换工作。

D. 所有主要操作系统提供了构建调度任务的特性，这些任务能被作为系统级别的调度器来调度。

A. B
B. C
C. D
D. A

我的答案：D正确答案：D

操作系统能够提供标准调度的一般性需求，对于ETL来说调度也不是独一无二的。

下列属于数据变换方法的是（）

A. 数据聚集
B. 数据传值
C. 属性构造
D. 数据平滑
数据规范化
数据概化
数据变换方法分类

我的答案：D,A,C正确答案：A,C,D

以下有关数据变换的说法不正确的是(　　)

A. 平滑处理就是根据已有属性集构造新的属性，以帮助数据处理过程（噪声）
B. 数据泛化处理用更高层次的概念来取代低层次或数据层的数据对象
C. 数据转换就是将数据进行转换或归并，从而构成一个适合数据处理的描述形式
D. 规格化处理将有关属性数据按比例投射到特定的小范围之中

我的答案：D正确答案：A

属性构造处理根据已有属性集构造新的属性，以帮助数据处理过程；

平滑处理就是帮助除去数据中的噪声，主要技术方法有Bin方法、聚类方法和回归方法

以下有关数据变换说法不正确的是(　　)

A. 数据概化，清除噪声数据，去除源数据集中的噪声数据和无关数据，处理遗漏数据和清洗脏数据。

B. 数据聚集，对数据进行汇总和聚集。例如可以聚集日门诊量数据，计算月和年门诊数。

C. 数据平滑，使用概念分层，用高层次概念替换低层次“原始”数据。

D. 数据规范化，将属性数据按比例缩放，使之落入一个小的特定区间。

A. C
B. A
C. D
D. B

我的答案：A,B正确答案：A,B

数据平滑，去噪，将连续数据离散化；数据概化，用高层概念替换，减少复杂度。

以下有关数据变换的说法不正确的是(　　)

A. 将一种格式的数据转换为另一种格式的数据，主要是对数据进行规格化操作。

B. 主要用于将数据转换成适合数据挖掘的形式，寻找依赖于发现目标的数据的有用特征，以缩减数据规模。

C. 常见的数据变换方法包括平滑处理、合计处理、数据繁华处理、规格化、属性构造等。

D. 可以采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据，消除它们在时间、空间、属性及精度等特征表现方面的差异。

A. D
B. A
C. C
D. B

我的答案：B正确答案：D

寻找依赖于发现目标的数据的有用特征，以缩减数据规模不属于数据变换，更多的用在数据规约中。

数据清洗的方法不包括（）

A. 噪声数据清除
B. 重复数据记录处理
C. 一致性检查
D. 缺失值处理

我的答案：B正确答案：B

常见数据清洗方法有缺失值处理、噪声数据清除、一致性检查

以下有关数据清洗的说法正确的是(　　)

A. 它将这些结构复杂的数据转换为单一的或便于处理的结构，为以后数据分析打下良好的基础

B. 由于所采集的数据里并不是所有的信息都是必需的，而是掺杂了很多噪声和干扰项，因此还需要对这些数据进行“去噪”和“清洗”，以保证数据的质量和可靠性

C. 数据清洗常用的方法是在数据处理的过程中设计一些数据过滤器，通过聚类或关联分析的规则方法将无用或不正确的离群数据挑出来过滤掉，防止其对最终数据结果产生不利影响，然后将这些整理好的数据进行集成和存储

D. 一般的解决方法是将针对特定种类的数据信息分门别类放置，可以有效地减少数据查询和访问的时间，提高数据提取速度

A. D
B. C
C. B
D. A

我的答案：A,B,C,D正确答案：A,B,C,D

以下有关数据清洗的说法不正确的是(　　)

A. 数据属性值的不确定性和数据自身的不确定性，前者可用概率描述，后者有多重描述方式

B. 在这个清洗过程中，除了更正、修复系统中的一些不正确数据之外，更多的是对数据进行归并整理，并存储到新的存储介质中

C. 在数据处理过程中会产生的“二次数据”，包括数据噪声、数据重复或不正确的情况

D. 数据清洗是汇聚多个维度、多个来源、多种结构数据之后，对数据进行抽取、转换和集成加载

A. D
B. C
C. B
D. A

我的答案：D正确答案：D

数据自身的不确定性可用概率描述，数据属性值的不确定性有多重描述方式，例如描述属性值的概率密度函数、以方差为代表的统计值等。

下列有关插入/更新和更新控件说法不正确的是(　　)

A. 插入/更新和更新控件是两个不同的输入控件。

B. 两者都可以将源表同步过来的数据进行目标表数据更新操作。

C. 一定要有能唯一识别某行数据的主键。

D. 对于插入/更新控件来说，若只需要插入操作，则勾选上“不执行任何更新”提交数量不要设置过大，尽量使用小数量；而更新控件需要更新的字段在“更新字段”中选择，当字段名不同时需要进行映射。

A. D
B. C
C. B
D. A

我的答案：D正确答案：D

插入/更新和更新控件都是输出控件

下列IO控件说法中不正确的是(　　)

A. 常见的输入控件有CSV文件、Excel、生成记录、配置文件等。

B. 常见的输出控件有SQL文件、删除、插入/更新、数据同步、获取系统信息等。

C. 生成记录控件主要功能生成一些固定字段的记录，主要用来模拟一些数据进行测试。

D. 自定义常量数据控件用来给查询增加常量列“元数据”页是定义字段相关信息，“数据”页则是赋予各字段相应的值。

A. B
B. A
C. C
D. D

我的答案：C正确答案：A

获取系统信属于输入控件。

下列常用IO控件说法中不正确的是(　　)

A. 获取表名控件，主要获取某个数据库的表信息、获取视图信息、获取存储过程信息等。

B. 获取系统信息控件，包括命令行输入的参数，操作系统时间，ip地址，kettle版本等。

C. Excel输入控件在读取excel文件，和csv文件读取不同，增加了表单，表头，出错的处理。

D. 在excel输入控件内容页面选择包不包括头部字段、字段分隔符和编码等，在字段页面可以获取字段名，点击预览即可预览Excel的数据。

A. D
B. B
C. C
D. A

我的答案：C正确答案：C

和csv文件读取类似，Excel输入控件在读取excel文件也增加了表单等处理。

下列有关合并记录和记录集连接控件说法不正确的是(　　)

A. 合并记录用于比较两组输入数据，一般用于更新后的数据重新导入到数据仓库中

B. 合并记录中两组数据一组是引用流，一组是比较流，每次比较后行数据都可以被输出到下一步

C. 记录集连接合并两种不同输入流，连接方式有内连，左外连接等

D. 记录集连接记录需要先按关键字进行排序

A. B
B. A
C. C
D. D

我的答案：C正确答案：A

合并记录中两组数据中一组是引用流，一组是比较流，每次比较后只有最新版本的行数据被输出到下一步

下列有关文本文件输入说法正确的是(　　)

A. 文本文件输入中，可以对相关数据进行不正确处理，但不能过滤相关数据。
B. 对在字段页面可以获取字段名，点击预览即可预览文本文档的数据
C. 在内容页面选择包不包括头部字段、字段分隔符和编码等
D. 能从某个文本文件中获取需要的数据，也可以从以前的步骤接收文件名，将该选项勾上即可。

我的答案：D,C,B,A正确答案：B,C,D

文本文件输入控件，可以指定相关输入文件，以及对输入文本内容的处理，不正确数据的指定，也可以过滤无用的数据。

下列有关表输入说法正确的是(　　)

A. 能从某个数据库中按条件查找某个表的数据。

B. 可以使用变量替换的方式进行查询，将“替换sql语句里的变量”勾选上即可。

C. 可以使用上一步结果中赋予值，请将“从步骤插入数据”选择上一步的名称，在预览时会出现双精度的值显示不正常的问题，可能会影响实际输出值。

D. 测试过程中发现如果上一个步骤设置的变量，在table input里面获取不到，变量设置必须作为一个单独的转换先执行一次，然后才能获取到这个变量。

A. B
B. A
C. D
D. C

我的答案：C正确答案：D

在表输入控件中，在预览数据时出现双精度的值显示不正常的问题，并不会影响实际输出值。

下列json与sql输出控件说法正确的是(　　)

A. 在文件以json格式输出时，注意一个数据条目的数据行，我们一般输入数值1。

B. 可以修改json输出控件的文件名、扩展名、编码格式等相关参数。

C. 在sql输出控件中，将输出的sql insert语句保存到文件中。

D. 在sql输出控件中，我们可以增加清空表的语句，自动执行相关SQL脚本。

A. A
B. D
C. C
D. B

我的答案：D,C,B,A正确答案：A,C,D

SQL文件输出，可以指定数据库连接，目标表，对输出文件的指定，及内容日期格式的处理，执行SQL脚本，需要使用使用脚本控件。

以下有关数据集成的说法不正确的是(　　)

A. 狭义上讲它是指如何合并规整数据，广义上讲数据的存储、移动、处理等与数据管理有关的活动都称为数据集成

B. 大数据集成不需要将处理过程分布到源数据上进行并行处理，只对结果进行集成

C. 它是把不同来源、不同格式、不同特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享

D. 大数据集成是基于数据集成技术演化而来的，但其方案和传统的数据集成有着巨大的差别

A. D
B. A
C. C
D. B

我的答案：D正确答案：D

数据集成除了对结果进行集成，在整个数据处理过程中仍需要处理分布到源数据上进行并行处理。

下列关于数据集成说法不正确的是（）

A. 在逻辑上和物理上把来自不同数据源的数据进行集中，为用户提供一个统一的视图

B. 数据集成串行处理将不同类型的数据保存在原地，而处理过程适当地分配给这些数据

C. 没有一个统一的数据预处理过程和单一的技术能够用于多样化的数据集

D. 考虑数据集的特性、需要解决的问题、性能需求和其他因素选择，是我们选择合适的数据预处理方案的有效途径

A. C
B. D
C. A
D. B

我的答案：A正确答案：D

大数据集成是将大量不同类型的数据原封不动地保存在原地，而将处理过程适当地分配给这些数据，这是一个并行处理的过程。

下列数据集成的模式包括（）

A. 数据集（Data Set）
B. 中介者（Mediation）
C. 数据仓库（Data Warehousing）
D. 联邦数据库（Federated Database）

我的答案：C,A正确答案：B,C,D

数据集不属于数据集成模式

以下有关数据集成的说法正确的是(　　)

A. 数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息以及将数据处理移动到数据端

B. 数据转换，是数据集成中最复杂和最困难的问题，所要解决的是如何将数据转换为统一的格式。需要注意的是要理解整合前的数据和整合后的数据结构

C. 数据的迁移，即将一个应用的数据迁移到另一个新的应用中。在组织内部，当一个应用被新的应用所替换时，就需要将旧应用中的数据迁移到新的应用中

D. 主数据引用作为元数据标签附加到非结构化数据上，在此基础上就可以实现与其他数据源和其他类型数据的集成

A. A
B. D
C. C
D. B

我的答案：A,B,C,D正确答案：A,B,C,D

以上说法都正确

下列说法不正确的是(　　)

A. 数据库查询，是从数据库查询数据，作为新的字段添加到数据中。

B. 合并记录，用于比较两组输入数据，一般用于更新后的数据重新导入到数据仓库中将两组数据经过比较合并输出到数据流中。

C. 排序合并，将数据按某个关键字段进行排序。

D. 排序合并对所有输入流做笛卡儿乘积。

A. A
B. C
C. D
D. B

我的答案：C正确答案：C

对所有输入流做笛卡儿乘积属于记录关联，排序合并无法进行笛卡尔乘积。

下列有关调用DB存储过程正确的是 (　　)

A. 返回值只有多个，并且只针对函数。
B. 当调用的过程时，要返回值名称不会被删除。
C. 无法从数据库自动获取字段数据。
D. 执行存储过程并获得返回值。

我的答案：D正确答案：D

调用DB存储过程的返回值只有一个，而且返回值会被删除，连接数据库后，可以点击获取字段按钮，自动从数据库获取需要的字段。

下列哪些是常见数据查询连接控件 (　　)

A. Web服务查询、数据库查询、维度查询/更新
B. 检查文件是否已被锁定、调用DB存储过程、延迟行
C. 合并记录、排序合并、记录关联
D. 模糊匹配、流查询、样本行

我的答案：A正确答案：C

维度查询/更新属于数据仓库，样本行属于统计，延迟行属于应用控件

下列有关数据归约不正确的是(　　)

A. 它是从数据库或数据仓库中选取并建立使用者感兴趣的数据集合。

B. 可以在数据集合中滤掉一些无关、偏差或重复的数据。

C. 在尽可能改变数据原貌的前提下，最大限度地精简数据量。

D. 数据归约主要有两个途径，属性选择和数据采样，分别针对原始数据集中的属性和记录。

A. C
B. B
C. D
D. A

我的答案：B正确答案：A

最大限度地精简数据量的前提是尽可能保持数据原貌。

下列有关数据归约类型不正确是(　　)

A. 特征归约
B. 特征值归约
C. 重组归约
D. 样本归约

我的答案：C正确答案：C

重组归约不属于数据归约

下列说法正确的是(　　)

A. 最小的属性集，可以使得数据类的概率分布尽可能接近所有属性的原分布。

B. 字符串压缩，通常是无损压缩，在解压缩前对字符串的操作非常有限。

C. 概念分层通过收集并用较高层的概念替换较低层的概念来定义数值属性的一个离散化。

D. 维归约不仅会压缩数据集，还会减少出现在发现模式上的属性数目。

A. A
B. B
C. D
D. C

我的答案：A,B,C,D正确答案：A,B,C,D

下列数据归约方法分类说法正确的是(　　)

A. 数据规约方法分类包括，维规约，数据压缩，数值规约，离散化和概念分层。

B. 数据压缩常用的方法有小波变换、分箱技术、基于熵的离散化。

C. 维规约通过选择替代的、较小的数据表示形式来减少数据量。

D. 数据压缩分为无损压缩和有损压缩。

A. A
B. C
C. B
D. D

我的答案：A,B,C,D正确答案：A,D

通过选择替代的、较小的数据表示形式来减少数据量是对数值归约的描述，离散化和概念分层常用分箱技术、基于熵的离散化技术等。

下列有关sqoop语句描述正确的是（）

A. delete-target-dir 删除已有的目标文件

B. num-mappers map的数量

C. hive-import 数据导入的Hive表中

D. hive-database hive表

A. C
B. A
C. B
D. D

我的答案：D,C,B,A正确答案：A,B,C

hive-database hive数据库

以下说法中正确的是(　　)

A. Sqoop导入数据步骤：收集数据，只提交map作业

B. --connect 数据库用户名

C. --direct 连接mysql的数据库

D. columns中如果涉及到多列，用逗号分隔，分隔时不要添加空格

A. D
B. B
C. C
D. A

我的答案：C正确答案：D

–connect 连接mysql的数据库

–direct 目录地址

columns中如果涉及到多列，用逗号分隔，分隔时不要添加空格

在sqoop说法中，以下说法中不正确的是(　　)

A. bin/sqoop import 导入命令

B. --connect jdbc:mysql://mysql:3306/sqoop 连接hadoop的mysql数据库

C. --fields-terminated-by “\t” 指定分割符为"\t"

D. --query ‘select * from user where id<=1 and $CONDITIONS’ 表示使用query对数据进行过滤

A. A
B. B
C. D
D. C

我的答案：B正确答案：B

–connect jdbc:mysql://mysql:3306/sqoop 表示连接mysql的mysql数据库，mysql:3306中的mysql是指主机名

下列描述正确的是（）

A. HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库

B. HMaster功能，负责存储HBase的实际数据，处理分配给它的Region

C. sqoop1.4.6不支持HBase1.0.1之前的版本的自动创建HBase表的功能

D. 以上说法均正确

A. B
B. D
C. A
D. C

我的答案：B正确答案：C

HMaster功能，监控RegionServer处理RegionServer故障转移等，

sqoop1.4.6支持HBase1.0.1之前的版本的自动创建HBase表的功能

在sqoop语句参数说法中，以下说法中正确的是(　　)

A. job用来生成一个sqoop任务，生成后不会立即执行，需要手动执行

B. import-all-tables将RDBMS中的所有表导入到HDFS中，每一个表都对应一个HDFS目录

C. create-hive-table生成与关系数据库表结构对应的hive表结构

D. codegen将关系型数据库中的表映射为一个Java类，在该类中有各列对应的各个字段

A. B
B. A
C. C
D. D

我的答案：C,D正确答案：A,B,C,D

以上说法均正确

下列从Hive到RDBMS说法正确的是（）

A. Mysql中如果表不存在，不会自动创建，自行根据表结构创建

B. Hive 只适合用来做海量离线数据统计分析，也就是数据仓库

C. 如果表中已有部分数据，则导入数据是覆盖

D. 以上说法均正确

A. B
B. C
C. A
D. D

我的答案：C,B正确答案：A,C

数据导入是追加形式

下列关于Flume工作原理描述错误的是( )?

A. Flume只有一个agent角色，且其是由source、channel、sink等组成
B. Flume只能串行，不能汇集
C. Flume是一个分布式、可靠的、高可用的海量日志采集聚合传输的系统
D. Flume中data flow描述了数据从产生、传输、处理并最终写入目标的一条路径

我的答案：A正确答案：B

下列关于Flume体系结构描述错误的是( )?

A. Source从数据发生器接收数据,并将接收的数据以event格式传递给一个或者多个通道channel
B. Sink从channels消费数据(events)并将其传递给目标地
C. Flume逻辑上分为4层：agent、collector、storage、model
D. Channel将从source接收的event格式的数据缓存起来,直到它们被sinks消费掉

我的答案：C正确答案：C

Flume逻辑上分为3层：agent、collector、storage

在sqoop说法中，以下说法中不正确的是(　　)

A. Sqoop主要由二个部分组成：Sqoop client、HDFS/HBase/Hive

B. 用户向Sqoop发起命令之后，这个命令会转换为一个基于MapTask的MapReduce作业

C. MapTask访问数据库的元数据信息，通过并行MapTask读取数据库数据，导入Hadoop中

D. 通过基于MapTask的MapReduce作业，实现数据的并发拷贝和传输，大大提高效率

A. C
B. A
C. B
D. D

我的答案：B正确答案：B

主要由三个部分组成：Sqoop client、HDFS/HBase/Hive、Database

下列从Hive到RDBMS说法正确的是（）

A. 如果表中已有部分数据，则导入数据是覆盖
B. Mysql中如果表不存在，任何情况下均不会自动创建
C. Hive只适合用来做海量离线数据统计分析，也就是数据仓库
D. 以上说法均正确

我的答案：C正确答案：C

导入数据时会自动建表

下列描述不正确的是（）

A. HBase是一种Key/Value系统，它运行在HDFS之上（HDFS是分布式文件系统）

B. HBase的数据存储在HDFS中

C. 将各种类型的数据库或者文件导入到HBase，常见方法使用定制的MapReduce Job

D. Put是HBase的API中携带的方法，主要用于数据量较大的情况下数据导入工作

A. B
B. C
C. A
D. D

我的答案：D正确答案：D

Put方法主要用于数据量不大的情况下的数据导入工作

请判断下列语句属于哪种导出方式(　　)

A. 列导出

B. 更新已存在数据

C. 批量插入导出

D. 以上说法均不正确

sqoop export \

–connect jdbc:mysql://mysql.example.com/sqoop \

–username sqoop \

–password sqoop \

–table cities \

–columns country，city

A. A
B. C
C. B
D. D

我的答案：D正确答案：A

–columns country，city导出列country和city

在sqoop语句参数说法中，以下说法中正确的是(　　)

A. sqoop version 打印sqoop版本信息

B. connection-manager在控制台打印出详细信息

C. merge将HDFS中不同目录下面的数据合在一起，并存放在指定的目录中

D. metastore记录sqoop job的元数据信息，如果不启动metastore实例，则默认的元数据存储目录为：~/.sqoop，如果要更改存储目录，可以在配置文件sqoop-site.xml中进行更改

A. A
B. D
C. C
D. B

我的答案：C,D正确答案：A,B,C

connection-manager指定要使用的连接管理类
verbose在控制台打印出详细信息

下列有关HBase描述正确的是（）

A. 创建表：create ‘student’，‘info’

B. 插入数据到表：put ‘student’，‘1001’，‘info:sex’，‘male’

C. 查看表结构：describe ‘student’

D. 清空表数据：truncate ‘student’

A. D
B. B
C. C
D. A

我的答案：C,D,B正确答案：A,B,C,D

以上说法均正确

在sqoop说法中，以下说法中不正确的是(　　)

A. 安装Sqoop的前提是已经具备Java和Hadoop的环境

B. Sqoop2比Sqoop1的改进，引入sqoop server，几种化管理connector等，多种访问方式：CLI，Web UI，REST API，引入基于角色的安全机制

C. 拷贝jdbc驱动到sqoop的conf目录下

D. 我们可以通过某一个command来验证sqoop配置是否正确：bin/sqoop help

A. C
B. D
C. A
D. B

我的答案：D正确答案：A

数据导入导出的时候，需要拷贝jdbc驱动到sqoop的lib目录下

下列从RDBMS到Hive说法不正确的是（）

A. 过程分为两步，第一步将数据导入到HDFS，第二步将导入到HDFS的数据迁移到Hive仓库

B. 从RDBMS到Hive用关键字export

C. 执行这个操作之前需要把将hive/lib中的hive-common-2.3.3.jar拷贝到sqoop的lib目录中

D. 从MYSQL到Hive，本质是从MYSQL–》HDFS–》load To Hive

A. D
B. B
C. C
D. A

我的答案：A正确答案：B

从RDBMS到Hive用关键字import

请判断下列语句属于哪种导入方式(　　)

A. 指定列导入

B. 查询导入

C. 使用sqoop关键字筛选查询导入

D. 压缩导入

sqoop import \

–connect jdbc:mysql://mysql.example.com/sqoop \

–username sqoop \

–password sqoop \

–table cities

–compress \

–compression-codec org.apache.hadoop.io.compress.BZip2Codec

A. C
B. B
C. D
D. A

我的答案：C正确答案：C

–compression-codec org.apache.hadoop.io.compress.BZip2Codec表示压缩导入方式

请判断下列语句属于哪种导入方式(　　)

A. 指定列导入

B. 查询导入

C. 使用sqoop关键字筛选查询导入

D. 压缩导入

bin/sqoop import \

–connect jdbc:mysql://hadoop102:3306/company \

–username root \

–password 000000 \

–target-dir /user/company \

–delete-target-dir \

–num-mappers 1 \

–fields-terminated-by “\t” \

–columns id，sex \

–table staff

A. C
B. B
C. A
D. D

我的答案：B正确答案：C

–columns id，sex 表示指定列导入

请判断下列语句属于哪种导出方式(　　)

A. 列导出

B. 更新已存在数据

C. 批量插入导出

D. 以上说法均不正确

sqoop export \

–connect jdbc:mysql://mysql.example.com/sqoop \

–username sqoop \

–password sqoop \

–table cities \

–update-key id

A. C
B. D
C. B
D. A

我的答案：C正确答案：C

–update-key id 表示更新id数据

下列有关增加序列控件描述不正确的是 (　　)

A. 可以使用数据库自带的序列提供序列值。

B. 可以使用kettle自带的序列生成器提供序列值。

C. 可以设置起始值、增长根据、最大值。

D. 增加序列也可以在数据中增加需要的常量数据。

A. A
B. B
C. D
D. C

我的答案：C正确答案：C

增加需要的常量可以使用增加常量控件，和增加序列控件没有任何关系。

下列说法正确的是(　　)

A. 空操作不做任何处理，一般作为流程的终点。

B. 过滤记录直接从输入行中过滤数据，将结果是TURE或FALSE的行输出到不同的节点。

C. Switch/Case可以对多种值进行相同的选择路径。

D. Switch/Case一定得有个默认的路径，先产生路径连接，再进行目标步骤。

A. A
B. D
C. B
D. C

我的答案：A正确答案：A

过滤记录通过使用一个表达式来过滤数据，Switch/Case先进行目标步骤后，再进行路径连接，当然对于多种类型的值进行不同的选择路径。

下列哪些是常见流程脚本控件(　　)

A. JavaScript代码、公式、转换步骤信息统计

B. 中止、检测空流、数据检验

C. 正则表达式、执行SQL脚本、空操作

D. 根据java代码过滤记录、记录注射

A. B
B. A
C. D
D. C

我的答案：D正确答案：D

转换步骤信息统计属于统计，数据检验属于检验，记录注射属于内联。

下列有关JavaScript代码控件说法正确的是(　　)

A. javascript脚本就是使用java语言通过代码编程来完成对数据流的操作。

B. 存在两种不同的模式，不兼容和兼容模式。

C. JS中有很多内置函数，可以在编写JS代码时查看。

D. 可以通过在JavaScript代码中定义新的变量来增加新的字段。

A. D
B. C
C. B
D. A

我的答案：C,B正确答案：A,B,C

javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作

下列Kettle和Pan命令行参数描述不正确的是(　　)

A. norep表示不连接到任何一个repository，避免自动登录很有用。
B. listdir列出有效的仓库job/transform路径。
C. listjobs通过dir参数列出存在于仓库中有效jobs。
D. file指定指定日志的文件名称。

我的答案：C正确答案：D

file指定存储了job或者transform的文件，logfile指定日志的文件名称。

下列有关剪切字符串控件描述不正确的是 (　　)

A. 剪切字符串属于转换控件。

B. 能操作的字段可能是字符类型。

C. 要剪切的字段包括输入流字段、输出流字段、起始位置、结束位置。

D. 可以更改输出流字段名。

A. B
B. C
C. D
D. A

我的答案：C正确答案：A

能操作的字段一定是字符类型

下列有关任务调度正确的是(　　)

A. 使用Pan命令行工具能够启动kettle任务和转换，而kitchen命令行工具无法启动。

B. Pan和kettle是环绕数据集成引擎的轻量级封装器。

C. Kitchen和pan是使用java运行任务和转换的。

D. Kettle中有两种方式监控job或者transform的运行情况，它们分别是邮件通知和后台监控。

A. D
B. A
C. B
D. C

我的答案：D正确答案：C

除了Pan命令行工具可以启动kettle任务和转换，kitchen命令行工具同样也可以；Kitchen和pan是shell scripts运行任务和转换的，邮件通知和日志表是两种监控job和transform的方式。

8.【多选】

下列有关去重复记录控件描述正确的是 (　　)

A. 可根据指定的字段进行排除重复记录

B. 可统计出重复的数量

C. 使用前必须排序

D. 可将重复的记录重定向

A. A
B. B
C. D
D. C

我的答案：A,B正确答案：A,B,C,D

以上说法都正确

下列缓慢变化维说法中不正确的是(　　)

A在ETL的过程中，要考虑到缓慢变化维度的处理。

B. 常见的缓慢变化维度只有2种情况。

C. 在缓慢变化维度中，历史数据需要修改，也可以保留或者保留新增数据。

D. 新增数据维度成员改变属性也属于缓慢变化维度。

A. D
B. C
C. A
D. B

我的答案：D正确答案：D

缓慢变化维度第一种类型：历史数据需要修改。在这种情况下，我们使用update方法来修改维度表中的数据。缓慢变化维度的第二种类型：历史数据保留，新增数据也要保留。这是，要将原数据更新，将新数据插入，我们使用UPDATE/INSERT。缓慢变化维度第三种类型：新增数据维度成员改变了属性。

下列说法不正确的是(　　)

A. 数据库查询，是从数据库查询数据，作为新的字段添加到数据中。

B. 合并记录，用于比较两组输入数据，一般用于更新后的数据重新导入到数据仓库中将两组数据经过比较合并输出到数据流中。

C. 排序合并，将数据按某个关键字段进行排序。

D. 排序合并对所有输入流做笛卡儿乘积。

A. D
B. C
C. B
D. A

我的答案：A正确答案：A

对所有输入流做笛卡儿乘积属于记录关联，排序合并无法进行笛卡尔乘积。

下列有关索引使用遵循原则正确的是(　　)

A. 当插入的数据为数据表中的记录数量10%以上时，首先需要删除该表的索引来提高数据的插入效率，当数据全部插入后再建立索引。

B. 避免在索引列上使用函数或计算，在where子句中，如果索引列是函数的一部分，优化器将不使用索引而使用全表扫描。

D. 以上说法均正确。

A. C
B. B
C. A
D. D

我的答案：A,B正确答案：B,C

当数据库遇到NOT和“！=”时，不再使用索引转而执行全表扫描。

下列缓慢变化维说法中不正确的是(　　)

A. 修改历史数据，直接在原来维度的基础上进行更新，不会产生新的记录。

B. 保留历史数据和新增数据，修改原有的数据，重新产生一条新的记录，这样就可以追溯所有的历史记录。

C. 新增数据维度成员改变属性，直接在原来维度的基础上进行更新，不会产生新的记录，但是只会记录上一次的历史记录。

A. A
B. B
C. D
D. C

我的答案：B正确答案：B

重新产生一条新的记录，可以追溯所有的历史记录，前提是不应该修改原有的数据，从而保留历史数据。

下列有关调用DB存储过程正确的是 (　　)

A. 执行存储过程并获得返回值。
B. 返回值只有多个，并且只针对函数。
C. 无法从数据库自动获取字段数据。
D. 当调用的过程时，要返回值名称不会被删除。

我的答案：C正确答案：A

调用DB存储过程的返回值只有一个，而且返回值会被删除，连接数据库后，可以点击获取字段按钮，自动从数据库获取需要的字段。

下列有关增加序列、字段选择控件描述正确的是 (　　)

A. 增加序列控件可以使用数据库自带的序列提供序列值

B. 增加序列控件也使用kettle自带的序列生成器提供序列值

C. 字段选择控件用于选择列，重命名列，指定列长度或精度

D. 字段选择控件可以手动增加需要的字段，但不可以更改字段值类型、样式，

A. A
B. D
C. B
D. C

我的答案：C,D正确答案：A,C,D

字段选择控件可以移除不需要的字段，可以更改字段值类型、样式，可以手动增加需要的字段

下列有关任务调度不正确的是(　　)

A. 对于ETL来说，调度是独一无二的。

B. Windows系统上的任务调度器，能够通过调度kettle命令行程序来运行任务和转换。

C. 调度器构建成Pentalo BI服务器能够被用来运行一系列执行kettle任务和转换工作。

D. 所有主要操作系统提供了构建调度任务的特性，这些任务能被作为系统级别的调度器来调度。

A. B
B. A
C. D
D. C

我的答案：B正确答案：B

操作系统能够提供标准调度的一般性需求，对于ETL来说调度也不是独一无二的。

下列哪些是常见转换控件(　　)

A. 拆分字段、排序记录、过滤记录
B. 计算器、字符串操作、增加序列
C. 值映射、增加常量、追加流
D. 行转列、字段选择、比较表

我的答案：B正确答案：B

追加流、过滤记录都属于流程控件，比较表属于应用控件。

下列哪些是常见数据查询连接控件 (　　)

A. 模糊匹配、流查询、样本行
B. 合并记录、排序合并、记录关联
C. Web服务查询、数据库查询、维度查询/更新
D. 检查文件是否已被锁定、调用DB存储过程、延迟行

我的答案：C正确答案：B

维度查询/更新属于数据仓库，样本行属于统计，延迟行属于应用控件。

下列有关脚本说法正确的是(　　)

A. 执行shell脚本，可以执行已经写好的shell脚本，且指定shell脚本路径即可

B. 编辑shell脚本可以把前一个步骤的执行结果当作参数传入

C. 执行SQL脚本时，但不可以插入编辑sql脚本

D. 在使用使用javascript脚本，可以进行空值的转换

A. A
B. D
C. C
D. B

我的答案：D,C正确答案：A,B,D

执行SQL脚本时，也可以插入编辑sql脚本

下列缓慢变化维说法中不正确的是(　　)

A. 缓慢变化维为维度表里面的数据并非是始终不变的，总会随着时间和关键字发生变化。

B. 维度建模的数据仓库中，数据会发生缓慢变化的维度就叫“缓慢变化维”。

C. 处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。

D. 处理缓慢变化维的控件最常用的就是维度查询/更新控件。

A. A
B. D
C. B
D. C

我的答案：C正确答案：A

下列说法中正确的是(　　)

A. 性能调优在整个工程中可有可无，无关紧要。

B. 性能调优主要分两个方面，硬件调优和软件调优。

C. 可以直接调整JVM大小进行性能优化。

D. 尽量用kettle的calculate计算步骤，少用数据库本身的sql。

A. D
B. A
C. B
D. C

我的答案：C正确答案：C

在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?()

A. pipeline.py
B. item.py
C. spiders 文件夹
D. settings.py

我的答案：D正确答案：D spiders 文件夹存放爬虫文件，settings.py存放爬虫的各种配置信息。

）是Scrapy 非常重要的组件，数据存储几乎都是通过此组件实现的。

A. Item Pipeline
B. Spider
C. Item
D. Pipeline

我的答案：A正确答案：A Item Pipeline组件实现数据的存储。

以下不是Scrapy主要组件的是

A. Scrapy
B. Downloader
C. Tensorflow
D. Scheduler

我的答案：B正确答案：C
Scrapy主要组件:Scrapy,Scheduler,Downloader,Spiders,Pipeline,Downloader
Middlewares,Spider Middlewares,Scheduler Middewares

当爬虫创建好了之后，可以使用”scrapy()”命令运行爬虫。

A. starwar
B. drawl
C. startup
D. crawl

我的答案：D正确答案：D 一般用scrapy crawl命令运行爬虫。

items的主要作用是（）

A. 数据爬取
B. 验证数据
C. 存储数据
D. 数据清洗

我的答案：C正确答案：D items:主要是做数据清洗（抓取字段根据需求进行处理）

爬虫抓取网页程序或脚本的三大步骤不包括（）

A. 下载网页
B. 根据一定规则自动跳到另外的网页上执行上面两步内容
C. 提取想要的信息
D. 打开网页

我的答案：A正确答案：D 爬虫抓取网页程序或脚本的三大步骤主要是B，C，D选项

Scrapy中使用Xpath获得的结果调用了.extract方法，结果以()形式生成。

A. 元组
B. 字典
C. 列表
D. 集合

我的答案：A正确答案：C Scrapy中使用Xpath获得的结果调用了.extract方法，结果以列表形式生成

Scrapy框架parse方法中的yield关键字的作用描述错误的是（） def parse(self, response): item = xxxItem() … yield item

A. yield与return关键字用法相同
B. yield返回的是一个生成器
C. 通过 yield 来发起一个请求，并通过 callback 参数为这个请求添加回调函数，在请求完成之后会将响应作为参数传递给回调函数。
D. crapy框架会根据 yield 返回的实例类型来执行不同的操作,如果是 scrapy.Item 对象，scrapy框架会将这个对象传递给 pipelines.py做进一步处理。

我的答案：B正确答案：A
yield是一个关键字，作用和return差不多，差别在yield返回的是一个生成器。

以下是Scrapy主要组件的是

A. Scheduler
B. Downloader
C. Scrapy
D. Tensorflow

我的答案：C正确答案：A,B,C
Scrapy主要组件:Scrapy,Scheduler,Downloader,Spiders,Pipeline,Downloader
Middlewares,Spider Middlewares,Scheduler Middewares

为了实现基于Redis的结构，Scrapy-Redis需要重写了Scrapy框架的哪些功能（）

A. 调度器
B. 去重过滤
C. 请求队列
D. 基于Redis的项目管道（RedisPipeline）

我的答案：C,D正确答案：A,B,C,D
Scrapy-Redis的思路是使用Redis数据库，即将请求队列、指纹集合、爬虫结果数据全部存储于Redis数据库中。

下面不属于Scrapy框架中Item Pipeline组件的常见应用场景的是（）

A. 将数据转换成自定义格式
B. 将下载的数据封装成Item
C. 清理数据，验证数据有效性
D. 将数据保存到数据库中

我的答案：C正确答案：B 封装成item是spider组件的工作

爬虫抓取网页程序或脚本的三大步骤是（）

A. 下载网页
B. 打开网页
C. 根据一定规则自动跳到另外的网页上执行上面两步内容
D. 提取想要的信息

我的答案：B,C,D正确答案：A,C,D 爬虫抓取网页程序或脚本的三大步骤主要是B，C，D选项
.

在Scrapy框架的Item Pipeline管道中有如下代码（其中item[‘comment’]的值是字符串，比如"nice to meet you"），请根据代码推测其作用可能是（） def process_item(self, item, spider): str = item[‘comment’] item[‘comment’] = “”.join(str.spit()) return item

A. 分隔item[‘comment’]值（字符串）中的所有字符
B. 将空格插入到item[‘comment’]值（字符串）每个字符之间
C. 将爬取到的所有item[‘comment’]值进行合并
D. 去除当前item[‘comment’]值（字符串）中的空格

我的答案：D正确答案：D
split() 空格分隔，join合并

当运行爬虫代码后，出现"Forbidden by robots.txt"提示后，说明当前时间段被爬取的网站可以访问。（）

A. 正确
B. 错误

我的答案：A正确答案：A

Item Pipeline的作用不包括（）

A. 清洗数据
B. 测试数据
C. 存储数据
D. 验证数据

我的答案：C正确答案：B
项目管道，负责处理由蜘蛛从网页中抽取的项目，它的主要任务是清洗、验证和存储数据。

MongoDB在频繁读写方面优于Redis

A. 错误
B. 正确

我的答案：A正确答案：A
MongoDB建议集群部署，更多的考虑到集群方案，Redis更偏重于进程顺序写入，虽然支持集群，也仅限于主-从模式。

在Scrapy-Redis框架中配置redis连接如下，如果采用REDIS_URL进行配置，如何赋值（） REDIS_HOST =‘180.117.243.30’ REDIS_PORT = 6379 REDIS_PASSWORD = ‘cathy123’

A. REDIS_URL =‘redis://:180.117.243.30:6379@cathy123’
B. REDIS_URL =‘redis://:[email protected]:6379’
C. REDIS_URL =‘link://:[email protected]:6379’
D. REDIS_URL =‘link://:180.117.243.30:6379@cathy123’

我的答案：B正确答案：B URL的格式为：‘redis://:password@host:port’

Redis 中往集合中添加数据，使用关键字()

A. append
B. add
C. sadd
D. sappend

我的答案：A正确答案：C
Redis 中往集合中添加数据，使用关键字sadd，C选项append为列表添加元素方法。

当需要把Python里面的数据发送给网页时，应先将其转换成()

A. Request
B. Json字符串
C. POST
D. GET

我的答案：B正确答案：B
当需要把Python里面的数据发送给网页时，应先将其转换成Json字符串。

使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控()中的数据，并不读取start_urls 中的数据。

A. Spider
B. Redis
C. MongoDB
D. RedisSpider

我的答案：B正确答案：B
使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控Redis中的数据，并不读取start_urls中的数据。

Item Pipeline常用场景（）

A. 将抓取的数据存储到数据库中
B. 验证被抓取的数据
C. 重复性检查
D. 清理HTML数据

我的答案：B,C,D正确答案：A,B,C,D
Item Pipeline常用场景，以下选项都是。

常见的页面数据抽取方式有哪些？

A. xpath
B. re
C. jsonpath
D. beautifulsoup4

我的答案：A,C,D正确答案：A,B,C,D
常见的页面数据抽取方式，以下四种都是。

在Scrapy的目录下，哪个文件负责存放爬虫文件?()

A. settings.py
B. spiders 文件夹
C. item.py
D. pipeline.py

我的答案：C正确答案：B
spiders 文件夹存放爬虫文件，settings.py存放爬虫的各种配置信息。

我们可以自定义Item Pipeline，只需要实现指定的方法，其中必须要实现的一个方法是：（）。

A. open_spider(spider)
B. from_crawler(cls, crawler)
C. close_spider(spider)
D. process_item(item, spider)

我的答案：C正确答案：D 其中必须要实现的一个方法是：process_item(item, spider)

内置的 ImagesPipeline 会默认读取 Item 的 image_urls 字段，并认为该字段是一个（）形式。

A. 集合
B. 字典
C. 元组
D. 列表

我的答案：C正确答案：D
内置的 ImagesPipeline 会默认读取 Item 的列表形式的image_urls 字段。

()是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。

A. Deploy
B. Scrapyd
C. ScrapyDeploy
D. Scrapy_Deploy

我的答案：C正确答案：B
Scrapyd是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具

参数headers=()，把请求头添加到Scrapy请求中，使爬虫的请求看起来像是从浏览器发起的。

A. HEADERS
B. BODY
C. HEADER
D. HEAD

我的答案：A正确答案：A
headers=HEADERS，把请求头添加到Scrapy请求中，使爬虫的请求看起来像是从浏览器发起的。

Python中相比于findal1方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。（）

A. 错误
B. 正确

我的答案：B正确答案：B 无

Scrapy中使用Xpath获得的结果调用了.extract方法，结果以()形式生成。

A. 元组
B. 字典
C. 列表
D. 集合

我的答案：C正确答案：C

当需要把Python里面的数据发送给网页时，不能将其将其转换成()

A. GET
B. Json字符串
C. POST
D. Request

我的答案：A,B,C,D正确答案：A,C,D 当需要把Python里面的数据发送给网页时，应先将其转换成Json字符串。

内置的 ImagesPipeline 会默认读取 Item 的 image_urls 字段，该字段不是以下（）形式。

A. 元组
B. 列表
C. 集合
D. 字典

我的答案：B,C,D正确答案：A,C,D
.
使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控()中的数据，并不读取start_urls 中的数据。

A. Spider
B. Redis
C. MongoDB
D. RedisSpider

我的答案：B正确答案：B 使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控Redis中的数据，并不读取start_urls 中的数据。

Redis若要进入交互环境，需要打开终端输入()

A. redis
B. redis-cli
C. redis-cmd
D. redis-start

我的答案：C正确答案：B Redis若要进入交互环境需要打开终端输入redis-cli

创建Item需要继承（）类。

A. Item
B. scrapy.Text
C. scrapy
D. scrapy.Item

我的答案：A正确答案：D 创建Item需要继承 scrapy.Item 类。

全局命令scrapy startproject的作用是()

A. 运行项目
B. 初始化爬虫文件
C. 创建项目
D. 启动浏览器

我的答案：A正确答案：C scrapy startproject的作用是创建项目。

Redis的集合与Python的集合一样，没有顺序，值不重复

A. 正确
B. 错误

我的答案：B正确答案：A

Item是保存爬取数据的容器，它的使用方法和（）类似。

A. 列表
B. 矩阵
C. 字典
D. 元组

我的答案：A正确答案：C

items的主要作用是（）

A. 数据爬取
B. 验证数据
C. 存储数据
D. 数据清洗

我的答案：C正确答案：D items:主要是做数据清洗（抓取字段根据需求进行处理）

Redis的集合与Python的集合一样，没有顺序，值不重复

A. 正确
B. 错误

我的答案：B正确答案：A

你可能感兴趣的:(大数据)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
【大数据】FP-growth算法大雨淅淅大数据算法人工智能大数据
目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod