大数据技术刷题笔记1:

大数据技术刷题笔记1:

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲


文章目录

  • 大数据技术刷题笔记1:
    • @[TOC](文章目录)
  • 不属于大数据技术的关键技术
  • 不属于大数据治理范畴的是
  • 不属于大数据存储和计算一体数据库管理系统的是
  • kafka默认接受的最大消息是
  • Hbase中删除表格的命令是
  • 管理MapReduce作业进程的是
  • 启动HDFS系统的命令,start最起码啊
  • 与zookeeper类似的框架是
  • 与HDFS类似的框架是GFS
  • MapReduce计算框架不擅长处理实时分析问题
  • 窄依赖,宽依赖
  • Hive适合处理非实时的在线数据分析,和MapReduce类似
  • 关于MapReduce说法正确的是,离线计算
  • 关于HDFS说法正确的是
  • 关于Hive说法正确的是
  • 关于Hbase说法正确的是
  • 大数据引擎的性能优化手段,包含下面
  • 使用Hbase的优势在于
  • 实时流式计算特征包含
  • 大数据治理标准涵盖的方面包括
  • MapReduce和Hbase之间并没有关系
  • 处理大数据常用的排序有
  • kafka有什么优势
  • 适合HDFS的场景有
  • 下列哪些方法可以将非结构化的文本数据结构化
  • pandas的三维数据分析工具为Panel
  • SEMMA是数据挖掘项目方法论的名称,而且数据分析没有规定数据分析要求几步
  • 同样的数据分析方法论适用于所有的分析领域????
  • 哪类分析对数据的时效性要求高?
  • 数据质量检验的方式错误的是
  • 大数据团队对外交付的数据不包含
  • 数据分析的第一个步骤是:明确分析目的
  • 数据分析的最高层次是优化???
  • np.var是求方差,std是标准差
  • 一手数据和二手数据,说法错误的是
  • RFM模型的R代表最近一次消费
  • 数据预处理特征选择的目标有很多
  • 数据归一化,不是数据转换
  • 数据规范化的方法有
  • 商业报告自然也是要建立在数据模型上
  • 并行度方面,transformer模型效率是最高
  • LSTM单元有几个输入?
  • attention,计算权重,当前词越近,权重越大
  • 单个感知机相当于线性回归
  • NLP应用实践不包含句法分析?
  • 词法分析不是NLP的核心技术吗????
  • ANN通过组合多个非线性模型实现非线性划分
  • BERT的fine-ting不解决下列哪个任务
  • 总结

不属于大数据技术的关键技术

大数据技术刷题笔记1:_第1张图片

不属于大数据治理范畴的是

大数据技术刷题笔记1:_第2张图片
你共享与否,跟大数据治理有啥关系呢

不属于大数据存储和计算一体数据库管理系统的是

大数据技术刷题笔记1:_第3张图片

kafka默认接受的最大消息是

大数据技术刷题笔记1:_第4张图片

Hbase中删除表格的命令是

大数据技术刷题笔记1:_第5张图片

管理MapReduce作业进程的是

大数据技术刷题笔记1:_第6张图片

启动HDFS系统的命令,start最起码啊

大数据技术刷题笔记1:_第7张图片

与zookeeper类似的框架是

大数据技术刷题笔记1:_第8张图片
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,
是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。
它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

与HDFS类似的框架是GFS

大数据技术刷题笔记1:_第9张图片
HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。
是根据 google 发 表的论文翻版的。论文为 GFS(Google File System)Google 文件系统。

俩题目都是一个样

MapReduce计算框架不擅长处理实时分析问题

它是离线大数据计算
大数据技术刷题笔记1:_第10张图片

1.MapReduce的优点

在大数据和人工智能时代,MapReduce如此受欢迎主要因为它具有以下几个优点。

**● MapReduce 易于编程。**通过简单接口完成分布式程序的编写,可运行在众多服务器组成的集群上。即编写一个分布式程序与编写一个简单的串行程序是一模一样的。也正是易于使用的特点使得 MapReduce 编程变得越来越流行。

良好的扩展性。出现资源不足的情况,可以直接增加机器数量来扩展集群的计算能力这与HDFS通过增加机器扩展集群存储能力的道理是一样的。

**● 高容错性。**高容错性提现在MapReduce能使程序能够部署在廉价商用服务器上。如果其中一台机器故障,自动切换到其他节点,而且这个过程不需要人工参与,完全在 Hadoop 内部完成。

● MapReduce 适合PB级以上海量数据的离线处理。

2.MapReduce的缺点

MapReduce 虽然具有很多优势,但也有不适用的场景,即有些场景下并不适合 MapReduce 来处理,主要表现在以下几个方面。

不适合实时计算。 MapReduce 无法毫秒级内返回结果。MapReduct 并不适合数据的在线处理。
不适合进行流式计算。 MapReduce设计之初 输入数据集是静态的,不适合输入动态数据,不适合即流式计算。
不适合 DAG(有向无环图)计算。程序之间的依赖性,MapReduce的处理方法是将使用后每个 MapReduce 作业的输出结果写入磁盘,这样会造成大量的磁盘 IO,导致性能非常低下。

尽管 Hadoop MapReduce 还有很多局限性,但也是目前最为成功、最易于使用的大数据并行处理技术。

ok

窄依赖,宽依赖

大数据技术刷题笔记1:_第11张图片
大数据技术刷题笔记1:_第12张图片
大数据技术刷题笔记1:_第13张图片

Hive适合处理非实时的在线数据分析,和MapReduce类似

大数据技术刷题笔记1:_第14张图片

一、优点

1.操作接口采用类SQL语法,提高快速开发的能力(简单、容易上手)

2.避免了去写MapReduce,减少开发人员的学习成本

3.Hive擅长处理大数据,对小数据处理没有优势,因为Hive的延迟比较高

二、缺点

1.Hive的HQL表达能力有限,迭代算法无法表达

2.不擅长数据挖掘方面,由于MapReduce数据处理流程的限制,效率更高的算法却无法实现

3.Hive自动生成的MapReduce作业,通常情况下不够智能化

4.Hive调优比较困难,粒度较粗

5.Hive不擅长处理实时性高的场合

关于MapReduce说法正确的是,离线计算

大数据技术刷题笔记1:_第15张图片
别记混了

关于HDFS说法正确的是

大数据技术刷题笔记1:_第16张图片

关于Hive说法正确的是

大数据技术刷题笔记1:_第17张图片

关于Hbase说法正确的是

大数据技术刷题笔记1:_第18张图片

大数据引擎的性能优化手段,包含下面

大数据技术刷题笔记1:_第19张图片

使用Hbase的优势在于

大数据技术刷题笔记1:_第20张图片

实时流式计算特征包含

大数据技术刷题笔记1:_第21张图片

大数据治理标准涵盖的方面包括

大数据技术刷题笔记1:_第22张图片

MapReduce和Hbase之间并没有关系

大数据技术刷题笔记1:_第23张图片

处理大数据常用的排序有

大数据技术刷题笔记1:_第24张图片

kafka有什么优势

大数据技术刷题笔记1:_第25张图片
大数据技术刷题笔记1:_第26张图片
大数据技术刷题笔记1:_第27张图片
大数据技术刷题笔记1:_第28张图片

适合HDFS的场景有

大数据技术刷题笔记1:_第29张图片

下列哪些方法可以将非结构化的文本数据结构化

大数据技术刷题笔记1:_第30张图片
大数据技术刷题笔记1:_第31张图片

pandas的三维数据分析工具为Panel

大数据技术刷题笔记1:_第32张图片

SEMMA是数据挖掘项目方法论的名称,而且数据分析没有规定数据分析要求几步

大数据技术刷题笔记1:_第33张图片

同样的数据分析方法论适用于所有的分析领域????

大数据技术刷题笔记1:_第34张图片

哪类分析对数据的时效性要求高?

大数据技术刷题笔记1:_第35张图片

数据质量检验的方式错误的是

大数据技术刷题笔记1:_第36张图片

大数据团队对外交付的数据不包含

大数据技术刷题笔记1:_第37张图片

数据分析的第一个步骤是:明确分析目的

大数据技术刷题笔记1:_第38张图片

数据分析的最高层次是优化???

大数据技术刷题笔记1:_第39张图片

np.var是求方差,std是标准差

大数据技术刷题笔记1:_第40张图片

一手数据和二手数据,说法错误的是

大数据技术刷题笔记1:_第41张图片
一手确实成本高

RFM模型的R代表最近一次消费

大数据技术刷题笔记1:_第42张图片
一个客户的近期购买行为、
购买的总体频率
以及花了多少钱
RFM
recent
frequency
money
大数据技术刷题笔记1:_第43张图片

大数据技术刷题笔记1:_第44张图片

数据预处理特征选择的目标有很多

大数据技术刷题笔记1:_第45张图片

数据归一化,不是数据转换

大数据技术刷题笔记1:_第46张图片

数据规范化的方法有

大数据技术刷题笔记1:_第47张图片

商业报告自然也是要建立在数据模型上

大数据技术刷题笔记1:_第48张图片

并行度方面,transformer模型效率是最高

大数据技术刷题笔记1:_第49张图片
从复杂度上来说,单个Transformer Block计算量大于单层RNN和CNN。
**但是结合可并行,实际运行效率:Transformer Base最快,**CNN次之,再次Transformer Big,最慢的是RNN。RNN比前两者慢了3倍到几十倍之间。

LSTM单元有几个输入?

大数据技术刷题笔记1:_第50张图片

attention,计算权重,当前词越近,权重越大

大数据技术刷题笔记1:_第51张图片

单个感知机相当于线性回归

大数据技术刷题笔记1:_第52张图片

NLP应用实践不包含句法分析?

大数据技术刷题笔记1:_第53张图片

词法分析不是NLP的核心技术吗????

大数据技术刷题笔记1:_第54张图片

ANN通过组合多个非线性模型实现非线性划分

大数据技术刷题笔记1:_第55张图片
大数据技术刷题笔记1:_第56张图片

大数据技术刷题笔记1:_第57张图片
2017 年,谷歌在《Attention is All You Need》一文中提出了 Transformer。自

BERT的fine-ting不解决下列哪个任务

大数据技术刷题笔记1:_第58张图片
大数据技术刷题笔记1:_第59张图片
大数据技术刷题笔记1:_第60张图片
大数据技术刷题笔记1:_第61张图片
大数据技术刷题笔记1:_第62张图片
大数据技术刷题笔记1:_第63张图片


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

你可能感兴趣的:(数据挖掘,大数据,hadoop,分布式)