E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试题
经典
大数据面试题
什么是大数据?大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Va
snow_5288
·
2020-06-26 13:48
数据结构
数据结构
大数据面试题
及答案
Hadoop相关试题Hive相关试题1、hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按keyHash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,
_Jack_LI
·
2020-06-25 23:35
大数据
大数据题
大数据面试题
知识点分析(十)
友情提示:本专栏涉及
大数据面试题
及相关知识点不同于大多数的网络复制文,是博主精心准备和总结的最新的面试及知识点,喜欢
且听_风吟
·
2020-06-25 02:56
大数据面试
大数据面试题知识点分析
大数据面试题
知识点分析(五)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续Hbase的尾巴,并开始HIVE:1)怎样将mysql的数据导入到hbase中?A、一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入hbase时,会按照region分区情况,在集群内做数据的负载均衡。B、hbase里面有这样一个hfileoutputformat类,他的实现可以将数据转换成hfile格
且听_风吟
·
2020-06-25 02:55
大数据面试
大数据面试题知识点分析
大数据面试题
知识点分析(二)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HDFS:1)hdfs原理,以及各个模块的职责Client:切分文件;访问或通过命令行管理HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。NameNode:Master节点,只有一个,管理HDFS的名称空间和数据块映射信息;配置副本策略;处理客户端请求。DataNode:Slave节点,存储
且听_风吟
·
2020-06-25 02:55
大数据面试
大数据面试题知识点分析
大数据面试
HDFS
大数据面试题
知识点分析(七)
本篇博客继续HIVE,将所有HIVE优化相关的内容深入清楚:hive优化:1)Map的优化•增加map的个数:setmapred.map.tasks=10;•减少map的个数(合并小文件):setmapred.max.split.size=100000000;setmapred.min.split.size.per.node=100000000;setmapred.min.split.size.p
且听_风吟
·
2020-06-25 02:55
大数据面试
大数据面试题知识点分析
大数据面试题
知识点分析(十二)之Kafka面试真题及答案
已经2020年了,kafka可以说是必知必会的了,首先面试大数据岗位的时候必问kafka,甚至现在java开发岗位也会问到kafka一些消息队列相关的知识点。下面就根据最新的Kafka相关面试点总结最准确的答案如下:本文目录一、基础摸底1.1、你们Kafka集群的硬盘一共多大?有多少台机器?日志保存多久?用什么监控的?1.2、Kafka分区数、副本数和topic数量多少比较合适?1.3、Kafka
且听_风吟
·
2020-06-25 02:54
大数据面试题知识点分析
kafka
大数据面试题
知识点分析(十一)之Flume面试真题及答案
一般情况下面试大数据岗位的时候都会问到flume,我们之前也对flume进行过总结,不过时间太快了,转眼到了2020年。下面根据本人最新的flume相关面试并总结最准确的答案如下:本文目录一、Flume的Source,Sink,Channel的作用?你们Source是什么类型?1.1、首先各组件的作用1.2、实际生产常用的Source类型为:二、你对Flume的ChannelSelectors了解
且听_风吟
·
2020-06-25 02:54
大数据面试题知识点分析
Flume
大数据
面试
flume面试题
大牛耗时三天整理的阿里必问207道java架构和
大数据面试题
及答案
前言相信大家在面试中都会遇到很多很难回答的问题,以至于面试不是很成功,进入公司后薪资会偏少一些!有的人会说,这面试官是不是故意刁难我呢?怎么这些问题我都不会啊!小编觉得呢,说到底还是大家的知识储备或者面试经验太少了,知识储备和面试经验都是是可以靠自己来学习积累的,下面小编就分享下总结的面试四点经验:1.不会就不会。我比较爽快,如果遇到的不会的甚至是不确定的,都直接说:“对不起,我答不上来”之类的。
互联网全栈工程师
·
2020-06-25 00:53
java
大数据常见面试题
大数据面试题
1、scala隐函数关键字implicit2、valx=y=1结果1)x、y都是var,x变为Unit2)都是val,报错3、java内存模型堆内存、栈内存、方法区栈内存:保存局部变量堆内存
美食江湖
·
2020-06-24 16:05
大数据
30个常见的
大数据面试题
让你的薪资提升一个等级
但这个收获不仅仅需要你学到娴熟的大数据技术,还需要在面试之前精心准备,了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等,除此之外,多看一些
大数据面试题
也是很有必要的,给自
mkkm1314
·
2020-06-24 15:52
程序员
人工智能
hadoop
大数据
计算机
大数据面试题
分享:大数据职位面试需要知道的知识
在面试大数据职位的时候,你会遇到多种问题(hdfs、mapreduce、zookeeper、hadoop、hbase等等),当时你的内心是崩溃的。写下这篇文章的意义是提高你的面试成功率,让你用出洪荒之力,职业生涯进一步发展。1.hdfs原理,以及各个模块的职责Namenode的目录结构:很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发
小迪和夫人
·
2020-06-23 22:21
大数据
大数据面试题
,唬住50k
选择题下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker答案CdatanodeHDfS中的block默认保存几份?a)3份b)2份c)1份d)不确定答案A默认3份下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodec)TaskTra
小晨说数据
·
2020-06-23 16:03
flink专栏
2020年最新
大数据面试题
,你都会吗?
关注公众号“小晨说数据”,一起学习,一起进步!1.阐述Flink如何处理反压,相比Storm,SparkStreaming提供的反压机制,描述其实现有什么不同?2.阐述流处理引擎提供的三种数据处理语义,解释FlinkCheckpoint机制如何保证Flink程序结果的Exactly-Once语义,描述如何通过两阶段提交协议提供端到端的Exactly-Once保证?结合Kafka如何构建端到端的Ex
小晨说数据
·
2020-06-23 16:01
flink专栏
大数据面试题
(海量数据)
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:将大文件分成能够被内存加载的小文件。可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个
大数据开发
·
2020-06-23 16:46
大数据面试
提前突击了这近200道
大数据面试题
,果然头条、京东都给了Offer
面试题包括Java、大数据开发、大数据运维、大数据分析、大数据架构等等Q1:老师线上6000+规模集群,抛开一些其它组件集群,仅讨论HDFS数据存储集群,保守理应也在有3000节点左右,想知道这些存储节点只是单集群NameNode集群来维护吗?还是多集群独立维护的,如果是多集群存储数据,它们之间数据是如何打通进行关联的?如果仅是一个集群的话,我想知道这个集群的NameNode上的配置,是如何Hol
大数据研习社
·
2020-06-23 02:00
大数据运维
Java
Hadoop
面试题
java
大数据开发
大数据运维
大数据分析
大数据面试题
记录
1海量日志数据,提取出某日访问百度次数最多的那个IP解法1:(1)海量日志,文件太大,IP地址最多有2^32=4G,无法装入内存,,将这个大文件(hash映射:可以取模%1000)分成多个小文件(如1000)。(2)对每个小文件进行hash统计,hash_map(ip,value),得到每个文件出现频率最多的ip(3)将这些频率最高的ip进行统计,然后排序得出最大值,这里可以采用堆/快速/归并,但
xlf13872135090
·
2020-06-21 14:32
C++
算法
今年做开发面试太难了!面试面到我心态爆炸!
“我一看简历,深度不够,没有实战经验,更重要的是缺乏行业认知“我们做大数据的,虽说是薪资高,但门槛也是高,这几年我陆陆续续面过不少人,对面人选人都算是有自己的心得,今天就挑一个年薪30w的
大数据面试题
,
程序员小乐
·
2020-06-21 14:59
大数据面试题
必读
kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果magic的
牛逸凡
·
2020-06-21 12:46
面试题
30个常见的
大数据面试题
让你的薪资提升一个等级
但这个收获不仅仅需要你学到娴熟的大数据技术,还需要在面试之前精心准备,了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等,除此之外,多看一些
大数据面试题
也是很有必要的,给自
weixin_34284188
·
2020-06-21 11:21
《
大数据面试题
》面试大数据这一篇就够了
文章目录Hadoop常见面试题1.mr工作原理☆☆☆☆2.split机制☆☆☆☆☆3.namenode,datanode,secondaryNameNode分别是干什么的?☆☆☆☆☆4.mronyarn工作原理☆☆☆☆☆5.fsimage和edits是干什么的?为什么要使用?☆☆☆☆6.hdfs工作原理☆☆☆☆7.block副本放置策略☆☆☆Hive常见面试题1.简述Hive工作原理☆☆☆☆☆2.
abluer~
·
2020-06-21 06:55
大数据
大数据面试题
知识点分析(六)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE:1)hive支持notin吗?不支持,可以用leftjoin实现此功能。2)Hive有哪些方式保存元数据,各有哪些优缺点?1.存储于内存数据库derby,此方法只能开启一个hive客户端,不推荐使用。2.存储于mysql数据库,可以多客户端连接,推荐使用。分为本地mysql数据库,远程mysql数据库,但是本地的mysql数
且听_风吟
·
2020-06-21 04:22
大数据面试
大数据面试题知识点分析
史上最全141道
大数据面试题
:Redis+Linux+kafka+Hadoop,附答案
Redis面试专题及答案什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?使用过Redis做异步队列么,你是怎么用的?有什么缺点?使用过Redis分布式锁么,它是怎么实现的?上述Redis分布式锁的缺点Redis回收进程如何工作的?Redis如何做内存优化?Rediskey的过期时间和永久有效分别怎么设置?Redis事务相关的命令有哪几个?怎么理解Redis事务?Redis中的管道有什么用?Re
程序员高级码农1
·
2020-06-20 20:08
大数据
【面试题】最新
大数据面试题
总结之Kafka(持续更新)
文章目录--关于kafka架构--Kafka的分区分配策略--怎么保证数据kafka里的数据安全?–关于kafka架构主要由生产者、Broker、消费者、ZK组成注意:Zookeeper中保存Brokerid和消费者offsets等信息,但是没有生产者信息。–Kafka的分区分配策略在Kafka内部存在两种默认的分区分配策略:Range和RoundRobin。当组里消费者数量发生变化的时候都会触发
Nien_Ling
·
2020-06-20 16:05
大数据面试题
#
Kafka
kafka
【面试题】最新
大数据面试题
总结之Java(持续更新)
文章目录--Java中不可变字符串和常量的区别--Thread线程中wait方法和sleep方法的区别--HashMap底层源码,数据结构--Java自带哪几种线程池?--HashMap和HashTable区别–Java中不可变字符串和常量的区别不可变字符串只是说内存的地址不可变而已,所在地址的内容其实是可以通过反射进行改变的,不能直接叫常量,常量内容是没法改的。–Thread线程中wait方法和
Nien_Ling
·
2020-06-20 16:10
大数据面试题
#
Java
java
面试
【面试题】最新
大数据面试题
总结之Hive(持续更新)
文章目录--Hive优化--Hive的内部(管理)表和外部表的区别--4个By区别--Hive的架构--Hive和数据库比较--系统函数–Hive优化1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成CommonJoin,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行joi
Nien_Ling
·
2020-06-20 15:14
大数据面试题
#
Hive
【面试题】最新
大数据面试题
总结之Flume(持续更新)
文章目录--HDFSSink如何避免生成大量小文件--filechannel/memorychannel/kafkachannel的区别及如何选择--Flume组成、每个组件的常用类型及其特点--关于Taildirsource--关于Flume流式处理事务流程--FlumeAgent内部原理–HDFSSink如何避免生成大量小文件官方默认的这三个参数配置写入HDFS后是会产生小文件的,需要修改配置
Nien_Ling
·
2020-06-20 15:10
大数据面试题
#
Flume
大数据
flume
【面试题】最新
大数据面试题
总结之Zookeeper(持续更新)
文章目录--选举机制--常用命令--ZooKeeper的部署方式有哪几种?集群中的角色有哪些?集群最少需要几台机器?--监听器原理--Paxos算法(扩展)--什么是CAP法则?Zookeeper符合了这个法则的哪两个特性?(扩展)–选举机制半数机制:2n+1,安装奇数台10台服务器:3台20台服务器:5台100台服务器:11台台数多,好处:提高可靠性;坏处:影响通信延时选举具体细节如下: 1、
Nien_Ling
·
2020-06-20 15:42
大数据面试题
总结
1.大数据技术1.1描述一下checkpoint的流程?Checkpoint其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照),这个时间点应该是所有任务都恰好处理完一个相同的输入数据的时候。1.2描述一下两阶段提交?对于每个checkpoint,sink任务会启动一个事务,并将接下来所有接收的数据添加到事务里,然后将这些数据(流式的)写入外部sink系统,但不提交他们--这时只是预提交(一
ch123
·
2020-05-29 07:34
大数据
flink
spark
java
scala
大数据面试题
搜集_hive相关
1.去重问题groupby/distinct/row_number/自定义函数2.row_numberrankdense_rank3.hive的UDF函数如何自定义和使用4.hive优化(1)从表设计考虑优化1、合理利用中间结果集,降低Hadoop的IO负载;2、合理设计表分区,包括静态分区和动态分区;3、尽量不使用复杂或低效函数,比如count(distinct),可以使用其他方式实现;4、选择
dullwoodknife
·
2020-05-27 23:18
大数据
hive
面试
大数据面试题
、经验分享及新手问答整理
原文地址:http://www.aboutyun.com/thread-9581-1-1.html**笔试类型:**1、java基础类:2、linux基础:**面试问答:**1、讲项目经验:问的很细,给纸,笔,让画公司hadoop的项目架构,说几条业务数据,然后经过平台后,出来成什么样子;2、java方面:io输入输出流里有哪些常用的类,还有webService,线程相关的知识;3、linux:问
Albert陈凯
·
2020-03-02 03:46
大数据面试题
一.简述如何安装配置apache的一个开源的hadoop1.使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装JDK7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.shcore-site.xmlmapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格式化
祎休
·
2020-02-23 14:46
大数据面试题
(一)----HADOOP 面试题
1.下列哪项通常是集群的最主要瓶颈(C)A.CPUB.网络C.磁盘IOD.内存2.下列哪项可以作为集群的管理工具?(C)A.PuppetB.PdshC.ClouderaManagerD.Zookeeper3.下列哪个是Hadoop运行的模式?(ABC)A.单机版B.伪分布式C.完全分布式4.列举几个hadoop生态圈的组件并做简要描述Zookeeper:是一个开源的分布式应用程序协调服务,基于zo
暮光倾城
·
2020-02-05 16:00
117道有关
大数据面试题
解析,希望对你有所帮助
一.简述如何安装配置apache的一个开源的hadoop1.使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装JDK7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.sh?core-site.xml?mapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格
栀子花_ef39
·
2020-01-07 21:40
大数据面试题
(七)----Flume面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。大数据面试宝典目录,请点击目录1.Flume使用场景(☆☆☆☆☆)2.Flume丢包问题(☆☆☆☆☆)3.Flume与Kafka的选取1.Flume使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket
北京小辉
·
2020-01-06 21:03
【大数据面试宝典】
大数据面试题
(六)----HBASE 面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。大数据面试宝典目录,请点击目录1.HBase的特点是什么?2.HBase和Hive的区别?3.描述HBase的rowKey的设计原则?4.描述HBase中scan和get的功能以及实现的异同?5.ApacheHBaseregi
北京小辉
·
2020-01-06 21:54
【大数据面试宝典】
大数据面试题
(二)----HDFS面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。大数据面试宝典目录,请点击HDFS面试题目录1.HDFS中的block默认保存几份?2.HDFS默认BlockSize3.Client端上传文件的时候下列哪项正确4.下面哪个程序负责HDFS数据存储?5.关于Secondary
北京小辉
·
2020-01-06 19:42
【大数据面试宝典】
大数据面试题
(三)----MapReduce面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。大数据面试宝典目录,请点击MapReduce面试题谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输
北京小辉
·
2020-01-06 19:43
【大数据面试宝典】
大数据面试题
(一)----HADOOP 面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。大数据面试宝典目录,请点击HADOOP面试题目录1.下列哪项通常是集群的最主要瓶颈2.下列哪项可以作为集群的管理工具?3.下列哪个是Hadoop运行的模式?4.列举几个hadoop生态圈的组件并做简要描述4.列举几个hadoo
北京小辉
·
2020-01-06 15:47
【大数据面试宝典】
出一套高端大数据开发面试题
一千个读者眼中有一千个哈姆雷特,一千名大数据程序员心目中就有一千套
大数据面试题
。本文就是笔者认为可以用来面试大数据程序员的面试题。
风火数据
·
2020-01-05 09:47
大数据面试题
整理 -- 实时计算部分
1.zookeeper在kafka中起到什么作用Controller选举Controller是一个特殊的Broker,其负责维护所有Partition的leader/follower关系。当有partition的leader挂掉之后,controller会重新从同步队列中选出一个leader。==Zookeeper负责从Broker中选举出一个作为Controller,并确保其唯一性。同时,当Co
Java旅行者
·
2020-01-01 11:51
大数据面试题
整理 -- hadoop 部分(1)
一、hadoop离线部分1.hadoopHA集群都要启动哪些进程,他们的作用是什么Namenode:(1)维护文件系统的目录树,管理文件系统的namespace、(2)管理元数据信息、(3)接收用户的请求DFSZKFailoverController(ZKFC):负责namenode的故障切换QuorumPeerMain:zookeeper进程DataNode:HDFS的工作节点,负责实际的数据存
Java旅行者
·
2019-12-26 03:03
大数据面试题
目汇集
1.Hbase表设计原则http://gao-xianglong.iteye.com/blog/20315431)宽表指的是行少列多,如果一行数据量过大,可能造成一个HFile放不下。但宽表有行级原子性的优势。高表指的是行多列少,Hbase只能按行分片,因此高表更有优势。具体还是要根据业务场景综合考虑。2)最好不要定义过多的ColumnFamily,一般来说,一张表一个ColumnFamily就好
陈耿坤
·
2019-12-25 00:04
大数据面试题
整理 -- hadoop 部分(2)
11.mapreduce的shuffle调优参数具体参考:MapReduceShuffle性能调优Map端优化参数选项类型默认值描述io.sort.mbint100缓存map中间结果的buffer大小(MB)io.sort.record.percentfloat0.05io.sort.mb中用来保存mapoutput记录边界的百分比,其他缓存用来保存数据io.sort.spill.percentf
Java旅行者
·
2019-12-17 12:06
大数据面试题
一、.hdfs写文件的步骤答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向DN1上传一个block,DN1向
随性i
·
2019-12-14 18:00
2019
大数据面试题
【原文需购,分享给各位白嫖党,请自行保存】1.ConcurrentHashMap是怎么实现的?答:concurrent包中线程安全的哈希表,采用分段锁,可以理解为把一个大的Map拆分成N个小的HashTable,根据key.hashCode()来决定把key放到哪个HashTabl中。在ConcurrentHashMap中,就是把Map分成了N个Segment,put和get的时候,都是现根据ke
一个谦虚的青年
·
2019-11-22 16:17
所见
2019最新,
大数据面试题
Java面试必问
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、在处理大数据过程中,如何保证得到期望值?3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?5、你最喜欢的编程语言是什么?为什么?6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据
攀子zzu
·
2019-09-17 09:02
大数据面试题
_Spark
文章目录hadoop和spark都是并行计算,那么他们有什么相同和区别简单说一下hadoop和spark的shuffle过程spark集群运算的模式RDD中reduceBykey与groupByKey哪个性能好,为什么cache后面能不能接其他算子,它是不是action操作ReduceByKey是action算子嘛数据本地性是在哪个阶段确定的RDD的弹性体现在什么方面常规的容错方式有哪几种RDD通
Levy_Y
·
2019-09-03 21:30
大数据
大数据面试题
_Spark
文章目录hadoop和spark都是并行计算,那么他们有什么相同和区别简单说一下hadoop和spark的shuffle过程spark集群运算的模式RDD中reduceBykey与groupByKey哪个性能好,为什么cache后面能不能接其他算子,它是不是action操作ReduceByKey是action算子嘛数据本地性是在哪个阶段确定的RDD的弹性体现在什么方面常规的容错方式有哪几种RDD通
Levy_Y
·
2019-09-03 21:30
大数据
BAT
大数据面试题
与参考答案小结
1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果magi
sandywei
·
2019-08-16 14:55
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他