E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试题
Flink实战(108):connector(十七)hdfs 读写(二)写
《2021年最新版
大数据面试题
全面开启更新》1.依赖HDFSpom.xml添加依赖4.0.0org.exampleFlinkHdfs1.0-SNAPSHOTUTF-81.11.02.112.12.13.1.23.1.3com.alibabafastjson1.2.56org.apache.flinkflink-scala
王知无-大数据技术与架构
·
2021-01-23 15:20
Flink
Flink实战(八十三):flink-sql使用(十)维表join(五)Flink SQL之维表join之Temporal Table Join
《2021年最新版
大数据面试题
全面开启更新》维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。
王知无-大数据技术与架构
·
2021-01-23 15:25
Flink
Flink实战(七十五):flink-sql使用(三)简介(三)配置
《2021年最新版
大数据面试题
全面开启更新》1配置SQL客户端启动时可以添加CLI选项,具体如下。.
王知无-大数据技术与架构
·
2021-01-23 14:52
Flink
Flink实战(七十三):flink-sql使用(一)简介(一)入门
《2021年最新版
大数据面试题
全面开启更新》1.启动flink-sql-client1)启动flink(1.10版本)sudo.
王知无-大数据技术与架构
·
2021-01-23 14:22
Flink
Flink实例(六十二): connectors(十三)clickhouse 写 入 (二)使用JDBC connector写入ClickHouse
《2021年最新版
大数据面试题
全面开启更新》本节主要介绍如何利用ClickHouseJDBCconnector,使用不同版本的Flink写入数据到ClickHouse中。
王知无-大数据技术与架构
·
2021-01-23 14:40
Flink
Flink实例(五十九):维表join(三)Flink 使用 broadcast 实现维表或配置的实时更新
《2021年最新版
大数据面试题
全面开启更新》问题导读1.本文介绍了几种维表方案?2.各个方案有什么优缺点?3.broadcast如何实现实时更新维表案例?
王知无-大数据技术与架构
·
2021-01-23 14:27
Flink
Flink实例(五十八):维表join(二)Flink维表Join实践
《2021年最新版
大数据面试题
全面开启更新》常见的维表Join方式有四种:预加载维表热存储维表广播维表Temporaltablefunctionjoin下面分别使用这四种方式来实现一个join的需求,这个需求是
王知无-大数据技术与架构
·
2021-01-23 14:10
Flink
Flink实例(五十四):状态管理(十二)自定义操作符状态(六)广播状态(Broadcast state)(四)广播状态实用指南
《2021年最新版
大数据面试题
全面开启更新》从版本1.5.0开始,ApacheFlinkⓇ具有一种新的状态,称为广播状态。
王知无-大数据技术与架构
·
2021-01-23 14:27
Flink
Flink实战案例:状态管理(十一)自定义操作符状态(五)广播状态(Broadcast state)(三)
《2021年最新版
大数据面试题
全面开启更新》BroadcastState使用场景无论是分布式批处理还是流处理,将部分数据同步到所有实例上是一个十分常见的需求。
王知无-大数据技术与架构
·
2021-01-23 14:11
Flink
Flink实战案例(四十三): Operators(四)FLATMAP
《2021年最新版
大数据面试题
全面开启更新》FLATMAPflatMap算子和map算子很类似,不同之处在于针对每一个输入事件flatMap可以生成0个、1个或者多个输出元素。
王知无-大数据技术与架构
·
2021-01-23 13:57
Flink
Flink实战案例(三十七):状态管理(八)自定义操作符状态(三)广播状态(Broadcast state)(一) KeyedBroadcastProcessFunction
《2021年最新版
大数据面试题
全面开启更新》什么是BroadcastStateBroadcastState是Flink1.5引入的新特性。
王知无-大数据技术与架构
·
2021-01-21 13:49
Flink
大数据成神之路
Flink实战案例实例(二): 如何正确使用 Flink Connector?
《2021年最新版
大数据面试题
全面开启更新》本文主要分享Flinkconnector相关内容,分为以下三个部分的内容:第一部分会首先介绍一下FlinkConnector有哪些。
王知无-大数据技术与架构
·
2021-01-19 18:50
Flink
大数据面试题
(相关知识点罗列)
自述:这篇可能也不完全是面试题,就是一些知识点的整理。【持续更新中…】【愿君一路披荆斩棘,觅得心仪大offer】1、linux的常用的命令:(1)磁盘管理:pwd:显示工作目录的绝对路径名称ls:显示指定工作目录下的内容(列出目前工作目录所含之文件及子目录)mkdir:用于创建目录rmdir:删除空的目录cd:用于切换当前工作目录(2)文件管理:touch:用于修改文件或者目录的时间属性,包括存取
Nahshon
·
2021-01-18 15:28
大数据
面试
大数据
Flink在实时计算平台和实时数据仓库中的作用
《2021年最新版
大数据面试题
全面开启更新》当前基于Hadoop的离线存储体系已经足够成熟,但是离线计算天然时效性不强,一般都是隔天级别的滞后,业务数据随着实践的推移,本身的价值会逐渐减少。
王知无-大数据技术与架构
·
2021-01-17 20:51
大数据成神之路
Flink
Flink SQL和Table编程和案例
《2021年最新版
大数据面试题
全面开启更新》一、概述1、背景Flink自身提供了不同级别的抽象来支持开发者进行流式或者批量处理程序,Flink支持4种不同级别的抽象。
王知无-大数据技术与架构
·
2021-01-17 19:21
大数据成神之路
Flink
Flink常用的DataSet 和 DataStream API
《2021年最新版
大数据面试题
全面开启更新》一、说好的流批一体呢?1、现状Flink并没有安全支持所谓的“流批一体”,即编写一套代码,可以同时支持流式计算和批量计算的场景。
王知无-大数据技术与架构
·
2021-01-17 19:43
Flink
大数据成神之路
Flink入门程序WordCount 和 SQL实现
《2021年最新版
大数据面试题
全面开启更新》Flink入门程序WordCount和SQL实现一、WordCount1、首先创建好项目,然后添加相关依赖 org.apache.flink flink-java
王知无-大数据技术与架构
·
2021-01-17 19:48
Flink
大数据成神之路
2021年最新版
大数据面试题
全面总结-持续更新
更新内容和时间表2021.04.27更新【大数据技术与架构】2021年大数据面试进阶系列系统总结大数据基础篇Part0:Java基础篇Part1:Java高级篇Part2:Java之JVM篇Part3:NIO和Netty篇Part4:分布式理论篇框架篇Part5:Hadoop之MapReducePart6:Hadoop之HDFSPart7:Hadoop之YarnPart8:Hadoop之Zooke
王知无-大数据技术与架构
·
2021-01-10 12:40
java 手写阻塞队列_百度,阿里,头条,美团,滴滴详细面经+Java
大数据面试题
秋招结束,拿到了几个意向offer,除阿里五面跪,其他比较顺利。面经中有自己补充的内容,也有春招实习生的,这是我准备秋招的所有面经,希望有用。百度运维部,基础平台研发工程师(一面)1.手写快排2.如何利用zookeeper进行选举,画图说明3.用zookeeper做任务分配如何实现4.什么是脑裂5.如何解决脑裂?并分别说明namenode和resourcemanager如何避免的脑裂?6.如何实现
華先生
·
2021-01-02 03:37
java
手写阻塞队列
大数据面试题
带答案
版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题(华为,阿里,小影,拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试
小蜗牛666
·
2020-12-23 17:58
大数据
面试
全面认识当前市面99%的大数据技术框架(附:各大厂大数据技术应用文章)
目录全面
大数据面试题
大数据领域分析系统平台集群管理与监控文件系统资源调度协调框架数据存储数据处理数据查询和分析数据收集消息系统任务调度数据治理数据可视化云平台大数据必知点大厂应用实践全面
大数据面试题
2020
菜鸟也学大数据
·
2020-12-20 18:58
菜鸟也学大数据
大数据
hadoop
spark
hive
hbase
【6w字干货】2020
大数据面试题
真题总结(附答案)
版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题(华为,阿里,小影,拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试
简说Python
·
2020-11-21 19:35
sqlite
lamp
scipy
zk
makefile
2020
大数据面试题
真题总结(附答案)
版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题(华为,阿里,小影,拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试
无精疯
·
2020-11-18 11:00
sqlite
lamp
scipy
zk
makefile
大数据面试题
题目2020年底总结(一)
大数据面试题
集锦(一)1.javaJVM内存结构栈堆方法区程序计数器JVM内存回收机制哪些需要回收判断算法引用计数法每个对象创建的时候,会分配一个引用计数器,当这个对象被引用的时候计数器就加1,当不被引用或者引用失效的时候计数器就会减
闻香识代码
·
2020-11-05 21:03
大数据
面试
大数据
面试
宝兰德
大数据面试题
宝兰德答题须知:1、笔试时间为30分钟;2、请保持试题整洁,将答案写到答题纸上;3、笔试题目请独立完成,不要使用任何参考书,不要请其他人协助完成;4、答题完成后,请将答题纸和试卷本身均交给工作人员。一单选题(每题3分)1、下面代码的运行结果是()publicclassTest{ Lista=null;test(a);System.out.println(a.size());} publicstat
美食江湖
·
2020-10-10 09:27
大数据
面试
大数据面试题
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams,mapreduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何
anningzhu
·
2020-09-17 11:45
大数据
大数据面试题
卡夫卡的消息包括哪些信息一个卡夫卡的消息由一个固定长度的报头和一个变长的消息体体组成标题部分由一个字节的魔法(文件格式)和四个字节的CRC32(用于判断身体消息体是否正常)构成。当魔术的值为1的时候,会在魔术和CRC32之间多一个字节的数据:属性(保存一些相关属性,比如是否压缩,压缩格式等等);如果魔术的值为0时,那么不存在属性属性文教释义体育的英文由ñ个字节构成的一个消息体,包含了具体的键/值消
TGHLB
·
2020-09-16 13:17
大数据面试题
及答案
Hadoop相关试题Hive相关试题1、hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按keyHash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,
欧阳子卿
·
2020-09-16 07:35
子卿学堂
Spark
117道有关
大数据面试题
解析 希望对你有所帮助
一.简述如何安装配置apache的一个开源的hadoop1.使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装JDK7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.sh?core-site.xml?mapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格
Java架构没有996
·
2020-09-15 12:27
分享心得
Hadoop之HDFS常见面试题
大数据面试题
+一:HDFS面试题1.HDFS的写流程1)客户端通过DistributedFileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
不言尘世
·
2020-09-14 12:19
大数据
大数据面试题
一、hadoop(1)、概念题1、简述hadoop生态组件2、mapreduce原理3、对mapreduce的了解4、hadoop任务调度,进程调度5、mapReduce的过程6、hadoop的事务怎么操作7、请描述HDFS存储的机制8、请详细比较Hadoop和传统SQL数据库9、请用MapReduce如何实现两张表连接,有哪些方法10、请描述MapReduce架构中combiner,partit
流云先生
·
2020-09-13 00:22
hadoop
大数据经典面试问题总结
大数据面试题
关键点1.Hash函数2.Map_reduce3.bit_Map4.桶排序5.一致性哈希算法理解上述几点就可以掌握大数据算法第一步,先对文本做预处理map阶段reduce阶段思路类似于桶排序桶排序
wwxy261
·
2020-09-11 18:56
算法
小麦公社
大数据面试题
小麦公社面试题(1)Scala中协变逆变的应用场景。(2)Spark中隐式转化的应用场景(3)Spark中基于standalone还是Yarn?计算引擎是什么?(4)Jdk1.7hashmap怎么设计的,为什么引入红黑树?链表的查找方式和红黑树的查找方式有什么不同?(5)Java并发安全是怎么理解的?(6)Map和FlatMap区别对结果集的影响有什么不同(7)对RDD的理解(8)Transfor
美食江湖
·
2020-09-11 12:16
大数据
大数据
面试
2019
大数据面试题
(BAT)
1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果magi
weixin_38747592
·
2020-09-10 20:23
大数据
大数据面试
大数据面试题
面试题
面试
大数据面试题
之葵花宝典------Flink初级
葵花宝典------Flink初级1、简单介绍一下Flink2、Flink相比传统的SparkStreaming区别?3、Flink的组件栈有哪些?4、Flink的运行必须依赖Hadoop组件吗?5、你们的Flink集群规模多大?6、Flink的基础编程模型了解吗?7、Flink集群有哪些角色?各自有什么作用?8、说说Flink资源管理中TaskSlot的概念9、说说Flink的常用算子?10、说
海鸥~
·
2020-09-07 21:32
Big
Data
------
面试题
面试
超全面的
大数据面试题
,一道比一道难,快来挑战一下吧
【过往记忆大数据】已开通技术交流及招聘求职内推群,加微信号fangzhen0219为好友后入群。本文全文篇幅1万字左右,从数据结构到Java再到大数据都有整理,可以先收藏起来,查漏补缺。Java基础1、Queue和Stack你平时有用过么,说说你常用的方法,他们的区别在哪呢?2、了解java的异常吗,有什么区别,常见的异常有哪些呢?3、两个字面值相同的Integer,它们两个用等于号去比较,结果是
过往记忆
·
2020-08-23 07:26
数据仓库
分布式
java
redis
面试
大数据面试题
——如何从大量数据中找出高频词
问题描述:有一个1GB大小的文件,文件里面每一行是一个词,每个词的大小不超过16B,内存大小限制为1MB,要求返回频数最高的100个词。分析:由于文件大小为1GB,而内存的大小只有1MB,因此不能一次把所有的词读入到内存中去处理,可以采用分治的方法进行处理:把一个文件分解为多个小的子文件,从而保证每个文件的大小都小于1MB,进而可以直接被读取到内存中处理。解题思路:1、遍历文件,对遍历到的每一个词
weixin_30736301
·
2020-08-22 03:49
算法系列-
大数据面试题
-大文件中返回频数最高的100个词
1.题目描述有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词2.思考过程(1)参见我的其他
大数据面试题
博文。
五癫
·
2020-08-22 00:08
经典算法系列
面试常见问题
大数据面试
适合应届生的
大数据面试题
一、java基础1、Queue(队列)和Stack(栈)你平时有用过么,说说你常用的方法,他们的区别在哪呢?2、了解java的异常吗,有什么区别,常见的异常有哪些呢?
走不到尽头的程序员
·
2020-08-21 14:37
大数据
互联网公司
大数据面试题
互联网公司
大数据面试题
参考指南以下面试题都是群里小伙伴提供的,现场真题(包含校招题)1.网易
大数据面试题
说说项目Spark哪部分用得好,如何调优Java哪部分了解比较好聊聊并发,并发实现方法,volatile
章然同学
·
2020-08-21 06:19
面试
大数据
大数据面试题
1.hbase数据的读取流程Rowkey读取为例,跟写流程一样,先跟Zookeeper进行连接,通过访问MetaRegionserver节点信息,HBase的meta表缓存到本地,获取要访问的表的Region的信息。当Client知道要访问的表在哪个Regionserver之后,Client就对那个Regionserver发起读请求。Regionserver接收该读请求之后,经过复杂的处理之后,就
婲落ヽ紅顏誶
·
2020-08-21 05:31
面试
hbase
大数据面试题
总结
1.大数据技术1.1描述一下checkpoint的流程?Checkpoint其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照),这个时间点应该是所有任务都恰好处理完一个相同的输入数据的时候。1.2描述一下两阶段提交?对于每个checkpoint,sink任务会启动一个事务,并将接下来所有接收的数据添加到事务里,然后将这些数据(流式的)写入外部sink系统,但不提交他们--这时只是预提交(一
ch123
·
2020-08-20 17:41
大数据
flink
spark
java
scala
大数据面试题
总结
1.大数据技术1.1描述一下checkpoint的流程?Checkpoint其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照),这个时间点应该是所有任务都恰好处理完一个相同的输入数据的时候。1.2描述一下两阶段提交?对于每个checkpoint,sink任务会启动一个事务,并将接下来所有接收的数据添加到事务里,然后将这些数据(流式的)写入外部sink系统,但不提交他们--这时只是预提交(一
ch123
·
2020-08-20 17:41
大数据
flink
spark
java
scala
精心整理的ebay
大数据面试题
(全)
前言学习群的几个小伙伴和我都有面试ebay大数据岗位的经历,而且也都拿了offer,我特意抽出了一些时间把问题和部分答案就行了汇总,希望对大家有帮助。全文篇幅1万字左右,从数据结构到Java再到大数据都有整理,可以先收藏起来,补缺补漏。ebay大数据组也持续招人,要投简历的可以把简历私发到我微信。小提示:绿色的题代表是简单的,黄色的题代表中等,红色代表有点难度;绿色题回答的很全面,很深入,则有可能
无精疯
·
2020-08-16 11:56
数据仓库
编程语言
面试
java
consul
大数据面试题
及答案下篇 03
–第二部分kafka,scala,sparkday01kafka1.和zk的关系元数据存放到zk(节点)中,应用了zk的统一命名的功能集群节点信息:brokerId每台机器的idtopic信息:在哪台机器上的哪个位置parititon主从信息:每个partition多个副本中,谁是老大partition_0有多个副本,需要选择出老大,应用了zk的分布式锁功能kafka没有单独的界面,zk,或者安装
啊策策
·
2020-08-15 16:31
大数据知识汇总
大数据面试题
演练
一面面试官人很nice,遇到不会的也会安慰我说没关系,上来先自我介绍,说下项目,说说对hadoop的理解,都有哪些组件,分别是干什么的还了解大数据其他组件嘛?这里我说了下kafka,然后巴拉巴拉,,,kafka在什么地方需要用到zookeeper了解HBase吗?说下spark中的transform和action为什么spark要把操作分为transform和actionspark中有了RDD,为
wwxy261
·
2020-08-15 04:24
算法
大数据面试题
之shell
shell面试题1、shell常用工具awk:文本处理工具sed:利用脚本来处理文本文件,是一款流编辑工具,用来对文本进行过滤和替换操作cut:选取工具,就是将一段数据经过分析,取出我们想要的数据sort:排序工具2、用shell写脚本1)集群启动脚本2)数仓与mysql的导入导出3)数仓层级内部的导入3、企业面试题(linux和shell)百度问题:Linux常用命令参考答案:find、df、t
2401号行者
·
2020-08-14 21:31
大数据笔试题
面试题
大数据
大数据面试题
(五)----HIVE的调优及数据倾斜
一、hive表的优化1)小表、大表Join将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。实际测试发现:新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操(0)需求:测试大表JOIN小表和
北京小辉
·
2020-08-14 19:55
【大数据面试宝典】
【面试】将 95% 求职者拒之门外的BAT
大数据面试题
-附解题方法(文末有福利)
写在前面最近不少读者找我要
大数据面试题
,我整理了很久,筛选出这10道容易出错的
大数据面试题
,希望对大家有所帮助。题目与解答整理自互联网,感谢分享这些面经的技术大牛们!
冰 河
·
2020-08-14 02:02
面经
面试
面经
百度
腾讯
阿里
大数据面试题
真题
目录一.Hadoop1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode宕机,怎么一个流程恢复5.hadoop的namenode宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用mapreduce怎么处理数据倾斜问题?11.shuffle阶段,你怎
复姓独孤
·
2020-08-12 13:29
面试
#
大数据真题汇总
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他