E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据面试题
大数据技术之_32_
大数据面试题
_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试
大数据技术之_32_
大数据面试题
_01一、Hive基本面试1、什么是metastore2、metastore安装方式有什么区别3、什么是ManagedTable跟ExternalTable?
黑泽君
·
2020-08-12 13:58
大数据面试题
上海小公司
大数据面试题
汇总(万字干货)(建议收藏)
1.东软集团架构师电话面试二十分钟:1.1.hbase有什么特点,他的优缺点:海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询,不支持SQL语句1.1.3hbase的过滤器说几个及其作用:比较运算符(less,greater_
大数据肌肉猿
·
2020-08-11 20:54
面试经验
【面试】将 95% 求职者拒之门外的BAT
大数据面试题
-附解题方法(文末有福利)
写在前面最近不少读者找我要
大数据面试题
,我整理了很久,筛选出这10道容易出错的
大数据面试题
,希望对大家有所帮助。题目与解答整理自互联网,感谢分享这些面经的技术大牛们!
冰河团队
·
2020-08-07 23:00
Ucloud
大数据面试题
(二面凉凉)
ucloud一面:0、问项目1、java如何查看内存溢出(jvm\jps\jconsole\jmap等工具),程序出现故障了怎么查看哪儿出现了错误2、linux下,调用shell脚本后,如何判断脚本是否正常启动。使用netstat查看3、线程和进程的区别4、说一下二叉排序树的定义5、说一三种及以上的排序。。。快速排序的时间复杂度是多少。。。emmm6、tcp三次握手连接7、docker使用过吗?8
柯南爱上指针
·
2020-08-07 09:21
面经
秋招
ucloud
大数据
大数据面试题
——场景题
有如下场景:某公司网站每日访问量达到10亿级别的访问量,每次访问记录一条数据,数据包含如下字段:用户ID,访问时间(毫秒级),访问页面。要求使用hive求出所有在5分钟内访问次数达到100次的用户(求出用户ID即可)思路:利用窗口函数Lag详细思路:1.选出当天访问次数达到100次的用户(即当天有100及以上条数据的用户):根据用户ID分组,count2.在每个用户ID小组内(步骤1已进行分组)按
大数据-刘耀文
·
2020-08-04 21:33
大数据面试题
大数据面试题
整理2
10.锁Java中的锁分类在读很多并发文章中,会提及各种各样锁如公平锁,乐观锁等等,这篇文章介绍各种锁的分类。介绍的内容如下:公平锁/非公平锁可重入锁独享锁/共享锁互斥锁/读写锁乐观锁/悲观锁分段锁偏向锁/轻量级锁/重量级锁自旋锁上面是很多锁的名词,这些分类并不是全是指锁的状态,有的指锁的特性,有的指锁的设计,下面总结的内容是对每个锁的名词进行一定的解释。公平锁/非公平锁公平锁是指多个线程按照申请
shuest
·
2020-08-03 09:28
大数据面试题
-JavaSE
1、String、StringBuffer、StringBuilder区别及底层实现1、String是字符串常量,StringBuffer、StringBuilder是字符串变量2、StringBuffer线程安全(方法用了synchronized修饰)、StringBuilder线程不安全3、底层都是char[],String用了final修饰,后二者初始容量是16+字符串的长度,追加前都会检查
jiangw-Tony
·
2020-07-31 21:31
大数据面试题
大数据面试题
-MapReduce&YARN
1、mapreduce流程?Map阶段:1:读取输入文件的内容,并解析成键值对()的形式,输入文件中的每一行被解析成一个对,每个对调用一次map()函数。2:用户写map()函数,对输入的对进行处理,并输出新的对。3:对Step2中得到的进行分区操作。4:不同分区的数据,按照key值进行排序和分组,具有相同key值的value则放到同一个集合中。5(可选):分组后的数据进行规约。Reduce阶段:
jiangw-Tony
·
2020-07-31 21:31
大数据面试题
大数据面试题
-HDFS
1、什么是大数据?可以从数据的“5V”特性来进行阐述:一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。三、Value:数据价值
jiangw-Tony
·
2020-07-31 21:31
大数据面试题
大数据面试题
-Linux
1、列举Linux中查看系统性能的工具(区分CPU、内存、磁盘、网络等)iostat监测IO状态top查看进程free查看内存vmstat可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况fping查看即时网络df查看硬盘2、Linux默认栈空间有多大?10M3、grep、sed、awk分别指什么?简述一下grep、sed、awk的区别grep
jiangw-Tony
·
2020-07-31 21:31
大数据面试题
2018年
大数据面试题
总结
目前面试了多家大数据开发工程师,成长了很多,也知道了很多知识,下面和大家分享一下我遇到的面试题和答案。1.kafka集群的规模,消费速度是多少。答:一般中小型公司是10个节点,每秒20M左右。2.hdfs上传文件的流程。答:这里描述的是一个256M的文件上传过程①由客户端向NameNode节点节点发出请求②NameNode向Client返回可以可以存数据的DataNode这里遵循机架感应原则③客户
~小辉辉
·
2020-07-30 18:10
java
海量数据处理:1G大小的一个文件中找出出现频率最高的100个数
1.题目描述有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词2.思考过程(1)参见我的其他
大数据面试题
博文。
五山口老法师
·
2020-07-29 15:03
海量数量处理
大数据面试题
--Flink基础篇
谈一谈对Flink的理解和认识?Flink是一个纯粹的流处理框架,所有的算子操作都是有状态的。Flink提供强大的状态管理、完备的窗口计算等策略。相比较于其他流处理框架而言,Flink具有高吞吐和低延迟的优势,能够基于Event-Time实现窗口状态计算,同时也支持对延迟数据的处理。Flink这款框架在架构的设计上和Spark的宏观架构非常相似,在资源管理上底层可以使用standalone、yar
丿沐染烟忱丶
·
2020-07-28 23:28
大数据面试题
大数据面试题
目录一、linux相关内容21、什么是交换空间?22、Linux下的权限有哪些?23、如何在Linux下更改权限?34、什么是守护进程?35、使用vi编辑器时有哪些不同的模式?36、计算文件夹大小的命令是什么?37、Linux常用命令:38、简述三次握手四次挥手49、Http请求的GET和POST方式的区别510、硬链接和软链接的区别511、Linux中要找出某一文件属于哪个RPM软件包的命令:6
qq_18219755
·
2020-07-28 05:52
大数据
大数据面试题
原文链接:https://blog.csdn.net/albg_boy/article/details/78424509第1部分选择题1.1Hadoop选择题1.1.1Hdfs下面哪个程序负责HDFS数据存储?1a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktrackerHDfS中的block默认保存几份?1a)3份b)2份c)1
hzp666
·
2020-07-27 23:38
Hadoop
PRD
大数据
Hadoop
hadoop
大数据面试题
整理汇总(持续更新ING)
目录Hadoop1.下列哪项通常是集群的最主要瓶颈2.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?3.HDFS读写流程Spark1.对于Spark存在的数据倾斜问题你有什么好的解决方法吗?2.简述你所理解的Spark的shuffle过程3.Spark中的算子分为哪两类?Hive1.谈一下hive的特点,以及hive和RDBMS有什么异同2.说一下hi
Jiweilai1
·
2020-07-27 16:05
大数据
Spark
大数据面试题
分析
最近学习了hashtable的一点知识,发现可以用来解决大数据的一些问题。我们这里讲的大数据分析事实上并不是分布式和数据挖掘这些高深的概念,而是针对从从一个大文件或者一堆数据(内存放不下)中找出具有某种特点的数,这也是近年来各大公司经常考的问题。面试题1:给一个超过100G大小的logfile,log中存着IP地址,设计算法找到出现次数最多的IP地址?解析:100G的文件给我们的感觉是太大,我们的
csuwubing
·
2020-07-15 21:04
Hadoop
大数据面试题
及答案上篇 01
day01-day02初始大数据0.linux集群情况1.window宿主192.168.137.188node01.hadoop.comnode01192.168.137.10000:50:56:3D:7D:CCroot123456node02.hadoop.comnode02192.168.137.11000:50:56:3D:2F:CCroot123456node03.hadoop.comn
啊策策
·
2020-07-15 07:55
大数据知识汇总
大数据面试题
——如何在大量的数据中找出不重复的数
问题描述:在2.5亿个整数中找出不重复的数,注意,内存不足以容纳2.5亿个整数。分析解读:方法一:分治法采用hash的方法,把这2.5亿个数划分到更小的文件中,从而保证每个文件的大小不超过可用内存的大小。然后对于每个小文件而言,所有的数据可以一次性被加载到内存中,因此可以使用字典或set来找到每个小文件中不重复的数。当处理完所有的文件后就可以找出这2.5亿个整数中所有的不重复的数。方法二:位图法对
weixin_30809173
·
2020-07-15 03:05
大数据面试题
Mapreduce的理解?Mapreduce的执行原理?MapReduce程序运行流程Mapper阶段1、先将HDFS中的输入文件file按照一定的标准进行切片2、调用自己编写的map逻辑,将输入的键值对变成3、按照一定的规则对输出的键值对进行分区4、对每个分区中的键值对进行排序。Reduce阶段1、对多个Mapper任务的输出,按照不同的分区,通过网络拷贝到不同的Reducer节点上进行处理,将
weixin_30273763
·
2020-07-15 02:50
大数据面试题
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?1)可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。2)遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。3)遍历文件b
Yan456jie
·
2020-07-14 06:03
数据结构及算法
算法系列-
大数据面试题
-在超大文件中找出访问百度次数最多的IP
1.题目描述现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取某天出访问百度次数最多的那个IP2.思考过程(1)面试中若题目提到大文件等,其实就是告诉你数据量大,不能一次性加载到内存中,而实际中我们就需要估算。既然是要对访问百度次数的ip做统计,我们最好先预处理一下,遍历把访问百度的所有ip写到另一个文件a中(2)ip用32位表示,所以最多有2^32个不同ip地址。同样
五癫
·
2020-07-13 14:39
经典算法系列
面试常见问题
大数据面试题
(一)
1.列举出Hadoop中定义的最常用的InputFormats,那个是默认的?答:TextInputFormat(默认)用于读取纯文本文件,key是每一行的位置偏移量,是LongWritable类型的,value是每一行的内容,为Text类型KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,第一部分为key,剩下的部分为value;如果没有
王屋山下的传说
·
2020-07-13 09:01
大数据面试题
(二)
基础1、hashmap的初始值大小---162、ArrayList的初始值大小---103、hashmap的排序问题Mapmap=newHashMap();map.put("d",2);map.put("c",1);map.put("b",1);map.put("a",3);List>infoIds=newArrayList>(map.entrySet());//排序Collections.sor
王屋山下的传说
·
2020-07-13 09:01
30个常见的
大数据面试题
,让你的薪资提升一个等级,大家快来看看吧!
但这个收获不仅仅需要你学到娴熟的大数据技术,还需要在面试之前精心准备,了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等,除此之外,多看一些
大数据面试题
也是很有必要的,给自
chuanmao9486
·
2020-07-13 03:46
117道有关
大数据面试题
解析,希望对你有所帮助
一.简述如何安装配置apache的一个开源的hadoop1.使用root账户登陆2.修改ip3.修改host主机名4.配置ssh免密登陆5.关闭防火墙6.安装JDK7.解压hadoop安装包8.配置hadoop的核心配置文件hadoop-env.sh?core-site.xml?mapred-site.xmlyarn-site.xmlhdfs-site.xml9.配置hadoop的环境变量10.格
chuanmao9486
·
2020-07-12 21:05
大数据面试题
总结
BigData面试题总结JAVA相关1-1)List与set的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复,Set特点:元素无放入顺序,元素不可重复。1-2)数据库的三大范式?原子性、一致性、唯一性1-3)java的io类的图解1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直
羽数据同行
·
2020-07-11 21:44
大数据面试题
汇总
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s遍历文件b
qibobo
·
2020-07-11 14:03
大数据面试题
整理
JAVA相关1-1)List与set的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复,Set特点:元素无放入顺序,元素不可重复。1-2)数据库的三大范式?原子性、一致性、唯一性1-3)java的io类的图解1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直接其他的赋值的,那么背n
chuanjiaoye5017
·
2020-07-11 03:58
大数据面试题
整理
有道云笔记原文件和PDF文件重新上传【增加分类方便查看】:https://download.csdn.net/download/z1941563559/125491491.HashMap和Hashtable区别2.HashMap、Hashtable、ConcurrentHashMap的原理与区别3.Java垃圾回收机制和生命周期4.怎么解决Kafka数据丢失的问题5.zookeeper是如何保证数
PersistJiao
·
2020-07-10 14:21
学习
大数据相关知识点
大数据面试题
总结最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题,包含hadoop、hive、hbase、storm、spark等。
Mr.WiG
·
2020-07-08 19:21
大数据知识点梳理
大数据面试题
Linux部分①列举你使用的常用指令?②怎么查看服务是否开启?后面的参数都是什么意思?③怎么查看服务器内存使用情况?④日志查看指令?⑤跨机房怎么传输文件?Hadoop部分①怎么搭建一个Hadoop集群?②Hadoop的Shuffer机制?③切片概念?文件256M时,几个切片?④Mr任务提交到yarn流程?⑤数据倾斜概念?Hive部分①hive本质?②groupby、sortby、orederby、
孙晨c
·
2020-07-08 11:00
大数据面试题
个人整理(一)
大数据面试题
个人整理(一)Hadoop相关试题1、MapTask并行机度是由什么决定的?由切片数量决定2、MR是干什么的?
如何释然╰╮
·
2020-07-05 09:15
大数据
面试
大牛耗时三天整理的阿里必问207道java架构和
大数据面试题
及答案
前言相信大家在面试中都会遇到很多很难回答的问题,以至于面试不是很成功,进入公司后薪资会偏少一些!有的人会说,这面试官是不是故意刁难我呢?怎么这些问题我都不会啊!小编觉得呢,说到底还是大家的知识储备或者面试经验太少了,知识储备和面试经验都是是可以靠自己来学习积累的,下面小编就分享下总结的面试四点经验:1.不会就不会。我比较爽快,如果遇到的不会的甚至是不确定的,都直接说:“对不起,我答不上来”之类的。
程序员高级码农
·
2020-07-04 08:11
大数据面试题
整理(一) ---- Linux和网络编程
1、linux系统内核态和用户态是什么,有什么区别? 详解链接直达:https://blog.csdn.net/qq_39823627/article/details/78736650 当一个进程在执行用户自己的代码时处于用户运行态(用户态),当一个进程因为系统调用陷入内核代码中执行时处于内核运行态(内核态)。 用户运行一个程序,该程序创建的进程开始时运行自己的代码,处于用户态。如果要
人外有人 道阻且长
·
2020-07-04 01:11
大数据面试资料整理
2020
大数据面试题
真题总结(附答案)
目录一.Hadoop1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode宕机,怎么一个流程恢复5.hadoop的namenode宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用mapreduce怎么处理数据倾斜问题?11.shuffle阶段,你怎
大数据私房菜
·
2020-06-30 19:45
大数据知识点汇总
大数据面试题
整理1
Java语言特性1.static关键字最主要作用:方便在没有创建对象的情况下来进行调用(方法/变量)。被static关键字修饰的方法或者变量不需要依赖于对象来进行访问,只要类被加载了,就可以通过类名去进行访问。权限:静态方法中不能访问非静态成员方法和非静态成员变量,但是在非静态成员方法中是可以访问静态成员方法和静态成员变量。static变量也称为静态变量,静态变量和非静态变量的区别:静态变量被所有
shuest
·
2020-06-30 19:25
大数据面试题
原文地址:https://www.cnblogs.com/wxplmm/p/7834457.html第一次“北漂”准备了一个星期的Hadoop,把林子雨老师的视频刷了一遍,翻出了好久没用的小本本,密密麻麻的记了一大堆。刷了网上能找到的Hadoop的所有面试题(这个真的很重要)然后,启程,北上,还好我对铺的小胖子陪着我(md回来的时候他竟然找到工作了...)第一天上午蓝色光标,下午品友蓝色光标:上来
yigg
·
2020-06-30 07:51
大数据项目
大数据面试题
(附答案,持续更新...)
说说对hadoop的理解,都有哪些组件,分别是干什么的hadoop是一个分布式系统基础框架,主要包括HDFS(分布式存储系统),Mapreduce(分布式计算框架),Yarn(资源管理框架)kafka在什么地方需要用到zookeeperkafka使用zookeeper管理和协调kafka的节点服务器。zookeeper中存储的信息有broker,consumer等重要znode信息;kafka节点
乖乖猪001
·
2020-06-30 01:55
大数据
大数据面试题
汇总【有自己的和网上总结的】
1.选择题1.1.下面哪个程序负责HDFS数据存储。c)Datanode答案Cdatanode1.2.HDfS中的block默认保存几份?a)3份答案A默认3份1.3.下列哪个程序通常与NameNode在一个节点启动?d)Jobtracker答案D1.4.HDFS默认BlockSizec)128MB答案:C1.5.下列哪项通常是集群的最主要瓶颈c)磁盘IO答案:C磁盘首先集群的目的是为了节省成本,
牛逸凡
·
2020-06-29 06:26
面试题
大数据面试题
——Zookeeper篇
前言Zookeeper,中文名又称为动物园管理员。他属于Hadoop生态圈中重要的组件框架之一。主要是起到分布式协调调度的作用,日常中我们可能经常使用到zookeeper,但是他并不像HadoopSpark会经常进行应用编程的开发,也不像HiveHBase那样进行数据的交互式查询操作等。关于Zookeeper,我们更多的是在集群中搭建Zookeeper集群来进行配置管理集群管理或者是分布式锁等。这
提灯寻梦在南国
·
2020-06-28 20:58
大数据
zookeeper
大数据面试题
——Spark篇
1.简要讲述hadoop和spark的shuffle相同和差异?1)从高层次的的角度来看,两者并没有大的差别。它都是将mapper(Spark里是ShuffleMapTask)的输出进行partition,不同的partition送到不同的reducer(Spark里reducer可能是下一个stage里的ShuffleMapTask,也可能是ResultTask)。Reducer以内存作缓冲区,
提灯寻梦在南国
·
2020-06-28 20:57
大数据
Spark
大数据面试题
——Hadoop篇
前言结合南国不到一年时间学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料写出大数据内一些高频的面试知识点。1.Hadoop基础1.1通常是集群的最主要瓶颈:磁盘IOcpu和内存在大数据集群中都是可以扩充的,磁盘不行。1.2Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式应用程序协调
提灯寻梦在南国
·
2020-06-28 20:57
大数据
Hadoop
云计算
大数据面试题
,云计算
大数据面试题
集锦
大数据领域数据类型1.1有界数据一般批处理(一个文件或者一批文件),不管文件多大,都是可以度量mapreducehivesparkcoresparksql1.2无界数据源源不断的流水一样(流数据)StormSparkStreaming消息队列(MessageQueue)消息Message网络中的两台计算机或者两个通讯设备之间传递的数据,例如说:文本、音乐、视频等内容队列Queue一种特殊的线性表(
weixin_34109408
·
2020-06-28 11:43
[
大数据面试题
]hadoop核心知识点
*面试答案为LZ所写,如需转载请注明出处,谢谢。*这里不涉及HiveSQL和HBase操作的笔试题,这些东西另有总结。1.MR意义。MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。在分布式计算中,将分布式存储、分布式计算、负载均衡等复杂问题高度抽象成map和reduce两个过程。MR存在的意义在于它使得计算更廉价,大规模数据计算不再需要高级商用机器。其次是这个软件的现成实现
weixin_30750335
·
2020-06-28 00:25
大数据面试题
及答案
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1
weixin_30693183
·
2020-06-27 23:24
大数据面试题
总结
面试题总结:分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。[优点]支持超大文件超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。检测和快速应对硬件故障在集群的环境中,硬件故障是常见的问题。因为有上千台服务器连接在一起,这样会导致高故障率。因此故
weixin_30612769
·
2020-06-27 22:02
大数据面试题
(每天更新,4月2已更新完毕)
大数据面试题
(每天更新,4月2已更新完毕)(0)(0)2018-03-2016:36面试题图片较大,加载需要时间,请耐心等待.......1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个
王树民
·
2020-06-27 13:37
Hadoop
算法系列-
大数据面试题
-两个大文件中找出共同记录
1.题目描述给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?2.思考过程(1)首先我们最常想到的方法是读取文件a,建立哈希表(为什么要建立hash表?因为方便后面的查找),然后再读取文件b,遍历文件b中每个url,对于每个遍历,我们都执行查找hash表的操作,若hash表中搜索到了,则说明两文件共有,存入一个集合。(2)但上述方法有
五癫
·
2020-06-26 19:37
经典算法系列
面试常见问题
大数据面试题
集锦(附答案,讲解)
2019/10/14晚9.20分开篇点题最近由于未年底的找工作做准备,自己就收集了一些面试,进行学习,之前看视频的方法总觉得不够痛快,胡子眉毛一把抓,就计划每天晚上写一篇博客,每天都更新一篇,也是激励自己,负重前行,我会把每一个问题的讲解回答,还有我自己的思考都写进来,大家可以一起讨论。(每天5-10个)(V:18211850987)一.10亿条数据,求top10如何优化答:(刚开始没看明白问题啥
song_quan_
·
2020-06-26 13:49
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他