最近学习了hashtable的一点知识,发现可以用来解决大数据的一些问题。我们这里讲的大数据分析事实上并不是分布式和数据挖掘这些高深的概念,而是针对从从一个大文件或者一堆数据(内存放不下)中找出具有某种特点的数,这也是近年来各大公司经常考的问题。
面试题1:给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
解析:100G的文件给我们的感觉是太大,我们的电脑内存一般都为4G左右所以不可能一次性把这么多的信息都加载到内存,所以就要进行切分成100份。IP地址是字符串太长,我们可以把它转化为整型%100,这样取模后的值都落在0-99的区间里,所取模后值相同的IP地址都被分配到同一个文件,这时我们就可以采用哈希表统计出每个文件中最多的那个IP地址,最后比较得到100个IP中最大的那个IP就可以了 。
面试题2:与上题条件相同,如何找到top K的IP?
解析:看到求TOP K个IP就要立马反应到使用堆排序,这里的堆排序应该注意的是要建一个小堆,想一下我们建大堆的话只能保证堆顶元素为最大的,这样只能得到最大的那个IP。
面试题3:给定100亿个整数,设计算法找到只出现一次的整数
解析:整数分为有符号和无符号两种,有符号数的取值为-2147483648~2147483648 是从-21亿到+21亿, 无符号数的范围为0~4294967296是从0到42亿,然而给了我们100亿个整数,要找出只出现一次的整数,所以我们还是要用到哈希表的思想,但我们最好不要定义一个整型数组,因为 42亿*4B 约为16G,这么大的数组我们再进行切分的话就太麻烦了,这里我们可以使用BitMap,用一个位来表示一个数存不存在,不存在表示为0,出现一次表示为1,出现一次以上用另一个位表示。这样就可以将数组的大小减为原来的16分之一。还遇到一个问题,就是到底怎么定义这个数组,正数好定义,负数的话我们可以用32位全1(-1)和它取异或取到和正数相同的位置,我们此时定义一个二维数组,一半表示正数一半表示负数,都位于同一行。此时我们使用1G的空间就可以解决这个问题了。
拓展:要是面试官问我这里只有500M或者更少的空间的话怎么做?
解析:同样采用切分的思想,不过我觉得这里我们直接可以按数的范围直接切分。要是有500M 内存的话,我们就切一次就可以了,此时如果我们有50%的几率一次就找到这个只出现一次的数,效率可能更高。
面试题4:给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
解析:这道题思路和上面的一样。
面试题5:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
解析:这个问题和以上唯一 不同这道题是找不超过两次的整数,方法一样。
面试题6:给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法!
解析:求两个文件的交集,这种算法我们肯定要用到比较,如果我们把两个文件都均分为100份,拿一个文件里的一份分别与另一个文件里的100份分别比较一次的话效率 就太低了,我们可以借用第1道面试题的思维对它们进行取模,这样我们只要比较取模的为同一值的两个文件比较就可以了,如果相同则标记。
面试题7:如何扩展BloomFilter使得它支持删除元素的操作?
解析:BloomFilter并不支持删除元素的操作,因为很可能产生哈希冲突(就是由不同的哈希函数算出的位置指向同一个位),这样改变一个位很可能会影响到其他元素的判断。这里我们可以按照和智能指针sharedptr的思想即“引用计数”来解决,我们添加一个count计数器,每当我们在这个位上表示一个元素时就让它count++,每删除一个涉及到这个位表示的元素时就让它count--,这样只当count为0时我们再对这一位置0,这样就完成了删除的操作。
面试题8:如何扩展BloomFilter使得它支持计数操作?
解析:这道题思想和上一道题一样。
面试题9:给上千个文件,每个文件大小为1K—100M。给n个词,设计算法对每个词找到所有包含它的文件,你只有100K内存
解析:我们可以使用布隆过滤器来判断一个文件是否包含这n个单词生成n个布隆过滤器放到外存,我们事先定义好一个包含这n个单词信息的文件info,每当我们在一个文件找到一个对应的单词就将这个文件的信息写入info对应单词的位置。我们只有100K内存,这100K内存我们一部分用来存放布隆过滤器一部分可以存放文件,因为文件最小都为100K,所以我们可以尝试把它切分为50K的小文件,每个文件标志好所属的大文件,这样我们每次读入一个布隆过滤器和一个小文件,如果这个文件有对应的单词则在info中标记所属大文件的信息,如果没有则读入下一个布隆过滤器,把所有布隆过滤器都使用后,再读下一个文件重复上述步骤直至把所有文件都遍历完。
面试题10:有一个词典,包含N个英文单词,现在任意给一个字符串,设计算法找出包含这个字符串的所有英文单词
解析:首先判断一个单词是否包含一个字符串我们可以用strstr这个函数,对于这个问题,我觉得如果该字符串的前缀和要找的单词一样的话可以采用字典树来查找,但是N个英文单词我们可以假设它很大,我们把它放到一个文件里,每次只读出固定个数个单词进行判断。
总结:对于此类大数据问题我们一般都是采用哈希切分即模上一个数组的长度将数据分配到一个合理的位置,同时将一个大文件切分为小文件,这样特别方便将其与其他数进行比较例如对IP地址取整后进行哈希切分,或者对内部元素进行操作。使用BloomFilter可以进行判断元素在集合的存在与否。
[优点]
支持超大文件 超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件。
检测和快速应对硬件故障在集群的环境中,硬件故障是常见的问题。因为有上千台服务器连接在一起,这样会导致高故障率。因此故障检测和自动恢复是hdfs文件系统的一个设计目标
流式数据访问应用程序能以流的形式访问数据集。主要的是数据的吞吐量,而不是访问速度。
简化的一致性模型 大部分hdfs操作文件时,需要一次写入,多次读取。在hdfs中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了。这样简单的一致性模型,有利于提高吞吐量。
[缺点]
低延迟数据访问如和用户进行交互的应用,需要数据在毫秒或秒的范围内得到响应。由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟来说,不适合用hadoop来做。
大量的小文件Hdfs支持超大的文件,是通过数据分布在数据节点,数据的元数据保存在名字节点上。名字节点的内存大小,决定了hdfs文件系统可保存的文件数量。虽然现在的系统内存都比较大,但大量的小文件还是会影响名字节点的性能。
多用户写入文件、修改文件Hdfs的文件只能有一次写入,不支持写入,也不支持修改。只有这样数据的吞吐量才能大。
不支持超强的事务没有像关系型数据库那样,对事务有强有力的支持。
详情查看:https://www.cnblogs.com/sxt-zkys/archive/2017/07/24/7229857.html
<property> <name>dfs.block.sizename>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc做文件完整性校验,默认配置512是checksum的最小单元 <value>5120000value> property>
ps.循环冗余校验(Cyclic Redundancy Check, CRC)是一种根据网络数据包或电脑文件等数据产生简短固定位数校验码的一种散列函数,主要用来检测或校验数据传输或者保存后可能出现的错误。它是利用除法及余数的原理来作错误侦测的。
第一套付费产品是 Cloudera Enterpris
1)文件写入Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根据 DataNode 的地址信息,按顺序写入到每一个 DataNode 块中。
2)文件读取Client 向 NameNode 发起文件读取的请求。NameNode 返回文件存储的 DataNode 的信息。Client 读取文件信息。
ps.http://www.makaidong.com/%E5%8D%9A%E5%AE%A2%E5%9B%AD%E6%8E%92%E8%A1%8C/9053.shtml
datanode通过长连接与namenode保持通信。(正确)【答案有分歧,根据自己理解回答即可】
长连接:Client 方与Server 方先建立通讯连接,连接建立后不断开,然后再进行报文发送和接收。这种方式下由于通讯连接一直存在,此种方式常用于点对点通讯。
短连接:Client 方与Server 每进行一次报文收发交易时才进行通讯连接,交易完毕后立即断开连接。此种方式常用于一点对多点通讯,比如多个Client 连接一个Server。
Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。(错误)
slave节点要存储数据,所以它的磁盘越大越好。(错误)
一旦slave节点宕机,数据恢复是一个难题。
Hadoop集群三种作业调度算法介绍
Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法。
先来先服务算法FIFO:FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新来的作业插入到队尾。一个作业运行完后,总是从队首取下一个作业运行。这种调度策略的优点是简单、易于实现,同时也减轻了jobtracker的负担。但是它的缺点也是显然的,它对所有的作业都一视同仁,没有考虑到作业的紧迫程度,另外对小作业的运行不利。
公平调度算法:
这种策略在系统中配置了任务槽,一个任务槽可以运行一个task任务,这些任务就是一个大的作业被切分后的小作业。当一个用户提交多个作业时,每个作业可以分配到一定的任务槽以执行task任务(这里的任务槽可以理解为可以运行一个map任务或reduce任务)。如果把整个hadoop集群作业调度跟操作系统的作业调度相比,第一种FIFO就相当于操作系统中早期的单道批处理系统,系统中每个时刻只有一道作业在运行,而公平调度相当于多道批处理系统,它实现了同一个时刻多道作业同时运行。由于linux是多用户的,若有多个用户同时提交多个作业会怎样?在这种策略中给每个用户分配一个作业池,然后给每个作业池设置一个最小共享槽个数,什么是最小共享槽个数呢?先要理解一个最小什么意思,最小是指只要这个作业池需要,调度器应该确保能够满足这个作业池的最小任务槽数的需求,但是如何才能确保在它需要的时候就有空的任务槽,一种方法是固定分配一定数量的槽给作业池不动,这个数量至少是最小任务槽值,这样只要在作业池需要的时候就分配给它就行了,但是这样在这个作业池没有用到这么多任务槽的时候会造成浪费,这种策略实际上是这样做的,当作业池的需求没有达到最小任务槽数时,名义上是自己的剩余的任务槽会被分给其他有需要的作业池,当一个作业池需要申请任务槽的时候若系统中没有了,这时候不会去抢占别人的(也不知道抢谁的啊),只要当前一个空的任务槽释放会被立即分配给这个作业池。
在一个用户的作业池内,多个作业如何分配槽这个可以自行选择了,如FIFO。所以这种调度策略分为两级:
第一级,在池间分配槽,在多用户的情况下,每个用户分配一个作业池。
第二级,在作业池内,每个用户可以使用不同的调度策略。
计算能力调度:计算能力调度和公平调度有点类似,公平调度策略是以作业池为单位分配任务槽,而计算能力调度是以队列为单位分配tasktracker(集群中一个节点),这种调度策略配置了多个队列,每个队列配置了最小额度的tasktracker数量,同公平调度策略类似,当一个队列有空闲的tasktracker时,调度器会将空闲的分配给其他的队列,当有空闲的tasktracker时,由于这时候可能有多个队列没有得到最小额度的tasktracker而又在申请新的,空闲的tasktracker会被优先分配到最饥饿的队列中去,如何衡量饥饿程度呢?可以通过计算队列中正在运行的任务数与其分得的计算资源之间的比值是否最低来判断的,越低说明饥饿程度越高。
计算能力调度策略是以队列的方式组织作业的,所以一个用户的作业可能在多个队列中,如果不对用户做一定的限制,很可能出现在多个用户之间出现严重不公平的现象。所以在选中新作业运行时候,还需要考虑作业所属的用户是否超过了资源的限制,如果超过,作业不会被选中。
对于在同一个队列中,这种策略使用的是基于优先级的FIFO策略,但是不会抢占。
集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。(错误 )
hadoop 本身就具有冗余能力,所以如果不是很严格不需要都配备 RAID。
每个 map 槽就是一个线程。(错误)
map 槽---->map slot。(org.apache.hadoop.mapred.TaskTracker.TaskLaucher.numFreeSlots)是一个逻辑值,而不是对应着一个县城或者进程。Mapreduce 的 input split 就是一个 block。(错误)
InputFormat的数据划分、split调度、数据读取三个问题的浅析www.aboutyun.com/thread-6803-1-1.html
Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。(错误)
hadoop 为各个守护进程(namenode,secondarynamenode,resourcemanager,datanode,nodemanager)统一分配的内存在 hadoop-env.sh 中设置,参数为 HADOOP_HEAPSIZE,默认为 1000M。
DataNode 首次加入cluster 的时候,如果log 中报告不兼容文件版本,那需要NameNode执行hdfs namenode -format操作格式化磁盘。(错误)
添加了一个新的标识符 ClusterID 用于标识集群中所有的节点。当格式化一个 Namenode,需要提供这个标识符或者自动生成。这个 ID 可以被用来格式化加入集群的其他 Namenode。