zero__007

海量数据处理

常用的数据结构：

1.Bloom Filter
大致思想是这样，把一个数据通过N个哈希函数映射到一个长度为M的数组的一位上，将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明该数据的存在。但不能保证完全正确性，但是此方法无比高效。
2.哈希法
这个简单，无非是通过一些哈希函数把元素搞到一个指定的位置，简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
3.最大或最小堆
就是一个完全的最大或最小二叉树，用途，比如: 100w个数中找最大的前100个数。用一个100个元素大小的最小堆即可。
4.Bit-map
所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。
1>BitMap的功能：
1：排序
2：判断一组数据中是否有重复出现的数据
2>Bloom Filter的功能：BitMap的进阶，大数据量判重。

情景1：对无重复的数据进行排序数据（2，4，1，12，9，7，6）如何排序？
方法1：基本的排序方法包括冒泡，快排等。
方法2：BitMap算法
方法2中所谓的BitMap是一个位数组，跟平时使用的数组的唯一差别在于操作的是位。首先是开辟2个字节大小的位数组，长度为16（该长度由上述数据中最大的数字12决定的）,然后，读取数据，2存放在位数组中下标为1的地方，值从0改为1，4存放在下标为3的地方，值从0改为1… 最后，读取该位数组，得到排好序的数据是：（1，2，4，6，7，9，12）。
比较方法1和方法2的差别：方法2中，排序需要的时间复杂度和空间复杂度很依赖与数据中最大的数字比如12，因此空间上讲需要开2个字节大小的内存，时间上需要遍历完整个数组。当数据类似（1，1000，10万）只有3个数据的时候，显然用方法2，时间复杂度和空间复杂度相当大，但是当数据比较密集时该方法就会显示出来优势。

情景2：对有重复的数据进行判重
数据：（2，4，1，12，2，9，7，6，1，4）如何找出重复出现的数字？
首先是开辟2个字节大小的位数组，长度为16（该长度由上述数据中最大的数字12决定的），当读取2的时候，发现数组中的值是1，则判断出2是重复出现的。
应用1：某文件中包含一些8位的电话号码，统计出现的号码的个数？（判断有谁出现）8位最大是99 999 999，大约是99M的bit，12.5MB的内存，就可以统计出来出现的号码。
应用2：某文件中包含一些8位的电话号码，统计只出现一次的号码？（判断有谁出现并且指出现1次）需要扩展一下，可以用两个bit表示一个号码，0代表没有出现过，1代表只出现过1次，2代表至少出现2次。
应用3：有两个文件，文件1中有1亿个10位的qq号码，文件2中有5千万个10位qq号码，判断两个文件中重复出现的qq号。首先建立10的10次方个大小的位数组（占用内存大约是1.25G），全部初始化为0，读取第一个文件，对应的qq号存放到对应的未知，数值改为1，如果重复出现仍是1.读取完毕第一个文件后，读取第二个文件，对应的位置为1则表示重复出现。
应用4：有两个文件，文件1中有1亿个15位的qq号码，文件2中有5千万个15位的qq号码，判断两个文件中重复出现的qq号。

Bloom Filter：对于Bit-Map分析一下，每次都会开辟一块表示最大数值大小的bit数组，比如情景1中的16，将对应的数据经过映射到bit数组的下标，这其实是一种最简单的hash算法，对1去模。在上述应用4中，当qq号码改为15位的时候，Bit-Map就不太好用了，如何改进呢？解决办法：减少bit数组的长度，但是增加hash函数的个数对于每一个qq号码，我用K个hash函数，经过k次映射，得到k个不同位置，假设k=3，那么对于一个qq号码，映射到位数组中3个不同的位置。当读取第二个包含5千万个qq号码的文件的时候，使用同样的3个hash函数进行映射，当3个位置全部是1的时候才表示出现过，否则表示没有出现过。
有什么疑问吗？
显然，对于一个qq号码，如果它在第一个文件中没有出现过，但是它映射的3个位置已经全部是1的情况会有吗？答案是会的，但是这种概率是可控的，可控的意思是：这种误差跟hash函数的个数和质量是有关系的，可以通过控制hash函数的个数和位数组的大小来控制误差概率。至于表示3者之间的关系精确的数学公式就不再详细研究了。
可以这样讲，布隆过滤器是Bit-Map的进一步扩展，对于大数据量判重，布隆过滤器可以在内存中进行判断，避免了对磁盘的读写，效率是很高的。

1．假设一个文件中有9亿条不重复的9位整数，现在要求对这个文件进行排序。

一般解题思路:
1、将数据导入到内存中
2、将数据进行排序（比如插入排序、快速排序）
3、将排序好的数据存入文件
难题:一个整数为4个字节，即使使用数组也需要900,000,000 * 4byte = 3.4G内存，对于32位系统，访问2G以上的内存非常困难，而且一般设备也没有这么多的物理内存，将数据完全导入到内存中的做法不现实。
其他解决办法:
1、导入数据库运算
2、分段排序运算
3、使用bit位运算

解决方案一:数据库排序,将文本文件导入到数据库，让数据库进行索引排序操作后提取数据到文件
优点：操作简单
缺点：运算速度慢，而且需要数据库设备。

解决方案二:分段排序,操作方式：规定一个内存大小，比如200M，200M可以记录(200*1024*1024/4) = 52428800条记录，可以每次提取5000万条记录到文件进行排序，要装满9位整数需要20次，所以一共要进行20次排序，需要对文件进行20次读操作
缺点：编码复杂，速度也慢(至少20次搜索)
关键步骤：先将整个9位整数进行分段，亿条数据进行分成20段，每段5000万条，在文件中依次搜索0~5000万，50000001~1亿……将排序的结果存入文件

解决方案三:bit位操作
思考下面的问题:一个最大的9位整数为999999999，这9亿条数据是不重复的，可不可以把这些数据组成一个队列或数组，让它有0~999999999(10亿个)元素，数组下标表示数值，节点中用0表示这个数没有，1表示有这个数，判断0或1只用一个bit存储就够了。声明一个可以包含9位整数的bit数组(10亿)，一共需要10亿/8=120M内存。把内存中的数据全部初始化为0, 读取文件中的数据，并将数据放入内存。比如读到一个数据为341245909这个数据，那就先在内存中找到341245909这个bit，并将bit值置为1遍历整个bit数组，将bit为1的数组下标存入文件。

2.对2亿条手机号码删除重复记录(过滤号码黑名单同样有效)

工作难点就在于如何处理这2亿条电话号码,直接用哈希表存放手机号码不大现实,即使经过优化,用一个unsigned int存放一条记录,那也得需要2亿*4=8亿byte,远超过32位系统的寻址能力
解决方案: 将电话号码由12位单个数字组成的字符串转换为一个unsigned int型数据(手机号码由前三位数字和后面八位数字组成,后面八位需要占到1~1000万的空间,而前面用0~100的数字存储已经足够)为简单起见,默认为0~4G的数字都有可能分布号码,为此我们分配4G/32=512M的内存将这2亿个号码整理成unsigned int类型后按上述办法存放在这块内存中(比如13512345678整理后为112345678,找到内存中112345678bit的下标,并将此bit值设为1)遍历整个bit数组,记录下所有的号码,这些号码即是不重复的手机号码
总结：
建立一个足够大的bit数组当作hash表
以bit数组的下标来表示一个整数
以bit位中的0或1来表示这个整数是否在这个数组中存在
适用于无重复原始数据的搜索
原来每个整数需要4byte空间变为1bit，空间压缩率为32倍
扩展后可实现其他类型（包括重复数据）的搜索

3.3000w数据的表，取某项字段前50项数据，内存2G

大体实现思路是这样子的，3000w的数据划分为1000段，也就是1-3w为一段，30001-6w项为第二段，依次类推，从每3w的数据中提取出前50条数据（这个根据sql排序就能取出来，2个g的内存够了），最后1000个50就会产生5w个数据，最后提取出来的5w的数据放置到ArrayList中去，最后5w的数据统一排序，取出前50条。5w*5w的对比与交换是可以搞定的。

4．对所有139段的号码进行统计排序

已经发放的139号码段的文件都存放在一个文本文件中，一个号码一行，现在需要将文件里的所有号码进行排序，并写入到一个新的文件中；号码可能会有很多，最多可能有一亿个不同的号码（所有的139段号码），存入文本文件中大概要占1.2G的空间；jvm最大的内存在300以内，程序要考虑程序的可执行性及效率。
这是个典型的大数据量的排序算法问题，首先要考虑空间问题，一下把1.2G的数据读入内存是不太可能的，就算把一亿条数据，转都转换成int类型存储也要占接近400M的空间。基本思想是原文件分割成若干个小文件并排序，再将排序好的小文件合并得到最后结果，算法大概如下：
1.顺序读取存放号码文件的中所有号码，并取139之后的八位转换为int类型；每读取号码数满一百万个，（这个数据可配置）将已经读取的号码排序并存入新建的临时文件。
2.将所有生成的号码有序的临时文件合并存入结果文件。
这个算法虽然解决了空间问题，但是运行效率极低，由于IO读写操作太多，加上步骤1中的排序的算法（快速排序）本来效率就不高（对于电话排序这种特殊情况来说），导致1亿条数据排序运行3个小时才有结果。
如果和能够减少排序的时间呢？首当其冲的减少IO操作，另外如果能够有更加好排序算法也行。使用是位向量（实际上就是一个bit数组），用电话作为index：用位向量存储电话号码，一个号码占一个bit，一亿个电话号码也只需要大概12M的空间；算法大概如下：
1.初始化bits[capacity]；
2.顺序所有读入电话号码，并转换为int类型，修改位向量值：bits[phoneNum]=1；
3.遍历bits数组，如果bits[index]=1，转换index为电话号码输出。

5. 设计DNS服务器中cache的数据结构

要求设计一个DNS的Cache结构，要求能够满足每秒5000以上的查询，满足IP数据的快速插入，查询的速度要快。（站点数总共为5000万，IP地址有1000万，等等）
DNS服务器实现域名到IP地址的转换。每个域名的平均长度为25个字节（估计值），每个IP为4个字节，所以Cache的每个条目需要大概30个字节。总共50M个条目，所以需要1.5G个字节的空间。可以放置在内存中。（考虑到每秒5000次操作的限制，也只能放在内存中。）
可以考虑的数据结构包括hash_map，字典树，红黑树等等。
比较好的解决方法是，将每一个URL字符串转化为MD5值，作为key，建立最大或最小堆，这样插入和查找的效率都是O(log(n))。MD5是128bit的大整数也就是16byte，比直接存放URL要节省的多。

6. 服务器内存 1G，有一个 2G 的文件，里面每行存着一个 QQ 号（5-10位数），怎么最快找出出现最多次的 QQ 号

首先要注意到，数据存在服务器，存储不了（内存存不了），要想办法统计每一个qq出现的次数。比如，因为内存是1g，首先用hash的方法，把qq分配到10 个（这个数字可以变动）文件（在硬盘中）。相同的 qq 肯定在同一个文件中，然后对每一个文件，只要保证每一个文件少于 1g 的内存，统计每个 qq 的次数，可以使用 hash_map(qq, qq_count)实现。然后，记录每个文件的最大访问次数的 qq，最后，从 10 个文件中找出一个最大，即为所有的最大。

7. 海量日志数据，提取出某日访问百度次数最多的那个IP

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。
算法思想：分而治之+Hash
1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；
2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；
3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；

8. 日志文件一千万个记录，统计最热门的10个查询串

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G
第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计；
第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。
即借助堆结构，可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N） + N’*O（logK），（N为1000万，N’为300万）。

9. 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词

方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

10. 有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复

还是典型的TOP K算法，解决方案如下：
方案1：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件。对这10个文件进行归并排序（内排序与外排序相结合）。
方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。
方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

11. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,…,a999）中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,…,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,…,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。
方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

12. 在2.5亿个整数中找出不重复的整数

方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。
方案2：划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。

13. 给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数中

方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。
方案2：因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；这里我们把40亿个数中的每一个用32位的二进制来表示假设这40亿个数开始放在一个文件中。
然后将这40亿个数分成两类:1.最高位为0，2.最高位为1。并将这两类分别写入到两个文件中，其中一个文件中数的个数=20亿（这相当于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找。再然后把这个文件为又分成两类:1.次最高位为0，2.次最高位为1。并将这两类分别写入到两个文件中，其中一个文件中数的个数=10亿（这相当于折半了）；与要查找的数的次最高位比较并接着进入相应的文件再查找。
…….
以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完。

14. 一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析

用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度）。然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

15．100w个数中找出最大的100个数。

方案1：用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。
方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(100w*100)。
方案3：采用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，知道扫描了所有的元素。复杂度为O(100w*100)。

16．10台机器，每个机器2个cpu，2g内存，现在已知在10亿条记录的数据库里执行一次查询需要5秒，问用什么方法能让90%的查询能在100毫秒以内返回结果。

将10亿条记录排序,然后分到10个机器中,分的时候是一个记录一个记录的轮流分,确保每个机器记录大小分布差不多,每一次查询时,同时提交给10台机器,同时查询,因为记录已排序,可以采用二分法查询.如果无法排序,只能顺序查询,那就要看记录本身的概率分布,否则不可能实现.
10亿条数据均衡分配到10台电脑，每台电脑是1亿。PC数 1 2 3 4 5 6 7 8 9 10。2G内存 * 10 = 20G内存可以将90%的数据缓存到10台PC的内存中，剩下的数据缓存到硬件中的高速索引文件中。借此实现100毫秒响应系统。
2台机器共4个CPU，也就是说并行操作的数量为4，也就是说，分页查询的基本单位为4条，假设分3级，10亿约=2的30次方（1073741824），按照1：1024安排级差
第一级：全体数据
第二级：262124组数据/共1048576个
第三级：256组/1024个数据
只在第一级和第二级放数据，而更高级只放关键字的索引，可大大提高效率

海量数据融合互通丨TiDB 在安徽省住房公积金监管服务平台的应用实践 TiDB_PingCAP tidb htap 分布式
导读安徽省住房公积金监管服务平台通过整合全省17家公积金中心的数据，致力于实现数据共享、规范化管理与高效数据分析。为了应对海量数据处理需求，安徽省选择TiDB作为底层数据库，利用其分布式架构和HTAP能力，实现了快速的数据分析与治理。TiDB的高效性能提升了平台的数据处理能力和查询效率，为全省公积金数据的统一管理与共享提供了有力支持。本文将详细介绍TiDB在平台中的应用与实际效果，以及TiDB如何
全市场大模型分类及对比分析报告早退的程序员分类数据挖掘人工智能
全市场大模型分类及对比分析报告1.引言随着人工智能技术的飞速发展，大模型（LargeModels）已成为推动AI进步的核心力量。大模型凭借其强大的计算能力和海量数据处理能力，在自然语言处理（NLP）、计算机视觉（CV）、语音识别等领域取得了显著成果。本报告将对全市场中几类主要的大模型进行分类和对比分析，探讨其技术特点、应用场景及未来发展趋势。2.大模型分类根据模型架构、训练目标和应用领域，全市场的
2020年物联网白皮书深度解析你这人真狗
本文还有配套的精品资源，点击获取简介：《物联网白皮书（2020年）》深入分析了物联网的发展核心问题、趋势和挑战。物联网通过网络将各种设备连接起来，面临数据安全、设备连接标准化及海量数据处理等关键问题。该白皮书针对技术成熟度、市场渗透率及法规政策提出了策略建议，并对未来展望包括新技术应用和行业影响进行了预测。1.物联网核心问题分析1.1物联网定义与核心技术物联网（IoT）是通过信息传感设备，按照约定
基于 GBase 数据库的海量数据处理与性能优化 big crab 数据库 oracle
一、引言随着大数据时代的到来，海量数据的存储和高效处理成为各行业的核心需求。GBase系列数据库（包括GBase8a、GBase8s和GBase8c）以其强大的性能、灵活的存储架构以及高效的查询优化功能，成为处理大规模数据的理想选择。本文将从GBase数据库的特性出发，探讨如何在实际应用中进行海量数据的高效处理，同时提供相关代码示例，帮助开发者更好地理解和应用GBase数据库。二、GBase数据库
不吹不黑，客观理性深入探讨国产数据库小小不董不吹不黑系列数据库运维服务器 linux dba oracle
1.题记：本篇博文不吹不黑，客观理性深入探讨国产数据库。文中一些数据来自权威的媒体报道。2.国产数据库的现状1.国产主流数据库产品有哪些？国产数据库产品有多达数十种，但是大多数可能发展不尽如人意。我这里只列出一些国内主流的数据库产品。1.达梦数据库：达梦数据库简介:达梦数据库管理系统是具有完全自主知识产权的高性能数据库。其最新版本在可靠性、高性能、海量数据处理和安全性方面有显著提升。（前段时间达梦
如何应对ADAS/AD海量数据处理挑战？康谋自动驾驶汽车数据分析自动驾驶测试人工智能
目录一、问题背景二、内部构建或获取预组装解决方案三、总结随着软件定义汽车的发展，车辆生成的数据量也以前所未有的速度不断增加。这些数据包含广泛的信息，包括传感器数据、遥测数据、诊断数据等。在开发过程中，有效处理这些数据并从中获得见解至关重要。对于原始设备制造商（OEM）和汽车一级供应商（Tier1）来说，是否自主构建和维护数据处理流程是一个至关重要的考虑因素。数据处理流程是应对当下软件定义汽车所产生
机器学习在金融领域的应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
机器学习在金融领域的应用1.背景介绍1.1金融行业面临的挑战1.1.1海量数据处理1.1.2实时风险监控1.1.3个性化服务需求1.2机器学习的兴起1.2.1大数据时代的到来1.2.2计算能力的提升1.2.3算法的不断创新2.核心概念与联系2.1机器学习的定义与分类2.1.1有监督学习2.1.2无监督学习2.1.3强化学习2.2机器学习与人工智能、深度学习的关系2.2.1人工智能的发展历程2.2.
SpringCloud微服务架构-海量数据商用短链平台项目视频教程下载手把手教你学AI 架构 spring cloud 微服务
SpringCloud微服务架构-海量数据商用短链平台项目视频教程下载├─01.海量数据处理商用短链平台大课介绍（6节）│1.1-海量数据处理-商用短链平台大课介绍.mp4│1.2-短链平台技术栈-观看相关指引.mp4│1.3-海量数据处理商用短链平台项目亮点《上》.mp4│1.4-海量数据处理商用短链平台项目亮点《下》.mp4│1.5-大课解决的问题和跳槽职业发展规划.mp4│1.6-海量数据处
广东粤万润与时序数据库TDengine携手打造智慧酒店新未来：数据驱动智能化转型涛思数据（TDengine）大数据
在智能化转型浪潮席卷全球的当下，智慧酒店行业已然成为推进智能生活应用的先锋领域。从智能照明到环境监测，从安防系统到沉浸式影音娱乐，智慧酒店通过技术赋能为用户提供了更加舒适、高效且个性化的服务体验。然而，随着设备的增多和场景的复杂化，酒店客控系统也面临着海量数据处理、实时性保障及系统扩展性的多重挑战。在这一背景下，广东粤万润科技股份有限公司作为智慧生活领域的佼佼者，积极探索数据技术的深度应用，以应对
使用AI大模型进行企业数据分析与决策支持 MarkHD 人工智能数据分析数据挖掘
使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能，能够为企业提供精准、高效的数据分析服务，进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势：一、AI大模型在数据分析中的应用超级数据处理能力海量数据处理：AI大模型能够同时处理海量数据，包括结构化数据、非结构化数据等，满足企业大规模数据分析的需
海量数据处理商用短链接生成器平台 - 3 从零开始学习人工智能数据库 java 开发语言
第三章商用短链平台实战-账号微服务+流量包设计第1集账号微服务和流量包数据库表+索引规范讲解简介：账号微服务和流量包数据库表+索引规范讲解索引规范主键索引名为pk_字段名;pk即primarykey;唯一索引名为uk_字段名；uk即uniquekey普通索引名则为idx_字段名；idx即index的简称account表CREATETABLE`account`(`id`bigintunsignedN
海量数据处理商用短链接生成器平台 - 4 从零开始学习人工智能 java spring boot
第六章架构核心技术-池化思想-异步结合性能优化最佳实践第1集RestTemplate里面的存在的问题你知道多少-Brokenpipe错误项目就更新到第六章了，剩下的内容放百度网盘里面了，需要的来取。链接：https://pan.baidu.com/s/19LHPw36dsxPB75z_FHS64Q?pwd=8h89提取码：8h89简介：RestTemplate里面的存在的问题你知道多少还原代码（暂
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） Dimple七
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲时，便在看“Hadoop”，
分布式环境下，互斥性与幂等性问题，分析与解决思路 life_niu
随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题，系统架构也在不断演进。传统的集中式系统已经逐渐无法满足要求，分布式系统被使用在更多的场景中。分布式系统由独立的服务器通过网络松散耦合组成。在这个系统中每个服务器都是一台独立的主机，服务器之间通过
高级数据结构与算法 | 布谷鸟过滤器（Cuckoo Filter）：原理、实现、LSM Tree 优化凌桓丶数据结构与算法 lsm-tree 数据结构存储算法 cuckoo filter
文章目录CuckooFilter基本介绍布隆过滤器局限变体布谷鸟哈希布谷鸟过滤器实现数据结构优化项VictimCache备用位置计算半排序桶插入查找删除应用场景：LSM优化CuckooFilter基本介绍如果对布隆过滤器不太了解，可以看看往期博客：海量数据处理（一）：位图与布隆过滤器的概念以及实现布隆过滤器局限对于需要处理海量数据的时候，如果我们需要快速判断一条记录是否，通常会使用过滤器来进行验证
[数据结构] 位图&布隆过滤器一氧化二氢的执着数据结构算法
文章目录1.位图1.1位图概念1.2位图实现1.3位图应用2.布隆过滤器2.1布隆过滤器概念2.2布隆过滤器插入2.3布隆过滤器查找删除2.4布隆过滤器优缺点3.海量数据处理1.位图1.1位图概念C++标准库中自带bitset,首先查看参考文档分析位图位集一种位集存储位（只有两个可能值的元素：0或1true或false，…）。该类模拟bool元素数组，但针对空间分配进行了优化：通常，每个元素仅占用
【C++干货铺】哈希结构的应用：位图 | 布隆过滤器 | 海量数据处理小白不是程序媛 C++干货铺哈希算法算法布隆过滤器哈希切割 c++学习
目录位图位图的概念位图的实现位图的应用布隆过滤器布隆过滤器的提出布隆过滤器的概念布隆过滤器的插入布隆过滤器的查找布隆过滤器的删除布隆过滤器的优点布隆过滤器的缺陷哈希切分位图位图的概念一道面试题给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。【腾讯】解决方案：从头到尾遍历这40亿个数。时间复杂度排序()+二分查找其实这里最大的问题是这40亿个整数将近
海量数据处理商用短链接生成器平台 - 2 从零开始学习人工智能 java spring boot spring cloud java-ee dubbo
第二章短链平台项目创建+git代码管理+开发分层规范第1集短链平台实战-Maven聚合工程创建微服务项目**简介：Maven聚合工程创建微服务项目实战**Maven聚合工程拆分dcloud-common公共依赖包dcloud-appFlink+Kafka实时计算dcloud-account账号+流量包微服务dcloud-data数据可视化微服务dcloud-gateway业务网关dcloud-li
海量数据处理商用短链接生成器平台从零开始学习人工智能 java开发 eclipse java hibernate spring maven kafka spring boot
第一章海量数据处理商用短链接生成器平台介绍第1集什么是短链接生成器短链接生成器是一种工具，可以将较长的链接转换成较短的链接。这种工具在许多场景中都很有用，包括营销、社交媒体分享和数据报告等。以下是一些关于短链接生成器的优点和作用：优点：缩短链接长度：短链接生成器可以将长链接缩短，使其更易于在社交媒体、电子邮件、短信等渠道中分享和传播。增强链接可读性：短链接通常更容易阅读和理解，特别是对于那些在移动
火山引擎ByteHouse：分析型数据库如何设计列式存储字节数据平台火山引擎数据库
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群列式存储通过支持按列存储数据，提供高性能的数据分析和查询。作为云原生数据仓库的ByteHouse，也采用列式存储设计，保证读写性能、支持事务一致性，又适用大规模的数据计算，为用户提供极速分析体验和海量数据处理能力，提升企业数字化转型能力。列式存储介绍分析型数据库中的列式存储，是一种数据库的物理存储结构，它是根据数据
分布式系统互斥性与幂等性问题的分析与解决 leiwingqueen
原文链接随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题，系统架构也在不断演进。传统的集中式系统已经逐渐无法满足要求，分布式系统被使用在更多的场景中。分布式系统由独立的服务器通过网络松散耦合组成。在这个系统中每个服务器都是一台独立的主机，服务器
踏破寒冬，SQLynx 2.1.3版如约而至，引爆数据库新风潮！国产Navicat替代品震撼登场，解放数据库开发者的选择困境，重塑数据库格局，替代品引领创新浪潮！吃海的虾酱工具技巧 mysql oracle sqlserver sql nosql mongodb 数据库
【SQLynx是什么？】SQLynx原名SQLStudio，是一款WEB版通用多数据源的数据库管理开发工具。这款SQL工具免安装，支持团队协同开发，远程访问，高效海量数据处理，个人版免费。时逢冬至，严寒悄然而至，SQLynx团队在此为开发者们送上全方位提升的SQL开发暖心体验！在本次更新的2.1.3版本中，我们聚焦于优化扩展导入导出、备份迁移、生成测试数据等功能，并进一步加强了查询数据的速度，致力
JAVA的面试题四菜鸟程序员z java 开发语言面试
1.电商行业特点（1）分布式：①垂直拆分:根据功能模块进行拆分②水平拆分:根据业务层级进行拆分（2）高并发：用户单位时间内访问服务器数量,是电商行业中面临的主要问题（3）集群：抗击高兵发的有效手段,同时集群内部实现高可用（4）海量数据处理：随着公司数据的不断积累.自身的数据量很庞大.如果高效的处理数据/分析2.框架调用流程3.EasyUI后台调用流程4.分布式项目的设计思想为了实现架构之间的松耦合
SeaTunnel 海量数据同步工具的使用（连载中……） programmer_山风 JAVA进阶 java
一、概述SeaTunnel是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，前身是WaterDrop（中文名：水滴），自2021年10月12日更名为SeaTunnel。2021年12月9日，SeaTunnel正式通过Apache软件基金会的投票决议，以全票通过的优秀表现正式成为Apache孵化器项目。2022年3月18日社区正式发布了收个Apache版本V2.1.0。官网地址：A
客户案例｜知名证券机构核心大数据平台升级之路云掣YUNCHE 产品介绍大数据云原生运维开发
1项目背景在金融领域中，数据处理一直是IT系统中非常重要的一部分，证券发行、登记、托管、交易、结算的各个环节都有大量的数据产生。Hadoop作为海量数据处理的关键技术框架，自诞生以来就改变了企业对数据的存储、处理和分析的过程，因具备开源低成本、高可靠等特性，在证券行业得到了广泛的应用。某综合类证券机构，早年以Hadoop平台为基础，结合多种大数据处理技术，构建了大数据专用存储与处理系统。但随着实际
架构05- 理解架构的演进我还是个少年架构
关注公众号：领取架构师面试资料在学习架构时，首要的步骤并不是去学习具体的框架，而是要了解架构的演进过程。我强烈推荐您阅读李智慧老师的《大型网站技术架构》这本书。这本书内容丰富，阅读起来很迅速，对于建立自己的技术知识体系非常有帮助。本文的内容就是参考了该书，并在此基础上进行了扩展和解释。架构的演进：大型网站架构的技术挑战主要源于庞大的用户数量、高并发访问和海量数据处理。当一个简单的业务需求需要处理数
redis — redis cluster集群模式下如何实现批量可重入锁？ RachelHwang redis redis 哈希算法 java 后端缓存 spring boot
一、rediscluster集群版在Redis3.0版本以后，Redis发布了RedisCluster。该集群主要支持搞并发和海量数据处理等优势，当Redis在集群模式下运行时,它处理数据存储的方式与作为单个实例运行时不同。这是因为它应该准备好跨多个节点分发数据,从而实现水平可扩展性。具体能力表现为：自动分割数据到不同的节点上整个集群的部分节点失败或者不可达的情况下能够继续处理命令Redis没有使
冰河开始对Dubbo下手了！冰河团队
写在前面对冰河有一定了解的读者都知道，冰河经历了一个高并发电商系统用户从零到上亿的整个研发过程，后期也由此衍生出电商系统（商城+秒杀）和基于海量数据的实时精准商品推荐平台。部分核心知识已总结到我出版的两本书籍——《海量数据处理与大数据技术实战》和《MySQL技术大全：开发、优化与运维实战》中。随着电商系统业务的不断发展，我们需要对系统不断的迭代升级，这期间，Dubbo功不可没。在微服务领域有两个比
TDengine 签约西电电力涛思数据（TDengine）新闻 tdengine 大数据时序数据库
近年来，随着云计算和物联网技术的迅猛发展，传统电力行业正朝着数字化、信息化和智能化的大趋势迈进。在传统业务基础上，电力行业构建了信息网络、通信网络和能源网络，致力于实现发电、输电、变电、配电和用电的实时智能联动。在这个过程中，电力物联网领域产生的数据采集量呈现爆炸式增长，应对海量数据处理需求成为推动行业改革的重要任务。近日，TDengine与西电电力达成签约合作，助力其智慧能源系统的优化发展。TD
海量数据处理数据结构之Hash与布隆过滤器 abcd552191868 哈希算法布隆过滤器分布式哈希算法海量数据查询下平衡二叉树
前言随着网络和大数据时代的到来，我们如何从海量的数据中找到我们需要的数据就成为计算机技术中不可获取的一门技术，特别是近年来抖音，快手等热门短视频的兴起，我们如何设计算法来从大量的视频中获取当前最热门的视频信息呢，这就是我们今天即将谈到的Hash和布隆过滤器。以下是Hash和布隆过滤器的一些常见应用：使用word文档时，如何判断某个单词是否拼写正确？网络爬虫程序时，怎么让它不去爬相同的url页面(将
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，