jxh_123

Trie字典树算法

说明：本文转自 http://powman.org/archives/trie.html

前一段时间写了个微型输入法，使用map进行查找，发现效率不高。正好最近也在针对一个查找功能做优化，针对我的应用场景使用了Trie字典树。

特性

Trie树属于树形结构，查询效率比红黑树和哈希表都要快。假设有这么一种应用场景：有若干个英文单词，需要快速查找某个单词是否存在于字典中。使用Trie时先从根节点开始查找，直至匹配到给出字符串的最后一个节点。在建立字典树结构时，预先把带有相同前缀的单词合并在同一节点，直至两个单词的某一个字母不同，则再从发生差异的节点中分叉一个子节点。

节点结构：
每个节点对应一个最大可储存字符数组。假设字典只存26个小写英文字母，那么每个节点下应该有一个长度为26的数组。换言说，可存的元素类型越多，单个节点占用内存越大。如果用字典树储存汉字，那么每个节点必须为数千个常用汉字开辟一个数组作为储存空间，占用的内存实在不是一个数量级。不过Trie树就是一种用空间换时间的数据结构，鱼和熊掌往往不可兼得。

建树细节：

取要插入字符串的首个字符，从根节点的孩子节点开始，匹配当前字符是否已有节点，有则把指针指向该节点。无则为该字符创建节点，并把指针指向该新建节点。
迭代。
遇到要插入字符串末尾结束符时停止迭代，并把最后一个非’\0′字符对应的节点设为末端节点。

查找细节：
循环取要插入字符串的首个字符，从根节点的孩子节点开始，匹配当前字符是否已有节点，有则继续循环，无则返回False. 直至匹配到最后一个字符则完成查找。

树结构图：
我们用apps, apply, apple, append, back, basic, backen几英文单词创建树形结构：

上图很容易看出，有相同前缀的英文单词，会合并在同一个节点，Trie树顺着一个个节点进行检索，直至找到最后一个节点。代码如下：

 
          #include  
         
          struct 
          trie_node 
         
          { 
         
          static 
          const 
           int 
          letter_count = 26; 
         
          int 
          count; 
         
          bool 
          is_terminal; 
         
          char 
          letter; 
         
          trie_node* childs[letter_count]; 
         
          trie_node() 
         
          : letter(0), count(1), is_terminal( 
          false 
          ) 
         
          { 
         
          for 
          ( 
          int 
          i = 0; i < letter_count; ++i) 
         
          childs[i] = NULL; 
         
          } 
         
          }; 
         
          class 
          trie 
         
          { 
         
          public 
          : 
         
          trie() 
         
          : root_node_(NULL) 
         
          { 
         
          } 
         
          ~trie() 
         
          { 
         
          delete_trie(root_node_); 
         
          } 
         
          public 
          : 
         
          trie_node* create() 
         
          { 
         
          trie_node* n =  
          new 
           trie_node(); 
         
          return 
          n; 
         
          } 
         
          void 
          insert( 
          const 
          char 
          * str) 
         
          { 
         
          if 
          (!root_node_ || !str) 
         
          root_node_ = create(); 
         
          trie_node* next_element_node = root_node_; 
         
          while 
          (*str != 0) 
         
          { 
         
          char 
          element_index = *str -  
          'a' 
          ; 
         
          if 
          (!next_element_node->childs[element_index]) 
         
          { 
         
          next_element_node->childs[element_index] = create(); 
         
          } 
         
          else 
         
          { 
         
          next_element_node->childs[element_index]->count++; 
         
          } 
         
          next_element_node = next_element_node->childs[element_index]; 
         
          next_element_node->letter = *str; 
         
          str++; 
         
          } 
         
          next_element_node->is_terminal =  
          true 
          ; 
         
          } 
         
          bool 
          find_word_exists( 
          const 
          char 
          * str) 
         
          { 
         
          if 
          (!root_node_ || !str) 
         
          return 
          NULL; 
         
          trie_node* element_node = root_node_; 
         
          do 
         
          { 
         
          element_node = element_node->childs[*str -  
          'a' 
          ]; 
         
          if 
          (!element_node)  
          return 
          false 
          ; 
         
          str++; 
         
          }  
          while 
           (*str != 0); 
         
          return 
          element_node->is_terminal; 
         
          } 
         
          void 
          delete_trie(trie_node* node) 
         
          { 
         
          if 
          (!node)  
          return 
          ; 
         
          for 
          ( 
          int 
          i = 0; i < trie_node::letter_count; i++) 
         
          { 
         
          if 
          (node->childs[i] != NULL) 
         
          delete_trie(node->childs[i]); 
         
          } 
         
          delete 
          node; 
         
          } 
         
          private 
          : 
         
          trie_node* root_node_; 
         
          };

Trie、红黑树和哈希表的效率对比

为了测试三者效率，我使用了一份大约有20万个英文词汇，大小约2.2MB的字典文件分别向Trie、红黑树和哈希表进行插入、查询两种操作对比，并做了时间计算。

测试环境：

操作系统	CentOS 64-bit
CPU	Intel(R) Core(TM) i7-2600K
编译环境	g++ 4.4.7

测试代码：

 
          #include  
         
          #include  
         
          #include  
         
          #include  
         
          #include  
         
          #include  
         
          int 
          main( 
          int 
          argc,  
          char 
          * argv[]) 
         
          { 
         
          std::set rbtree_dict; 
         
          std::unordered_map hash_map_dict; 
         
          trie t; 
         
          long 
          time_sp = 0, time_sp_rbtree = 0, time_sp_hash_map = 0; 
         
          std::ifstream stream_in( 
          "./dict.txt" 
          , std::ios::in); 
         
          if 
          (stream_in.is_open()) 
         
          { 
         
          int 
          count = 0; 
         
          int 
          lineLength = 1024; 
         
          char 
          * buffer =  
          new 
           char 
          [lineLength]; 
         
          while 
          (stream_in.getline(buffer, lineLength)) 
         
          { 
         
          count++; 
         
          timeval trie_tv_start, trie_tv_end, rbtree_tv_start, rbtree_tv_end, hashmap_tv_start, hashmap_tv_end; 
         
          gettimeofday(&trie_tv_start, NULL); 
         
          long 
          trie_start = (( 
          long 
          )trie_tv_start.tv_sec) * 1000 + ( 
          long 
          )trie_tv_start.tv_usec / 1000; 
         
          t.insert(buffer); 
         
          gettimeofday(&trie_tv_end, NULL); 
         
          time_sp += ((( 
          long 
          )trie_tv_end.tv_sec) * 1000 + ( 
          long 
          )trie_tv_end.tv_usec / 1000) - trie_start; 
         
          gettimeofday(&rbtree_tv_start, NULL); 
         
          long 
          rbtree_start = (( 
          long 
          )rbtree_tv_start.tv_sec) * 1000 + ( 
          long 
          )rbtree_tv_start.tv_usec / 1000; 
         
          rbtree_dict.insert(buffer); 
         
          gettimeofday(&rbtree_tv_end, NULL); 
         
          time_sp_rbtree += ((( 
          long 
          )rbtree_tv_end.tv_sec) * 1000 + ( 
          long 
          )rbtree_tv_end.tv_usec / 1000) - rbtree_start; 
         
          gettimeofday(&hashmap_tv_start, NULL); 
         
          long 
          hashmap_start = (( 
          long 
          )hashmap_tv_start.tv_sec) * 1000 + ( 
          long 
          )hashmap_tv_start.tv_usec / 1000; 
         
          hash_map_dict.insert(std::make_pair(buffer, buffer)); 
         
          gettimeofday(&hashmap_tv_end, NULL); 
         
          time_sp_hash_map += ((( 
          long 
          )hashmap_tv_end.tv_sec) * 1000 + ( 
          long 
          )hashmap_tv_end.tv_usec / 1000) - hashmap_start; 
         
          } 
         
          } 
         
          std::cout <<  
          "Build dictionary : \n" 
         
          "   Trie      : " 
          << time_sp <<  
          " ms.\n" 
          << 
         
          "   Rbtree    : " 
          << time_sp_rbtree <<  
          " ms.\n" 
          << 
         
          "   HashTable : " 
          << time_sp_hash_map <<  
          " ms." 
          << std::endl; 
         
          const 
          char 
          * keyword =  
          "zygomaticoauricularis" 
          ; 
         
          timeval trie_find_tv_start, trie_find_tv_end, rbtree_find_tv_start, rbtree_find_tv_end, hashmap_find_tv_start, hashmap_find_tv_end; 
         
          gettimeofday(&trie_find_tv_start, NULL); 
         
          std::string status; 
         
          long 
          trie_start = (( 
          long 
          )trie_find_tv_start.tv_sec) * 1000 + ( 
          long 
          )trie_find_tv_start.tv_usec / 1000; 
         
          for 
          ( 
          int 
          i = 0; i < 10000; i++) 
         
          { 
         
          status = t.find_word_exists(keyword) ==  
          true 
           ?  
          "true" 
           :  
          "false" 
          ; 
         
          } 
         
          gettimeofday(&trie_find_tv_end, NULL); 
         
          long 
          trie_end_time = ((( 
          long 
          )trie_find_tv_end.tv_sec) * 1000 + ( 
          long 
          )trie_find_tv_end.tv_usec / 1000) - trie_start; 
         
          gettimeofday(&rbtree_find_tv_start, NULL); 
         
          long 
          rbtree_start = (( 
          long 
          )rbtree_find_tv_start.tv_sec) * 1000 + ( 
          long 
          )rbtree_find_tv_start.tv_usec / 1000; 
         
          for 
          ( 
          int 
          i = 0; i < 10000; i++) 
         
          { 
         
          rbtree_dict.find(keyword); 
         
          } 
         
          gettimeofday(&rbtree_find_tv_end, NULL); 
         
          long 
          rbtree_end_time = ((( 
          long 
          )rbtree_find_tv_end.tv_sec) * 1000 + ( 
          long 
          )rbtree_find_tv_end.tv_usec / 1000) - rbtree_start; 
         
          gettimeofday(&hashmap_find_tv_start, NULL); 
         
          long 
          hashtable_start = (( 
          long 
          )hashmap_find_tv_start.tv_sec) * 1000 + ( 
          long 
          )hashmap_find_tv_start.tv_usec / 1000; 
         
          for 
          ( 
          int 
          i = 0; i < 10000; i++) 
         
          { 
         
          hash_map_dict.find(keyword); 
         
          } 
         
          gettimeofday(&hashmap_find_tv_end, NULL); 
         
          long 
          hashtable_end_time = ((( 
          long 
          )hashmap_find_tv_end.tv_sec) * 1000 + ( 
          long 
          )hashmap_find_tv_end.tv_usec / 1000) - hashtable_start; 
         
          std::cout <<  
          "Word <'" 
           << keyword <<  
          "'> search result : " 
          << status <<  
          ", elapsed time : \n" 
         
          "   Trie : " 
          << trie_end_time <<  
          " ms.\n" 
          << 
         
          "   Rbtree : " 
          << rbtree_end_time <<  
          " ms.\n" 
          << 
         
          "   HashTable : " 
          << hashtable_end_time <<  
          " ms." 
          << std::endl; 
         
          return 
          0; 
         
          }

测试结果如下：

	建表（耗时/ms）	查询（耗时/ms）
Trie（字典树）	143ms	0ms
std::set（红黑树）	235ms	14ms
std::unordered_map（哈希表）	188ms	8ms

从测试数据看来，结果无论是建树还是查询，Trie都仅仅是略胜红黑树和哈希表，但也可以看出Trie树这种非常简单的数据结构在这方面的效率足以和红黑树以及哈希表持平甚至略占优势。但并不能因此表明Trie是一种超越红黑树和哈希表的数据结构，它只是更加适合这种以公共前缀进行查询的场合。不过对于上面测试代码，仍然有失公平，比如说在哈希表建表时仍然会把hash key的消耗计算在内。但有趣的是，在VS2012环境下编译并一样在关闭编译器优化的情况下，Windows下的测试数据却普遍比在gcc编译的要慢好几倍甚至好几十倍，这是为什么呢？

你可能感兴趣的:(数据结构与算法设计,海量数据处理)

广东粤万润与时序数据库TDengine携手打造智慧酒店新未来：数据驱动智能化转型涛思数据（TDengine）大数据
在智能化转型浪潮席卷全球的当下，智慧酒店行业已然成为推进智能生活应用的先锋领域。从智能照明到环境监测，从安防系统到沉浸式影音娱乐，智慧酒店通过技术赋能为用户提供了更加舒适、高效且个性化的服务体验。然而，随着设备的增多和场景的复杂化，酒店客控系统也面临着海量数据处理、实时性保障及系统扩展性的多重挑战。在这一背景下，广东粤万润科技股份有限公司作为智慧生活领域的佼佼者，积极探索数据技术的深度应用，以应对
使用AI大模型进行企业数据分析与决策支持 MarkHD 人工智能数据分析数据挖掘
使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能，能够为企业提供精准、高效的数据分析服务，进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势：一、AI大模型在数据分析中的应用超级数据处理能力海量数据处理：AI大模型能够同时处理海量数据，包括结构化数据、非结构化数据等，满足企业大规模数据分析的需
海量数据处理商用短链接生成器平台 - 3 从零开始学习人工智能数据库 java 开发语言
第三章商用短链平台实战-账号微服务+流量包设计第1集账号微服务和流量包数据库表+索引规范讲解简介：账号微服务和流量包数据库表+索引规范讲解索引规范主键索引名为pk_字段名;pk即primarykey;唯一索引名为uk_字段名；uk即uniquekey普通索引名则为idx_字段名；idx即index的简称account表CREATETABLE`account`(`id`bigintunsignedN
海量数据处理商用短链接生成器平台 - 4 从零开始学习人工智能 java spring boot
第六章架构核心技术-池化思想-异步结合性能优化最佳实践第1集RestTemplate里面的存在的问题你知道多少-Brokenpipe错误项目就更新到第六章了，剩下的内容放百度网盘里面了，需要的来取。链接：https://pan.baidu.com/s/19LHPw36dsxPB75z_FHS64Q?pwd=8h89提取码：8h89简介：RestTemplate里面的存在的问题你知道多少还原代码（暂
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） Dimple七
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲时，便在看“Hadoop”，
分布式环境下，互斥性与幂等性问题，分析与解决思路 life_niu
随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题，系统架构也在不断演进。传统的集中式系统已经逐渐无法满足要求，分布式系统被使用在更多的场景中。分布式系统由独立的服务器通过网络松散耦合组成。在这个系统中每个服务器都是一台独立的主机，服务器之间通过
高级数据结构与算法 | 布谷鸟过滤器（Cuckoo Filter）：原理、实现、LSM Tree 优化凌桓丶数据结构与算法 lsm-tree 数据结构存储算法 cuckoo filter
文章目录CuckooFilter基本介绍布隆过滤器局限变体布谷鸟哈希布谷鸟过滤器实现数据结构优化项VictimCache备用位置计算半排序桶插入查找删除应用场景：LSM优化CuckooFilter基本介绍如果对布隆过滤器不太了解，可以看看往期博客：海量数据处理（一）：位图与布隆过滤器的概念以及实现布隆过滤器局限对于需要处理海量数据的时候，如果我们需要快速判断一条记录是否，通常会使用过滤器来进行验证
[数据结构] 位图&布隆过滤器一氧化二氢的执着数据结构算法
文章目录1.位图1.1位图概念1.2位图实现1.3位图应用2.布隆过滤器2.1布隆过滤器概念2.2布隆过滤器插入2.3布隆过滤器查找删除2.4布隆过滤器优缺点3.海量数据处理1.位图1.1位图概念C++标准库中自带bitset,首先查看参考文档分析位图位集一种位集存储位（只有两个可能值的元素：0或1true或false，…）。该类模拟bool元素数组，但针对空间分配进行了优化：通常，每个元素仅占用
【C++干货铺】哈希结构的应用：位图 | 布隆过滤器 | 海量数据处理小白不是程序媛 C++干货铺哈希算法算法布隆过滤器哈希切割 c++学习
目录位图位图的概念位图的实现位图的应用布隆过滤器布隆过滤器的提出布隆过滤器的概念布隆过滤器的插入布隆过滤器的查找布隆过滤器的删除布隆过滤器的优点布隆过滤器的缺陷哈希切分位图位图的概念一道面试题给40亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这40亿个数中。【腾讯】解决方案：从头到尾遍历这40亿个数。时间复杂度排序()+二分查找其实这里最大的问题是这40亿个整数将近
海量数据处理商用短链接生成器平台 - 2 从零开始学习人工智能 java spring boot spring cloud java-ee dubbo
第二章短链平台项目创建+git代码管理+开发分层规范第1集短链平台实战-Maven聚合工程创建微服务项目**简介：Maven聚合工程创建微服务项目实战**Maven聚合工程拆分dcloud-common公共依赖包dcloud-appFlink+Kafka实时计算dcloud-account账号+流量包微服务dcloud-data数据可视化微服务dcloud-gateway业务网关dcloud-li
海量数据处理商用短链接生成器平台从零开始学习人工智能 java开发 eclipse java hibernate spring maven kafka spring boot
第一章海量数据处理商用短链接生成器平台介绍第1集什么是短链接生成器短链接生成器是一种工具，可以将较长的链接转换成较短的链接。这种工具在许多场景中都很有用，包括营销、社交媒体分享和数据报告等。以下是一些关于短链接生成器的优点和作用：优点：缩短链接长度：短链接生成器可以将长链接缩短，使其更易于在社交媒体、电子邮件、短信等渠道中分享和传播。增强链接可读性：短链接通常更容易阅读和理解，特别是对于那些在移动
火山引擎ByteHouse：分析型数据库如何设计列式存储字节数据平台火山引擎数据库
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群列式存储通过支持按列存储数据，提供高性能的数据分析和查询。作为云原生数据仓库的ByteHouse，也采用列式存储设计，保证读写性能、支持事务一致性，又适用大规模的数据计算，为用户提供极速分析体验和海量数据处理能力，提升企业数字化转型能力。列式存储介绍分析型数据库中的列式存储，是一种数据库的物理存储结构，它是根据数据
分布式系统互斥性与幂等性问题的分析与解决 leiwingqueen
原文链接随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。为了解决这一系列问题，系统架构也在不断演进。传统的集中式系统已经逐渐无法满足要求，分布式系统被使用在更多的场景中。分布式系统由独立的服务器通过网络松散耦合组成。在这个系统中每个服务器都是一台独立的主机，服务器
踏破寒冬，SQLynx 2.1.3版如约而至，引爆数据库新风潮！国产Navicat替代品震撼登场，解放数据库开发者的选择困境，重塑数据库格局，替代品引领创新浪潮！吃海的虾酱工具技巧 mysql oracle sqlserver sql nosql mongodb 数据库
【SQLynx是什么？】SQLynx原名SQLStudio，是一款WEB版通用多数据源的数据库管理开发工具。这款SQL工具免安装，支持团队协同开发，远程访问，高效海量数据处理，个人版免费。时逢冬至，严寒悄然而至，SQLynx团队在此为开发者们送上全方位提升的SQL开发暖心体验！在本次更新的2.1.3版本中，我们聚焦于优化扩展导入导出、备份迁移、生成测试数据等功能，并进一步加强了查询数据的速度，致力
JAVA的面试题四菜鸟程序员z java 开发语言面试
1.电商行业特点（1）分布式：①垂直拆分:根据功能模块进行拆分②水平拆分:根据业务层级进行拆分（2）高并发：用户单位时间内访问服务器数量,是电商行业中面临的主要问题（3）集群：抗击高兵发的有效手段,同时集群内部实现高可用（4）海量数据处理：随着公司数据的不断积累.自身的数据量很庞大.如果高效的处理数据/分析2.框架调用流程3.EasyUI后台调用流程4.分布式项目的设计思想为了实现架构之间的松耦合
SeaTunnel 海量数据同步工具的使用（连载中……） programmer_山风 JAVA进阶 java
一、概述SeaTunnel是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，前身是WaterDrop（中文名：水滴），自2021年10月12日更名为SeaTunnel。2021年12月9日，SeaTunnel正式通过Apache软件基金会的投票决议，以全票通过的优秀表现正式成为Apache孵化器项目。2022年3月18日社区正式发布了收个Apache版本V2.1.0。官网地址：A
客户案例｜知名证券机构核心大数据平台升级之路云掣YUNCHE 产品介绍大数据云原生运维开发
1项目背景在金融领域中，数据处理一直是IT系统中非常重要的一部分，证券发行、登记、托管、交易、结算的各个环节都有大量的数据产生。Hadoop作为海量数据处理的关键技术框架，自诞生以来就改变了企业对数据的存储、处理和分析的过程，因具备开源低成本、高可靠等特性，在证券行业得到了广泛的应用。某综合类证券机构，早年以Hadoop平台为基础，结合多种大数据处理技术，构建了大数据专用存储与处理系统。但随着实际
架构05- 理解架构的演进我还是个少年架构
关注公众号：领取架构师面试资料在学习架构时，首要的步骤并不是去学习具体的框架，而是要了解架构的演进过程。我强烈推荐您阅读李智慧老师的《大型网站技术架构》这本书。这本书内容丰富，阅读起来很迅速，对于建立自己的技术知识体系非常有帮助。本文的内容就是参考了该书，并在此基础上进行了扩展和解释。架构的演进：大型网站架构的技术挑战主要源于庞大的用户数量、高并发访问和海量数据处理。当一个简单的业务需求需要处理数
redis — redis cluster集群模式下如何实现批量可重入锁？ RachelHwang redis redis 哈希算法 java 后端缓存 spring boot
一、rediscluster集群版在Redis3.0版本以后，Redis发布了RedisCluster。该集群主要支持搞并发和海量数据处理等优势，当Redis在集群模式下运行时,它处理数据存储的方式与作为单个实例运行时不同。这是因为它应该准备好跨多个节点分发数据,从而实现水平可扩展性。具体能力表现为：自动分割数据到不同的节点上整个集群的部分节点失败或者不可达的情况下能够继续处理命令Redis没有使
冰河开始对Dubbo下手了！冰河团队
写在前面对冰河有一定了解的读者都知道，冰河经历了一个高并发电商系统用户从零到上亿的整个研发过程，后期也由此衍生出电商系统（商城+秒杀）和基于海量数据的实时精准商品推荐平台。部分核心知识已总结到我出版的两本书籍——《海量数据处理与大数据技术实战》和《MySQL技术大全：开发、优化与运维实战》中。随着电商系统业务的不断发展，我们需要对系统不断的迭代升级，这期间，Dubbo功不可没。在微服务领域有两个比
TDengine 签约西电电力涛思数据（TDengine）新闻 tdengine 大数据时序数据库
近年来，随着云计算和物联网技术的迅猛发展，传统电力行业正朝着数字化、信息化和智能化的大趋势迈进。在传统业务基础上，电力行业构建了信息网络、通信网络和能源网络，致力于实现发电、输电、变电、配电和用电的实时智能联动。在这个过程中，电力物联网领域产生的数据采集量呈现爆炸式增长，应对海量数据处理需求成为推动行业改革的重要任务。近日，TDengine与西电电力达成签约合作，助力其智慧能源系统的优化发展。TD
海量数据处理数据结构之Hash与布隆过滤器 abcd552191868 哈希算法布隆过滤器分布式哈希算法海量数据查询下平衡二叉树
前言随着网络和大数据时代的到来，我们如何从海量的数据中找到我们需要的数据就成为计算机技术中不可获取的一门技术，特别是近年来抖音，快手等热门短视频的兴起，我们如何设计算法来从大量的视频中获取当前最热门的视频信息呢，这就是我们今天即将谈到的Hash和布隆过滤器。以下是Hash和布隆过滤器的一些常见应用：使用word文档时，如何判断某个单词是否拼写正确？网络爬虫程序时，怎么让它不去爬相同的url页面(将
Spark大数据分析与实战笔记（第二章 Spark基础-05）想你依然心痛 spark 数据分析笔记
文章目录每日一句正能量前言2.5启动Spark-Shell2.5.1运行Spark-Shell命令2.5.2运行Spark-Shell读取HDFS文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免。前言在大数据处理和分析领域，Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架，Spark为开发人员提供了丰富的API和工具来处理和分析大规
架构设计内容分享(七十一)：架构必备：10WQPS超高并发架构的10大思想之乎者也· 架构设计内容分享架构架构设计
目录如何理解高并发系统1.业务分治思想+微服务拆分2.数据分治思想+分库分表3.读写分离思想+主从分离4.池化思想5.缓存思想6.异步思想+消息队列削锋7.服务保护思想：熔断降级8.限流思想9.扩容思想+切流量10.海量数据处理思想ElasticSearch+Hbase前提：压力测试确定系统瓶颈附：接口的常规优化的18个方案如何理解高并发系统所谓设计高并发系统，首先保证它整体可用的同时，然后，能够
Hash表的初步认识山有梧桐 java 开发语言后端
简介哈希表(hashtable）也叫作散列表,作为数据结构的一种,它的优点在于无论是插入操作还是查找操作,它的时间复杂度是o(1),正是因为这个优点,在海量数据处理的场景都会有它的身影.这其中的Hash也就是hash值,主要用于信息安全领域的加密算法,它把一些值转换为杂乱的128编码,这些编码值就叫做Hash值,换个方向去看这个Hash值,Hash就是一种数据与数据地址之间的映射关系.对java源
海量数据处理面试题 Alukar
1、常见海量数据处理方法hash、bit-map（位图法）、bllomfilter、数据库优化、倒排索引、外排序、Trie树、堆、双层桶、mapReduce法、分治2、hash法在海量数据处理中，Hash法一般可以快速存取、统计某些数据，将大量数据进行分类，例如，提取某日网站次数最多的IP地址3、bit-map位图法又叫位图法，基本原理是使用位数组来表示某些元素是否存在，它适用于海量数据的快速查找
位图及有关海量数据处理 C1238888 c++算法 sorting algorithm
bitset1.给40亿个不重复的无符号整数，没排过序，给一个无符号整数，如何快速判断一个数是否在这40亿个中①.如果用排序加二分查找，40亿个数需要16g内存，内存开不出这么大连续空间②.每个值映射一个比特位，需要开多少个比特位?并非40亿个，而是2^32个(42亿9千万)，开空间开的不是数据个数，而是数据范围0.5g采用位图解决数据是否在给定的整型数据中，结果是在或者不在，刚好是两种状态，那么
数据结构与算法之美学习笔记：38 | 分治算法：谈一谈大规模计算框架MapReduce中的分治思想浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言如何理解分治算法？分治算法应用举例分析分治思想在海量数据处理中的应用解答开篇内容小结前言本节课程思维导图：MapReduce是Google大数据处理的三驾马车之一，另外两个是GFS（hdfs）和Bigtable(hbase)。它在倒排索引、PageRank计算、网页分析等搜索引擎相关的技术中都有大量的应用。MapReduce的本质就是我们今天要学的这种算法思想，分治算法。如何理解分治算法？
【期末复习向】top-k方法诺坎普的风间 top-k 深度学习
什么是top-k方法？top-k方法常用于解决许多海量数据处理相关的问题，例如在1亿个数据中找出访问次数前1000的热点数据，在海量搜索字符串中找出搜索频率排在前十的搜索字符串等等。而在分类问题中，top-k也有其应用。例如在分类任务中的类别数很多时（如ImageNet中1000类），想要完美分类任务是比较困难的。但是模型虽然不能准确地将groundtruth作为最高概率预测出来，但通过学习，至少
位图、布隆过滤器、海量数据处理不是笨小孩i C++数据结构与算法数据结构 c++
文章目录位图布隆过滤器海量数据处理正文开始前给大家推荐个网站，前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。位图概念：所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。但是位图只能判断正整数的在不在问题。我们用一个比特位的0/1代表这个数的在不在。我们可以看到，我们直接开最大数个比特位+1就
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1