大数据解决方案核心的核心 —— Map技术

对于c++程序来说 map的使用无处不在。影响程序性能的瓶颈也往往是map的性能。尤其在大数据情况下,以及业务关联紧密而无法实现数据分
发和并行处理的情况。map的性能就成了最关键的技术。

在电信行业和信息安全行业的工作经历,我都是和底层大数据打交道,尤其信息安全行业数据最复杂,都离不开map。
比如:ip表、mac表,电话号码表、域名解析表、身份证号码表的查询、病毒木马的特征码的云查杀等等。
stl库的map采用二分查找,性能最差。Google的哈希map性能和内存目前是最优的,但是有重复碰撞的机率。现在大数据 基本上不用有碰撞
几率的map。

现在我把pwwMap算法发布出来。大家可以测试对比发现,我的算法属于零碰撞的几率,但是性能比哈希算法还优。就是普通map的性能也和google相差无几。

程序使用我的map 最直接的效益就是 原来需要十个服务器解决的方案 现在只需要一个服务器。

下载地址:第二个实时更新代码
http://download.csdn.net/detail/pww71/9379828
http://sourceforge.net/projects/pwwhashmap/?source=navbar

pwwMap包含三种map。
1、memmap  支持插入,修改,删除,查询等日常操作。适合任何场合下使用。采用独特的索引技术,性能和内存比stl库的map高百倍以上。
2、hashmap  仅仅支持查询。适合高速查询的场合。完美哈希算法,无碰撞几率。性能比目前的google哈希算法快100倍。
3、diskmap 支持插入,修改,删除,查询等日常操作,nosql单机版的功能。其数据量可以高达百亿,查询性能依旧强劲。对比google的leveldb技术,优势明显。
个人认为:1和2两种map是核心,3的map主要是采用了1的map做索引,所以性能才超越google的levedb。

我的算法是完美哈希算法,键的索引以及压缩算法的原理是独树一帜与众不同的,关键是结构完全不同,所以键索引压缩就根本性不同。大家
可以参考以下文章:
http://blog.csdn.net/chixinmuzi/article/details/1727195

欢迎加入qq技术群:14773392

你可能感兴趣的:(大数据解决方案核心的核心 —— Map技术)