Redis新的存储模式diskstore

Redis作者antirez是一个非常勤奋的开发者，在Redis性能已经非常惊人的情况下持续不断开发新的特性，比如从新的cluster源代码看到，作者已经把Dynamo及Paxos一些核心的思想考虑进去并进行了一些简洁的实现。相比其它产品如Memcached则几年没什么大变化，在Web 2.0时代，Memcached已经非常不够用，技术人员需要考虑做很多额外工作才能让Memcached适应新的变化和需求。

antirez在1月5日Google Groups发表了一篇Redis diskstore文章，对Redis VM方式进行了反省，思考是否有更好的方式来大数据的Redis访问。

a few months after VM started to work my feeling about it started to be not very good… that VM was not the way to go for the future of Redis

适合Web 2.0数据访问最佳的方式就是完全基于内存，比如用Memcached或者Redis snapshot方式。但是更多的业务场景是数据规模会超过RAM容量，因此有几种不同的设计模式。

1. VM方式。将数据分页存放，由应用(如Redis)或者操作系统(如Varnish)将访问量较少的页即冷数据swap到磁盘上，访问多的页面由磁盘自动换出到内存中。应用实现VM缺点是代码逻辑复杂，如果业务上冷热数据边界并不分明，则换入换出代价太高，系统整体性能低。不少抢鲜的网友在微博上也反馈过使用VM种种不稳定情况。操作系统实现VM的缺点前文Redis几个认识误区已经有介绍。

2. 磁盘方式，所有的数据读写访问都是基于磁盘，由操作系统来只能的缓存访问的数据。由于现代操作系统都非常聪明，会将频繁访问的数据加入到内存中，因此应用并不需要过多特殊逻辑。MongoDB就是这种设计方式。这种方式也有一些已知的缺点，比如操作MMap写入磁盘由操作系统控制，操作系统先写哪里后写哪里应用并不知情，如果写入过程中发生了crash则数据一致性会存在问题。这个也是MongoDB饱受争议的单机Durability问题，

MongoDB is not designed around single-server durability, but rather multi-server durability.

不过MongoDB自己并不觉得这是一个问题，他们的意见是，在目前时代有必要考虑单机完全可靠吗？有必要吗？

3. 硬盘存储 + cache方式。实际原理和mysql+memcache方式类似，只不过将两者功能合二为一到一个底层服务中，简化了调用。

在上面几种方式中，除去VM，antirez觉得MongoDB方式也不太适合，因此选择了disktore方式来实现新的磁盘存储，具体细节是

1) 读操作，使用read through以及LRU方式。内存中不存在的数据从磁盘拉取并放入内存，内存中放不下的数据采用LRU淘汰。

2) 写操作，采用另外spawn一个线程单独处理，写线程通常是异步的，当然也可以把cache-flush-delay配置设成0，Redis尽量保证即时写入。但是在很多场合延迟写会有更好的性能，比如一些计数器用Redis存储，在短时间如果某个计数反复被修改，Redis只需要将最终的结果写入磁盘。这种做法作者叫per key persistence。由于写入会按key合并，因此和snapshot还是有差异，disk store并不能保证时间一致性。

由于写操作是单线程，即使cache-flush-delay设成0，多个client同时写则需要排队等待，如果队列容量超过cache-max-memory Redis设计会进入等待状态，造成调用方卡住。

Google Group上有热心网友迅速完成了压力测试，当内存用完之后，set每秒处理速度从25k下降到10k再到后来几乎卡住。虽然通过增加cache-flush-delay可以提高相同key重复写入性能；通过增加cache-max-memory可以应对临时峰值写入。但是diskstore写入瓶颈最终还是在IO。

3) rdb 和新 diskstore 格式关系
rdb是传统Redis内存方式的存储格式，diskstore是另外一种格式，那两者关系如何？

通过BGSAVE可以随时将diskstore格式另存为rdb格式，而且rdb格式还用于Redis复制以及不同存储方式之间的中间格式。
通过工具可以将rdb格式转换成diskstore格式。

当然，diskstore原理很美好，但是目前还处于alpha版本，也只是一个简单demo，diskstore.c加上注释只有300行，实现的方法就是将每个value作为一个独立文件保存，文件名是key的hash值。因此diskstore需要将来有一个更高效稳定的实现才能用于生产环境。但由于有清晰的接口设计，diskstore.c也很容易换成一种B-Tree的实现。很多开发者也在积极探讨使用bdb或者innodb来替换默认diskstore.c的可行性。

在Redis几个认识误区中也介绍过，Redis优势是丰富的内存数据结构，这个特性和数据持久保存天生是矛盾的，如用diskstore保存大list/set(如排行榜)性能会很差，每修改一个list元素则需要将整个大list重新保存，开销比使用传统RDBMS高很多。

用MongoDB的一句设计哲学结尾

Databases are specializing – the “one size fits all” approach no longer applies.

Redis容量及使用规划

Wednesday, Jan 5th, 2011 by Tim | 14 Comments
Filed under: data | Tags: memcache, memcached, mysql, redis

在使用Redis过程中，我们发现了不少Redis不同于Memcached，也不同于MySQL的特征。
(本文主要讨论Redis未启用VM支持情况)

1. Schema

MySQL: 需事先设计
Memcached: 无需设计
Redis: 小型系统可以不用，但是如果要合理的规划及使用Redis，需要事先进行类似如下一些规划

数据项: value保存的内容是什么，如用户资料
Redis数据类型: 如String, List
数据大小: 如100字节
记录数: 如100万条(决定是否需要拆分)
⋯⋯

上面的规划就是一种schema，为什么Redis在大型项目需要事先设计schema？因为Redis服务器有容量限制，数据容量不能超出物理内存大小，同时考虑到业务数据的可扩充性，记录数会持续增多、单条记录的内容也都会增长，因此需要提前规划好容量，数据架构师就是通过schema来判断当前业务的Redis是否需要“分库分表”以满足可扩展需求。

2. 容量及带宽规划

容量规划
MySQL: < 硬盘大小
Memcached: < RAM
Redis: < RAM

带宽规划
由于Redis比MySQL快10倍以上，因此带宽也是需要事先规划，避免带宽跑满而出现瓶颈。

3. 性能规划(QPS)

当系统读写出现瓶颈，通常如何解决？
MySQL
写: 拆分到多服务器
读: (1) 拆分 (2) 写少也可以通过增加Slave来解决

Memcached
读写: 都通过hash拆分到更多节点。

Redis:
写：拆分
读: (1) 拆分 (2) 写少也可以通过增加Slave来解决

4. 可扩展性

MySQL: 分库分表
Memcached: hash分布
Redis：也可以分库，也可以hash分布

小结

通过以上分析，Redis在很多方面同时具备MySQL及Memcached使用特征，在某些方面则更像MySQL。
由于Redis数据不能超过内存大小，一方面需要进行事先容量规划，保证容量足够；另外一方面设计上需要防止数据规模无限制增加，进而导致Redis不可扩展。
Redis需要象MySQL一样预先设计好拆分方案。

小问题

在MySQL中，通过预先建立多表或者库可以在业务增长时候将这些表或库一分为二部署到更多服务器上。
在Redis中，“分库分表”应当如何实现？有什么好的设计模式？

Redis几个认识误区

Saturday, Dec 4th, 2010 by Tim | 42 Comments
Filed under: data | Tags: key value store, redis

前几天微博发生了一起大的系统故障，很多技术的朋友都比较关心，其中的原因不会超出James Hamilton在On Designing and Deploying Internet-Scale Service(1)概括的那几个范围，James第一条经验“Design for failure”是所有互联网架构成功的一个关键。互联网系统的工程理论其实非常简单，James paper中内容几乎称不上理论，而是多条实践经验分享，每个公司对这些经验的理解及执行力决定了架构成败。

题外话说完，最近又研究了Redis。去年曾做过一个MemcacheDB, Tokyo Tyrant, Redis performance test，到目前为止，这个benchmark结果依然有效。这1年我们经历了很多眼花缭乱的key value存储产品的诱惑，从Cassandra的淡出(Twitter暂停在主业务使用)到HBase的兴起(Facebook新的邮箱业务选用HBase(2))，当再回头再去看Redis，发现这个只有1万多行源代码的程序充满了神奇及大量未经挖掘的特性。Redis性能惊人，国内前十大网站的子产品估计用1台Redis就可以满足存储及Cache的需求。除了性能印象之外，业界其实普遍对Redis的认识存在一定误区。本文提出一些观点供大家探讨。

1. Redis是什么

这个问题的结果影响了我们怎么用Redis。如果你认为Redis是一个key value store, 那可能会用它来代替MySQL；如果认为它是一个可以持久化的cache, 可能只是它保存一些频繁访问的临时数据。Redis是REmote DIctionary Server的缩写，在Redis在官方网站的的副标题是A persistent key-value database with built-in net interface written in ANSI-C for Posix systems，这个定义偏向key value store。还有一些看法则认为Redis是一个memory database，因为它的高性能都是基于内存操作的基础。另外一些人则认为Redis是一个data structure server，因为Redis支持复杂的数据特性，比如List, Set等。对Redis的作用的不同解读决定了你对Redis的使用方式。

互联网数据目前基本使用两种方式来存储，关系数据库或者key value。但是这些互联网业务本身并不属于这两种数据类型，比如用户在社会化平台中的关系，它是一个list，如果要用关系数据库存储就需要转换成一种多行记录的形式，这种形式存在很多冗余数据，每一行需要存储一些重复信息。如果用key value存储则修改和删除比较麻烦，需要将全部数据读出再写入。Redis在内存中设计了各种数据类型，让业务能够高速原子的访问这些数据结构，并且不需要关心持久存储的问题，从架构上解决了前面两种存储需要走一些弯路的问题。

2. Redis不可能比Memcache快

很多开发者都认为Redis不可能比Memcached快，Memcached完全基于内存，而Redis具有持久化保存特性，即使是异步的，Redis也不可能比Memcached快。但是测试结果基本是Redis占绝对优势。一直在思考这个原因，目前想到的原因有这几方面。

Libevent。和Memcached不同，Redis并没有选择libevent。Libevent为了迎合通用性造成代码庞大(目前Redis代码还不到libevent的1/3)及牺牲了在特定平台的不少性能。Redis用libevent中两个文件修改实现了自己的epoll event loop(4)。业界不少开发者也建议Redis使用另外一个libevent高性能替代libev，但是作者还是坚持Redis应该小巧并去依赖的思路。一个印象深刻的细节是编译Redis之前并不需要执行./configure。
CAS问题。CAS是Memcached中比较方便的一种防止竞争修改资源的方法。CAS实现需要为每个cache key设置一个隐藏的cas token，cas相当value版本号，每次set会token需要递增，因此带来CPU和内存的双重开销，虽然这些开销很小，但是到单机10G+ cache以及QPS上万之后这些开销就会给双方相对带来一些细微性能差别(5)。

3. 单台Redis的存放数据必须比物理内存小

Redis的数据全部放在内存带来了高速的性能，但是也带来一些不合理之处。比如一个中型网站有100万注册用户，如果这些资料要用Redis来存储，内存的容量必须能够容纳这100万用户。但是业务实际情况是100万用户只有5万活跃用户，1周来访问过1次的也只有15万用户，因此全部100万用户的数据都放在内存有不合理之处，RAM需要为冷数据买单。

这跟操作系统非常相似，操作系统所有应用访问的数据都在内存，但是如果物理内存容纳不下新的数据，操作系统会智能将部分长期没有访问的数据交换到磁盘，为新的应用留出空间。现代操作系统给应用提供的并不是物理内存，而是虚拟内存(Virtual Memory)的概念。

基于相同的考虑，Redis 2.0也增加了VM特性。让Redis数据容量突破了物理内存的限制。并实现了数据冷热分离。

4. Redis的VM实现是重复造轮子

Redis的VM依照之前的epoll实现思路依旧是自己实现。但是在前面操作系统的介绍提到OS也可以自动帮程序实现冷热数据分离，Redis只需要OS申请一块大内存，OS会自动将热数据放入物理内存，冷数据交换到硬盘，另外一个知名的“理解了现代操作系统(3)”的Varnish就是这样实现，也取得了非常成功的效果。

作者antirez在解释为什么要自己实现VM中提到几个原因(6)。主要OS的VM换入换出是基于Page概念，比如OS VM1个Page是4K, 4K中只要还有一个元素即使只有1个字节被访问，这个页也不会被SWAP, 换入也同样道理，读到一个字节可能会换入4K无用的内存。而Redis自己实现则可以达到控制换入的粒度。另外访问操作系统SWAP内存区域时block进程，也是导致Redis要自己实现VM原因之一。

5. 用get/set方式使用Redis

作为一个key value存在，很多开发者自然的使用set/get方式来使用Redis，实际上这并不是最优化的使用方法。尤其在未启用VM情况下，Redis全部数据需要放入内存，节约内存尤其重要。

假如一个key-value单元需要最小占用512字节，即使只存一个字节也占了512字节。这时候就有一个设计模式，可以把key复用，几个key-value放入一个key中，value再作为一个set存入，这样同样512字节就会存放10-100倍的容量。

这就是为了节约内存，建议使用hashset而不是set/get的方式来使用Redis，详细方法见参考文献(7)。

6. 使用aof代替snapshot

Redis有两种存储方式，默认是snapshot方式，实现方法是定时将内存的快照(snapshot)持久化到硬盘，这种方法缺点是持久化之后如果出现crash则会丢失一段数据。因此在完美主义者的推动下作者增加了aof方式。aof即append only mode，在写入内存数据的同时将操作命令保存到日志文件，在一个并发更改上万的系统中，命令日志是一个非常庞大的数据，管理维护成本非常高，恢复重建时间会非常长，这样导致失去aof高可用性本意。另外更重要的是Redis是一个内存数据结构模型，所有的优势都是建立在对内存复杂数据结构高效的原子操作上，这样就看出aof是一个非常不协调的部分。

其实aof目的主要是数据可靠性及高可用性，在Redis中有另外一种方法来达到目的：Replication。由于Redis的高性能，复制基本没有延迟。这样达到了防止单点故障及实现了高可用。

小结

要想成功使用一种产品，我们需要深入了解它的特性。Redis性能突出，如果能够熟练的驾驭，对国内很多大型应用具有很大帮助。希望更多同行加入到Redis使用及代码研究行列。

参考文献

On Designing and Deploying Internet-Scale Service(PDF)
Facebook’s New Real-Time Messaging System: HBase To Store 135+ Billion Messages A Month
What’s wrong with 1975 programming
Linux epoll is now supported(Google Groups)
CAS and why I don’t want to add it to Redis(Google Groups)
Plans for Virtual Memory(Google Groups)
Full of keys(Salvatore antirez Sanfilippo)

from: http://timyang.net/tag/redis/

Spark-BlockManager、BlockManagerSlaveEndpoint、DiskStore、MemoryStore、BlockInfoManager、BlockInfo 源码解析姜上清风 Spark 源码大数据 spark
Spark-BlockManager、DiskStore、MemoryStore、BlockInfoManager、BlockInfo源码解析classBlockInfo&ObjectBlockInfoclassBlockInfoManagerclassMemoryStore&classDiskStoreclassBlockManagerclassBlockManagerSlaveEndpoint
MemoryStore、Off-Heap Store、DiskStore 剑客kb
MemoryStore始终处于启用状态，所有元素都可以放在MemoryStore层线程安全就是使用内存存储(ConcurrentHashMap)，很快所有的cache都指明了最大占用内存，超过了如果不允许溢出内存，存在的元素被删除允许溢出，检查执行，删除过期元素，没过期的移到下一层。过期策略有LRU（最近最少使用）、LFU（最近使用频率最少）、FIFO（先进先出）getQuiet、putQuiet
Redis系列之持久化机制 johnny233 Redis redis 数据库 java
需求背景Redis是内存数据库，数据都是存储在内存中，为避免进程意外退出导致数据的永久丢失，需要定期将Redis中的数据以某种形式（数据或命令）从内存保存到硬盘；当下次Redis重启时，利用持久化文件实现数据恢复。此外，为了灾备，可将持久化文件拷贝到一个远程位置。Redis支持四种持久化方式：RDBAOF虚拟内存Diskstore在设计思路上，前两种是基于全部数据都在内存中，即小数据量存储；而后两
Redis持久化的四种方式孙培培棒棒哒
Redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。（一）Snapshotting快照是默认的持久化方式。这种方式是就是将内存中数据以快照的方式写入到
45、Spark内核源码深度剖析之BlockManager原理剖析与源码分析 ZFH__ZJ
流程图BlockManager原理剖析.pngDriver上，有BlockManagerMaster，它的功能，就是负责对各个节点上的BlockManager内部管理的数据的元数据进行维护，比如Block的增删改等操作，都会在这里维护元数据的变更每个节点上，都有BlockManager，BlockManager上有几个关键组件DiskStore，负责对磁盘上的数据进行读写MemoryStore，负
spring boot 的支持ehcache 我想起个好名字
1：添加依赖：//缓存：org.springframework.bootspring-boot-starter-cachenet.sf.ehcacheehcache2.9.02配置ehCache.xml(一般放在resource根目录下)：下面是对ehcache的属性进行解读：diskStore：为缓存路径，ehcache分为内存和磁盘两级，此属性定义磁盘的缓存位置。defaultCache：默认
读懂Spark存储系统莫叫石榴姐 spark spark
目录1Spark存储系统概述2存储系统的基本组成3SparkRDD缓存之MemoryStore4SparkShuffle之DiskStore5小结1Spark存储系统概述Spark存储系统用于存储3个方面的数据，分别是：RDD缓存Shuffle中间文件广播变量。（1）RDD缓存指的是将RDD以缓存的形式物化到内存或磁盘的过程。对于一些计算成本和访问频率都比较高的RDD来说，缓存有两个好处：一是通过
【Spark】Spark 存储原理--读数据过程 w1992wishes
本篇结构：读取数据块过程内存读取磁盘读取远程读取一、读取数据块过程BlockManager的get方法是读数据的入口点，有本地读取和远程读取两个分叉口。本地读取使用getLocalValues方法，根据存储级别的不同，使用MemoryStore.getValues或者DiskStore.getBytes读取数据。远程读取使用getRemoteValues方法，调用远程数据传输服务类BlockTra
解决线上服务Logback日志文件中文乱码问题挖坑埋你 Questions 从菜鸟到大神问题锦集
修改后的完整配置文件：${level}ACCEPTDENY${diskStore}/${appName}-${HOSTNAME}-%d{yyyyMMddHH}_${level}_%i.log${maxFileSize}${pattern}UTF-8其中最重要的是这句：UTF-8，配置中class="java.nio.charset.Charset"一定要加上，否则不会生效。设置完成后，查看日志文件
Redis 或弃用当前 VM 机制，采用新的 diskstore 模型 huaishu Redis
Redis的作者SalvatoreSanfilippo（@antirez）今天在Redis的GoogleGroup上发表了一篇文章，表明他对当前Redis的VM机制并不满意，并称正在着手修改成一种新的实现逻辑。下面是主要内容的翻译。原文请看：http://goo.gl/uMKQN要将数据持久化存储，大概考虑有这样三种方式：使用虚拟内存，即将冷数据放磁盘热并保存一份映射。（目前Redis使用的方式）
Spark Storage之ExternalBlockStore Mr_JieLQ spark-core源码 spark spark
概要前两篇介绍了Storage模块的MemoryStore和DiskStore，此外，Spark支持外部存储，即ExternalBlockStore。Tachyon(Alluxio)简介ExternalBlockStore底层使用Tachyon(现更名为Alluxio)，Tachyon是一个分布式文件系统，提供内存级别的访问速度，通常作用于分布式计算框架(如spark)和底层存储之间(如HDFS)
Spark存储体系——块管理器BlockManager 拾荒路上的开拓者 Spark
BlockManager运行在每个节点上（包括Driver和Executor），提供对本地或远端节点上的内存、磁盘及堆外内存中Block的管理。存储体系从狭义上来说指的就是BlockManager，从广义上来说，则包括整个Spark集群中的各个BlockManager、BlockInfoManager、DiskBlockManager、DiskStore、MemoryManager、MemoryS
Spark中的数据存储 weixin_34220963
2019独角兽企业重金招聘Python工程师标准>>>Spark中的数据存储主要由BlockManager、ShuffleManager、DiskStore、MemoryStore等组件组成，当然还涉及到具体的主从节点之间的元数据信息交换。BlockManager在存储数据的时候主要通过putBytes、putIterator等方法实现，前者是写入字节数组，后者是写入迭代器内容（此时循环迭代器依次
Redis持久化的四种方式 Linybo2008
Redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。（一）Snapshotting快照是默认的持久化方式。这种方式是就是将内存中数据以快照的方式写入到
Ehcache缓存 Super丶小帅数据缓存管理
ehcache配置文件：diskStore是缓存持久化，存放于本地磁盘的位置路径：cache是由CacheManager统一管理的，有默认的一个cache，以及有我们自己配置的（可以有多个）ehcache主要使用：importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.sp
Redis学习笔记9--Redis持久化 weixin_33716154
2019独角兽企业重金招聘Python工程师标准>>>Redis学习笔记9--Redis持久化redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。（一
Redis 的持久化机制 Angel丨雅致c Redis优化策略
Redis由于支持非常丰富的内存数据结构类型，如何把这些复杂的内存组织方式持久化到磁盘上是一个难题，所以Redis的持久化方式与传统数据库的方式有比较多的差别，Redis一共支持四种持久化方式，分别是：–定时快照方式（snapshot）–基于语句追加文件的方式（aof）–虚拟内存（vm）–Diskstore方式在设计思路上，前两种是基于全部数据都在内存中，即小数据量下提供磁盘落地功能，而后两种方式
Spark内存管理 aaron1993
1.存储总体结构Spark存储结构分为两层：内存存储和磁盘存储，其中内存主要用作缓存以及任务计算时期数据存储，磁盘用在内存存储不足时使用。Executor和Driver都是委托BlockManager来管理存储以及Executor和Driver的通信（主要是数据传输和数据块信息的回报），BlockManager体系结结构如下图：存储体系结构其中DiskStore实现数据块到磁盘的存取。Memory
Springboot使用cache缓存过程代码实例
1.pom.xmlnet.sf.ehcacheehcache2.ehcache.xml-->diskStore是物理文件的存储路径，cache标签中的name是多cache时区分的唯一标识，和程序中初始化方法getCache("***")参数一致。缓存参数和本地数据持久化存储需自行配置3.application.ymlspring:cache:ehcache:config:classpath:/e
Redis学习笔记9--Redis持久化 weixin_30488313
redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。（一）Snapshotting快照是默认的持久化方式。这种方式是就是将内存中数据以快照的方式写入到
Redis的rdb存储模式及新的存储模式diskstore 闯爷
原文：http://www.easytd.com/xingyezixun/d_1410260095.htmlRedis作者antirez是一个非常勤奋的开发者，在Redis性能已经非常惊人的情况下持续不断开发新的特性，比如从新的cluster源代码看到，作者已经把Dynamo及Paxos一些核心的思想考虑进去并进行了一些简洁的实现。相比其它产品如Memcached则几年没什么大变化，在Web2.0
spark2.3源码分析之RDD的persist流程 zhifeng687 spark
概述当根据存储级别缓存RDD时，其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storagememory，所以缓存RDD到内存使用的是storagememory的内存。cache()方法时最终调用的是persist(Sto
Spark存储体系——磁盘存储DiskStore 拾荒路上的开拓者 Spark
DiskStore负责将Block存储磁盘，且依赖于DiskBlockManager的服务。在Spark1.x.x版本中，BlockStore提供了对磁盘存储DiskStore、内存存储MemeoryStore及Tachyon存储TachyonStore的统一规范，DiskStore、MemoryStore和TachyonStore都是具体的实现。但从Spark2.0.0版本开始，取消了Tachy
45、Spark内核源码深度剖析之BlockManager原理剖析与源码分析 ZFH__ZJ Spark入坑
流程图BlockManager原理剖析.pngDriver上，有BlockManagerMaster，它的功能，就是负责对各个节点上的BlockManager内部管理的数据的元数据进行维护，比如Block的增删改等操作，都会在这里维护元数据的变更每个节点上，都有BlockManager，BlockManager上有几个关键组件DiskStore，负责对磁盘上的数据进行读写MemoryStore，负
Spark Shuffle文件寻址+内存管理 Superman404 Spark学习
1.SparkShuffle文件寻址MapOutputTracker（管理磁盘小文件）主从关系：MapOutputTrackerMaster（Driver）MapOutputTrackerWorker（Executor）BlockManager（块管理者）主从关系:BlockManagerMaster（Driver）1.DiskStore:管理磁盘数据2.MemoryStore:管理内存数据3.C
大数据开发工程师面试题以及答案整理（二）陆山右大数据面试题
Redis性能优化，单机增加CPU核数是否会提高性能1、根据业务需要选择合适的数据类型，并为不同的应用场景设置相应的紧凑存储参数。2、当业务场景不需要数据持久化时，关闭所有的持久化方式可以获得最佳的性能以及最大的内存使用量。3、如果需要使用持久化，根据是否可以容忍重启丢失部分数据在快照方式与语句追加方式之间选择其一，不要使用虚拟内存以及diskstore方式。4、不要让你的Redis所在机器物理内
Redis持久化存储有功夫 redis devops
Redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。一、RBD(快照)原理在某个时间点将内存中的数据写入一个磁盘的临时文件，持久化结束后，用这个临时文
大数据面试题以及答案整理（二） godblesspl 大数据
Redis性能优化，单机增加CPU核数是否会提高性能1、根据业务需要选择合适的数据类型，并为不同的应用场景设置相应的紧凑存储参数。2、当业务场景不需要数据持久化时，关闭所有的持久化方式可以获得最佳的性能以及最大的内存使用量。3、如果需要使用持久化，根据是否可以容忍重启丢失部分数据在快照方式与语句追加方式之间选择其一，不要使用虚拟内存以及diskstore方式。4、不要让你的Redis所在机器物理内
Redis 持久化存储方案 liupeifeng3514 Redis
从严格意义上说，Redis服务提供四种持久化存储方案：RDB、AOF、虚拟内存（VM）和DISKSTORE。虚拟内存（VM）方式，从RedisVersion2.4开始就被官方明确表示不再建议使用，Version3.2版本中更找不到关于虚拟内存（VM）的任何配置范例，Redis的主要作者SalvatoreSanfilippo还专门写了一篇论文，来反思Redis对虚拟内存（VM）存储技术的支持问题。至
Redis持久化 pz_winner redis 持久化 Redis
redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。redis支持四种持久化方式，一是Snapshotting（快照）也是默认方式；二是Append-onlyfile（缩写aof）的方式；三是虚拟内存方式；四是diskstore方式。下面分别介绍之。（一）Snapshotting快照是默认的持久化方式。这种方式是就是将内存中数据以快照的方式写入到
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1