congsi9417

大数据挑战与NoSQL数据库技术

大数据丛书

大数据挑战与NoSQL数据库技术（大数据技术的学习指南。突破迷局，厘清思路，拥抱变化。）

陆嘉恒 编著

ISBN 978-7-121-19660-7

2013年4月出版

定价：79.00元

440页

16开

编辑推荐

本书从理论、系统、应用三个方面详细讲述了大数据的技术知识，并针对NoSQL数据库技术做了深入的分享，是学习大数据技术的地图、指南手册。帮助读者跳出迷局，厘清思路，系统地做好相关知识储备，拥抱大数据时代！

内容提要

本书共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术，并引入NoSQL数据库；系统篇主要介绍了各种类型NoSQL数据库的基本知识；应用篇对国内外几家知名公司在利用NoSQL数据库处理海量数据方面的实践做了阐述。

本书对大数据时代面临的挑战，以及NoSQL数据库的基本知识做了清晰的阐述，有助于读者整理思路，了解需求，并更有针对性、有选择地深入学习相关知识。

第1章概论 1

1.1 引子 2

1.2 大数据挑战 3

1.3 大数据的存储和管理 5

1.3.1 并行数据库 5

1.3.2 NoSQL数据管理系统 6

1.3.3 NewSQL数据管理系统 8

1.3.4 云数据管理 11

1.4 大数据的处理和分析 11

1.5 小结 13

参考文献 13

理论篇

第2章数据一致性理论 16

2.1 CAP理论 17

2.2 数据一致性模型 21

2.3 ACID与BASE 22

2.4 数据一致性实现技术 23

2.4.1 Quorum系统NRW策略 23

2.4.2 两阶段提交协议 24

2.4.3 时间戳策略 27

2.4.4 Paxos 30

2.4.5 向量时钟 38

2.5 小结 43

参考文献 43

第3章数据存储模型 45

3.1 总论 46

3.2 键值存储 48

3.2.1 Redis 49

3.2.2 Dynamo 49

3.3 列式存储 50

3.3.1 Bigtable 51

3.3.2 Cassandra与HBase 51

3.4 文档存储 52

3.4.1 MongoDB 53

3.4.2 CouchDB 53

3.5 图形存储 54

3.5.1 Neo4j 55

3.5.2 GraphDB 55

3.6 本章小结 56

参考文献 56

第4章数据分区与放置策略 58

4.1 分区的意义 59

4.1.1 为什么要分区 59

4.1.2 分区的优点 60

4.2 范围分区 61

4.3 列表分区 62

4.4 哈希分区 63

4.5 三种分区的比较 64

4.6 放置策略 64

4.6.1 一致性哈希算法 65

4.6.2 容错性与可扩展性分析 66

4.6.3 虚拟节点 68

4.7 小结 69

参考文献 69

第5章海量数据处理方法 70

5.1 MapReduce简介 71

5.2 MapReduce数据流 72

5.3 MapReduce数据处理 75

5.3.1 提交作业 76

5.3.2 初始化作业 78

5.3.3 分配任务 78

5.3.4 执行任务 79

5.3.5 更新任务执行进度和状态 80

5.3.6 完成作业 81

5.4 Dryad简介 81

5.4.1 DFS Cosmos介绍 82

5.4.2 Dryad执行引擎 84

5.4.3 DryadLINQ解释引擎 86

5.4.4 DryadLINQ编程 88

5.5 Dryad数据处理步骤 90

5.6 MapReduce vs Dryad 92

5.7 小结 94

参考文献 95

第6章数据复制与容错技术 96

6.1 海量数据复制的作用和代价 97

6.2 海量数据复制的策略 97

6.2.1 Dynamo的数据库复制策略 97

6.2.2 CouchDB的复制策略 99

6.2.3 PNUTS的复制策略 99

6.3 海量数据的故障发现与处理 101

6.3.1 Dynamo的数据库的故障发现与处理 101

6.3.2 CouchDB的故障发现与处理 103

6.3.3 PNUTS的故障发现与处理 103

6.4 小结 104

参考文献 104

第7章数据压缩技术 105

7.1 数据压缩原理 106

7.1.1 数据压缩的定义 106

7.1.2 数据为什么可以压缩 107

7.1.3 数据压缩分类 107

7.2 传统压缩技术[1] 108

7.2.1 霍夫曼编码 108

7.2.2 LZ77算法 109

7.3 海量数据带来的3V挑战 112

7.4 Oracle混合列压缩 113

7.4.1 仓库压缩 114

7.4.2 存档压缩 114

7.5 Google数据压缩技术 115

7.5.1 寻找长的重复串 115

7.5.2 压缩算法 116

7.6 Hadoop压缩技术 118

7.6.1 LZO简介 118

7.6.2 LZO原理[5] 119

7.7 小结 121

参考文献 121

第8章缓存技术 122

8.1 分布式缓存简介 123

8.1.1 分布式缓存的产生 123

8.1.2 分布式缓存的应用 123

8.1.3 分布式缓存的性能 124

8.1.4 衡量可用性的标准 125

8.2 分布式缓存的内部机制 125

8.2.1 生命期机制 126

8.2.2 一致性机制 126

8.2.3 直读与直写机制 129

8.2.4 查询机制 130

8.2.5 事件触发机制 130

8.3 分布式缓存的拓扑结构 130

8.3.1 复制式拓扑 131

8.3.2 分割式拓扑 131

8.3.3 客户端缓存拓扑 131

8.4 小结 132

参考文献 132

系统篇

第9章 key-value数据库 134

9.1 key-value模型综述 134

9.2 Redis 135

9.2.1 Redis概述 135

9.2.2 Redis下载与安装 135

9.2.3 Redis入门操作 136

9.2.4 Redis在业内的应用 143

9.3 Voldemort 143

9.3.1 Voldemort概述 143

9.3.2 Voldemort下载与安装 144

9.3.3 Voldemort配置 145

9.3.4 Voldemort开发介绍[3] 147

9.4 小结 149

参考文献 149

第10章 Column-Oriented数据库 150

10.1 Column-Oriented数据库简介 151

10.2 Bigtable数据库 151

10.2.1 Bigtable数据库简介 151

10.2.2 Bigtable数据模型 152

10.2.3 Bigtable基础架构 154

10.3 Hypertable数据库 157

10.3.1 Hypertable简介 157

10.3.2 Hypertable安装 157

10.3.3 Hypertable架构 163

10.3.4 基本概念和原理 164

10.3.5 Hypertable的查询 168

10.4 Cassandra数据库 175

10.4.1 Cassandra简介 175

10.4.2 Cassandra配置 175

10.4.3 Cassandra数据库的连接 177

10.4.4 Cassandra集群机制 180

10.4.5 Cassandra的读/写机制 182

10.5 小结 183

参考文献 183

第11章文档数据库 185

11.1 文档数据库简介 186

11.2 CouchDB数据库 186

11.2.1 CouchDB简介 186

11.2.2 CouchDB安装 188

11.2.3 CouchDB入门 189

11.2.4 CouchDB查询 200

11.2.5 CouchDB的存储结构 207

11.2.6 SQL和CouchDB 209

11.2.7 分布式环境中的CouchDB 210

11.3 MongoDB数据库 211

11.3.1 MongoDB简介 211

11.3.2 MongoDB的安装 212

11.3.3 MongoDB入门 215

11.3.4 MongoDB索引 224

11.3.5 SQL与MongoDB 226

11.3.6 MapReduce与MongoDB 229

11.3.7 MongoDB与CouchDB对比 234

11.4 小结 236

参考文献 237

第12章图存数据库 238

12.1 图存数据库的由来及基本概念 239

12.1.1 图存数据库的由来 239

12.1.2 图存数据库的基本概念 239

12.2 Neo4j图存数据库 240

12.2.1 Neo4j简介 240

12.2.2 Neo4j使用教程 241

12.2.3 分布式Neo4j——Neo4j HA 251

12.2.4 Neo4j工作机制及优缺点浅析 256

12.3 GraphDB 258

12.3.1 GraphDB简介 258

12.3.2 GraphDB的整体架构 260

12.3.3 GraphDB的数据模型 264

12.3.4 GraphDB的安装 266

12.3.5 GraphDB的使用 268

12.4 OrientDB 276

12.4.1 背景 276

12.4.2 OrientDB是什么 276

12.4.3 OrientDB的原理及相关技术 277

12.4.4 Windows下OrientDB的安装与使用 282

12.4.5 相关Web应用 286

12.5 三种图存数据库的比较 288

12.5.1 特征矩阵 288

12.5.2 分布式模式及应用比较 289

12.6 小结 289

参考文献 290

第13章基于Hadoop的数据管理系统 291

13.1 Hadoop简介 292

13.2 HBase 293

13.2.1 HBase体系结构 293

13.2.2 HBase数据模型 297

13.2.3 HBase的安装和使用 298

13.2.4 HBase与RDBMS 303

13.3 Pig 304

13.3.1 Pigr的安装和使用 304

13.3.2 Pig Latin语言 306

13.3.3 Pig实例 311

13.4 Hive 315

13.4.1 Hive的数据存储 316

13.4.2 Hive的元数据存储 316

13.4.3 安装Hive 317

13.4.4 HiveQL简介 318

13.4.5 Hive的网络接口（WebUI） 328

13.4.6 Hive的JDBC接口 328

13.5 小结 330

参考文献 331

第14章 NewSQL数据库 332

14.1 NewSQL数据库简介 333

14.2 MySQL Cluster 333

14.2.1 概述 334

14.2.2 MySQL Cluster的层次结构 336

14.2.3 MySQL Cluster的优势和应用 337

14.2.4 海量数据处理中的sharding技术 339

14.2.5 单机环境下MySQL Cluster的安装 343

14.2.6 MySQL Cluster的分布式安装与配置指导 348

14.3 VoltDB 350

14.3.1 传统关系数据库与VoltDB 351

14.3.2 VoltDB的安装与配置 351

14.3.3 VoltDB组件 354

14.3.4 Hello World 355

14.3.5 使用Generate脚本 361

14.3.6 Eclipse集成开发 362

14.4 小结 365

参考文献 365

第15章分布式缓存系统 366

15.1 Memcached缓存技术 367

15.1.1 背景介绍 367

15.1.2 Memcached缓存技术的特点 368

15.1.3 Memcached安装[3] 374

15.1.4 Memcached中的数据操作 375

15.1.5 Memcached的使用 376

15.2 Microsoft Velocity分布式缓存系统 378

15.2.1 Microsoft Velocity简介 378

15.2.2 数据分类 379

15.2.3 Velocity核心概念 380

15.2.4 Velocity安装 382

15.2.5 一个简单的Velocity客户端应用 385

15.2.6 扩展型和可用性 387

15.3 小结 388

参考文献 388

应用篇

第16章企业应用 392

16.1 Instagram 393

16.1.1 Instagram如何应对数据的急剧增长 395

16.1.2 Instagram的数据分片策略 398

16.2 Facebook对Hadoop以及HBase的应用 400

16.2.1 工作负载类型 401

16.2.2 为什么采用Apache Hadoop和HBase 403

16.2.3 实时HDFS 405

16.2.4 Hadoop HBase的实现 409

16.3 淘宝大数据解决之道 411

16.3.1 淘宝数据分析 412

16.3.2 淘宝大数据挑战 413

16.3.3 淘宝OceanBase数据库 414

16.3.4 淘宝将来的工作 422

16.4 小结 423

参考文献 423

精彩节摘

1.2 大数据挑战

什么是大数据？多大的数据量可以称为大数据？不同的年代有不同的答案^[2]。20世纪80年代早期，大数据指的是数据量大到需要存储在数千万个磁带中的数据；20世纪90年代，大数据指的是数据量超过单个台式机存储能力的数据；如今，大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据，这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域，数据的持续增长使人们不得不重新考虑数据的存储和管理。

随着社会计算的兴起，人们习惯于在网上分享和交流信息。比如，社交网站Facebook拥有庞大的用户群，而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数，其数据量已经达到PB级别，传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统，现在又采用HBase，这些针对海量数据的管理系统能够较好地为用户提供服务，而且具有可扩展性和容错性，这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战，消息的发送量达到每天数亿条，而查询量则达到每天数十亿次，这要求存储管理系统不仅能够存储大规模数据，而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库，之后由于用户暴增便将数据迁移到NoSQL系统上，尽管NoSQL系统还未成熟，但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题，如Goolge搜索引擎需要处理大规模的网页信息，YouTube则需要存储和提供用户分享的视频数据，维基百科提交用户分享的知识等，这些都涉及大规模数据信息存储与管理。

随着电子商务的发展，越来越多的人在网上选购商品，商务网站需要存储大量的商品信息和用户的交易信息，涉及大规模的数据。同时网站需要提供迅速的请求响应，以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析，以便更有针对性地向用户推荐商品，海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据，同时不断探索自己的解决之路，开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案，其基于Hadoop建立了自己的集群系统Athena来处理大规模数据，同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时，各大零售公司无论是在线销售还是实体销售，都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品，这些都涉及大规模数据的应用。

各个领域的科学研究同样面临海量数据的挑战，从生物基因到天文气象，从物理实验到临床医学，得益于测量技术和设备的发展，这些领域在实验或实践中产生了大量的数据，而人们需要对这些数据进行处理分析从而挖掘出有价值的信息，但这不是容易的事情。随着下一代基因测序技术的发展，基因中所蕴含的信息逐渐被人们所发掘，人们获得更多更准确的基因数据，但是如何匹配基因数据，如何从这些数据中挖掘出所需要的信息，这是生物信息学遇到的新挑战。在环境气象研究中，科学家已经收集了数十年甚至上百年的气象环境数据，在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据，这些数据的规模很大，需要从中分析出有用的信息。在人文社会科学中，社会学家开始注意互联网社交网络上的人际交往和社会关系，其涉及的数据量也是非常巨大的，从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面，人们希望计算机拥有人类的学习能力和逻辑推理能力，这就需要机器存储大量的经验数据和知识数据，还需要从这些大量数据中迅速获得所需要的内容，并对其进行分析处理，从而做出正确有效的判断。

如今传感器的广泛使用，数据采集更加方便，这些传感器会连续地产生数据，如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外，许多领域都会涉及流数据，如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据，这些数据最大的特点就是海量，因为它们每时每刻连续不断地产生，但与其他的海量数据不同，流数据连续有序、变化迅速，而且对处理分析的响应度要求较高，因此对于流数据的处理和挖掘往往采用不同的方法。经济金融领域各个方面都产生海量数据，如证券价格变化和股票交易形成的流数据，企业或个人各种经济活动而产生的数据等。现代经济已经步入海量数据时代，在新时代下可以带来创新和生产率增长，并可能出现新的商业模式。利用好经济生活产生的海量数据，可以发挥重要的经济作用，不仅有利于企业的商业活动，也有利于国民经济，提高国家的竞争力。面对大规模的经济数据，人们除了需要提高获取、存储和分析数据的能力，同时需要保障数据的安全和隐私，但这仍然是巨大的挑战。

传统的关系型数据库并不能够很好地解决海量数据带来的问题，单机的统计和可视化工具也变得力不从心。一些新的数据管理系统如并行数据库、网格数据库、分布式数据库、云平台、可扩展数据库等孕育而生，它们为解决海量数据提供了多种选择。

1.3 大数据的存储和管理

任何机器都会有物理上的限制：内存容量、硬盘容量、处理器速度等等，我们需要在这些硬件的限制和性能之间做出取舍，比如内存的读取速度比硬盘快得多，因此内存数据库比硬盘数据库性能好，但是内存为2GB的机器不可能将大小为100GB的数据全部放入内存中，也许内存大小为128GB的机器能够做到，但是数据增加到200GB时就无能为力了。

数据不断增长造成单机系统性能不断下降，即使不断提升硬件配置也难以跟上数据的增长速度。然而，当今主流的计算机硬件比较便宜而且可以扩展，现在购置八台8内核、128GB内存的机器比购置一台64内核、TB级别内存的服务器划算得多，而且还可以增加或减少机器来应对将来的变化。这种分布式架构策略对于海量数据来说是比较适合的，因此，许多海量数据系统选择将数据放在多个机器中，但也带来了许多单机系统不曾有的问题。

下面我们介绍大数据存储和管理发展过程中出现的四类大数据存储和管理数据库系统。

1.3.1 并行数据库

并行数据库^[1]是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询，但为了能够并行执行SQL的查询操作，系统中采用了两个关键技术：关系表的水平划分和SQL查询的分区执行。

水平划分的主要思想就是根据某种策略将关系表中的元组分布到集群中的不同节点上，这些节点上的表结构是一样的，这样就可以对元组并行处理。现有的分区策略有哈希分区、范围分区、循环分区等。例如，哈希分区策略是将表T中的元组分布到n个节点上，可以使用统一的哈希算法对元组中的某个或某几个属性进行哈希，如hash(T.attribute1) mod n，然后根据哈希值将元组放置到不同的节点上。

在分区存储的表中处理SQL查询需要使用基于分区的执行策略，如获取表T中某一数值范围内的元组，系统首先为整个表T生成总的执行计划P，然后将P拆分成n个子计划{P₁,…,P_n}，子计划P_i在节点n_i上独立执行，最后每个节点将生成的中间结果发送到某一选定的节点上，该节点对中间结果进行聚集产生最终的结果。

并行数据库系统的目标是高性能和高可用性，通过多个节点并行执行数据库任务，提高整个数据库系统的性能和可用性。最近一些年不断涌现一些提高系统性能的新技术，如索引、压缩、实体化视图、结果缓存、I/O共享等，这些技术都比较成熟且经得起时间的考验。与一些早期的系统如Teradata必须部署在专有硬件上不同，最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上，这些数据库系统可以称得上准云系统。

并行数据库系统的主要缺点就是没有较好的弹性，而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的，若需要对集群进行扩展和收缩，则必须为数据转移过程制订周全的计划。这种数据转移的代价是昂贵的，并且会导致系统在某段时间内不可访问，而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。

并行数据库的另一个问题就是系统的容错性较差，过去人们认为节点故障是个特例，并不经常出现，因此系统只提供事务级别的容错功能，如果在查询过程中节点发生故障，那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询，因为在这类集群中节点的故障经常发生。基于这种分析，并行数据库只适合于资源需求相对固定的应用程序。不管怎样，并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。

1.3.2 NoSQL数据管理系统

NoSQL^[5]一词最早出现于1998年，它是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的关系型数据库（他认为，由于NoSQL悖离传统关系数据库模型，因此，它应该有一个全新的名字，比如“NoREL”或与之类似的名字^[6]）。

2009年，Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论^[7]，来自Rackspace的Eric Evans再次提出了NoSQL的概念，这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。

2009年在亚特兰大举行的“no:sql(east)”讨论会是一个里程碑，其口号是"select fun, profit from real_world where relational=false;"。因此，对NoSQL最普遍的解释是“非关系型的”，强调键值存储和文档数据库的优点，而不是单纯地反对关系型数据库。

传统关系型数据库在处理数据密集型应用方面显得力不从心，主要表现在灵活性差、扩展性差、性能差等方面。最近出现的一些存储系统摒弃了传统关系型数据库管理系统的设计思想，转而采用不同的解决方案来满足扩展性方面的需求。这些没有固定数据模式并且可以水平扩展的系统现在统称为NoSQL（有些人认为称为NoREL更为合理），这里的NoSQL指的是“Not Only SQL”，即对关系型SQL数据系统的补充。NoSQL系统普遍采用的一些技术有：

简单数据模型。不同于分布式数据库，大多数NoSQL系统采用更加简单的数据模型，这种数据模型中，每个记录拥有唯一的键，而且系统只需支持单记录级别的原子性，不支持外键和跨记录的关系。这种一次操作获取单个记录的约束极大地增强了系统的可扩展性，而且数据操作就可以在单台机器中执行，没有分布式事务的开销。

元数据和应用数据的分离。NoSQL数据管理系统需要维护两种数据：元数据和应用数据。元数据是用于系统管理的，如数据分区到集群中节点和副本的映射数据。应用数据就是用户存储在系统中的商业数据。系统之所以将这两类数据分开是因为它们有着不同的一致性要求。若要系统正常运转，元数据必须是一致且实时的，而应用数据的一致性需求则因应用场合而异。因此，为了达到可扩展性，NoSQL系统在管理两类数据上采用不同的策略。还有一些NoSQL系统没有元数据，它们通过其他方式解决数据和节点的映射问题。

弱一致性。NoSQL系统通过复制应用数据来达到一致性。这种设计使得更新数据时副本同步的开销很大，为了减少这种同步开销，弱一致性模型如最终一致性和时间轴一致性得到广泛应用。

通过这些技术，NoSQL能够很好地应对海量数据的挑战。相对于关系型数据库，NoSQL数据存储管理系统的主要优势有：

避免不必要的复杂性。关系型数据库提供各种各样的特性和强一致性，但是许多特性只能在某些特定的应用中使用，大部分功能很少被使用。NoSQL系统则提供较少的功能来提高性能。

高吞吐量。一些NoSQL数据系统的吞吐量比传统关系数据管理系统要高很多，如Google使用MapReduce每天可处理20PB存储在Bigtable中的数据。

高水平扩展能力和低端硬件集群。NoSQL数据系统能够很好地进行水平扩展，与关系型数据库集群方法不同，这种扩展不需要很大的代价。而基于低端硬件的设计理念为采用NoSQL数据系统的用户节省了很多硬件上的开销。

避免了昂贵的对象-关系映射。许多NoSQL系统能够存储数据对象，这就避免了数据库中关系模型和程序中对象模型相互转化的代价。

NoSQL向人们提供了高效便宜的数据管理方案，许多公司不再使用Oracle甚至MySQL，他们借鉴Amzon的Dynamo和Google的Bigtable的主要思想建立自己的海量数据存储管理系统，一些系统也开始开源，如Facebook将其开发的Cassandra捐给了Apache软件基金会。

虽然NoSQL数据库提供了高扩展性和灵活性，但是它也有自己的缺点，主要有：

数据模型和查询语言没有经过数学验证。SQL这种基于关系代数和关系演算的查询结构有着坚实的数学保证，即使一个结构化的查询本身很复杂，但是它能够获取满足条件的所有数据。由于NoSQL系统都没有使用SQL，而使用的一些模型还未有完善的数学基础。这也是NoSQL系统较为混乱的主要原因之一。

不支持ACID特性。这为NoSQL带来优势的同时也是其缺点，毕竟事务在很多场合下还是需要的，ACID特性使系统在中断的情况下也能够保证在线事务能够准确执行。

功能简单。大多数NoSQL系统提供的功能都比较简单，这就增加了应用层的负担。例如如果在应用层实现ACID特性，那么编写代码的程序员一定极其痛苦。

没有统一的查询模型。NoSQL系统一般提供不同查询模型，这一定程度上增加了开发者的负担。

作者简介

陆嘉恒，中国人民大学教授，博士生导师。2006年毕业于新加坡国立大学计算机科学系，获博士学位；2006-2008年在美国加利福尼亚大学尔湾分校(University of California, Irvine)进行博士后研究；2008年加入中国人民大学，2012年破格晋升为教授。主要研究领域包括数据库技术和云计算技术。先后在SIGMOD、VLDB、ICDE、WWW等国际重要会议和期刊上发表数据库方向的论文40多篇，主编多本云计算和大数据的教材和著作。

前言

为什么写本书

计算机技术已经深刻地影响了我们的工作、学习和生活。大数据及NoSQL技术是当下IT领域最炙手可热的话题，其发展非常迅速，潜力巨大，悄然改变着整个行业的面貌。随着Web 2.0技术的发展，微博、社交网络、电子商务、生物工程等领域的不断发展，各领域数据呈现爆炸式的增长，传统关系型数据库越来越显得力不从心。NoSQL数据库技术的出现为眼下的问题提供了新的解决方案，它摒弃了传统关系型数据库ACID的特性，采用分布式多节点的方式，更加适合大数据的存储和管理。

政府和高校都十分重视对大数据及NoSQL技术的研究和投入；在产业界，各大IT公司也在投入大量的资源研究和开发相关的NoSQL产品，与之相应的新兴技术和产品正在不断涌现。这一切都极大地推动了NoSQL技术的发展。

大数据处理和NoSQL技术涉及的内容繁多，目前不同公司也有不同的NoSQL数据库产品，而且某一产品往往是为特定的应用而设计的，并不一定能够适用于所有的场景。很多人在学习的初始阶段需要进行大量的摸索和实践，然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握NoSQL技术的朋友学习并在学习的过程中少走弯路，笔者将自己在该领域的经验和积累凝聚成了这本书，希望能够推动大数据处理及NoSQL相关技术在国内的发展。

本书面向的读者

在编写本书时，我们力图使不同背景和职业的读者都能从其中获益。

如果你是专业技术人员，本书将带领你快速度进入大数据处理及NoSQL的世界，全面掌握NoSQL及其相关技术，能帮助你使用NoSQL技术解决当前面临的问题或提供必要的参考。

如果你是高等院校计算机及相关专业的学生，本书为你在课堂之外了解最新的IT打开一扇窗户，能帮助你拓宽视野，完善知识结构，为迎接未来的挑战做好知识准备。

在学习本书之前，应具有如下的基础：

 有一定的Linux操作系统的基础知识。

 有较好的编程基础和阅读代码的能力。

 对数据库知识有一定的了解。

如何阅读本书

本书一共包括16章，分为三个部分。其中第一部分为理论篇，包括：大数据产生的背景，数据一致性理论、数据存储模型、数据分区与防治策略、海量数据处理方法、数据复制与容错技术、数据压缩技术和数据缓存技术。此部分重点从理论上介绍、分析大数据管理过程中遇到的各方面问题。第二部分为系统篇，包括：键值数据库、列存数据库、文档数据库、图存数据库、基于Hadoop的数据库管理系统、NoSQL数据库以及分布式缓存系统。该部分以理论篇为基础，根据数据存储模型对数据库类型进行划分，每一部分以具体开源数据库为实例进行介绍，涉及系统的架构、安装以及使用等方面，力图使读者对NoSQL数据库有具体的认识。第三部分为应用篇，包括企业应用以及总结和展望。该部分介绍企业如何使用NoSQL数据库解决自身遇到的问题。

在阅读本书时，读者可以先系统地学习理论篇的知识，目的是对海量数据处理方法有一个很好的理解，在此基础之上，读者可以对后面的章节进行选择性的学习。本书涉及内容较多，从开源数据库方面讲，包括了Dynamo、Redis、Voldemort、Cassandra、Hypertable、CouchDB、MongoDB、Neo4j、GraphDB、OrientDB、HBase、Hive、Pig、MySQL Cluster、VolteDB、MS-Velocity、Memcached等将近20个数据库。因此，建议读者可以重点学习感兴趣或有一定需求的数据库系统。当然，如果时间允许，还是建议读者系统地学习本书的内容。

另外，在系统篇的学习过程中，建议读者能够一边阅读，一边根据书中的指导动手实践，亲自实践本书中所给出的编程范例。

致谢

在本书的编写过程中，还有很多NoSQL领域的实践者和研究者为本书做了大量的工作，他们是张林林、许翔、程明、王海涌、顾向楠、吴少辉、杨宁、杨华、吴梦迪、任乔意、於洋、张轩等，在此特别感谢。

在线资源及勘误

本书官方网站为：http://datasearch.ruc.edu.cn/NoSQL/。本书的勘误、讨论以及相关资料等都会在该网站上发布和更新。

在本书的撰写和相关技术的研究中，尽管笔者投入了大量的精力，付出了艰辛的努力，然而受知识水平所限，错误和疏漏之处在所难免，恳请大家批评指正。如果有任何问题和建议，可发送邮件至[email protected]或[email protected]。

陆嘉恒

9787121196607.jpg

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/13164110/viewspace-758266/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/13164110/viewspace-758266/

你可能感兴趣的:(大数据挑战与NoSQL数据库技术)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的