AI_Frank

大数据体系架构

最近由于即将要结课，老师要求写一篇基于大数据与系统思维来探讨现代计算理论与技术发展的论文来作为最终的考核，于是在博客上发现了一篇2015年发布的文章，我感觉写的很好，具体内容如下：
开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据技术变革之路上，开源在众人之力和众人之智推动下，摧枯拉朽，吐故纳新，扮演着非常重要的推动作用。另一方面，开源也给大数据技术构建了一个异常复杂的生态系统。每一天，都有一大堆“新”框架、“新”类库或“新”工具，犹如雨后春笋般涌出，乱花渐欲“迷”人眼。为了掌控住这些“新玩意”，数据分析的达人们不得不“殚精竭虑”地“学而时习之”。
无论你是一个大数据的布道者，还是一个日臻成熟的技术派，亦或你还在大数据这条路上“小荷才露尖尖角”，多花点时间，深入理解一下大数据系统的技术体系演进，对你都会有莫大益处。全方位地理解大数据体系结构中的各个组件，并掌握它们之间的微妙差别，可在处理自己身边的大数据案例时，助你张弛有度，“恢恢乎，其于游刃必有余地矣!”
接下来先看一张体系架构图：

文件系统层：在这一层里，分布式文件系统需具备存储管理、容错处理、高可扩展性、高可靠性和高可用性等特性。
数据存储层：由于目前采集到的数据，十之有七八为非结构化和半结构化数据，数据的表现形式各异，有文本的、图像的、音频的、视频的等，因此常见的数据存储也要对应有多种形式，有基于键值（Key-Value）的，有基于文档（Document），还有基于列（Column）和图表（Graph）的。如果采用单一的数据库引擎，“一刀切式”的满足所有类型的数据存储需求，通常会严重降低数据库管理的性能。因此，我们需要“兵来将挡，水来土掩”式的、多元的（Polyglot）【1】数据库解决方案（这就好比，如果“兵来了”和“水来了”，都要“将”去挡，遇到“兵”时，“将”可以“酣畅淋漓”，而遇到“水”时，还用“将”去挡，那这个“将”估计就要“舍生取义”了。文献【1】是一本有关NoSQL数据处理的图书）
资源管理层：这一层是为了提高资源的高利用率和吞吐量，以到达高效的资源管理与调度目的。
资源协调层：在本层的系统，需要完成对资源的状态、分布式协调、一致性和资源锁实施管理。
计算框架层：在本层的计算框架非常庞杂，有很多高度专用的框架包含其内，有流式的，交互式的，实时的，批处理和迭代图的（Batch and Iterative Graph，BSP）等。为这些计算框架提供支撑的是运行时引擎，如BDAS【2】(Spark) 和 Flink等（注：这里的BDAS是指“Berkeley Data Analytics Stack”，即伯克利数据分析栈。文献【2】为Spark核心作者Ion Stoica的讲座幻灯片文档）。
数据分析层：在这一层里，主要包括数据分析(消费)工具和一些数据处理函数库。这些工具和函数库，可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。
数据集成层：在这一层里，不仅包括管理数据分析工作流中用到的各种适用工具，除此之外，还包括对元数据（Metadata）管理的工具。
操作框架层：这一层提供可扩展的性能监测管理和基准测试框架。

架构的演进

减少数据生产者和消费者之间的处理延迟，一直是现代计算构架不断演进的主要动力。由此，诞生了实时和低延迟处理的计算构架，如 Lambda 和 Kappa 等，这类混合架构取长补短，架起传统的批处理层和交互式层之间连接的桥梁。

Lambda【3】 -该架构是经典的大数据处理范式，是由南森•马兹（Nathan Marz）提出的一个实时大数据处理框架。更多有关Lamda的信息，请读者访问Lambda官方网站。（注：文献【3】是由James Kinley在轻博客网站Tumblr发表的一篇博文：Lambda 架构：构架实时大数据系统的原则）。
Kappa【4】-该计算构架可视为Lambda的一个强有力替代者，Kappa将数据处理的上游移至流式层（注：文献【4】是一篇博客文章，作者是Jay Kreps是Linkedln的一名在线数据架构技术高管。Kreps认为，虽然Lambda构架的理念很有价值，但终究还是一个临时解决方案。他设计了一个替代架构Kappa，是基于他在Linkedin构建Kafka和Samza的经验设计而成）。
SummingBird【5】-这是一个参考模型，用来桥接在线处理模式和传统处理模式。Summingbird是由Twitter（推特）公司用Scala语言开发的、并开源的大规模数据处理框架，支持开发者以批处理模式（基于Hadoop）或流处理模式（基于Storm），或混合模式（即前两种模式的组合）以统一的方式执行代码。（注：文献【5】是Summingbird的主要设计者Oscar Boykin、Sam Ritchie等人于2014年发表于知名期刊PVLDB中论文，其中论文的二作Sam Ritchie大有来头，他是计算机科学界的传奇人物、C语言和Unix的设计者Dennis Ritchie的侄子）。

在你尚未深入了解下面的各个具体的框架层次之前，建议你认真阅读一下下面的几篇非常有价值的文献，它们帮为你“恶补”一下诸如NoSQL（非结构化）数据存储、数据仓库大规模计算及分布式系统等相关领域的背景知识：

计算中心即计算机【6】（Data center as a computer）-文献【6】是威斯康星大学-麦迪逊分校Mark D. Hill教授主编的一个论文集式的图书，在这本图书中，收集了很多有关数据仓库大规模计算的论文（注：将数据中心视为一台计算机，与传统的高性能计算机有很大不同。计算中心的实例将以虚拟机或者容器的形式存在，计算资源的配置对于用户而言是透明的，这样就大幅降低系统部署的复杂度、并提高资源使用的灵活性）。
非结构化（NOSQL）数据存储【7】- 文献是由Rick Cattell撰写的论文，论文讨论了可扩展的结构化数据的、非结构化的（包括基于键值对的、基于文档的和面向列的）数据存储方案（注：NOSQL是支撑大数据应用的关键所在。事实上，将NOSQL翻译为“非结构化”不甚准确，因为NOSQL更为常见的解释是：Not Only SQL（不仅仅是结构化），换句话说，NOSQL并不是站在结构化SQL的对立面，而是既可包括结构化数据，也可包括非结构化数据）。
NoSQL学位论文【8】-该文献是德国斯图加特传媒大学Christof Strauch撰写的学位论文，该论文对分布式系统和第一代非结构化系统提供了非常系统的背景知识介绍。
大规模数据管理【9】-文献是加拿大阿尔伯塔大学的研究人员撰写的一篇综述，讨论了大数据应用程序的大规模数据管理系统，传统的数据库供应商与新兴的互联网企业，它们对大数据管理需求是不同的。文章的讨论范围涵盖很广，数据模型、系统结构及一致性模型，皆有涉及。
最终一致性（Eventual Consistency）【10】：论文讨论了分布式系统中的各种不同的一致性模型。（注：原文给出的链接可能有误，因为根据所提供的链接下载而来的论文是关于“MapReduce中日志处理的Join算法”的综述文章，与“最终一致性”的讨论议题无关。这里推荐2篇新的相关论文：（1）综述文章：数据库最终一致性：最新的进展【10】new1；（2）微软研究人员2013年发表于SIGMOD的文章：“最终一致性的反思（Rethinking Eventual Consistency）【10】new2”。）
CAP理论【11】-文献以“CAP理论十二年回顾："规则"已经变了”为题，探讨了CAP理论及其演化，是篇非常不错的介绍CAP理论的基础性论文（注：论文作者Eric Brewer是加州大学伯克利分校的知名计算机科学学者。该文首发于《Computer》杂志，随后又被InfoQ和IEEE再次发表。CAP理论断言，任何基于网络的数据共享系统，最多只能满足数据一致性（Consistency，C）、可用性（Availability ，A）、分区（Partition，P）容忍性这三要素中的两个要素。但通过显式处理分区，系统设计师可做到优化数据的一致性和可用性，进而取得三者之间的妥协与平衡）。

在过去，在大规模数据处理上，传统的并行数据库管理系统（DBMS）和基于Map Reduce（映射-规约，以下简称MR）的批处理范式之间，曾发生激烈辩论，各持己见。并行数据库管理系统的支持者【12】（注：由耶鲁大学、微软和麻省理工学院的研究人员于2009年发表在SIGMOD的一篇文章）和另外一篇文献【13】（注：2010年发表于《美国计算机学会通讯》上的论文：“MapReduce和并行数据库管理系统，是朋友还是敌人？”），被MR的拥趸者【14】（注：发表于美国计算机学会通讯的论文：MapReduce:一个弹性的数据处理工具）狠狠地给批驳了一番。
然而，令人讽刺的是，从那时起，Hadoop社区开始引入无共享的（Shared-Nothing）的MPP（大规模并行处理）风格的大数据处理模式，文献“Hadoop上的SQL【15】”，便是例证。要知道，MPP是并行数据库管理系统（DBMS）的灵魂，这样，Map Reduce绕了一大圈，又似回到它当初离开的地方。

文件系统层

由于文件系统层关注的焦点，开始向“低延时处理”方向转移，所以传统基于磁盘存储的文件系统，也开始向基于内存计算的文件系统转变 —— 这样做，会大大降低I / O操作和磁盘序列化带来的访问开销。Tachyon 和 Spark RDD【16】就是朝这个方向演化的范例（注：这里RDD指的是弹性分布式数据集（Resilient Distributed Datasets），它是一种高度受限的共享内存模型，文献【16】由伯克利大学加州分校的Matei Zaharia等撰写的，他们提出了一种面向内存集群运算的容错抽象模型）。

Google文件系统（GFS）【17】-该文献是分布式文件系统的奠基之作，著名的Hadoop 分布式文件系统（HDFS），亦脱胎于GFS，基本上可视为GFS的一个简化实现版（注：文献【17】提出了一个可扩展的分布式文件系统GFS，可用于大型分布式数据密集型应用。文献认为，组件故障是常态而不是异常。其所提出的GFS，着眼在几个重要的目标，比如性能、可伸缩性、可靠性和可用性。GFS的新颖之处，并不在于它采用了多么令人惊艳的技术，而在于它能利用所提出的方案，采用廉价的商用机器，来构建高效的分布式文件系统。有用的创新，才是真的创新，GFS做到了！）。
Hadoop 文件系统【18】-该文献由雅虎公司的计算机科学家Konstantin Shvachko等人联合撰写的，论文给出了HDFS的进化历史背景及其架构的设计内涵，是了解Hadoop技术的经典之作。
Ceph文件系统【19】-Ceph是HDFS有力的替代者【20】（注：Ceph文件系统是加州大学圣克鲁兹分校（USSC）博士生Sage Weil博士期间的一项有关存储系统的研究项目。初出茅庐，略有小成。之后，在开源社区的推动下，Ceph逐渐羽翼渐丰，风云叱咤，功成名就，逐渐发展成为一个 Linux系统下 PB 级分布式文件系统。文献【19】是Weil本人在2006年顶级会议OSDI发表的有关Ceph的开山论文。文献【20】则是Weil率领他的一帮小伙伴们再次发文强调，Ceph是HDFS强有力的替代者）。
Tachyon【21】–是一个高容错的分布式内存文件系统，其设计的核心内涵是，要满足当下“低延迟”的数据处理要求（注：Tachyon是在内存中处理缓存文件，允许文件以访问内存的速度在集群框架中进行可靠的共享，类似于Spark。Tachyon的吞吐量比HDFS高出100倍。Spark框架虽然也提供了强大的内存计算能力，但其没有提供内存文件的存储管理能力，而Tachyon则弥补了Spark的不足之处。文献【21】是伯克利大学加州分校和麻省理工学院的研究者联合撰写的，发表在2014年的 SoCC国际会议上，论文一作UC Berkeley AMP实验室博士生李浩源，他亦是Spark核心开发人员之一）。

文件系统的演化历程，其实也见证了文件格式和压缩技术的发展历程。下面的参考文献，可以让你了解到，“面向行”或“面向列”存储格式各自的优缺点，并且还可让你了然文件存储技术发展的新趋势——嵌套式的面向列的存储格式，这种存储格式可极大提高大数据的处理效率。

当前，在文件系统阶段，数据管理的最大挑战之一就是，如何处理大数据中的数据冗余。纠删码（Erasure code）是很有创意的冗余保护机制，它可以减少三倍的冗余副本，还不会影响数据的可恢复性与可用性。

面向列存储 vs. 面向列存储【22】—该文献是是2008年发表于SIGMOD的一篇论文，该文对数据的布局、压缩及物化（materialization）策略都做了很不错的综述。
RCFile【23】-这是由Facebook数据基础设施小组和俄亥俄州立大学的华人学者共同提出的文件存储格式，他们走了一个“中庸之道”，充分吸取面向列和面向行存储模式的优点，扬长避短，提出了一种混合的数据存储结构PAX（注：目前这种以行/列混合存储技术已成功应用于 Facebook 等国内外大型互联网企业的生产性运行体系）。
Parquet【24】- 这是一种面向行的存储格式，其设计理念源于谷歌 Dremel论文（注：Parquet主要用于 Hadoop 的生态系统中。文献【24】是Julien Dem在Github发表的一篇博客文章）。
ORCFile【25】–这是一种被Hive（一种基于Hadoop的数据仓库工具）采用的、面向列存储的改进版存储格式（注：文献【25】是2014年发表于顶会SIGMOD的一篇学术论文）。
压缩技术【26】-这是是一篇阐述在Hadoop生态系统下的常见压缩算法的综述性文章，文章对常见的压缩算法和其适用场景以及它们的优缺点，做了非常不错的归纳总结。
纠删码技术（Erasure code）【27】-这是一篇是田纳西大学EECS系教授James Plank撰写的、有关存储系统纠删码技术的入门级的文献。有关纠删码改进技术的阐述，读者可参阅来自南加州大学和Facebook的7名作者共同完成的论文《XORing Elephants: 面向大数据的新型纠删码技术【28】》（注：文献【28】的作者开发了纠删码家族的新成员——基于XOR的本地副本存储LRC，该技术是面向Hadoop生态系统的，可显著减少修复数据时的I/O操作和存储开销）。

数据存储层
宽泛地讲，据对一致性（consistency）要求的强弱不同，分布式数据存储策略，可分为ACID和BASE两大阵营。ACID是指数据库事务具有的四个特性：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。ACID中的一致性要求比较强，事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。而BASE对一致性要求较弱，它的三个特征分别是：基本可用（Basically Available）, 软状态/柔性事务（Soft-state，即状态可以有一段时间的不同步）, 最终一致性（Eventual consistency）。BASE还进一步细分基于键值的，基于文档的和基于列和图形的 – 细分的依据取决于底层架构和所支持的数据结构（注：BASE完全不同于ACID模型，它以牺牲强一致性，获得基本可用性和柔性可靠性，并要求达到最终一致性）。

在数据存储层，还有很多类似的系统和某些系统的变种，这里，我仅仅列出较为出名的几个。如漏掉某些重要系统，还请谅解。

BASE
键值存储（Key Value Stores）
Dynamo【29】– 这是由亚马逊工程师们设计的基于键值的高可用的分布式存储系统（注：Dynamo放弃了数据建模的能力，所有的数据对象采用最简单的Key-value模型存储，可简单地将Dynamo理解为一个巨大的Map。Dynamo是牺牲了部分一致性，来换取整个系统的高可用性）。

Cassandra【30】 – 这是由Facebook工程师设计的一个离散的分布式结构化存储系统，受亚马逊的Dynamo启发，Cassandra采用的是面向多维的键值或面向列的数据存储格式（注：Cassandra可用来管理分布在大量廉价服务器上的巨量结构化数据，并同时提供没有单点故障的高可用服务）。

Voldemort【31】 –这又是一个受亚马逊的Dynamo启发的分布式存储作品，由全球最大的职业社交网站LinkedIn的工程师们开发而成（注：Voldemort，这个在《哈利·波特》中常被译作“伏地魔”的开源数据库，支撑起了LinkedIn的多种数据分析平台）。

面向列的存储（Column Oriented Stores）
BigTable【32】 –这是一篇非常经典的学术论文，阐述了面向列的分布式的数据存储方案，由谷歌荣誉出品。（注：Bigtable是一个基于Google文件系统的分布式数据存储系统，是为谷歌打拼天下的“三驾马车”之一，另外两驾马车分别是分布式锁服务系统Chubby和下文将提到的MapReduce）。

HBase【33】 –目前还没有有关Hbase的定义性论文，这里的文献提供了一个有关HBase技术的概述性文档（注：Hbase是一个分布式的、面向列的开源数据库。其设计理念源自谷歌的 BigTable，用Java语言编写而成。文献【33】是一个有关Hbase的幻灯片文档）。

Hypertable【34】-文献是一个有关“Hypertable”的技术白皮书，对该数据存储结构做了较为详细的介绍（注：Hypertable也是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable类似的模型）。

面向文档的存储（Document Oriented Stores）

CouchDB【35】– 这是一款面向文档的、开源数据存储管理系统（注：文献【35】是一本Apache CouchDB的400多页的官方文档）。

MongoDB【36】 –是目前非常流行的一种非关系型(NoSQL)数据库（注：文献【36】是一个有关MongoDB的白皮书，对MongoDB结构做了很不错的介绍）。

面向图（Graph）的存储

Neo4j【37】 –文献是Ian Robinson等撰写的图书《Graph Databases（图数据库）》（注：Neo4j是一款目前最为流行的高性能NoSQL 图数据库，它使用图来描述数据模型，把数据保存为图中的节点以及节点之间的关系。这是最流行的图数据库）。

Titan【38】 –文献是有关Titan的在线文档（Titan是一款Apache许可证框架下的分布式的开源图数据库，特别为存储和处理大规模图而做了大量优化）。

ACID

我注意到，现在很多开源社区正在悄悄发生变化，它们开始“亦步亦趋”地跟随谷歌的脚步。这也难怪，谷歌太牛，跟牛人混，近牛者牛 —— 下面4篇文献，有3篇来自于谷歌的“神来之笔”，他们解决了全球分布一致的数据存储问题。

Megastore【39】 –这是一个构建于BigTable之上的、高可用的分布式存储系统，文献为有关Megastore的技术白皮书（注：Megastore在被谷歌使用了数年之后，相关技术信息才在2001年公布。CSDN网站亦有文献【39】的中文解读：Google Megastore分布式存储技术全揭秘）。

Spanner【40】–这是由谷歌研发的、可扩展的、全球分布式的、同步复制数据库，支持SQL查询访问。（注：Spanner的“老爹”是Big Table，可以说，没有“大表”这个爹，就不可能有这个强有力的“扳手” 儿子。它是第一个把数据分布在全球范围内的系统，并且支持外部一致性的分布式事务）。

MESA【41】–亦是由谷歌研发的、跨地域复制(geo-replicated)、高可用的、可容错的、可扩展的近实时数据仓库系统（注：在2014年的VLDB 大会上，谷歌公布了他们的分析型数据仓库系统MESA，该系统主要用于存储Google互联网广告业务相关的关键衡量数据。文献【41】是VLDB的会议论文）。

CockroachDB【42】–该系统是由Google前工程师Spencer Kimball领导开发的Spanner 的开源版本（注：这个项目的绰号是“螳螂（Cockroach）”，其寓意是“活得长久”，因为蟑螂是地球上生命力最强的生物之一，即使被砍下头颅，依然还能存活好几天！文献【42】是代码托管网站GitHub上对Cockroach的说明性文档）。

资源管理器层（Resource Managers）

第一代Hadoop的生态系统，其资源管理是以整体单一的调度器起家的，其代表作品为YARN。而当前的调度器则是朝着分层调度的方向演进（Mesos则是这个方向的代表作），这种分层的调度方式，可以管理不同类型的计算工作负载，从而可获取更高的资源利用率和调度效率。

YARN【43】– 这是新一代的MapReduce计算框架，简称MRv2，它是在第一代MapReduce的基础上演变而来的（注：MRv2的设计初衷是，为了解决第一代Hadoop系统扩展性差、不支持多计算框架等问题。对国内用户而言，原文献下载链接可能会产生404错误，这里提供一个新文献：由2011年剥离自雅虎的Hadoop初创公司Hortonworks给出的官方文献【43】new，阅读该文献也可对YARN有较为深入的理解。CSDN亦有对YARN详细解读的文章：更快、更强——解析Hadoop新一代MapReduce框架Yarn）。

Mesos【44】–这是一个开源的计算框架，可对多集群中的资源做弹性管理（注：Mesos诞生于UC Berkeley的一个研究项目，现为Apache旗下的一个开源项目，它是一个全局资源调度器。目前Twitter、 Apple等国外大公司正在使用Mesos管理集群资源，国内用户有豆瓣等。文献【44】是加州大学伯克利分校的研究人员发表于著名会议NSDI上的学术论文）。

这些计算框架和调度器之间是松散耦合的，调度器的主要功能就是基于一定的调度策略和调度配置，完成作业调度，以达到工作负载均衡，使有限的资源有较高的利用率。

调度器（Schedulers）

作业调度器，通常以插件的方式加载于计算框架之上，常见的作业调度器有4种：

计算能力调度器【45】（Capacity Scheduler）-该文献是一个关于计算能力调度器的指南式文档，介绍了计算能力调度器的不同特性。

公平调度器【46】（FairShare Scheduler） -该文献是Hadoop的公平调度器设计文档，介绍了公平调度的各项特征（注：公平调度是一种赋予作业资源的方法，它提供了一个基于任务数的负载均衡机制，其目的是让所有的作业随着时间的推移，都能平均的获取等同的共享资源）。

延迟调度【47】（Delayed Scheduling） –该文献是加州大学伯克利分校的一份技术报告，报告介绍了公平调度器的延迟调度策略。

公平与能力调度器【48】（Fair & Capacity schedulers ）–该文献是一篇关于云环境下的Hadoop调度器的综述性论文。

协调器（Coordination）

在分布式数据系统中，协调器主要用于协调服务和进行状态管理。

Paxos【49】 –文献【49】是经典论文“The Part-Time Parliament（兼职的议会）【50】” 的简化版。

注：两篇文献的作者均是莱斯利·兰伯特（Leslie Lamport），此君是个传奇人物，科技论文写作常用编辑器LaTex，其中“La”就是来自其姓“Lamport”的前两个字母。Lamport目前是微软研究院首席研究员，2013年，因其在分布式计算理论领域做出的杰出贡献，荣获计算机领域最高奖——图灵奖。

牛人的故事特别多，Lamport亦是这样。就这两篇文献而言，Lamport的奇闻轶事都值得说道说道。光看其经典论文题目“The Part-Time Parliament（兼职的议会）【50】”，或许就让读者“一头雾水”，这是一篇计算机科学领域的论文吗？和读者一样感觉的可能还有期刊编辑。其实，早在1990年时，Lamport就提出Paxos算法，他虚构了一个希腊城邦Paxos及其议会，以此来形象比喻说明该算法的流程。论文投出后，期刊编辑建议Lamport，将论文用更加严谨的数学语言重新进行描述一下。可Lamport则认为，我的幽默，你不懂！拒绝修改。时隔八年之后的 1998年，Paxos算法才被伯乐期刊《ACM Transactions on Computer Systems》发表。由于Paxos算法本身过于复杂，且同行不理解自己的“幽默”，于是，2001年Lamport就用简易语言撰写这篇文章，重新发表了该论文的简化版【49】，即“Paxos made simple（Paxos变得简单）”。简化版的摘要更简单，就一句话：“Paxos算法，用简易英语说明之，很简单”，如果去掉中间的那个无故紧要的定语从句，就是“Paxos算法，很简单”。弄得你都来不及做深思状，摘要就完了。这…，这…，完全颠覆了我们常用的“三段论式（提问题、解问题、给结论）”的论文摘要写法啊。

后来，随着分布式系统的不断发展壮大，Paxos算法开始大显神威。Google的Chubby和Apache的Zookeeper，都是用Paxos作为其理论基础实现的。就这样， Paxos终于登上大雅之堂，它也为Lamport在2013年获得图灵奖，立下汗马功劳。从Lamport发表Paxos算法的小案例，我们可以看出：彪悍的人生，不需要解释。牛逼的论文，就可以任性！

Chubby【51】– 该文献的作者是谷歌工程师Mike Burrows。Chubby系统本质上就是前文提到的Paxos的一个实现版本，主要用于谷歌分布式锁服务。（注：原文链接会出现404错误，CSDN网站有Chubby论文的下载链接）。

Zookeeper【52】 –这是Apache Hadoop框架下的Chubby开源版本。它不仅仅提供简单地上锁服务，而事实上，它还是一个通用的分布式协调器，其设计灵感来自谷歌的Chubby（注：众所周知，分布式协调服务开发困难很大，分布式系统中的多进程间很容易发生条件竞争和死锁。ZooKeeper的开发动力就是减轻分布式应用开发的困难，使用户不必从零开始构建协调服务）。

计算框架（Computational Frameworks）

运行时计算框架，可为不同种类的计算，提供运行时（runtime）环境。最常用的是运行时计算框架是Spark和Flink。

Spark【53】 –因Spark日益普及，加之其具备良好的多计算环境的适用性，它已对传统的Hadoop生态环境，形成了严峻的挑战（注：Spark是一个基于内存计算的开源的集群计算系统，其目的在于，让数据分析更加快速。Spark是由加州大学伯克利分校的AMP实验室采用Scala语言开发而成。Spark的内存计算框架，适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司均是其用户）。

Flink【54】 –这是一个非常类似于Spark的计算框架，但在迭代式数据处理上，比Spark更给力（注：目前大数据分析引擎Flink，已升级成为Apache顶级项目）。

Spark和Flink都属于基础性的大数据处理引擎。具体的计算框架，大体上，可根据采用的模型及延迟的处理不同，来进行分门别类。

批处理（Batch）

MapReduce【55】– 这是谷歌有关MapReduce的最早的学术论文（注：对于国内用户，点击原文献链接可能会产生404错误，CSDN网站有MapReduce论文的下载链接）。

MapReduce综述【56】 –这是一篇过时、但依然值得一读的、有关MapReduce计算框架的综述性文章。

迭代式（BSP）

Pregel【57】–这又是一篇谷歌出品的大手笔论文，主要描述了大规模图处理方法（注：Pregel是一种面向图算法的分布式编程框架，其采用的是迭代式的计算模型。它被称之为Google后Hadoop时代的新“三驾马车”之一。另外两驾马车分别是：“交互式”大数据分析系统Dremel和网络搜索引擎Caffeine）。

Giraph【58】 – 该系统建模于谷歌的Pregel，可视为Pregel的开源版本，它是一个基于 Hadoop架构的、可扩展的分布式迭代图处理系统。

GraphX【59】 –这是一个同时采用图并行计算和数据并行的计算框架（注：GraphX最先是加州大学伯克利分校AMPLab实验室的一个分布式图计算框架项目，后来整合到Spark中，成为其中的一个核心组件。GraphX最大的贡献在于，在Spark之上提供一栈式数据解决方案，可方便高效地完成图计算的一整套流水作业）。

Hama【60】– 是一个构建Hadoop之上的基于BSP模型的分布式计算引擎（注：

Hama的运行环境需要关联 Zookeeper、HBase、HDFS 组件。Hama中最关键的技术，就是采用了BSP模型(Bulk Synchronous Parallel，即整体同步并行计算模型，又名大同步模型)。BSP模型是哈佛大学的计算机科学家Viliant和牛津大学的BillMcColl在1990年联合提出的，他们希望能像冯·诺伊曼体系结构那样，架起计算机程序语言和体系结构间的桥梁，故又称作桥模型(Bridge Model)。

开源图处理系统【61】（Open source graph processing ）-这是滑铁卢大学的研究人员撰写的综述性文献，文献【61】对类Pregel（Pregel-like）的、基于BSP模型的图处理系统进行了实验性的比较。

流式（Streaming）

流式处理【62】（Stream Processing）- 这是一篇非常棒的、有关面向大数据实时处理系统的综述性文章。

Storm【63】 – 这是一个大数据实时处理系统（注：Storm有时也被人们称为实时处理领域的Hadoop，它大大简化了面向庞大规模数据流的处理机制，从而在实时处理领域扮演着重要角色。文献【63】是Twitter工程师们在2014年发表于SIGMOD上的学术论文）。

Samza【64】 -这是一款由Linkedin公司开发的分布式的流式数据处理框架（注：所谓流式数据，是指要在处理单位内得到的数据，这种方式更注重于实时性，流式数据有时也称为快数据）。

Spark流【65】（Spark Streaming） -该文献是加州大学伯克利分校的研究人员于2013年在著名操作系统会议SOSP上发表的学术论文，论文题目是《离散流：容错大规模流式计算》（注：这里的离散流是指一种微批处理构架，其桥接了传统的批处理和交互式处理。Spark Streaming是Spark 核心API的一个扩展，它并不会像Storm那样逐个处理数据流，而是在处理前，按时间间隔预先将其切分为很多小段的批处理作业）。

交互式（Interactive）

Dremel【66】–这又是一篇由谷歌出品的经典论文，论文描述了如何处理“交互式”大数据的工作负载。该论文是多个基于Hadoop的开源SQL系统的理论基础（注：文献【66】写于2006年，“捂”藏4年之后，于2010年公布于众。文章针对MR交互式查询能力不足，提出了Dremel，阐述了Dremel的设计原理，并提供了部分测试报告）。

Impala【67】 –这是一个大规模并行处理（MPP）式 SQL 大数据分析引擎（注：

Impala像Dremel一样，其借鉴了MPP（Massively Parallel Processing，大规模并行处理）并行数据库的思想，抛弃了MapReduce这个不太适合做SQL查询的范式，从而让Hadoop支持处理交互式的工作负载。本文作者阿尼尔•马丹在LinkedIn上的博客原文，在此处的“MPI”系“MPP”笔误，读者可参阅文献【67】发现此问题）。

Drill【68】–这是谷歌 Dremel的开源版本（注：Drill是一个低延迟的、能对海量数据（包括结构化、半结构化及嵌套数据）实施交互式查询的分布式数据引擎）。

Shark【69】 –该文献是2012年发表于SIGMOD的一篇学术论文，论文对Spark生态系统上的数据分析能力，给出了很深入的介绍（注：Shark是由加州伯克利大学AMPLab开发的大数据分析系统。Shark即“Hive on Spark”的含义，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作。然后通过Hive的元数据获，取数据库里的表信息。HDFS上的数据和文件，最后会由Shark获取，并放到Spark上运算。Shark基于 Scala语言的算子推导，可实现良好的容错机制，对执行失败的长/短任务，均能从上一个“快照点（Snapshot）”进行快速恢复）。

Shark【70】–这是另外一篇很棒的于2013年发表在SIGMOD的学术论文，其深度解读在Apache Hive之上SQL访问机制（注：这篇文献描述了如何构建在Spark上构建SQL引擎——Shark。更重要的是，文章还讨论了之前在 Hadoop/MapReduce上实施SQL查询如此之慢的原因）。

Dryad【71】– 文献讨论了使用有向无环图(Directed Acycline Graph，DAG)来配置和执行并行数据流水线的方法（注：Dryad是一个通用的粗颗粒度的分布式计算和资源调度引擎，其核心特性之一，就是允许用户自己构建DAG调度拓扑图。文献【71】是微软于2007年在EuroSys国际会议上发布的学术论文）。

Tez【72】 –其核心思想来源于Dryad，可视为利用Yarn(即MRv2)对Dryad的开源实现（注：Apache Tez是基于Hadoop Yarn之上的DAG计算框架。由Hadoop的二东家Hortonworks开发并提供主要技术支持。文献【72】是一个关于Tez的简要介绍文档）。

BlinkDB【73】–可在抽样数据上实现交互式查询，其呈现出的查询结果，附带有误差标识。

（注：BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。BlinkDB允许用户通过适当降低数据精度，对数据进行先采样后计算，其通过其独特的优化技术，实现了比Hive快百倍的交互式查询速度，而查询进度误差仅降低2~10%。

BlinkDB采用的策略，与大数据布道师，维克托·迈尔-舍恩伯格在其著作《大数据时代》中提到的观点，“要全体，不要抽样”，恰恰相反。

基于常识，我们知道：多了，你就快不了。好了，你就省不了。对大数据处理而言，也是这样。英特尔中国研究院院长吴甘沙认为，大体量、精确性和速度快，三者不可兼得，顶多取其二。如果要实现在大体量数据上的 “快”，就得想办法减少数据，而减少数据，势必要适度地降低分析精确性。

事实上，大数据并不见得越“大”越好，有时候一味的追求“大”是没有必要的。例如，在医疗健康领域，如果来监控某个病人的体温，可穿戴设备可以一秒钟采集一次数据，也可以一分钟采集一次数据，前者采集的数据总量比后者“大”60倍，但就监控病人身体状况而言，意义并不是太大。虽然后者的数据忽略了人体在一分钟内的变化，监控的精度有所下降，但对于完成监控病人健康状态这一目的而言，是可以接受的。）

实时系统（RealTime）

Druid【74】 –这是一个开源的分布式实时数据分析和存储系统，旨在快速处理大规模的数据，并能做到快速查询和分析（注：文献【74】是2014年Druid创始人Eric Tschetter和中国工程师杨仿今等人在SIGMOD上发表的一篇论文）。

Pinot【75】 –这是由LinkedIn公司出品的一个开源的、实时分布式的 OLAP数据分析存储系统，非常类似于前面提到的Druid，LinkedIn 使用它实现低延迟可伸缩的实时分析。（注：文献【75】是在GitHub上的有关Pinot的说明性文档）。

数据分析层（Data Analysis）

数据分析层中的工具，涵盖范围很广，从诸如SQL的声明式编程语言，到诸如Pig的过程化编程语言，均有涉及。另一方面，数据分析层中的库也很丰富，可支持常见的数据挖掘和机器学习算法，这些类库可拿来即用，甚是方便。

工具（Tools）

Pig【76】 –这是一篇有关Pig Latin非常不错的综述文章（注：Pig Latin原是一种儿童黑话，属于是一种英语语言游戏，形式是在英语上加上一点规则使发音改变，让大人们听不懂，从而完成孩子们独懂的交流。文献【76】是雅虎的工程师们于2008年发表在SIGMOD的一篇论文，论文的题目是“Pig Latin：并不是太老外的一种数据语言”，言外之意，他们发明了一种数据处理的“黑话”——Pig Latin，一开始你可能不懂，等你熟悉了，就会发现这种数据查询语言的乐趣所在）。

Pig【77】 – 这是另外一篇由雅虎工程师们撰写的有关使用Pig经验的论文，文章介绍了如果利用Pig在Map-Reduce上构建一个高水准的数据流分析系统。

Hive【78】 –该文献是Facebook数据基础设施研究小组撰写的一篇学术论文，介绍了Hive的来龙去脉（注：Hive是一个建立于 Hadoop 上的数据仓库基础构架。它用来进行数据的提取、转化和加载（即Extract-Transform-Load ，ETL），它是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制）。

Hive【79】–该文献是另外一篇有关Hive的值得一读的好论文。论文作者来自Facebook数据基础设施研究小组，在这篇论文里，可以帮助读者理解Hive的设计理念。

Phoenix【80】 –它是 HBase 的 SQL 驱动（注：Phoenix可将 SQL 查询转成 HBase 的扫描及相应的动作。文献【80】是关于在Hbase上部署SQL的幻灯片文档）。

Map Reduce上的连接（join）算法【81】–该文献介绍了在Hadoop环境下的各种并行连接算法，并对它们的性能作出系统性评测。

Map Reduce上的连接算法【82】 –这是威斯康星大学和IBM研究团队撰写的综述性文章，文章对在Map Reduce模型下的各种连接算法进行了综合比较。

库（Libraires）

MLlib【83】–这是在Spark计算框架中对常用的机器学习算法的实现库，该库还包括相关的测试和数据生成器（注：文献【83】是MLlib的一个幻灯片说明文档）。

SparkR【84】–这是AMPLab发布的一个R开发包，为Apache Spark提供轻量级的前端（注：R是一种广泛应用于统计分析、绘图的语言及操作环境。文献【84】是有关SparkR的幻灯片文档）。

Mahout【85】 –这是一个功能强大的数据挖掘工具，是一个基于传统Map Reduce的分布式机器学习框架（注：Mahout的中文含义就是“驭象之人”，而Hadoop的Logo正是一头小黄象。很明显，这个库是帮助用户用好Hadoop这头难用的大象。文献【85】是有关Mahout的图书）。

数据集成层（Data Integration）

数据集成框架提供了良好的机制，以协助高效地摄取和输出大数据系统之间的数据。从业务流程线到元数据框架，数据集成层皆有涵盖，从而提供全方位的数据在整个生命周期的管理和治理。

摄入/消息传递（Ingest/Messaging）

Flume【86】 –这是Apache旗下的一个分布式的、高可靠的、高可用的服务框架，可协助从分散式或集中式数据源采集、聚合和传输海量日志（注：文献【86】是Apache网站上有关Flume的一篇博客文章）。

Sqoop【87】–该系统主要用来在Hadoop和关系数据库中传递数据（注：Sqoop目前已成为Apache的顶级项目之一。通过Sqoop，可以方便地将数据从关系数据库导入到HDFS，或反之亦可。文献【87】是有关Sqoop的幻灯片说明文档）。

Kafka【88】 –这是由LinkedIn开发的一个分布式消息系统（注：由Scala编写而成的Kafka，由于可水平扩展、吞吐率高等特性，得到广泛应用。文献【88】是LindedIn的工程师们在2011年发表于NetDB的会议论文）。

ETL/工作流

ETL是数据抽取（Extract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程，是构建数据仓库的重要一环。

Crunch【89】–这是Apache旗下的一套Java API函数库，它能够大大简化编写、测试、运行MapReduce 处理工作流的程序（注：文献【89】是有关Crunch的幻灯片解释文档）。

Falcon【90】– 这是Apache旗下的Falcon大数据管理框架，可以帮助用户自动迁移和处理大数据集合（注：文献【90】是一份关于Falcon技术预览报告）。

Cascading【91】 –这是一个架构在Hadoop上的API函数库，用来创建复杂的可容错的数据处理工作流（注：文献【91】是关于Hadoop上的Cascading的概论和技术随笔）。

Oozie【92】–是一个工作流引擎，用来协助Hadoop作业管理（注：Oozie字面含义是驯象之人，其寓意和Mahout一样，帮助用户更好地搞定Hadoop这头大象。文献【92】是Apache网站上有关Oozie的官方文档）。

元数据（Metadata）

HCatalog【93】– 它提供了面向Apache Hadoop的数据表和存储管理服务（注：Apache HCatalog提供一个共享的模式和数据类型的机制，它抽象出表，使用户不必关心数据怎么存储，并提供了可操作的跨数据处理工具。文献【93】是Apache网站有关Hcatalog的官方说明文档）。

序列化（Serialization）

Protocol Buffers【94】 –由Google推广的一种与语言无关的、对结构化数据进行序列化和反序列化的机制（注：Protocol Buffers可用于通讯协议、数据存储等领域的语言及平台无关、可扩展的序列化结构数据格式。文献【94】是有关Protocol Buffers幻灯片文档）。

Avro【95】 –这是一个建模于Protocol Buffers之上的、Hadoop生态系统中的子项目（注：Avro本身既是一个序列化框架，同时也实现了RPC的功能）。

操作框架（Operational Frameworks）

最后，我们还需要一个操作性框架，来构建一套衡量标准和测试基准，从而来评价各种计算框架的性能优劣。在这个操作性框架中，还需要包括性能优化工具，借助它来平衡工作负载。

监测管理框架（Monitoring Frameworks）

OpenTSDB【96】 –这是构建于HBase之上的实时性能评测系统（注：文献【96】提供了OpenTSDB的简要概述，介绍了OpenTSDB的工作机理）。

Ambari【97】– 这是一款基于Web的系统，支持Apache Hadoop集群的供应、管理和监控（注：文献【97】阐述了Ambari架构的设计准则）。

基准测试（Benchmarking）

YCSB【98】 –该文献是一篇使用YCSB对NoSQL系统进行性能评估的期刊论文（注：YCSB是雅虎云服务基准测试（Yahoo! Cloud Serving Benchmark）的简写。见名知意，它是由雅虎出品的一款通用云服务性能测试工具）。

GridMix【99】 –该系统通过运行大量合成的作业，对Hadoop系统进行基准测试，从而获得性能评价指标（注：文献是Apache网站有关GridMix的官方说明文档）。

最后一篇文献是有关大数据基准测试的综述文章【100】，文章讨论了基准测试的最新技术进展以及所面临的几个主要挑战。

你可能感兴趣的:(书籍,hadoop,flink,kafka,mapreduce,spark)

向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
2023-4-6晨间日记百里清风柏年醉
今天是什么日子起床：7:00就寝：10:30天气：阳光明媚心情：沉闷，忧心忡忡纪念日：无任务清单昨日完成的任务，最重要的三件事：看咨询工程师的书锻炼身体记75个单词改进：自己做饭习惯养成：看纸质书籍不刷抖音每天日更周目标·完成进度学习·信息·阅读健康·饮食·锻炼人际·家人·朋友保持与朋友交流，多认识、结交新的朋友工作·思考怎么做好向上管理该学习什么新的技能怎么与同事更好相处，更好地开展工作最美好的
新月|图卡5-8《心》一切始于心，终于心新月_f578
大家好，我是坚持做图卡，不断精进的新月，近期阅读书籍《心。》，持续输出图卡……截止目前已经读完本书，输出卡片9张~借助9张卡片，回顾本书的整体内容，结构上可以分为：始于心-修心-终于心。首先明确：我们为什么要这么做？其次懂得如何去做，落实到具体的方式方法上，就是修心的过程。最后是知道目标在哪，不断自我提升，向目标靠进，使修心贯穿始终。
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
《蛤蟆先生去看心理医生》读后感我是八零后
《蛤蟆先生去看心理医生》，听书名像是童书，其实是一本专业心理学书籍，一本可以给成年人带来的心灵疗愈的书。走进书本，我们一起跟着蛤蟆先生跟随心理医生的咨询，探寻情绪的根源，进行自我突破，完成个人状态的转变，实现自我的疗愈。一、刷重点1个前提。改变的唯一前提是认识你自己，在这个世界上能帮你的人，只有你自己。2个思维。人人在理性与感性之间徘徊。真正厉害的人，是理性与感性并存。3个状态。每个人都有儿童、父
家庭教育，先家庭后教育：家庭是硬件，教育是软件唯唯育家
很多家长为孩子付出很多，也学习很多家庭教育课程，看很多家庭教育书籍，为什么还是教育孩子很困难？因为主次颠倒，没有抓住家庭教育的主干！家庭教育，很多家长只行使“教育”功能，忽视了“家庭”功能！家长总想着怎么教孩子，怎么教育孩子！如果单靠教育，就能把孩子教好，学校老师在教育方面比家长在行，孩子应该在学校就被教好了，哪还需要家庭教育？为什么只有学校教育不够，还需要家庭教育？家庭教育的主要功能不在“教育”
这样共读一本书 eggplant
2021年10月6日星期三本期学校阳光管理轮训共读刘铁芳教授的《以教学打开生命——个体成人的教学哲学阐释》，这是继共读刘教授《什么是好的教育》之后的第二本书籍，这两本书籍都是有关教育的哲学书籍，应该说，《以教学打开生命——个体成人的教学哲学阐释》是《什么是好的教育》的延伸、丰富与升华，理论性更强，哲学意味更浓，对于一线教师来说，接触哲学类的书籍较少，在阅读上有些内容的理解有难度，但是，有难度才更值
90天读书分享76——家为什么会伤人韧2018
图片发自App今天分享的书籍是《家为什么会伤人》，作者是武志红，著名的心理学家，畅销书作家。本书是讲述中国家庭的文化的一些缺陷造成的种种不良后果，我将分享书中家庭和婚姻中的误区和正确的做法。由于我们在家庭和婚姻中没有采取正确做法，走入了误区，会给婚姻和家庭带来巨大的伤害，而且这种伤害会可能会对子女造成影响，会不断延续下去，造成悲剧的反复发生。现在来看看婚姻中存在误区：第一个误区是不以夫妻关系为家庭
每日一书|《亲密关系》(Day5) 采臣在等我
采臣在等我-广州【书籍名称】《亲密关系》图片发自App【阅读目标】1.了解“亲密关系”的几个阶段及特点2.认识和理解有效沟通的技巧和原则3.思考自己在亲密关系建立中的角色和心理，以及面临的挑战【阅读感受】这本书是克里斯多福研究亲密关系的智慧结晶，阅读的整体感受是:书中文字亲切，有种娓娓道来的感觉。书中的逻辑感较强，也有详细的小结和应用建议，适合应用和反思。1.亲密关系的4个阶段和特点阶段一:月晕A
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
谈哲学本仙老四
我是谁？从哪里来？要到哪里去？最近看了些西方哲学类书籍，忽然就有了这些哲学式的思考。世界真的如我们所看到的这样吗？还是只是我们觉得它是这样？或者它根本就不存在。哲学书是引发人思考的好书籍，即使你觉得读起来枯燥无味也要坚持阅读，之后你会发现受益无穷。大家都说哲学起源于西方，文艺复兴时期的哲学对欧洲的发展起到了重要作用。其实早在中国古代就有一批哲人出现，老子、庄子、孟子、孔子……他们的思想各有独到之处
新媒体运营小白，有哪些书籍可以推荐？ y耳朵
为了转行运营，我曾花了3个月的时间，看了不下百本书，可以说市面上大部分跟运营有关的书籍，我都看过了，因此关于书的推荐也有一些自己的小见解。看书不一定要多，但一定要****精，我根据豆瓣评分、推荐热度和自己的转行经历，挑出了13本值得运营小白看的书，收藏好这份书单，不需要你浪费时间去找书了。先看下统计好的书单：整理不易，看完记得点个赞哦！感谢你的支持。入门篇：1.《运营之光》（豆瓣评分：8.0)推荐
跟剽悍一只猫学习收获之成为领域专家财务自由的社群运营人苏宝
001找到这个领域内权威的书籍。002按照书的脉络（章节目录）记录书中的重要内容（对自己认知系统造成冲击的，以前没有学过的，觉得有用的，暂时还不太理解的）记录下来。003读完第一遍以后，接着读第二遍。这一遍记录书里对你有用的方法论，并尝试依据这些方法论实战。004再读一遍，这一遍记录尝试梳理整个书的认知框架和内在逻辑。005之后，可以多朗读几遍全书。你会发现，你对这些知识的理解会越来越全面，越有深
钟汉良日记：自媒体写作要向古代拜师学艺的人取经钟汉良日记
2022年9月8日周四晴朗的天前几天晚上，和实操班的学员谈了很多为什么要写日记的原因。前后两个多小时，推荐了好几本书，隔了一天再回忆竟然不能把所有的书籍都列出来。是自己年龄大了，记忆力衰退了？我觉得不是。而是谈话这种氛围，比起文字写作更容易激发我们的潜能。一些灵光乍现的想法，会在那种特别融洽的时候突然涌现出来。有的想法和总结，你平时就是绞尽脑汁也想不出来，但就是在那种你侃侃而谈的时候，思想会像流水
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
心情不好时，去做这四件事绿茵下
01读书当一个人的智慧不够时，最容易胡思乱想，将自己困住思维的牢笼里。想要开悟，首先要与智者对话，与高人同行，那么与智者对话最经济实惠的方式，莫过于读书了。于时光的静美中，手捧一本高质量的书籍，在书中窥见先贤们的所思所想，仿佛进入了一个平静的世界，让人思绪越来越清晰明了。或许读书不能够马上帮你解决眼前的难题，可日复一日地坚持下去，总能让你内心更加笃定，心灵更加沉静，生出智慧之花。在书中人物不同的经
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
数据结构 1 五花肉村长数据结构算法开发语言 c语言 visualstudio
1.什么是数据结构数据结构（DataStructure）是计算机存储和组织数据的方式，是指相互之间存在的一种或多种特定关系的数据元的集合。2.什么是算法算法（Algorithm）就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。3.数据结构和算法的书籍资料学习完数据结构知识，可以去看《剑指offer》和《
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
小故事：森林书生 zero川
1文生是一个生活在森林里的书生，他在那里有一个小树屋，屋子里放满了各种书籍。文生住所这里离乡镇闹市有30多公里远，所以平时很少会去市面上跟别人产生任何交集。文生大多数生活时间都是以书为伴、以野外万物为伴…文生靠采摘蘑菇、野菜野果维持生计，由于天性善良，所以不曾捕猎。森林里的动物也因此跟文生特别交好，经常会来文生住所调皮捣蛋。
重新挑战日更荣清
写作这件事情一直困扰着我，我以前很讨厌写作，尤其是写考试作文，每次读到作文题目，一脸懵逼，需要绞尽脑汁去思考怎样才能凑足800字。喜欢上写作，是因为这些年来读了不少的杂志、小说、历史书籍、哲学书籍、专业书籍等等。对我印象最深的当属小说了，尤其是网络小说，通俗易懂，画面感很强，顺着作者的思路可以在脑海中构建一幅完整的画面。从那时起，我心里边就有一个写作梦。梦想者带着自己手上的笔记本电脑或者华为平板电
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb