Apache Spark源码剖析

Apache Spark源码剖析（全面系统介绍Spark源码，提供分析源码的实用技巧和合理的阅读顺序，充分了解Spark的设计思想和运行机理）

许鹏著

ISBN 978-7-121-25420-8

2015年3月出版

定价：68.00元

304页

16开

编辑推荐

Spark Contributor，Databricks工程师连城，华为大数据平台开发部部长陈亮，网易杭州研究院副院长汪源，TalkingData首席数据科学家张夏天联袂力荐

1.本书全面、系统地介绍了Spark源码，深入浅出，细致入微

2.提供给读者一系列分析源码的实用技巧，并给出一个合理的阅读顺序

3.始终抓住资源分配、消息传递、容错处理等基本问题，抽丝拨茧

4.一步步寻找答案，所有问题迎刃而解，使读者知其然更知其所以然

内容提要

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。

《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值；对于那些想从源码学习而又不知如何入手的读者，也不失为一种借鉴。

第一部分Spark概述1

第1章初识Spark 3

1.1 大数据和Spark 3

1.1.1 大数据的由来4

1.1.2 大数据的分析4

1.1.3 Hadoop 5

1.1.4 Spark简介6

1.2 与Spark的第一次亲密接触7

1.2.1 环境准备7

1.2.2 下载安装Spark 8

1.2.3 Spark下的WordCount 8

第二部分Spark核心概念13

第2章Spark整体框架 15

2.1 编程模型15

2.1.1 RDD 17

2.1.2 Operation 17

2.2 运行框架18

2.2.1 作业提交18

2.2.2 集群的节点构成18

2.2.3 容错处理19

2.2.4 为什么是Scala 19

2.3 源码阅读环境准备19

2.3.1 源码下载及编译19

2.3.2 源码目录结构21

2.3.3 源码阅读工具21

2.3.4 本章小结22

第3章SparkContext初始化 23

3.1 spark-shell 23

3.2 SparkContext的初始化综述27

3.3 Spark Repl综述30

3.3.1 Scala Repl执行过程31

3.3.2 Spark Repl 32

第4章Spark作业提交 33

4.1 作业提交33

4.2 作业执行38

4.2.1 依赖性分析及Stage划分39

4.2.2 Actor Model和Akka 46

4.2.3 任务的创建和分发47

4.2.4 任务执行53

4.2.5 Checkpoint和Cache 62

4.2.6 WebUI和Metrics 62

4.3 存储机制71

4.3.1 Shuffle结果的写入和读取71

4.3.2 Memory Store 80

4.3.3 存储子模块启动过程分析81

4.3.4 数据写入过程分析82

4.3.5 数据读取过程分析84

4.3.6 TachyonStore 88

第5章部署方式分析 91

5.1 部署模型91

5.2 单机模式local 92

5.3 伪集群部署local-cluster 93

5.4 原生集群Standalone Cluster 95

5.4.1 启动Master 96

5.4.2 启动Worker 97

5.4.3 运行spark-shell 102

5.4.4 容错性分析106

5.5 Spark On YARN 112

5.5.1 YARN的编程模型112

5.5.2 YARN中的作业提交112

5.5.3 Spark On YARN实现详解113

5.5.4 SparkPi on YARN 122

第三部分Spark Lib 129

第6章Spark Streaming 131

6.1 Spark Streaming整体架构131

6.1.1 DStream 132

6.1.2 编程接口133

6.1.3 Streaming WordCount 134

6.2 Spark Streaming执行过程135

6.2.1 StreamingContext初始化过程136

6.2.2 数据接收141

6.2.3 数据处理146

6.2.4 BlockRDD 155

6.3 窗口操作158

6.4 容错性分析159

6.5 Spark Streaming vs. Storm 165

6.5.1 Storm简介165

6.5.2 Storm和Spark Streaming对比168

6.6 应用举例168

6.6.1 搭建Kafka Cluster 168

6.6.2 KafkaWordCount 169

第7章SQL 173

7.1 SQL语句的通用执行过程分析175

7.2 SQL On Spark的实现分析178

7.2.1 SqlParser 178

7.2.2 Analyzer 184

7.2.3 Optimizer 191

7.2.4 SparkPlan 192

7.3 Parquet 文件和JSON数据集196

7.4 Hive简介197

7.4.1 Hive 架构197

7.4.2 HiveQL On MapReduce执行过程分析199

7.5 HiveQL On Spark详解200

7.5.1 Hive On Spark环境搭建206

7.5.2 编译支持Hadoop 2.x的Spark 211

7.5.3 运行Hive On Spark测试用例213

第8章GraphX 215

8.1 GraphX简介215

8.1.1 主要特点216

8.1.2 版本演化216

8.1.3 应用场景217

8.2 分布式图计算处理技术介绍218

8.2.1 属性图218

8.2.2 图数据的存储与分割219

8.3 Pregel计算模型220

8.3.1 BSP 220

8.3.2 像顶点一样思考220

8.4 GraphX图计算框架实现分析223

8.4.1 基本概念223

8.4.2 图的加载与构建226

8.4.3 图数据存储与分割227

8.4.4 操作接口228

8.4.5 Pregel在GraphX中的源码实现230

8.5 PageRank 235

8.5.1 什么是PageRank 235

8.5.2 PageRank核心思想235

第9章MLLib 239

9.1 线性回归239

9.1.1 数据和估计240

9.1.2 线性回归参数求解方法240

9.1.3 正则化245

9.2 线性回归的代码实现246

9.2.1 简单示例246

9.2.2 入口函数train 247

9.2.3 最优化算法optimizer 249

9.2.4 权重更新update 256

9.2.5 结果预测predict 257

9.3 分类算法257

9.3.1 逻辑回归258

9.3.2 支持向量机260

9.4 拟牛顿法261

9.4.1 数学原理261

9.4.2 代码实现265

9.5 MLLib与其他应用模块间的整合268

第四部分附录271

附录A Spark源码调试 273

附录B 源码阅读技巧 283

作者简介

许鹏长期致力于电信领域和互联网的软件研发，在数据处理方面积累了大量经验，对系统的可扩展性、可靠性方面进行过深入学习和研究。因此，累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核，作者也曾进行过深入的分析。

媒体评论

与Hadoop、Hive、Storm等老牌大数据系统相比，Spark的代码体积要小得多。然而这样一套精简的系统却同时承载了批处理、流处理、迭代计算、关系查询、图计算等多种计算范式，再加上Scala和函数式编程并不为普通程序员所熟悉，阅读和分析Spark源码并不是一件特别轻松的事情。本书记录了一系列分析Spark源码的实用技巧，并给出了一个合理的阅读顺序，相信可以令学习Spark的读者们事半功倍。

——Spark Contributor，Databricks工程师连城

介绍Spark的书籍很多，但一般不够全面，而这本书非常系统全面地介绍了Spark源码，深入浅出、细致入微，把Spark的由来、Spark整体框架、Spark各软件栈、Spark环境搭建、Spark部署模式等从源码角度一步步剖析得非常清楚。作者有很强的系统设计、软件工程功底，读者不仅可以从书中学到Spark知识，还可以学习到作者对新技术研究、源码研究很多好的方法和技巧。授人以鱼不如授人以渔，对在校大学生、Spark初学者、大数据开发工程师来说，这本书非常值得拥有。

——华为大数据平台开发部部长陈亮

难以置信，薄薄的一本书可以兼具如此的广度与深度。除了Spark核心系统，本书还介绍了Streaming、SQL、GraphX、MLLib等扩展库，内容相当全面。但更“赞”的是本书对Spark及各扩展库的运行机理，无不提纲挈领，一一阐明，让读者不但知其然，还能知其所以然。如果想在生产环境中用好Spark，本书值得细读。

——网易杭州研究院副院长汪源

Spark目前正在蓬勃发展，越来越多的公司把大数据计算任务迁移到Spark平台上来。Spark开发的学习曲线并不陡峭。但是处理大数据，需要的不仅是逻辑正确的程序，还需要高性能的程序。如果想把Spark的性能挖掘到极致，那就需要深入了解Spark的设计思想和运行机制，而要了解这些，没有比读源代码更直接的了。许鹏老师的这本书，对于那些没有时间、精力直接啃源代码或者对Scala语言还不太精通的读者来说是一个福音。

——TalkingData首席数据科学家张夏天

前言

笔者接触Spark时间不算很长，而本书之所以能够出版，凭借的是浓厚的兴趣和执着之心。

这一切还要从Storm说起。笔者一直在做互联网相关工作，但接触大数据的时间并不长，当时Hadoop和Storm等非常红火，引起了笔者的“窥视”之心。从2013年开始，笔者打算看看Hadoop的源码实现，观察其代码规模，发觉所花时间可能会很长。恰好其时Storm风头正劲，于是转向Storm源码，0.8版的Storm代码规模不过20 000行左右，感觉还是比较好入手的。

Storm源码分析期间，笔者还学习了Clojure、ZeroMQ、Thrift、ZooKeeper、LMAX Disruptor等新技术，对于实时流数据处理算是有了一个大概的了解。由于听说在实时流数据处理领域Spark技术也很强悍，而且在容错性方面具有天生的优势，更引发了笔者的兴趣，为了弄清楚究竟，于是开始了Spark的源码走读过程。

笔者是以读Spark论文开始的，说老实话觉得晦涩难懂，因为无法将其映射到内存使用、进程启动、线程运行、消息传递等基本问题上。或许换个方法会更好，故笔者选择直接从源码入手，如此一来事情反而变简单了。在源码分析的过程中，笔者始终抓住资源分配、消息传递、容错处理等基本问题设问，然后一步步努力寻找答案，所有的问题渐渐迎刃而解。

笔者关于源码分析有一个心得，就是要紧紧把握住计算的基本模型，然后结合新分析问题的业务领域，将业务上的新问题转换到计算处理的老套路上来，然后就可以以不变应万变，而不被一些新技术名词晃花了眼。这里所说的老套路是指从操作系统的角度来看，如果能事先深度了解操作系统，将对分析一些新应用程序大有裨益。

Spark源码采用Scala语言编写，那么阅读Spark源码之前，是否一定要先学Scala呢？笔者个人以为不必，只要你有一些Java或C++编程语言的基础，就可以开始看Spark源码，遇到不懂的地方再去学习，效率反而会大大提高，做到有的放矢。将学习中遇到的知识点，从函数式编程、泛型编程、面向对象、并行编程等几个方面去整理归纳，这样能够快速将Scala语言的框架勾勒出来。

本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程；第3～5章详细分析了Spark Core中的作业规划、提交及任务执行等内容，对于要深刻把握Spark实现机理的读者来说，这几章值得反复阅读；第6～9章就Spark提供的高级Lib库进行了简要的分析，分析的思路是解决的主要问题是什么、解决的方案是如何产生的，以及方案是如何通过代码来具体实现的。

在对源码有了一定的分析和掌握之后，再回过头来看一下Spark相关的论文，这时候对论文的理解可能会更顺畅。

Spark的整体框架非常庞大，涵盖的范围也很广，随着笔者在工作中使用得越来越具体，这样的感受也越来越深。另外，必须要说对于Spark来说，笔者所做的分析实在有限，个中错误在所难免，读者诸君还请多多谅解。

在本书成稿期间，电子工业出版社的付睿编辑和李云静编辑给出了极为详细的改进意见，在这里表示衷心的感谢。最后感谢家人的支持和鼓励，亲爱的老婆和懂事的儿子给了笔者坚持的理由和勇气。

许　鹏

2015年2月

Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
PDF转图片 JAVA JAVA派派 java PDF
前言以下是一个使用ApachePDFBox将PDF文件转换为图片的封装方法。这个方法将会把PDF的每一页转换为一张图片，并保存到指定的目录中。1.添加依赖首先，你需要在项目中添加PDFBox的依赖。如果你使用的是Maven，可以在pom.xml中添加以下依赖：org.apache.pdfboxpdfbox2.0.292.转换方法importorg.apache.pdfbox.pdmodel.PDD
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
深入探索 dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁郁铎舒
深入探索dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁dubbo-rpc-jsonrpcApacheDubbo-rpc-jsonrpc是一个用于ApacheDubbo的JSON-RPC协议实现项目。它提供了一个用于ApacheDubbo的JSON-RPC协议实现库和工具。适合用于在应用程序中处理分布式服务。项目地址:https://gitcode.com/gh_mirrors/dub
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
Apache Storm实时流处理的核心技术 Hello.Reader 大数据 apache storm 大数据
1.引言ApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。1.1什么是ApacheStorm？ApacheStorm是一个流处理引擎，它可以持续处理不断到来的数据流（str
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
如何针对大Excel做文件读取？ F_windy excel
针对大Excel文件（如超过百万行）的读取，传统的一次性加载到内存的方式会导致内存溢出（OOM），需采用流式读取（Streaming）或分块读取（Chunk）的策略。以下是具体方案及优化建议：一、核心解决方案1.使用ApachePOI的SAX模式（事件驱动）适用场景：处理.xlsx文件（不支持.xls），逐行解析避免内存溢出。代码示例（Java）：importorg.apache.poi.open
ubuntu20.04系统安装zookeeper简单教程楼下创了电瓶车 zookeeper 分布式云原生
Ubuntu系统中安装和配置Zookeeper的完整指南ApacheZookeeper是一个开源的分布式协调服务，广泛用于分布式应用程序中管理配置、提供命名服务、分布式同步以及组服务等。在本教程中，我们将详细介绍如何在Ubuntu系统中安装Zookeeper，并进行相关配置，使其能够正常运行。环境准备在开始之前，请确保你的Ubuntu系统版本为18.04或更高版本。此外，Zookeeper依赖于J
ActiveMQ学习总结（10）——ActiveMQ采用Spring注解方式发送和监听一杯甜酒 ActiveMQ
对于ActiveMQ消息的发送，原声的api操作繁琐，而且如果不进行二次封装，打开关闭会话以及各种创建操作也是够够的了。那么，Spring提供了一个很方便的去收发消息的框架，springjms。整合Spring后，代码不仅变得非常优雅，而且易用性和扩展性更好。1.maven依赖org.apache.xbeanxbean-spring3.16org.springframeworkspring-jms
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
爬虫基础 20岁30年经验的码农 1024程序员节
mavenpomorg.jsoupjsoup1.16.1org.apache.httpcomponentshttpcore4.4.16org.apache.httpcomponentshttpclient4.5.14commons-iocommons-io2.13.0====================================遍历网站内容爬取网站网址packagecom.xiaocao
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
kafka详细介绍以及使用酷爱码经验分享 kafka 分布式
ApacheKafka是一个由Apache软件基金会开发的开源流式数据平台和消息系统。它被设计用于处理实时数据流，并能够支持高容错性、可伸缩性和可靠性。Kafka最初是由LinkedIn开发，并于2011年捐赠给Apache软件基金会。它现在被许多公司广泛应用于构建实时数据流架构和事件驱动型应用程序。Kafka提供了一种高性能、持久性的消息传递系统，通过将消息发布到主题（topic）和订阅这些主题
Shiro授权斗-匕 oracle 数据库
在Java安全领域，ApacheShiro以其强大的功能和灵活性备受开发者青睐。其中，授权机制是Shiro的核心功能之一，它确保了用户只能访问其被授权的资源。本文将深入探讨Shiro授权，涵盖静态和动态授权、权限、角色、隐式角色、显式角色、授权流程以及授权方式等方面。一、Shiro简介ApacheShiro是一个功能强大的Java安全框架，它提供了认证、授权、加密和会话管理等功能。Shiro的设计
Kafka 同步机制关键点 2分钟讲明白大博士.J kafka
ApacheKafka通过副本同步机制来保证数据的高可用性和可靠性。Kafka的同步机制主要涉及以下几个核心概念：副本（Replication）Kafka的每个Partition都会有多个副本（Replica），分为：Leader副本：负责处理生产者和消费者的所有请求。Follower副本：仅从Leader同步数据，不直接处理请求。副本数由replication.factor参数配置。例如：rep
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
基于 easyExcel 3.1.5依赖的包实现动态表头动态表格内容善我 java java 服务器前端
1.需求：需要导出的EXCEL示例：2.依赖：com.alibabaeasyexcel3.1.53.工具类：packagecom.minex.web.device.utils;importcom.minex.web.device.entity.vo.ReadRecordsVO;importlombok.extern.slf4j.Slf4j;importorg.apache.poi.ss.userm
Tomcat 新手入门指南：从零开始掌握安装与配置超级小狗 tomcat java
Tomcat新手入门指南：从零开始掌握安装与配置一、Tomcat是什么？ApacheTomcat是一个开源的轻量级Web应用服务器，专为运行JavaServlet和JSP设计。它是初学JavaWeb开发的必备工具，也是企业级应用的常见选择。核心功能：处理HTTP请求、管理Servlet生命周期、支持动态网页渲染。适用场景：开发测试环境、中小型Web应用部署、微服务架构中的容器化组件。二、快速安装T
Apache Tomcat 新手入门指南：从安装到部署的全流程解析小志开发服务 apache tomcat java
ApacheTomcat作为一款轻量级的JavaServlet容器，被广泛应用于开发和运行基于Java的Web应用程序（如Servlet和JSP）。对于刚接触Tomcat的开发者来说，快速掌握其基本操作至关重要。本文将从零开始，详细介绍Tomcat的安装、配置、部署及常见问题的解决方法，助你轻松入门。第一部分：环境准备与安装1.确认JDK环境Tomcat依赖Java运行环境，因此需提前安装JDK8
Tomcat新手入门指南：从零开始搭建Web服务器 xiaoyu❅ java tomcat 前端服务器
目录一、Tomcat是什么？二、快速安装指南1.环境准备2.下载安装3.验证安装三、目录结构解析四、第一个Web应用部署1.创建标准目录结构2.编写测试JSP3.部署方式对比五、核心配置详解1.修改端口号2.配置虚拟主机3.JVM参数优化六、常用操作命令七、常见问题排查1.端口冲突2.应用热更新失败3.内存溢出八、最佳实践建议九、学习资源推荐一、Tomcat是什么？ApacheTomcat是一个开
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
【C++】开源：brpc远程过程调用（RPC）配置与使用 DevFrank #c++开源库和框架 c++开源 rpc
★,°:.☆(￣▽￣)/$:.°★这篇文章主要介绍brpc远程过程调用（RPC）配置与使用。无专精则不能成，无涉猎则不能通。——梁启超欢迎来到我的博客，一起学习，共同进步。喜欢的朋友可以关注一下，下次更新不迷路文章目录:smirk:1.项目介绍:blush:2.环境配置:satisfied:3.使用说明1.项目介绍项目Github地址：https://github.com/apache/brpcb
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

Apache Spark源码剖析

你可能感兴趣的:(apache)