Apache Hadoop最佳实践和反模式

摘要：本文介绍了在Apache Hadoop上运行应用程序的最佳实践，实际上，我们引入了网格模式（Grid Pattern）的概念，它和设计模式类似，它代表运行在网格（Grid）上的应用程序的可复用解决方案。

Apache Hadoop是一个用于构建大规模，共享存储和计算基础设施的软件框架，Hadoop集群经常用于各种研究和开发项目，如Yahoo！，eBay，Facebook，Twitter等互联网公司就大量使用了Hadoop，并在核心业务系统中扮演中关键角色，因此正确部署Hadoop集群是确保获得最佳投资回报的关键。

本文介绍了在Apache Hadoop上运行应用程序的最佳实践，实际上，我们引入了网格模式（Grid Pattern）的概念，它和设计模式类似，它代表运行在网格（Grid）上的应用程序的可复用解决方案。

概述

Hadoop上的应用程序数据是使用Map-Reduce（映射-化简）范式写入的，Map-Reduce作业通常要将输入数据集拆分成独立的数据块，由Map任务以完全并行的方式处理，框架对Map的输出结果排序，然后传递给Reduce任务，通常情况下，作业的输入和输出结果都保存在文件系统上，框架管理计划任务，监控它们的执行情况，以及重新执行失败的任务。

Map-Reduce应用程序指定输入/输出位置，通过实现适当的Hadoop接口，如Mapper和Reducer，分别提供Map和Reduce功能，它们和其它作业参数一起构成作业配置。Hadoop作业客户端将作业（jar/可执行文件等）和配置提交给JobTracker，JobTracker承担起分配软件/配置，调度任务和监控的职责，为作业客户端提供状态和诊断信息。

Map/Reduce框架工作在（键/值）对上，也就是说，框架将给作业的输入看作是一对，并产生一对作为作业的输出，当然输入输出的类型可能是不同的。

下面是Map/Reduce应用程序中常见的数据流：

图1： Map/Reduce应用程序中的数据流

绝大多数Map-Reduce应用程序都在网格上执行，不会直接实现低级的Map-Reduce接口，相反，它们使用高级语言，如Pig实现。

Oozie是网格上完美的工作流管理和调度解决方案，它支持多种接口（Hadoop Map-Reduce，Pig，Hadoop Streaming和Hadoop Pipes等），并可以根据时间或数据可用性实现应用程序的调度。

网格模式

这部分内容涉及在网格上运行Map-Reduce应用程序的最佳实践。

输入

Hadoop Map-Reduce专门为处理大批量数据做了优化，Map通常使用并行方式处理数据，至少1个HDFS数据块，也就是说每次最少要处理128MB的数据。

◆默认情况下，这个框架每个Map至少要处理1个HDFS文件，这意味着如果某个应用程序要处理非常大的输入文件，最好是通过一种特殊的输入格式，如MultiFileInputFormat，让每个Map处理多个文件，即便是在处理为数不多的小型输入文件时也理应如此，每个Map处理多个文件可以大大提高效率。

◆如果应用程序需要处理大量的数据，即使它们存在于大型文件中，每个Map处理超过128MB的数据也会更快。
网格模式：在少量Map中聚合处理多个小型输入文件，使用更大的HDFS块大小处理超大型数据集。

Map（映射）

Map的数量通常是由输入的总大小决定的，即所有输入文件的总数据块数，因此，如果你要处理10TB输入数据，块大小128MB，那么总共需要82000个Map。

任务设置需要一段时间，因此执行大型作业时，Map至少需要一分钟。正如前面提到的，让每个Map同时处理多个文件效率会更高，因此，如果应用程序要处理超大型输入文件，让每个Map处理更大的数据块更有效，例如，让每个Map处理更多数据的一个方法是让应用程序处理更大的HDFS数据块，如512MB或尽可能更大。

作为一个极端的例子，Map-Reduce开发团队使用大约66000个Map完成了PB级数据的排序（PetaSort），也就是说，66000个Map处理了1PB数据（每个Map负责12.5GB）。但太多的Map在很短的时间内同时运行很容易造成反效果。

网格模式：除非应用程序的Map有严重的CPU限制，单个应用程序几乎没有任何理由需要超过60000-7000个Map。同样，当Map处理更大的数据块时，重要的是确保它们有足够的内存，以便排序缓冲区加速Map端排序（请阅读参考文档的io.sort.mb和io.sort.record.percent小节），如果Map输出可以直接在Map的排序缓冲区中处理，应用程序的性能可以大大提高，Map JVM必须承担更大的堆大小，重要的是要记住内存中去除序列化的输入大小和在磁盘上的大小可能有很大的不同，在这种情况下，应用程序需要更大的堆大小确保Map输入记录和Map输出记录可以保持在内存中。

网格模式：确保Map大小合适，以便所有Map输出可以保持在排序缓冲区中。

Map数量合适对应用程序有以下这些好处：

◆减少调度开销，更少的Map意味着任务调度也更简单，集群的可用性也更高；

◆Map端更高效，因为有足够的内存容纳Map输出；

◆减少了从Map向Reduce清洗Map输出需要的查找次数，记住每个Map为每个Reduce产生输出，因此查找次数等m*r，m表示Map数量，r表示Reduce数量。

◆每个清洗的片段更大，减少了建立连接的开销；

◆Reduce端合并了排序后的Map输出，效率更高，因为需要合并的Map输出片段更少了。

值得注意的是，每个Map处理太多的数据可能并不完全是好事，至少对故障恢复来说会很麻烦，即使是单点Map故障，也会造成严重的应用程序延迟。

网格模式：应用程序应使用较少的Map并行处理数据，确保不会出现糟糕的故障恢复情况。

合并器（Combiner）

合理使用合并器，应用程序可以获得更好的聚合效果，合并器最大的优势在于可以大大减少从Map到Reduce清洗的数据量。

清洗（Shuffle）

虽然使用合并器会得到更好的聚合效果，但它存在性能问题，因为它需要承担起额外的Map输出记录序列化/反序列化任务，应用程序可以使用合并器输入/输出记录计数器测量合并器的效率。

网格模式：合并器可以帮助应用程序减少清洗阶段的网络流量，但最重要的是要确保合并器要提供足够的聚合能力。

Reduce（化简）

Reduce的效率很大程度上是由清洗的性能决定的，应用程序配置的Reduce数量也很关键，太多或过少的Reduce都会产生反效果。

◆太少的Reduce会给节点造成负载过重，我曾看到最极端的情况，每个Reduce负责处理超过100GB的数据，同样，也会使故障恢复变得很困难，因为即便是单个Reduce故障也会引起显著的作业延迟。

◆太多的Reduce会给清洗闩带来不利影响，同样，在极端情况下，它会创建太多的小文件作为作业的输出，这会影响到应用程序以后处理小文件性能。
网格模式：应用程序应该确保每个Reduce最少可以处理1-2GB数据，最多5-10GB数据。

输出

一个关键因素是要记住应用程序的输出数量是和配置的Reduce数量呈线性关系的，正如前面提到的，配置数量适当的Reduce是非常重要的。此外，还需要考虑一些其它因素：

◆使用压缩程序对应用程序的输出做适当的压缩，提高HDFS写入性能；

◆每个Reduce不止输出一个输出文件，可以避免使用侧文件（side-file），应用程序通常会写一些侧文件来捕捉统计数据，如果所收集的统计数据很小，计数器可能更合适；

◆为Reduce输出使用合适的文件格式，对下游用户来说，使用zlib/gzip/lzo等编码器输出大量的文本压缩数据会适得其反，因为这些格式的文件无法再拆分，Map-Reduce框架必须强制单个Map处理整个文件，这会使负载均衡变得非常糟糕，并导致故障恢复变得很困难。应该使用SequenceFile和TFile格式缓解这些问题，因为它们既是可压缩的，又是可以再拆分的。

◆当独立输出文件很大时（数GB），最好使用更大的输出块大小（dfs.block.size）。

网格模式：应用程序输出少量的大文件，每个文件横跨多个HDFS块，并经过适当的压缩。

分布式缓存（DistributedCache）

分布式缓存高效分发应用程序相关的大型只读文件，它是Map-Reduce框架为应用程序缓存文件（文本，压缩文件，jar等）提供的一种手段，任何任务在从属节点上执行之前，Map-Reduce框架将会把必要的文件拷贝到从属节点上，其高效源于这些文件只会被复制一次，并提供从属节点上未压缩文件的缓存能力，它可以在Map或Reduce任务中作为一个最基本的软件分发机制，用于分发jar和本地库文件，只需要设定classpath或本地库路径即可。

分布式缓存被设计为主要用于分发少量中等规模的文件，大小从几MB到几十MB，分布式缓存当前实现的一个缺点是无法指定Map或Reduce的相关的产物（文件）。
在极少数情况下，由任务本身复制这些产物可能更恰当，例如，如果应用程序只配有少量Reduce，但需要分布式缓存中非常大型的产物（如大于512MB）。

网格模式：应用程序应该确保分布式缓存中的产物不能要求过多的I/O，不能多于应用程序任务真实的输入。

计数器（Counters）

这里指的是全局计数器，由Map/Reduce框架或应用程序定义，应用程序可以定义任意的计数器，然后在Map和/或Reduce方法中更新，这些计数器再通过框架进行全局汇总。

计数器应以跟踪少量的，重要的全局信息为妥，它们绝不是为了聚合非常细粒度的应用程序统计数据。

计数器代价非常高，因为JobTracker必须在整个应用程序生命周期维护每个Map/Reduce任务的计数器。

网格模式：应用程序不应该使用超过10，15或25个自定义计数器。

压缩

Hadoop Map-Reduce为应用程序中间Map输出和应用程序输出结果提供压缩，也就是说可以减少输出结果大小。

中间输出压缩：正如前面讲到的，采用适当的压缩编码对中间Map输出结果进行压缩，可以减少Map和Reduce之间的网络流量，从而提高性能，Lzo是压缩Map输出结果的理想选择，因为它在高CPU效率下提供了很好的压缩比。

应用程序输出压缩：采用适当的压缩编码和文件格式对应用程序输出结果进行压缩，可以提供更好的应用程序延迟，在大多数情况下，Zlib/Gzip可能是较好的选择，因为它们在合理的速度下提供了高压缩率，bzip2通常用于对压缩速度要求不要的情景。

全序输出（抽样）

有时应用程序需要产生全序输出，也就是说输出结果要全部排好序，在这种情况下，应用程序常用的一个反模式是使用单个Reduce，强制单一的全局聚合，很明显，这样做是非常低效的，不仅使Reduce任务所在的单个节点上的负载很重，也使故障恢复变得很困难。

更好的办法是对输入抽样，用抽样结果驱动采样分区程序，而不是默认的散列分区程序，这样才可以提供更好的负载均衡和故障恢复能力。

连接全序数据集

在网格上需要注意的另一个要素是连接两个全序数据集，注意，它们和基数可能不是精确的倍数关系，例如，一个数据集有512个 Bucket，而其它数据集只有200个Bucket。

在这种情况下，确保输入数据是全序的，这样应用程序就可以使用数据集的基数，Pig以高效的方式处理这些连接。

HDFS操作&JobTracker操作

NameNode是一个宝贵的资源，在网格中执行HDFS操作时，应用程序需要谨慎，特别是，我们不鼓励应用程序做非I/O操作，即Map/Reduce任务中的元数据操作，如递归统计，统计大型目录等。

同样，应用程序不应该为集群统计从后端联系JobTracker。

网格模式：应用程序不应该从后端在文件系统上执行任何元数据操作，他们应限制到作业提交期间的作业客户端，此外，应用程序不应该从后端联系JobTracker。
用户日志

用户任务日志，即Map/Reduce任务的srdout和stderr，存储在任务执行所在计算节点的本地磁盘上。

由于节点是共享基础设施的一部分，Map/Reduce框架限制了存储在节点上的任务日志数量。

Web用户界面

Hadoop Map/Reduce框架提供了一个基本的Web用户界面通过JobTracker跟踪运行中的作业，它们的进度和已完成作业历史等。

最重要的是要记住Web用户界面是提供给人使用的，而不是为自动化过程提供的。

实现自动化过程抓取Web用户界面是被严格禁止的，Web用户界面中的某些部件，如浏览作业历史，在JobTracker上是非常耗资源的，可能会导致严重的性能问题。
如果确实需要自动统计收集数据，最好咨询网格解决方案提供商，网格SE，或Map-Reduce开发团队。

工作流

Oozie是网格首选的工作流管理和调度系统，它可以基于时间或数据可用性管理工作流和提供调度方案，渐渐地，延迟敏感的生产作业管线也通过Oozie进行管理和调度。

设计Oozie工作流时需要牢记的一点是，Hadoop更适合批处理超大型数据，同样，从处理角度来看，工作流最好是由少量中到大型Map-Reduce作业组成，而不是由大量的小型Map-Reduce作业组成，作为一个极端的例子，我们曾看到过一个工作流由数千个作业组成的情景，这是一个很明显的反模式，就目前而言，Hadoop框架并不真正适合这种性质的业务，最好是将这些数以千计的Map-Reduce作业减少到合适的数量，这将有助于提高工作流性能，减少延迟。

网格模式：工作流中的单个Map-Reduce作业至少应该处理几十GB数据。

反模式

这一部分介绍一些在网格上运行的应用程序常见的反模式，通常它们不符合大规模，分布式，批量数据处理系统的精神。应用程序开发人员需要引起注意，因为网格软件堆栈正变得硬化，特别是即将发布的20.Fred，一些常见的反模式如下：

◆应用程序不使用如Pig等高级接口，除非确有必要。

◆处理成千上万的小文件（大小小于1 HDFS块，通常是128MB），使用一个Map处理单个小文件。

◆使用小的HDFS块大小（即128MB）处理非常大的数据集，导致需要数以万计的Map。

◆有大量Map（数千）的应用程序运行时很短（如5s）。

◆不使用合并器进行直接聚合。

◆应用程序Map数大于60000-70000个。

◆应用程序用很少的Reduce（如1个）处理大型数据集。

◆Pig脚本未用PARALLEL关键字处理大型数据集。

◆应用程序使用单个Reduce为输出记录实现全排序。

◆应用程序使用大量的Reduce处理数据，每个Reduce处理不到1-2GB数据。

◆应用程序为每个Reduce输出多个小型输出文件。

◆应用程序使用分布式缓存分发大量产物和/或非常大的产物（每一个数千MB）。

◆应用程序为每个任务使用数十个或数千个计数器。

◆应用程序从Map/Reduce任务在文件系统上执行元数据操作（如listStatus）。

◆应用程序为队列/作业的状态抓取JobTracker Web用户界面，或更糟的是已完成作业的历史。

◆工作流由数千个处理少量数据的小型作业组成。

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
ASP.NET Core 入门教学二十八 linux打包部署充值内卷 asp.net linux 后端
在Linux上打包和部署ASP.NETCore应用程序涉及几个步骤。以下是一个详细的指南，帮助你在Linux系统上完成这一过程。1.准备工作确保你的Linux系统已经安装了以下软件：.NETSDK（用于构建应用程序）.NETRuntime（用于运行应用程序）Apache或Nginx（作为反向代理服务器）你可以使用以下命令安装.NETSDK和Runtime：sudoaptupdatesudoapti
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

Apache Hadoop最佳实践和反模式

你可能感兴趣的:(apache)