登峰大数据

Camel In Action 第八章企业集成模式

第八章企业集成模式
本章包括
Aggregator(聚合器)企业集成模式
Splitter(分流器)企业集成模式
Routing Slip企业集成模式
Dynamic Router企业集成模式
Load Balancer企业集成模式

今天，大部分企业运行的信息系统不再是一个单独的系统，而是拥有多个独立的系统。这些系统相互集成的需求以及与外部业务伙伴系统和政府系统相互集成的需求在不断增长。
虽然集成是困难的，让我们面对它。为了解决这些复杂的集成问题，出现了许多企业集成模式(EIP),这些集成模式已经成为描述、解决这些复杂集成问题的标准方式。在本书中我们只会讨论一小部分的集成模式，如果你要学习更多的集成模式，请访问企业集成模式网站 http://www.enterpriseintegrationpatterns.com/.

8.1 企业集成模式简介
Camel实现了这些集成模式，因为企业集成模式的基本构建都是通过Camel的路由实现的，所以在本书中，从第二章开始，你已经碰到了企业集成模式。在本书中学习Camel提供的所有模式是不可能的，因为目前已经有60多个模式了。本章只会讲解5个最常使用的集成模式。本章讨论的模式见表8.1：

8.1.1企业集成模式：Aggregator(聚合器)和Splitter(分流器)
表8.1中的前两个模式是有关联的。分流器可以将一个消息分解为多个子消息；聚合器可以见这些子消息合并为一个消息，他们是两个相反的模式。
企业集成模式允许你构建LEGO风格的模式，这意味着模式可以组合在一起,形成新的模式。例如你可以联合聚合器和分流器两个模式组成一个被称为Composed Message Processor的模式，如图8.1所示:

聚合器模式可能是Camel实现的集成模式中最复杂、最先进的集成模式。它有许多用例,如竞标拍卖或股票报价。

8.1.2 The Routing Slip and Dynamic Router EIPs
在Camel邮件列表中，经常有人问这样一个问题：如何动态路由消息？答案是使用Recipient List, Routing Slip,和Dynamic Router等集成模式。第二章中我们学习了Recipient List模式，本章中我们学习Routing Slip,和Dynamic Router两个模式。

8.1.3 The Load Balancer EIP
企业集成模式一书中没有列出这个模式，在Camel中实现了这个模式。假设你路由一些包含PDF文件的消息到网络上的打印机上打印，如果远程打印机不可用，你可以使用这个模式来发送PDF消息到另一个打印机上。

8.2 The Aggregator EIP聚合器模式
聚合器模式是一个重要且复杂的集成模式，所以我们将详细学习他。如果刚开始你不理解的话，不要灰心。
聚合器模式将输入的相关消息合并成一个消息，见图8.2：
聚合器接收到一些消息，并辨识出相关消息，接着将他们合并为一个联合消息。完成后，联合消息被输出，被进一步处理，在下一节中我们详细讨论这个处理过程。

聚合器的使用例子
聚合器集成模式有多种使用方式，例如，EIP一书中的贷款代理的例子，贷款者向多个银行发送贷款请求，然后将回复聚合，以决定最佳贷款方式。
你也可以在一个拍卖系统中使用聚合器模式，聚合当前报价。想象一个股票市场系统,不断收到的股票报价,你想每5秒发布一次最新报价。可以通过使用聚合器选择的最新消息,从而每5秒触发一次完成条件。

当使用聚合器时,你必须注意以下三个配置项的设置，这三个配置项必须进行设置。如果不做设置，Camel将启动失败，报告一个配置项没有配置的错误。
Correlation identifier---一个表达式，用来决定哪些输入消息属于一类；
Completion condition---一个谓词或基于时间的条件，用于确定什么时候结果消息应该发送出去；
Aggregation strategy---一个聚合策略，声明如何将多个消息聚合为一个消息。
在本节中,我们将看一个简单的字母聚合的例子，如A，B，C。这将会让事情变得简单,使其更容易理解。聚合器也可以处理大负载的消息，这一点我们在学完基础概念后再看。
8.2.1 Aggregator 企业集成模式简介
假设你想收集任何三个消息,把它们组合到一起。如三个消息分别包含A B C，让聚合器将他们合并为一个包含"ABC"的消息。
图8.3展示了工作方式。当第一个标示符为1的消息到达，聚合器会初始化一个聚合消息，将标示符为1的消息存储到聚合消息中。本例中，完成条件是三个消息被聚合，所以此时聚合没有完成。当第二个标示符为1的消息到达，聚合器将其添加到已经被创建的聚合消息中。当第三个标示符为2的消息到达时，聚合器会初始化一个新聚合消息用来存储这个标示符为2的消息。第四个标示符为1的消息到达时，现在聚合器聚合了三个标示符为1的消息，完成条件被触发。结果，聚合器将这个聚合消息标记为完成，作为结果消息输出。
如前所述，当使用聚合器模式时，有三个配置项要设置： correlation identifier, completion condition,和aggregation strategy。为了理解这三个配置项如何设置以及他们是如何工作的，让我们先看下下面的Camel路由中的粗体部分：
public void configure() throws Exception {
from("direct:start")
.log("Sending ${body} with correlation key ${header.myId}")
.aggregate(header("myId"), new MyAggregationStrategy())
.completionSize(3)
.log("Sending out ${body}")
.to("mock:result");
其中correlation identifier为header("myId")，它是Camel中的表达式，返回key为myId的头部值。第二个配置元素是AggregationStrategy，它是一个类。稍后我们将详细学习这个类。最后，completion condition是基于数量的(表8.3中列出了5中完成条件)。它只是指出,当三个信息聚合后,完成条件应该触发。
同样的例子在Spring XML中的实现：
class="camelinaction.MyAggregationStrategy"/>

myId

Spring XML与Java DSL有一些不同，使用标签中的strategyRef属性定义了AggregationStrategy，他引用了一个spring bean。同样完成条件也被定义为completionSize属性。最值得注意的是 correlation identifier的定义方式。在 Spring XML中，使用标签来定义，此标签有一个子标签，包含了表达式的定义。
这本书包含了这个例子的源代码，在chapter8/aggregator目录中。
可以运行一下命令来测试：
mvn test -Dtest=AggregateABCTest
mvn test -Dtest=SpringAggregateABCTest
单元测试的示例使用以下方法:
public void testABC() throws Exception {
MockEndpoint mock = getMockEndpoint("mock:result");
mock.expectedBodiesReceived("ABC");
template.sendBodyAndHeader("direct:start", "A", "myId", 1);
template.sendBodyAndHeader("direct:start", "B", "myId", 1);
template.sendBodyAndHeader("direct:start", "F", "myId", 2);
template.sendBodyAndHeader("direct:start", "C", "myId", 1);
assertMockEndpointsSatisfied();
}
这个单元测试发送了如图8.3所示的相同的消息---总共四个消息。
当您运行测试时,您将看到在控制台输出:
INFO route1 - Sending A with correlation key 1
INFO route1 - Sending B with correlation key 1
INFO route1 - Sending F with correlation key 2
INFO route1 - Sending C with correlation key 1
INFO route1 - Sending out ABC
注意控制台输出的消息顺序与图8.3中匹配。如你所见，标示符为1的消息完成了，因为他们符合了完成条件。最后一行是输出消息，包含内容"ABC"。
那么F消息会怎么样呢？他没有符合完成条件，所以他在聚合消息中等待。你可以修改这个测试方法，发送另外两个消息：
template.sendBodyAndHeader("direct:start", "G", "myId", 2);
template.sendBodyAndHeader("direct:start", "H", "myId", 2);

现在让我们看下聚合器模式是如何聚合消息的，它是如何使A B C三个消息合并为了一个消息。这就是AggregationStrategy存在的意义。
使用AGGREGATIONSTRATEGY
AggregationStrategy类位于org.apache.camel.processor.aggregation包中，只定义了一个方法：
public interface AggregationStrategy {
Exchange aggregate(Exchange oldExchange, Exchange newExchange);
}
是否似曾相识呢？第三章中的Content Enricher企业集成模式中用到了AggregationStrategy。
代码清单8.1展示了前面例子中用到的AggregationStrategy
import org.apache.camel.Exchange;
import org.apache.camel.processor.aggregate.AggregationStrategy;
public class MyAggregationStrategy implements AggregationStrategy {
public Exchange aggregate(Exchange oldExchange, Exchange newExchange) {
if (oldExchange == null) {
return newExchange;
}
String oldBody = oldExchange.getIn()
.getBody(String.class);
String newBody = newExchange.getIn()
.getBody(String.class);
String body = oldBody + newBody;
oldExchange.getIn().setBody(body);
return oldExchange;
}
}

在运行时，每当一个新消息到达时，aggregate方法都会被调用。在本例中，这个方法将会被调用四次，分别为到达的A B F C四个消息。为了更好理解其工作过程，表8.2中列出了调用的顺序：

注意，表8.2中有两个时刻，oldExchange参数的值为null。这种情况发生在一个新的关联组创建的时候(目前还没有相同的相关标识符的消息到达)。在这种情况下，你只需要返回当前消息即可，因为此时没有其他消息与其合并。
在随后的聚合中，参数将都不会是null，你需要将其数据合并到一个Exchange中。在本例中，你获取了消息体并将其合并在一起。接着，用合并后的消息体更新了oldExchange的现有消息体。
注意：聚合器EIP使用的是同步方式，以保证AggregationStrategy是线程安全的---在任意时刻只有一个线程调用aggregate方法。同时也保证了消息聚合的顺序与发送消息到Aggregator的顺序相同。
现在,您应该了解聚合器是如何工作的。从消息聚合器中发出的消息，必须满足完成条件。在下一节中，我们将学习Camel提供的开箱即用的一系列完成条件。
8.2.2 Aggregator的完成条件
完成条件在Aggregator中扮演了一个可能比你想象中还要重要的角色。想象一种情况，完成条件从未被触发，造成聚合的消息不能被发出。例如，8.2.1节中的例子中，假如C消息从未到达。为了处理这种情况，你可以添加一个超时条件，如果在一定时间内如果不能聚合所有消息，超时条件触发。
为了能够处理各种情况，Camel提供了5中不同的完成条件，如表8.3所示，你可以混合使用它们以匹配你的需求。
表8.3 聚合器模式提供了完成条件
条件
completionSize
描述
定义一个基于聚合消息数量的条件，你可以使用一个固定值(int)或者使用一个表达式(Exception)在运行时动态确定数值。

条件
completionTimeout
描述
定义一个基于超时时间的完成条件。如果超过指定的时间周期，相关消息仍无法满足完成条件，此条件被触发。每一个消息关联组都可以触发超时完成条件，即超时条件可以被周期性触发。你可以使用一个固定值(long)或者使用一个表达式(Exception)在运行时动态确定超时时间。时间单位为毫秒。你不能同时使用completionInterval完成条件。

条件
completionInterval
描述
定义一个基于指定的时间间隔的完成条件。此条件被周期性触发。所有的关联消息组只有一个时间间隔完成条件，即所有的关键消息组在同一时刻完成。时间单位为毫秒。你不能同时使用completionTimeout完成条件。

条件
completionPredicate
描述
定义一个基于谓词的完成条件。参见表8.5中的eagerCheckCompletion配置选项。

条件
completionFromBatchConsumer
描述
定义一个基于Exchange是否来自同一个BatchConsumer的完成条件( http://camel.apache.org/batch-consumer.html)。在本书写作时，下列组件支持这个完成条件：File, FTP, Mail, iBatis, 和JPA。

Aggregator支持同时使用多个完成条件，例如同时使用completionSize和completionTimeout两个完成条件。当有多个条件时，关联消息组只需满足其一即可。在本书包含的源代码chapter8/aggregator目录中，有所有条件的示例，你可以通过他们来了解进一步的细节。还可以参看Aggregator的在线文档： http://camel.apache.org/aggregator2.
现在我们将看看如何使用多个完成条件。

使用多个完成条件
你可以运行上面提到的源代码中的示例：
mvn test -Dtest=AggregateXMLTest
mvn test -Dtest=SpringAggregateXMLTest
Java DSL形式的路由定义如下：
import static org.apache.camel.builder.xml.XPathBuilder.xpath;
public void configure() throws Exception {
from("direct:start")
.log("Sending ${body}")
.aggregate(xpath("/order/@customer"), new MyAggregationStrategy())
.completionSize(2).completionTimeout(5000)
.log("Sending out ${body}")
.to("mock:result");
}
从代码completionSize(2).completionTimeout(5000)可以看出使用第二个完成条件的方式。
上述例子的Spring XML形式如下：
class="camelinaction.MyAggregationStrategy"/>

completionSize="2" completionTimeout="5000">

/order/@customer

如果你运行这个例子,它将使用下列测试方法：
public void testXML() throws Exception {
MockEndpoint mock = getMockEndpoint("mock:result");
mock.expectedMessageCount(2);
template.sendBody("direct:start",
"");
template.sendBody("direct:start",
"");
template.sendBody("direct:start",
"");
assertMockEndpointsSatisfied();
}
这个例子应该导致聚合器发布两个输出消息，正如下面的控制台输出所示，一个为本田，一个为丰田：
09:37:35 - Sending
09:37:35 - Sending
09:37:35 - Sending
09:37:35 - Sending out

09:37:41 - Sending out

如果你仔细观察测试方法和控制台的输出，你应该注意到,本田的订单首先到达，但他是最后一个发布出去的。这是因为他触发了超时完成条件。而丰田订单触发了completionSize完成条件，首先被发布。

如果你想确保聚合信息最终被发布，使用多个完成条件很有意义。例如,超时条件确保经过一段时间，不活动的消息将被发布。在这方面,您可以使用超时条件作为后备条件。假设您预期的是两条消息聚合成一个,但你只收到一个消息;在下一节中演示了如何告诉Camel某个条件触发了完成。

AGGREGATED EXCHANGE PROPERTIES

表8.4 Exchange中与aggregation相关的属性

通过表8.4中列出的信息，你可以知道有多少消息别合并了，一个消息是如何完成聚合被发布的。例如，你可以将完成条件属性打印到控制台上：

.log("Completed by ${property.CamelAggregatedCompletedBy}")

当你需要知道是否所有的消息都被聚合的时候，这些信息可能会派上用场。通过检查AGGREGATED_COMPLETED_BY属性，如果属性值为size,那么所有的消息都被聚合了，如果属性值为timeout，那么发生了超时，并不是所有的预期消息都实现了聚合。

聚合器有额外的配置选项,您可能会用到。例如，你可以设置当收到一个标识不合法的消息，做出相应的响应。

额外配置选项

聚合器是Camel中最复杂的EIP实现。表8.5列出了额外的配置选项，可以利用这些配置，是聚合器符合你的需求。

8.2.3 聚合器的持久性
聚合器是一个有状态的EIP,因为它可以对正在聚合的消息进行存储,直到完成条件发生，聚合信息发布。默认情况下，聚合器只会将状态保存在内存中。如果应用关闭或者主机崩溃，状态会丢失。
为了解决这个问题，你需要将状态持久化。Camel提供了一个可插拔的特性：你可以为其设置你选择的存储库。有两种形式：
1、AggregationRepository---一个定义了聚合库常用操作的接口，例如从库中添加数据或者删除数据。默认情况，Camel使用MemoryAggregationRepository，这只是一个内存存储库。
2、RecoverableAggregationRepository---一个定义了额外操作的接口，支持数据恢复。Camel在camel-hawtdb组件中提供了这样一个开箱即用的存储库。我们在8.2.4节讨论数据恢复。

关于HawtDB
HawtDB是一个轻量级的、嵌入式的、基于文件的key/value形式的数据库。它为Camel的各种特性提供了持久化的能力，例如聚合器。未来，Camel的其他特性将会使用HawtDB。
在其网站上，你可以找到更多关于HawtDB的信息： http://hawtdb.fusesource.org.

我们来看看如何使用HawtDB作为一个持久存储库。

使用CAMEL-HAWTDB
为了掩饰在聚合器中如何使用HawtDB，我们将返回到ABC例子中。本质上，你所需要做的就是设置聚合器使用HawtDBAggregationRepository作为其存储库。

不过,首先你必须设置HawtDB，方式如下：
AggregationRepository myRepo = new HawtDBAggregationRepository("myrepo", "data/myrepo.dat");
在Spring XML中：
class="org.apache.camel.component.hawtdb.HawtDBAggregationRepository">

如你所见，上述代码创建了一个HawtDBAggregationRepository实例，并提供了两个参数：存储库的名称(一个象征性的名字),和对应的物理文件名(用于持久存储)。存储库名称必须被指定,因为在同一个文件中，你可以有多个存储库。
提示：在Camel官网上面可以找到更多有关HawtDB组件的信息： http://camel.apache.org/hawtdb。
在路由中使用HawtDBAggregationRepository：
代码清单8.2，java DSL版本：
AggregationRepository myRepo = new
HawtDBAggregationRepository("myrepo", "data/myrepo.dat");
from("file://target/inbox")
.log("Consuming ${file:name}")
.aggregate(constant(true), new MyAggregationStrategy())
.aggregationRepository(myRepo)
.completionSize(3)
.log("Sending out ${body}")
.to("mock:result");

代码清单8.3，Spring XML版本：
class="camelinaction.MyAggregationStrategy"/>
class="org.apache.camel.component.hawtdb.HawtDBAggregationRepository">

aggregationRepositoryRef="myRepo">

true

代码清单8.3中，通过定义一个id为myRepo的spring bean，设置了持久化库AggregationRepository。存储库名称和物理文件通过bean的属性进行了配置。在Camel路由中，使用aggregationRepository属性引用了这个spring bean。

这本书包含了这个例子的源代码，在chapter8/aggregator目录中：
mvn test -Dtest=AggregateABCHawtDBTest
mvn test -Dtest=SpringAggregateABCHawtDBTest

8.2.4 聚合器恢复

上一节中的例子专注于确保消息在聚合过程中被持久化。但是有一个地方可能会发生消息丢失：聚合器中发布的消息有可能在下一步的路由中失败。

为了解决这个问题，你可以使用下面两种方式之一：

1、Camel错误处理(第五章已讨论)---提供了返还和死信通道功能。

2、HawtDB组件---HawtDBAggregationRepository提供了恢复、返还、死信通道和事务等能力。

Camel错误处理程序并不与聚合器紧密耦合，所以消息处理本身就在错误处理程序控制下。如果消息一再失败,错误处理的方式只是重试、放弃，将消息移到死信通道。

注意：RecoverableAggregationRepository接口继承了AggregationRepository接口，提供了恢复、重试、死信通道等特性。 HawtDBAggregationRepository实现了这个接口。

另一方面， HawtDBAggregationRepository紧密集成到了聚合器中，从而获得了额外的好处，如利用持久化库实现恢复、事务等能力。确保了发布出去的消息失败后，可以被恢复、重新发送。你可以将其看做一个JMS broker，如Apache ActiveMQ，可以将备份到JMS队列中的失败消息重新发送。

理解恢复(recovery)

为了更好理解恢复是如何工作的，我们提供了下面两个图。

图8.4展示了当一个聚合消息首次发布，在处理过程中失败时所发生的情况。当服务器在处理消息时发生崩溃就会出现这种情况。

一个聚合消息符合了完成条件，聚合器将此信号发送给RecoverableAggregationRepository，RecoverableAggregationRepository获取聚合的消息进行发布。被发布的消息接着在Camel中继续路由----假设此时路由失败，此时一个信号会从聚合器发送到RecoverableAggregationRepository，以便RecoverableAggregationRepository采取相应的动作。

现在想象一下恢复和发送相同的消息,如图8.5所示。

该聚合器使用一个后台任务，每5秒运行一次，扫描已发布的消息用于恢复。任何失败的信息会被重新发布,这样消息就可以再次路由了。这一次,消息成功处理,聚合器进行提交，存储库确认消息提交，确保它不会在随后的扫描中被恢复。

注意：此事务行为由RecoverableAggregationRepository提供，RecoverableAggregationRepositoryisn不是基于Spring的TransactionManager(第九章讨论)的，事务行为是基于HawtDB自己的事务机制。

8.3 Splitter企业集成模式
集成解决方案中的消息可能包含多个元素，比如一个订单消息，可能包含多个订单项。每个订单项可能需要不同的处理，所以你需要一种方式来分别处理订单消息中的每个订单项。解决这个问题的的方法是使用Splitter(分流器)企业集成模式，如图8.6所示。
在本节中，我们将向你介绍有关Splitter的所有知识。我们使用一个简单的示例开始。
8.3.1 使用Splitter
在Camel中使用Splitter是简单的。让我们来看一个简单的例子：将一个消息分解为三个消息，每个消息分别包含字母A、B、C。代码清单8.4：
public class SplitterABCTest extends CamelTestSupport {
public void testSplitABC() throws Exception {
MockEndpoint mock = getMockEndpoint("mock:split");
mock.expectedBodiesReceived("A", "B", "C");
List body = new ArrayList();
body.add("A");
body.add("B");
body.add("C");
template.sendBody("direct:start", body);
assertMockEndpointsSatisfied();
}
protected RouteBuilder createRouteBuilder() throws Exception {
return new RouteBuilder() {
public void configure() throws Exception {
from("direct:start")
.split(body())
.log("Split line ${body}")
.to("mock:split");
}
};
}
}

Spring XML中：

${body}

SPLITTER是如何工作的？
分流器的工作像一个迭代器，遍历、处理消息中的每一项。顺序图如图8.7所示：

当使用分流器时，你必须配置一个Expression(表达式)，消息到达时，使用表达式进行计算求值。代码清单8.4中，求值后返回的是消息体。求值的结果用于创建java.util.Iterator。

什么可以迭代?
当Camel创建迭代器时，它支持一系列的类型。Camel知道如何遍历以下类型：Collection, Iterator, Array, org.w3c.dom.NodeList, String(包含逗号分隔项)。任何其他类型只会迭代一次。

然后分流器使用迭代器,直到没有更多的数据可分解。从迭代器中出来的消息都是消息的副本。消息的原消息体被迭代器分解出的部分替代。在代码清单8.4中，消息将被分为三部分：分别包含字母A、B和C。发送出的消息将被继续处理，当处理完成后，消息可能被聚合(更多信息见8.3.4节)。
Splitter将会使用表8.8中的属性对分解出的消息进行装饰：
你可能会发现在某些情况下你需要对消息分解进行更多的控制，比如规定一条消息应该如何分解。通过使用Java代码,你可以对分解进行全方位的控制。
8.3.2 使用bean来分解
假设您需要分解的消息包含复杂的负载。假设负载是一个Customer对象，对象中包含一个Department列表，现在你想按Department分解，如图8.8所示：

Customer对象是一个简单的bean包含以下信息(省略了getter和setter方法)：
public class Customer {
private int id;
private String name;
private List departments;
}
部门对象如下：
public class Department {
private int id;
private String address;
private String zip;
private String country;
}
您可能想知道,为什么你不能与前面的示例一样使用split(body())来分解消息？原因是此时的消息负载(消息体)不是一个List，而是一个Customer对象。因此你需要告诉Camel如何分解：
public class CustomerService {
public List splitDepartments(Customer customer) {
return customer.getDepartments();
}
}
splitDepartments方法返回一个包含Department的List，这就是你想分解的东东。
在java DSL中，你可以使用CustomerService这个bean来分解，告诉Camel调用bean中的splitDepartments方法：
public void configure() throws Exception {
from("direct:start")
.split().method(CustomerService.class, "splitDepartments")
.to("log:split")
.to("mock:split");
}
Spring XML中：

Splitter经常会对加载到内存中的消息进行分解，但是有一种情况，消息非常大，不适合整个加载到内存中。
8.3.3 分解大消息
骑士汽车配件公司有一个ERP系统,包含其所有供应商的库存信息。为了保持库存更新，每一个供应商都鼻息向骑士骑车配件公司提交更新。某些供应商每天更新一次，使用老式的文件作为运输工具，这些文件可能会非常大，所以你必须把这些文件进行分解，以避免整个文件加载到内存中。这可以通过使用IO流来实现，IO流可以使你按需读取数据。这样就解决了内存问题，因为你可以一块数据，然后进行处理，接着读取下一块数据，然后进行处理，如此而已。
图8.9显示了骑士汽车配件公司的应用获取供应商提交的文件来更新库存的流程：
我们将在第十章,再次重温这个例子,当我们介绍并发性的时候，更详细地讨论它。
在Camel中实现图8.9中的路由非常容易：
public void configure() throws Exception {
from("file:target/inventory")
.log("Starting to process big file: ${header.CamelFileName}")
.split(body().tokenize("\n")).streaming()
.bean(InventoryService.class, "csvToObject")
.to("direct:update")
.end()
.log("Done processing big file: ${header.CamelFileName}");
from("direct:update")
.bean(InventoryService.class, "updateInventory");
}

如清单8.5中可以看到,所有你需要做的就是使用.streaming()来启用流模式。这告诉Camel不把整个负载加载到内存中,而是采用流的方式来迭代负载。注意路由中使用了end()来表明分解的结束，对应于Spring XML中的。

在Spring Xml中，使用标签的streaming属性来启动流模式。

method="csvToObject"/>

method="updateInventory"/>

你可能已经注意到了清单8.5和8.6的文件分割使用了分词器tokenizer。tokenizer是一个功能强大的特性,能够很好地处理流。tokenizer利用了java.util.Scanner。Scanner能够迭代,这意味着它只读取大块数据到内存中。必须提供一个令牌来表示块的边界。在前面的代码中,您使用一个换行符(\ n)的作为令牌。所以,在这个例子中,Scanner只会将文件一行一行的读取到内存中，这样就降低的内存消耗。

注意：当使用流模式时，确保你分解的消息可以分解为可以迭代的块。您可以使用tokenizer或者将消息体转换成可以迭代的类型，例如一个Iterator类型。

Camel的分流器EIP包含一个聚合功能,允许您对正在路由的分解后的消息进行重新聚合为一个输出消息。

8.3.4 聚合分解的消息

能够分解消息和再次聚合信息是一个强大的机制。你可以使用这个将订单分割成单个的订单行,处理它们,然后再结合成一个单一订单输出消息。此模式被称为复合消息处理器模式,我们在8.1节做了简要介绍。如图8.1所示。

Camel的Splitter提供了一个内建的聚合器，这使它很容易将分解的消息聚合为一个消息输出。图8.10使用"ABC"例子展示了这个原则。
假设你想将每一个A、B、C消息转换为一个短语，然后将这些短语再次合并为一个消息。使用Splitter很容易做到---你所需要提供的就是聚合消息的逻辑。具体逻辑使用AggregationStrategy的实现类来创建。
使用javaDSL实现图8.10中的Camel路由如下：
from("direct:start")
.split(body(), new MyAggregationStrategy())
.log("Split line ${body}")
.bean(WordTranslateBean.class)
.to("mock:split")
.end()
.log("Aggregated ${body}")
.to("mock:result");
对应的Spring XML：

class="camelinaction.MyAggregationStrategy"/>

body

使用AggregationStrategy的实现类将分解的消息聚合为单一的聚合消息：
public class MyAggregationStrategy implements AggregationStrategy {
public Exchange aggregate(Exchange oldExchange, Exchange newExchange) {
if (oldExchange == null) {
return newExchange;
}
String body = newExchange.getIn().getBody(String.class);
String existing = oldExchange.getIn().getBody(String.class);
oldExchange.getIn().setBody(existing + "+" + body);
return oldExchange;
}
}
如清单8.7中所示，你使用加号(+)将消息聚合为一个单个String类型的消息体。
这本书包含了这个例子的源代码，在chapter8/splitter目录中运行：
mvn test -Dtest=SplitterAggregateABCTest
mvn test -Dtest=SpringSplitterAggregateABCTest
本例使用了三个短语，“Aggregated Camel rocks”, “Hi mom”, 和 “Yes it works”. 当您运行这个示例,您将看到控制台最后输出的聚合信息。
INFO route1 - Split line A
INFO route1 - Split line B
INFO route1 - Split line C
INFO route1 - Aggregated Camel rocks+Hi mom+Yes it works
在我们结束分流器的学习之前，让我们看下当一个分解消息发生异常时，会出现什么情况？

8.3.4 聚合分解的消息

8.3.5 当错误发生在分解消息时

分流器处理消息,当一些业务逻辑抛出异常时这些消息可能会处理失败。在分解消息时，Camel的错误处理器是激活状态，所以在Splitter中，你必须处理的错误都是那些Camel错误处理器无法处理的错误。

在Splitter中处理错误，你有两个选择：

1、stop(停止)---Splitter按顺序分解和处理每一个消息。假设第二个消息失败了，此时，你可以立即停止处理，让异常继续传播，也可以继续分解剩下的消息，最后再让异常传播(Splitter的默认行为)。

2、Aggregate---你可以在AggregationStrategy中处理异常，决定是否将异常继续抛出。

使用STOPONEXCEPTION

如果采用第一个选择，你需要在Splitter中配置stopOnException选项：

from("direct:start")

.split(body(), new MyAggregationStrategy())

.stopOnException()

.log("Split line ${body}")

.bean(WordTranslateBean.class)

.to("mock:split")

.end()

.log("Aggregated ${body}")

.to("mock:result");

在Spring XMl中

这本书包含了这个例子的源代码，在chapter8/splitter目录总运行：

mvn test -Dtest=SplitterStopOnExceptionABCTest

mvn test -Dtest=SpringSplitterStopOnExceptionABCTest

使用AGGREGATIONSTRATEGY处理异常

AGGREGATIONSTRATEGY允许你以忽略异常或者抛出异常的方式来处理异常。下面是忽略异常的方式：

public class MyIgnoreFailureAggregationStrategy implements AggregationStrategy {

public Exchange aggregate(Exchange oldExchange, Exchange newExchange) {

if (newExchange.getException() != null) {

return oldExchange;

}

if (oldExchange == null) {

return newExchange;

}

String body = newExchange.getIn().getBody(String.class);

String existing = oldExchange.getIn().getBody(String.class);

oldExchange.getIn().setBody(existing + "+" + body);

return oldExchange;

}

此时你可以使用newExchange的getException方法来判断是否发生了异常。本例忽略了异常，返回了oldExchange。

如果你想抛出异常(继续传播)，你可以将其存储在聚合异常中：

public class MyPropagateFailureAggregationStrategy

implements AggregationStrategy {

public Exchange aggregate(Exchange oldExchange, Exchange newExchange) {

if (newExchange.getException() != null) {

if (oldExchange == null) {

return newExchange;

} else {

oldExchange.setException(

newExchange.getException());

return oldExchange;

}

if (oldExchange == null) {

return newExchange;

}

String body = newExchange.getIn().getBody(String.class);

String existing = oldExchange.getIn().getBody(String.class);

oldExchange.getIn().setBody(existing + "+" + body);

return oldExchange;

}

正如您可以看到的,它需要做更多的工作来存储异常。第一次调用aggregate方法时，oldExchange为null,此时返回(包含异常的)newExchange。否则，你必须将异常放到oldExchange中。

警告：如果在Splitter中使用了自定义的AggregationStrategy，此时你需要知道你负责处理异常。如果此时你没有将异常向后传播，Splitter会认为你处理了异常进而忽略它。

这本书包含了这个例子的源代码，在chapter8/splitter目录中运行：

mvn test -Dtest=SplitterAggregateExceptionABCTest

mvn test -Dtest=SpringSplitterAggregateExceptionABCTest

在下面的两节，我们将学习支持动态路由的企业集成模式，先从Routing Slip模式开始。

8.4 Routing Slip企业集成模式

有些时候你需要动态路由消息。例如,您可能有一个架构,对传入的消息进行一系列处理步骤和业务规则验证。因为处理步骤和验证规则的不同，您可以将处理和验证的每一步都作为一个单独的过滤器。过滤器扮演了动态模型的角色，负责业务规则的验证。

此架构可以使用 Pipes、Filters、Filter三个企业集成模式来实现。但是这种情况经常出现，于是出现了一种改良的实现方式，即使用Routing Slip企业集成模式。此模式作为一个动态路由器，来决定消息的下一步处理。图8.11展示了这个规则：

Routing Slip EIP需要一个头部或者Exception作支持。也就是说在消息发送到Routing Slip之前，必须准备好初始化的slip。

8.4.1使用Routing Slip EIP

我们将从一个简单的例子开始,展示了如何使用Routing Slip模式来实现图8.11中的执行顺序。

在java DSL中，模式对应的路由很简单：

from("direct:start").routingSlip("mySlip");

在Spring XML中也很简单：

mySlip

这个例子假设了输入消息都含有mySlip头部。下面的测试方法展示了如何使用这个头部：

public void testRoutingSlip() throws Exception {

getMockEndpoint("mock:a").expectedMessageCount(1);

getMockEndpoint("mock:b").expectedMessageCount(0);

getMockEndpoint("mock:c").expectedMessageCount(1);

template.sendBodyAndHeader("direct:start", "Hello World",

"mySlip", "mock:a,mock:c");

assertMockEndpointsSatisfied();

}

如你所见，头部mySlip对应的值是由逗号分隔的端点URI。逗号是默认的分隔符，但是此模式也支持自定义分隔符。例如：使用分号作为分隔符：

from("direct:start").routingSlip("mySlip", ";");

mySlip

上面的例子都用了一个头部做支持，如果没有这个头部呢？如果没有，你必须用自己的方式来计算头部，在下面的例子中，我们看一下如何使用一个bean来计算头部。

8.4.2 使用bean计算routing slip的头部

简而言之，计算头部的逻辑包括两三步，见下面的方法：

public class ComputeSlip {

public String compute(String body) {

String answer = "mock:a";

if (body.contains("Cool")) {

answer += ",mock:b";

}

answer += ",mock:c";

return answer;

}

在Java DSL使用这个bean：

from("direct:start")

.setHeader("mySlip").method(ComputeSlip.class)

.routingSlip("mySlip");

在Spring XML中：

mySlip

8.4.3 使用Expression作为routing slip

除了设置头部，你还可以使用Expression，使用Expression改造前面的例子：

from("direct:start")

.setHeader("mySlip").method(ComputeSlip.class)

.routingSlip("mySlip");

使用Spring XML：

mySlip

8.4.4 使用@RoutingSlip注解

此注解可以将规则的bean方法变成Routing Slip模式，如下例：

public class SlipBean {

@RoutingSlip

public String slip(String body) {

String answer = "mock:a";

if (body.contains("Cool")) {

answer += ",mock:b";

}

answer += ",mock:c";

return answer;

}

当Camel调用slip方法时，探测到@RoutingSlip注解，就会根据Routing Slip EIP继续路由。

注意：使用了@RoutingSlip注解，在DSL中就不要再使用routingSlip方法了。否则Camel会两次调用 RoutingSlip EIP，显然这不是你所期望的。应该像下面这样做：

from("direct:start").bean(SlipBean.class);

使用Spring XML:

为什么你想使用这个注解呢?使用@RoutingSlip注解，在某种意义上，会变得更灵活，此时bean可以被看做一个endpoint URI，任一Camel的客户端和路由都能很容易向bean发送消息，并作为一个routing slip继续路由。例如，使用ProducerTemplate可以向上述bean发送消息：

ProducerTemplate template = ...

template.sendBody("bean:myBean", "Camel rocks");

消息"Camel rocks"与调用bean方法返回的结果会作为一个routing slip被继续路由，这本书包含了示例的源代码。在chapter8/routingslip目录中运行：

mvn test -Dtest=RoutingSlipSimpleTest

mvn test -Dtest=SpringRoutingSlipSimpleTest

mvn test -Dtest=RoutingSlipHeaderTest

mvn test -Dtest=SpringRoutingSlipHeaderTest

mvn test -Dtest=RoutingSlipTest

mvn test -Dtest=SpringRoutingSlipTest

mvn test -Dtest=RoutingSlipBeanTest

mvn test -Dtest=SpringRoutingSlipBeanTest

8.5 Dynamic Router(动态路由)企业集成模式
在上一节，你学习了Routing Slip模式，此模式的路由也是动态的，那么他和动态路由EIP有什么区别呢？区别非常小：Routing Slip需要对消息头部中的slip提前计算，而动态路由器EIP在运行时计算消息下一步路由目的地。
8.5.1 使用动态路由器模式
像Routing Slip模式一样，动态路由器模式同样需要你提供消息路由目的地的计算逻辑。计算逻辑很容易使用java代码实现，在代码中，你有完全的自由以确定消息要去何地。例如，你可以通过查询数据库或者一个规则引擎来计算消息要去何地。
代码清单8.10展示了例子中使用的java bean：
public class DynamicRouterBean {
public String route(String body,@Header(Exchange.SLIP_ENDPOINT) String previous) {
return whereToGo(body, previous);
}
private String whereToGo(String body, String previous) {
if (previous == null) {
return "mock://a";
} else if ("mock://a".equals(previous)) {
return "language://simple:Bye ${body}";
} else {
return null;
}
}
}
动态路由器的思路是:让Camel一直调用route方法，直到路由调用结束，第一次调用route方法时，参数previous为null。后续的每次调用，previous参数包含了上一步的endpoint URI。
在whereToGo方法中，你根据previous的值返回了不同的URI。当动态路由器结束时，返回null。
使用动态路由器非常简单，在java DSL中：
from("direct:start")
.dynamicRouter(bean(DynamicRouterBean.class, "route"))
.to("mock:result");
在Spring XML中：

这本书包含了这个例子的源代码，在目录chapter8/dynamicrouter中，运行：
mvn test -Dtest=DynamicRouterTest
mvn test -Dtest=SpringDynamicRouterTest

还有一个动态路由器注解可以使用。
8.5.2 使用@DynamicRouter注解
为了演示@DynamicRouter的用法，让我们使用@DynamicRouter修改下前面的例子。只需在java代码中添加@DynamicRouter即可：
@DynamicRouter
public String route(String body,
@Header(Exchange.SLIP_ENDPOINT) String previous) {
...
}
下一步就是在路由中直接调用这个bean，java DSL：
from("direct:start")
.bean(DynamicRouterBean.class, "route")
.to("mock:result");
在Spring XML中：

警告：使用了@DynamicRouter注解，就不能在路由中同时使用dynamicRouter方法了。
这本书包含了这个例子的源代码，在目录chapter8/dynamicrouter中，运行：
mvn test -Dtest=DynamicRouterAnnotationTest
mvn test -Dtest=SpringDynamicRouterAnnotationTest
这就是动态路由模式。在下一节中,您将了解Camel内置的负载均衡器EIP，当现有的负载均衡解决方案不到位时，此模式很有用。

8.6 Load Balancer(负载均衡器) EIP
在IT行业，您可能已经熟悉了负载均衡的概念。负载均衡是一种技术，用于在计算机或其他资源间分发工作负载(为了得到最优的资源利用率,最大化吞吐量,减少响应时间,避免超负荷工作)[ http://en.wikipedia.org/wiki/Load_balancer)]，负载均衡服务可以由硬件设备提供也可以由软件提供，例如Camel中的Load Balancer EIP。
注意：在企业集成模式一书中没有提及负载均衡器模式，但是如果此书出第二版，那么很有可能会添加此模式。
本节中，我们将通过一个例子来学习这个模式。在8.6.2节中，我们会看到Camel提供的开箱即用的各种类型的负载均衡器策略。在8.6.3节中，我们将注意力集中在故障恢复策略上，最后，介绍自定义负载均衡器的构建。
8.6.1 Load Balancer EIP简介
Camel中的负载均衡器模式是一个Processor，此Processor实现了 org.apache.camel.processor.loadbalancer.LoadBalancer接口。LoadBalancer接口提供了添加、删除参与负载均衡的Processor的方法。

通过使用Processor来代替Endpoint，负载均衡器可以对路由中定义的一切进行负载均衡。但是，也就是说，你会经常平衡多个远程服务的调用。有这样的一个示例如图8.12所示,一个Camel应用程序需要在两个服务之间进行负载平衡。

当使用Load Balancer EIP时,你必须选择一个平衡的策略。一个常见的和可以理解的策略是轮流调用服务---这就是所谓的轮循策略。8.6.2节,我们将看一看Camel提供的开箱即用的所有策略。
让我们看看在负载均衡器中如何使用轮循策略。java DSL：
from("direct:start")
.loadBalance().roundRobin()
.to("seda:a").to("seda:b")
.end();

from("seda:a")
.log("A received: ${body}")
.to("mock:a");

from("seda:b")
.log("B received: ${body}")
.to("mock:b");
对应的Spring XML：

在本例中，你使用了SEDA组件来模拟远程服务。在真实环境中，远程服务可能是一个webservice。
假设你开始向这个路由发送消息，第一个消息将发送到"seda:a"端点，下一个消息将会发送到"seda:b"端点。第三个消息又被发送到"seda:a"端点，如此循环。
这本书包含了这个例子的源代码，在chapter8/loadbalancer目录中，运行命令：
mvn test -Dtest=LoadBalancerTest
mvn test -Dtest=SpringLoadBalancerTest

如果你运行这个示例,控制台输出是这样的:
[Camel Thread 0 - seda://a] INFO route2 - A received: Hello
[Camel Thread 1 - seda://b] INFO route3 - B received: Camel rocks
[Camel Thread 0 - seda://a] INFO route2 - A received: Cool
[Camel Thread 1 - seda://b] INFO route3 - B received: Bye

8.6.2 负载均衡策略
负载平衡策略用来规定那个Processor应该处理输入消息---由策略来选择Processor。Camel支持表8.9中列出的六个不同的策略：

表8.9中的前四个策略很容易设置和使用。　例如,使用random策略:
from("direct:start")
.loadBalance().random()
.to("seda:a").to("seda:b")
.end();

对应的Spring XML：

sticky策略需要你提供一个关联表达式，用来计算一个散列值来决定应该使用哪个Processor。假设您的消息包含一个标识不同级别的头部。此时使用sticky策略，你可以让所有的消息具有相同的级别，这样他们都会选择同一个Processor。
在Java DSL中，你需要提供一个表达式：
from("direct:start")
.loadBalance().sticky(header("type"))
.to("seda:a").to("seda:b")
.end();
对应的Spring XML：

type

这本书包含的源代码中有表8.9中策略的所有例子，在目录chapter8/loadbalancer中。运行命令：
mvn test -Dtest=RandomLoadBalancerTest
mvn test -Dtest=SpringRandomLoadBalancerTest
mvn test -Dtest=StickyLoadBalancerTest
mvn test -Dtest=SpringStickyLoadBalancerTest
mvn test -Dtest=TopicLoadBalancerTest
mvn test -Dtest=SpringTopicLoadBalancerTest

failover(故障恢复)策略是一个更复杂的策略,我们将在下一节中讨论。

8.6.3 使用failover策略的负载均衡器
负载均衡器往往用于实现故障恢复---服务失败后的延续。当异常发生时，Camel故障恢复负载均衡器检测到错误,并做出反应：让下一个Processor处理器接管处理消息。
看下面的路由片段，故障恢复策略总是以发送消息到第一个Processor("direct:a") 开始，只在错误发生时才会让下一个Processor("direct:b")接管：
from("direct:start")
.loadBalance().failover()
.to("direct:a").to("direct:b")
.end();
对应的Spring XML：

这本书包含了这个例子的源代码，在chapter8/loadbalancer目录中运行：
mvn test -Dtest=FailoverLoadBalancerTest
mvn test -Dtest=SpringFailoverLoadBalancerTest

如果你运行这个示例,它将发送4个消息。第二个消息将会进行故障恢复，由"direct:b"Processor处理。其他三个消息由"direct:a"处理。
在本例中，故障恢复负载均衡器会对任何类型的异常做出反应，但是你可以设置其只对一定数量的异常做出反应。
假设你只想在IOException异常抛出时进行故障恢复。其配置非常容易：
from("direct:start")
.loadBalance().failover(IOException.class)
.to("direct:a").to("direct:b")
.end();
对应的Spring XML：

java.io.IOException

在这个例子中,只有一个异常,但您可以指定多个异常,如下:
from("direct:start")
.loadBalance().failover(IOException.class, SQLException.class)
.to("direct:a").to("direct:b")
.end();
对应的SpringXML

java.io.IOException
java.sql.SQLException

您可能已经注意到在故障恢复的例子中,它总是选择第一个处理器,只在需要进行故障恢复时才选择下一个Proc。你可以将第一个Processor看成奴隶主，其他Processor看成奴隶。但是故障恢复策略也提供了一个策略：联合轮循策略对错误提供支持。

使用故障恢复和轮循策略
在Camel中，轮循模式下的故障恢复策略可以让你两全其美；既可以在两个服务之间均匀地分发消息，也可以自动提供故障恢复。
在这种情况下,你有三个配置选项来配置负载均衡器，以决定它如何运作,如表8.10所示。
为了更好的理解表8.10中的选项和循环模式是如何工作的，我们将从一个相当简单的例子开始。
在java DSL中你必须配置故障恢复所有的选项:
from("direct:start")
.loadBalance().failover(1, false, true)
.to("direct:a").to("direct:b")
.end();
在本例中，maximumFailoverAttempts配置项设置为了1，意思是最多进行故障恢复一次(当原始请求失败时，只做一次故障恢复尝试)，如果原始请求和故障恢复都失败了，Camel将会把一次传播给调用者。
第二个参数设置为了false，意思是不继承Camel的错误处理机制。这使得在异常发生时，故障恢复负载均衡器立即进行故障恢复，而不必等待Camel错误处理程序先放弃。
最后一个参数表明,使用轮循模式。
在Spring XML中，使用failover标签的属性进行配置：

这本书包含了这个例子的源代码，在目录chapter8/loadbalancer中运行：
mvn test -Dtest=FailoverLoadBalancerTest
mvn test -Dtest=SpringFailoverLoadBalancerTest
如果你对inheritErrorHandler配置项好奇，看一下源码中的这个例子：
mvn test -Dtest=FailoverInheritErrorHandlerLoadBalancerTest
mvn test -Dtest=SpringFailoverInheritErrorHandlerLoadBalancerTest

8.6.4 使用自定义负载均衡器
自定义负载平衡器允许您在使用是对其进行完全的控制。例如,您可以建立一个策略,从不同的服务获得负荷统计数据，选择最低的服务负载。
让我们来看一个例子。假设你想实现一个基于优先级的策略,将重要消息发送给特定的处理器，将其余消息发给次要Processor。图8.13说明了这一原则。

实现一个定制的负载均衡器时，你需要继承SimpleLoadBalancerSupport类，它提供了一个很好的起点。如清单8.11所示：
import org.apache.camel.Exchange;
import org.apache.camel.Processor;
import org.apache.camel.processor.loadbalancer.SimpleLoadBalancerSupport;
public class MyCustomLoadBalancer extends SimpleLoadBalancerSupport {
public boolean process(Exchange exchange) throws Exception {
Processor target = chooseProcessor(exchange);
target.process(exchange);
}
@Override
protected Processor chooseProcessor(Exchange exchange) {
String type = exchange.getIn().getHeader("type", String.class);
if ("gold".equals(type)) {
return getProcessors().get(0);
} else {
return getProcessors().get(1);
}
}
}
正如你所看到的,并不需要太多的代码。在process()方法中，调用chooseProcessor()方法，其中实现了选择处理器来处理消息的策略。在本例中,如果是重要消息，它将选择第一个处理器，如果不是，选择第二个处理器。
在Java DSL,您使用这个自定义负载平衡器：
from("direct:start")
.loadBalance(new MyCustomLoadBalancer())
.to("seda:a").to("seda:b")
.end();
对应的Spring XMl：

这本书包含了这个例子的源代码，在目录chapter8/loadbalancer中：
mvn test -Dtest=CustomLoadBalancerTest
mvn test -Dtest=SpringCustomLoadBalancerTest

你可能感兴趣的:(Struts,hadoop,hbase,camel,hibernate)

application.yml 文件配置解析前端小努力 spring boot
application.yml文件配置解析application.yml文件是SpringBoot应用程序中用于配置各种属性的主要文件之一。它可以配置的内容非常广泛，包括但不限于以下几类：服务器配置端口号服务器地址会话管理SSL配置数据源配置数据库URL用户名和密码JDBC驱动类名连接池配置JPA和Hibernate配置DDL自动更新策略SQL显示方言配置日志配置日志级别日志文件路径安全性配置基本
HBase 开发：使用Java操作HBase 第1关：创建表是草莓熊吖 hbase 大数据 Educoder hbase hadoop 大数据
为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类：HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象，这个对象我们需要通过HBaseConfig
Hbase-表操作红笺Code Hbase hbase 大数据数据分析非关系型数据库 zookeeper
目录一、创建表:1.创建表时指定列族的属性2.创建表时不指定列族的属性多学一招：克隆表二、查看表信息三、查看表四、停用和启用表1.停用表2.启用表多学一招：停用或启用多个表五、判断表1.exists命令2.is_enabled命令3.is_disabled命令六、修改表1.修改表属性（1）添加属性（2）删除属性2.修改列族（1）修改列族属性（2）添加列族（3）删除列族七、删除表drop命令多学一招
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
论文参考文献（持续更新...） @一叶之秋 java
毕业论文参考文献（java）考虑到平时做课程设计和毕业论文文献不好找，还要格式正确，某文库还不能直接复制粘贴，这里列举出自己做项目时用到的一些参考文献tips:论文查重技巧参考文献(一)：[1]李运莉.web数据库应用系统性能优化[M]．北京：人民邮电出版社，2011.[2]库俊国.基于J2EE技术的Web应用体系研究及实践[M]．北京：人民邮电出版社，2014.[3]陈楚杰.基于Struts和H
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
Java 里 Hibernate 的多租户架构实现 AI大模型应用实战 java hibernate 架构 ai
Java里Hibernate的多租户架构实现关键词：Java、Hibernate、多租户架构、多租户实现、数据隔离摘要：本文深入探讨了在Java中利用Hibernate实现多租户架构的相关技术。首先介绍了多租户架构的背景和意义，包括目的、预期读者、文档结构以及相关术语。接着阐述了Hibernate多租户的核心概念，给出了原理和架构的文本示意图与Mermaid流程图。详细讲解了核心算法原理，通过Py
Hadoop WordCount 程序实现与执行指南
HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。这个程序可以在PyCharm中本地测试，也可以部署到远程Hadoop集群上运行。mapper.pyimportsys#从标准输入读取数据forlineinsys.stdin:#移除行首行尾的空白字符line=line.strip()#将行分割为
【蓝队】XX集团股份有限公司体系化监测挖掘抵御0day漏洞防护技战法|护网|高级|研判|监测|hw chenyzzz 蓝队网络安全网络安全系统安全 web安全安全架构 0day
2025重点关注MetaCRM客户关系管理系统sendfile.jsp任意文件上传MetaCRM客户关系管理系统sendsms.jsp任意文件上传AgentSyste代理商管理系统login.actionStruts2远程代码执行用友NClistUserSharingEvents存在SQL注入浪潮云财务系统存在远程代码执行一、工作背景与现状分析0day漏洞是指尚未被漏洞所在软硬件系统的厂商或开发者
Hibernate中save与saveOrUpdate的差异解析代码的余温 hibernate oracle 数据库
在Hibernate中，save()和saveOrUpdate()都是用于持久化对象的方法，但它们的适用场景和行为有显著差异：1.save()方法核心行为：仅适用于瞬时态（Transient）对象（即新创建、未与Session关联的对象）。会立即为对象分配一个标识符（ID），并计划在事务提交时执行INSERT操作。若尝试对已持久化（Persistent）或游离态（Detached）对象调用save
Squirrel：通用SQL、NoSQL客户端 antui1957
安装配置数据库配置驱动配置连接如果你的工作中，需要使用到多个数据库，又不想在多种客户端之间切换来切换去。那么就需要找一款支持多数据库的客户端工具了。如果你要连接多个关系型数据库，你就可以使用NavicatPremium。但是如果你有使用到NOSQL（譬如HBase、MongoDB等），还是建议使用SquirrelSQLClient。1、安装下载地址：http://squirrel-sql.sour
Java：动态代理Proxy 十秒耿直拆包选手 Java Programming up java
动态代理在Java中有着广泛的应用，比如SpringAOP、Hibernate数据查询、测试框架的后端mock、RPC远程调用、Java注解对象获取、日志、用户鉴权、全局性异常处理、性能监控，甚至事务处理等。基本概念假设有一个表示接口的Class对象(有可能只包含一个接口)，它的确切类型在编译时无法知道。要想构造一个实现这些接口的类，就需要使用newInstance方法或反射找出这个类的构造器。但
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
No row with the given identifier exists 解决方法 dazhong2012
博客分类：异常、错误处理Hibernate有两张表,a和b.产生此问题的原因就是a里做了关联或者(特殊的多对一映射,实际就是一对一)来关联b.当hibernate查找的时候,b里的数据没有与a相匹配的,这样就会报Norowwiththegivenidentifierexists这个错.(一句话,就是数据的问题!)假如说,a里有自身的主键id1,还有b的主键id2,这两个字段.如果hibenrate
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
Hibernate ORM 映射深度解析后端
在Java持久层技术体系中，Hibernate作为经典的ORM（对象关系映射）框架，通过自动化对象与数据库表的映射关系，显著提升了数据访问层的开发效率。本文从核心映射机制、高级特性、性能优化及面试高频问题四个维度，结合源码与工程实践，系统解析Hibernate的ORM映射原理与最佳实践。一、核心映射机制1.1基础映射类型映射类型描述示例注解实体映射将Java类映射到数据库表@Entity,@Tab
真实案例出发，再谈retrofit封装何小Ai同学 android-基础 android retrofit
原文链接：Anthony的简书博客项目代码：CameloeAnthony/Ant前言在使用了一段时间的Retrofit之后，今天终于在这里讲解到了网络的部分。目前开源的HTTP框架有很多，Volley，AndroidAsyncHttp，以及OkHttp+Retrofit等。而我在自己的使用中选择了Retrofit，这里就从基础到原理，再到实例的方式，讲解我对Retrofit做出的一些封装和使用。来
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
分库分表之-ShardingJDBC技术详解
ShardingJDBC技术详解一、ShardingJDBC简介ShardingJDBC是一款轻量级的分布式数据库中间件，定位为在Java的JDBC层提供额外服务。它以客户端直连数据库的方式，以jar包形式提供服务，无需额外部署和依赖，可理解为增强版的JDBC驱动，完全兼容JDBC和各种ORM框架。适用于任何基于JDBC的ORM框架，如JPA、Hibernate、Mybatis、SpringJDB
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Web层（前端） guanermiao #JavaEE 前端
WEB层:包含JSP页面（V层）和Servlet（C层）等,与WEB相关的内容;框架有Struts、SpringMVC MVC设计模式（思想模式），MVC把程序从逻辑上分为模型层、控制层、视图层，各层各司其职，之间是相互调用的关系而不是相互依赖的关系，这种模式能很好的适应需求的变化及软件的升级变更。目前应用较多的MVC框架是springMVC框架，这个框架有清晰的角色划分，有强大而直接的配置
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

Camel In Action 第八章 企业集成模式

你可能感兴趣的:(Struts,hadoop,hbase,camel,hibernate)

Camel In Action 第八章企业集成模式