weixin_34163553

Apache Ignite 初探

Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台，用于大规模的数据集处理，比传统的基于磁盘或闪存的技术具有更高的性能，同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。

在Ignite以前，大规模、大数据量、高并发企业级或者互联网应用为了解决数据缓存、降低数据库负载、提高查询性能等突出问题，很多采用了 Hazelcast或者Oracle Coherence或者GemFire（比如12306网站）或者目前应用越来越广泛的Redis等缓存技术，本文对这些相关的技术做了简单的比较，基本内容来源于其官方网站，进行了翻译整理，方便更多的人了解他。

1 Apache Ignite是什么

Apache Ignite内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台，用于大规模的数据集处理，比传统的基于磁盘或闪存的技术具有更高的性能，同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。

2 Ignite历史

Ignite来源于尼基塔·伊万诺夫于2007年创建的GridGain系统公司开发的GridGain软件，尼基塔领导公司开发了领先的分布式内存片内数据处理技术-领先的Java内存片内计算平台，今天在全世界每10秒它就会启动运行一次。他有超过20年的软件应用开发经验，创建了HPC和中间件平台，并在一些创业公司和知名企业都做出过贡献，包括Adaptec, Visa和BEA Systems。尼基塔也是使用Java技术作为服务器端开发应用的先驱者，1996年他在为欧洲大型系统做集成工作时他就进行了相关实践。

2014 年3月，GridGain公司将该软件90%以上的功能和代码开源，仅在商业版中保留了高端企业级功能，如安全性，数据中心复制，先进的管理和监控等。 2015年1月，GridGain通过Apache 2.0许可进入Apache的孵化器进行孵化，很快就于8月25日毕业并且成为Apache的顶级项目，9月28日即发布了1.4.0版，应该说发展、迭代速度非常之快。该技术相关资料较少，但确是一个很有潜力的技术，解决了大规模、大数据量、高并发企业级或者互联网应用面临的若干痛点。

重要通知：接下来InfoQ将会选择性地将部分优秀内容首发在微信公众号中，欢迎关注InfoQ微信公众号第一时间阅读精品内容。

3 Ignite和Hadoop以及Spark的关系

Ignite和Hadoop解决的是不同的问题，即使在一定程度上可能应用了类似的底层基础技术。Ignite是一种多用途，和OLAP/ OLTP内存中数据结构相关的，而Hadoop仅仅是Ignite原生支持（和加速）的诸多数据来源之一。

Spark 是一个和Ignite类似的项目。但是Spark聚焦于OLAP，而Ignite凭借强大的事务处理能力在混合型的OLTP/ OLAP场景中表现更好。特别是针对Hadoop，Ignite将为现有的Map/Reduce，Pig或Hive作业提供即插即用式的加速，避免了推倒重来的做法，而Spark需要先做数据ETL，更适合新写的分析应用。

4 和类似技术的对比

在Ignite以前，大规模、大数据量、高并发企业级或者互联网应用为了解决数据缓存、降低数据库负载、提高查询性能等突出问题，很多采用了Hazelcast或者Oracle Coherence或者GemFire（比如12306网站）或者目前应用越来越广泛的Redis等缓存技术，本文对这些相关的技术做了简单的比较，基本内容来源于其官方网站，进行了翻译整理，方便更多的人了解他。

4.1 Ignite和Hazelcast

Apache Ignite和Hazelcast都提供了富数据网格的特性，解决了可扩展的分布式集群环境下在内存中对数据进行缓存和分区的问题。

Ignite和Hazelcast在缓存的方式上是有很多不同的，同时支持事务和数据的查询，下面的表格列出了一些主要的不同点，这些都是我们在选择内存数据网格产品时需要特别关注的。

\\t\t\t 序号 \\t\t\t	\\t\t\t 对比项目 \\t\t\t	\\t\t\t Apache Ignite \\t\t\t	\\t\t\t Hazelcast \\t\t\t
\\t\t\t 1 \\t\t\t	\\t\t\t 聚焦于开源 \\t\t\t	\\t\t\t Ignite是一个Apache的开源项目，还在不断的增加新特性，对C++、.NET/C#和Node.js的支持也会很快到来。 \\t\t\t	\\t\t\t Hazelcast正在持续的减少开源版本的功能，更多的功能加入了企业版中，比如堆外存储，持续查询，Web-Session集群，SSL加密支持等。 \\t\t\t
\\t\t\t 2 \\t\t\t	\\t\t\t JCache(JSR107) \\t\t\t	\\t\t\t Ignite完全兼容JCache (JSR 107)缓存规范 \\t\t\t	\\t\t\t Hazelcast完全兼容JCache (JSR 107)缓存规范 \\t\t\t
\\t\t\t 3 \\t\t\t	\\t\t\t 堆外存储 \\t\t\t	\\t\t\t Ignite根据用户配置支持将数据存储在堆内或者堆外 \\t\t\t	\\t\t\t Hazelcast仅在商业版中提供堆外存储的功能 \\t\t\t
\\t\t\t 4 \\t\t\t	\\t\t\t 堆外索引 \\t\t\t	\\t\t\t 只要配置了堆外存储，Ignite就会在堆外存储索引(为了不影响使用堆内内存的用户应用。) \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 5 \\t\t\t	\\t\t\t 持续查询 \\t\t\t	\\t\t\t Ignite支持持续查询，比如允许客户端和服务器端订阅数据变化的持续通知 \\t\t\t	\\t\t\t Hazelcast仅在商业版中提供持续查询的功能。 \\t\t\t
\\t\t\t 6 \\t\t\t	\\t\t\t SQL查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL(ANSI-99)语法以查询内存中的数据 \\t\t\t	\\t\t\t Hazelcast仅对SQL提供有限的支持(只有几个关键字) \\t\t\t
\\t\t\t 7 \\t\t\t	\\t\t\t 关联查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL关联，包括跨多个缓存的关联，比如：select * from A a, B b where a.b_id = b.id \\t\t\t	\\t\t\t Hazelcast不支持任何的关联查询，不管用不用SQL，如果需要，开发者需要手工处理多个查询的结果。 \\t\t\t
\\t\t\t 8 \\t\t\t	\\t\t\t 查询一致性 \\t\t\t	\\t\t\t Ignite提供完整的查询一致性，即查询是在一个特定的快照中执行的，查询开始之后的数据更新不影响查询的结果。 \\t\t\t	\\t\t\t Hazelcast查询是不一致的，这是可能的，查询结果的一部分将看到一定的更新，而另一部分则不会。 \\t\t\t
\\t\t\t 9 \\t\t\t	\\t\t\t 查询容错 \\t\t\t	\\t\t\t Ignite查询是容错的，即查询结果始终是一致的不会受到集群拓扑发生变化的影响，比如节点的加入，退出或崩溃。 \\t\t\t	\\t\t\t Hazelcast查询是不容错的，即查询结果在集群拓扑发生变化时不一致，而数据正在后台重新平衡。 \\t\t\t
\\t\t\t 10 \\t\t\t	\\t\t\t 数据一致性 \\t\t\t	\\t\t\t Ignite支持内存中数据的原子性和事务一致性，不管数据存储在分区或者复制缓存中。 \\t\t\t	\\t\t\t Hazelcast仅在分区缓存中支持原子性和事务一致性，而存储在复制缓存中的数据没有任何事务一致性的保证。 \\t\t\t
\\t\t\t 11 \\t\t\t	\\t\t\t SSL加密 \\t\t\t	\\t\t\t Ignite为所有的网络传输提供SSL加密，包括客户端和服务器端以及服务器之间。 \\t\t\t	\\t\t\t Hazelcast仅在商业版中提供SSL加密功能。 \\t\t\t
\\t\t\t 12 \\t\t\t	\\t\t\t Web-Session集群 \\t\t\t	\\t\t\t Ignite为所有已知的应用服务器提供Web-Session的缓存和集群化支持。 \\t\t\t	\\t\t\t Hazelcast仅在商业版中提供Web-Session集群化支持。 \\t\t\t
\\t\t\t 13 \\t\t\t	\\t\t\t 计算网格 \\t\t\t	\\t\t\t Ignite提供集群上的M/R，Fork/Join和基本的分布式lambda处理，包括任务负载平衡，容错，检查点，计划任务等。 \\t\t\t	\\t\t\t Hazelcast仅支持M/R和集群内的分布式随机任务。 \\t\t\t
\\t\t\t 14 \\t\t\t	\\t\t\t 流式网格 \\t\t\t	\\t\t\t Ignite支持内存流，包括对数据流浮动窗口的查询和维护支持 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 15 \\t\t\t	\\t\t\t 服务网格 \\t\t\t	\\t\t\t Ignite可以使用户方便地将其服务集群化，包括支持各种单例集群。 \\t\t\t	\\t\t\t Hazelcast管理的服务不提供单例集群的功能。 \\t\t\t
\\t\t\t 16 \\t\t\t	\\t\t\t .Net/C#,C++支持 \\t\t\t	\\t\t\t Ignite将在1.5.0版中提供完整的内存组织API \\t\t\t	\\t\t\t Hazelcast仅在商业版中提供有限的客户端API支持。 \\t\t\t
\\t\t\t 17 \\t\t\t	\\t\t\t Node.js支持 \\t\t\t	\\t\t\t Ignite将在1.5.0版中提供Node.js的客户端API。 \\t\t\t	\\t\t\t 不支持 \\t\t\t

4.2 Ignite和Coherence

Apache Ignite和Oracle Coherence都提供了富数据网格的特性，解决了可扩展的分布式集群环境下在内存中对数据进行缓存和分区的问题。

Ignite和Coherence在缓存的方式上是有很多不同的，同时支持事务和数据的查询，下面的表格列出了一些主要的不同点，这些都是我们在选择数据网格产品时需要特别关注的。

\\t\t\t 序号 \\t\t\t	\\t\t\t 对比项目 \\t\t\t	\\t\t\t Apache Ignite \\t\t\t	\\t\t\t Oracle Coherence \\t\t\t
\\t\t\t 1 \\t\t\t	\\t\t\t 开源和闭源 \\t\t\t	\\t\t\t Ignite是一个Apache的开源项目，并且还在不断的增加新特性，对C++、.NET/C#和Node.js的支持也会很快到来。 \\t\t\t	\\t\t\t Coherence是一个Oracle的专有软件，并不提供开源和免费的版本。 \\t\t\t
\\t\t\t 2 \\t\t\t	\\t\t\t JCache (JSR 107) \\t\t\t	\\t\t\t Ignite完全兼容JCache (JSR 107)缓存规范 \\t\t\t	\\t\t\t Coherence完全兼容JCache (JSR 107)缓存规范 \\t\t\t
\\t\t\t 3 \\t\t\t	\\t\t\t 堆外存储 \\t\t\t	\\t\t\t Ignite根据用户配置支持将数据存储在堆内或者堆外 \\t\t\t	\\t\t\t Coherence对开发者提供了有限的选项支持将数据存储在堆外 \\t\t\t
\\t\t\t 4 \\t\t\t	\\t\t\t 堆外索引 \\t\t\t	\\t\t\t 只要配置了堆外存储，Ignite就会在堆外存储索引(为了不影响使用堆内内存的用户应用。) \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 5 \\t\t\t	\\t\t\t SQL查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL(ANSI-99)语法以查询查询内存中的数据 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 6 \\t\t\t	\\t\t\t 关联查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL关联，包括跨多个缓存的关联，比如：select * from A a, B b where a.b_id = b.id \\t\t\t	\\t\t\t Coherence不支持任何的关联查询，不管用不用SQL，如果需要，开发者需要手工处理多个查询的结果。 \\t\t\t
\\t\t\t 7 \\t\t\t	\\t\t\t ACID事务 \\t\t\t	\\t\t\t Ignite提供了每台服务器每秒成千上万事务的优异性能。 \\t\t\t	\\t\t\t Coherence因为性能原因不建议使用事务。 \\t\t\t
\\t\t\t 8 \\t\t\t	\\t\t\t 分层存储 \\t\t\t	\\t\t\t Ignite支持分层存储模型，数据可以在堆内、堆外以及交换空间内存储和移动，上层将提供更多的存储能力，当然延迟也会增加。 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 9 \\t\t\t	\\t\t\t 数据流 \\t\t\t	\\t\t\t Ignite提供内存流的支持，包括支持流数据的维护、查询和浮动窗口 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 10 \\t\t\t	\\t\t\t 配置 \\t\t\t	\\t\t\t Ignite支持通过Java Bean以及原生的Spring XML集成对系统进行配置，同时也支持通过代码对系统进行方便配置的能力。 \\t\t\t	\\t\t\t Coherence通过专有的XML格式文件进行配置，不支持通过代码进行配置。 \\t\t\t

4.3 Ignite和Gemfire

Apache Ignite和Pivotal Gemfire都提供了富数据网格的特性，解决了可扩展的分布式集群环境下在内存中对数据进行缓存和分区的问题。

Ignite和Gemfire在缓存的方式上是有很多不同的，同时支持事务和数据的查询，下面的表格列出了一些主要的不同点，这些都是我们在选择数据网格产品时需要特别关注的。

\\t\t\t 序号 \\t\t\t	\\t\t\t 对比项目 \\t\t\t	\\t\t\t Apache Ignite \\t\t\t	\\t\t\t Pivotal Gemfire \\t\t\t
\\t\t\t 1 \\t\t\t	\\t\t\t 开源和闭源 \\t\t\t	\\t\t\t Ignite是一个Apache的开源项目，并且还在不断的增加新特性，对C++和.NET/C#和Node.js的支持也会很快到来。 \\t\t\t	\\t\t\t Gemfire是Pivotal的专有软件。 \\t\t\t
\\t\t\t 2 \\t\t\t	\\t\t\t JCache (JSR107) \\t\t\t	\\t\t\t Ignite数据网格是JCache（JSR107）规范的一个实现，该API为数据访问提供了简单易用、但是功能强大的API。 \\t\t\t	\\t\t\t Gemfire没有实现JCache，使用专有的API。 \\t\t\t
\\t\t\t 3 \\t\t\t	\\t\t\t 堆外存储 \\t\t\t	\\t\t\t Ignite根据用户配置支持将数据存储在堆内和堆外 \\t\t\t	\\t\t\t Gemfire不支持将数据存储在堆外 \\t\t\t
\\t\t\t 4 \\t\t\t	\\t\t\t SQL查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL(ANSI-99) 查询语法以查询内存中的数据。 \\t\t\t	\\t\t\t Gemfire不支持标准的SQL语法，但是他提供了他自己的叫做OQL的对象查询语言。 \\t\t\t
\\t\t\t 5 \\t\t\t	\\t\t\t 关联查询 \\t\t\t	\\t\t\t Ignite支持完整的SQL关联，包括跨多个缓存的关联，比如：select * from A a, B b where a.b_id = b.id \\t\t\t	\\t\t\t Gemfire不支持任何的跨区或者跨缓存的关联查询，如果需要，开发者需要手工处理多个查询的结果。 \\t\t\t
\\t\t\t 6 \\t\t\t	\\t\t\t 跨分区事务 \\t\t\t	\\t\t\t Ignite支持跨分区事务，事务可以在整个集群中缓存的所有分区中执行。 \\t\t\t	\\t\t\t Gemfire不支持跨越多个缓存分区或者节点的事务。 \\t\t\t
\\t\t\t 7 \\t\t\t	\\t\t\t 分层存储 \\t\t\t	\\t\t\t Ignite支持分层存储模型，数据可以在堆内、堆外以及交换空间内存储和移动，上层将提供更多的存储能力，当然延迟也会增加。 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 8 \\t\t\t	\\t\t\t 数据流 \\t\t\t	\\t\t\t Ignite提供内存流的支持，包括支持流数据的维护、查询和浮动窗口 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 9 \\t\t\t	\\t\t\t 配置 \\t\t\t	\\t\t\t Ignite支持通过Java Bean以及原生的Spring XML集成对系统进行配置，同时也支持通过代码对系统进行方便配置的能力。 \\t\t\t	\\t\t\t Gemfire通过专有的XML格式文件进行配置，不支持通过代码进行配置。 \\t\t\t
\\t\t\t 10 \\t\t\t	\\t\t\t 部署 \\t\t\t	\\t\t\t Ignite节点是对等的，并且在启动时自动加入集群（不需要任何locator服务器）。 \\t\t\t	\\t\t\t Gemfire需要启动和维护一个locator服务器，以便控制节点的加入 \\t\t\t

4.4 Ignite和Redis

Apache Ignite和Redis都提供了分布式缓存的功能，但是每个产品提供的功能特性是非常不同的。Redis主要是一个数据结构存储，但是Ignite提供了很多内存内的分布式组件，包括数据网格、计算网格、流，当然也包括数据结构。

Ignite是一个内存数据组织，并且提供了更多的功能，无法进行一个一个对应功能特性的比较，但是我们仍然能对一些数据网格功能进行比较。

\\t\t\t 序号 \\t\t\t	\\t\t\t 对比项目 \\t\t\t	\\t\t\t Apache Ignite \\t\t\t	\\t\t\t Redis \\t\t\t
\\t\t\t 1 \\t\t\t	\\t\t\t JCache (JSR 107) \\t\t\t	\\t\t\t Ignite完全兼容JCache（JSR107）缓存规范 \\t\t\t	\\t\t\t 不支持 \\t\t\t
\\t\t\t 2 \\t\t\t	\\t\t\t ACID事务 \\t\t\t	\\t\t\t Ignite完全支持ACID事务，包括乐观和悲观并发模型以及READ_COMMITTED, REPEATABLE_READ和SERIALIZABLE隔离级别。 \\t\t\t	\\t\t\t Redis提供了客户端乐观事务的有限支持，在并发更新情况下，客户端需要手工重试事务。 \\t\t\t
\\t\t\t 3 \\t\t\t	\\t\t\t 数据分区 \\t\t\t	\\t\t\t Ignite支持分区缓存，类似于一个分布式哈希，集群中的每个节点都存储数据的一部分，在拓扑发生变化的情况下，Ignite会自动进行数据的平衡。 \\t\t\t	\\t\t\t Redis不支持分区，但是他提供了副本的分片， \\t\t\t
\\t\t\t 4 \\t\t\t	\\t\t\t 全复制 \\t\t\t	\\t\t\t Ignite支持缓存的复制，集群中的每个节点的每个键值对都支持。 \\t\t\t	\\t\t\t Redis不提供对全复制的直接支持。 \\t\t\t
\\t\t\t 5 \\t\t\t	\\t\t\t 原生对象 \\t\t\t	\\t\t\t Ignite允许用户使用自己的领域对象模型并且提供对任何Java/Scala, C++和.NET/C#数据类型(对象)的原生支持，用户可以在Ignite缓存中轻易的存储任何程序和领域对象。 \\t\t\t	\\t\t\t Redis不允许用户使用自定义数据类型，仅支持预定义的基本数据结构集合，比如Set、List、Array以及一些其他的。 \\t\t\t
\\t\t\t 6 \\t\t\t	\\t\t\t (近)客户端缓存 \\t\t\t	\\t\t\t Ignite提供客户端缓存最近访问数据的直接支持。 \\t\t\t	\\t\t\t Redis不支持客户端缓存。 \\t\t\t
\\t\t\t 7 \\t\t\t	\\t\t\t 服务器端并行处理 \\t\t\t	\\t\t\t Ignite支持在服务器端，靠近数据并行地直接执行任何Java, C++和.NET/C#代码。 \\t\t\t	\\t\t\t Redis通常没有任何并行数据处理的能力，服务器端基本只支持LUA脚本语言，服务器端不直接支持Java, .NET,或者C++代码执行。 \\t\t\t
\\t\t\t 8 \\t\t\t	\\t\t\t SQL查询 \\t\t\t	\\t\t\t Ignite支持完整SQL（ANSI-99）语法以查询内存中的数据。 \\t\t\t	\\t\t\t Redis不支持任何查询语言，只支持客户端缓存API。 \\t\t\t
\\t\t\t 9 \\t\t\t	\\t\t\t 持续查询 \\t\t\t	\\t\t\t Ignite提供对客户端和服务器端持续查询的支持，用户可以设置服务器端的过滤器来减少和降低传输到客户端的数据量。 \\t\t\t	\\t\t\t Redis提供客户端基于键值的事件通知的支持，然而，他不提供服务器端的过滤器，因此造成了在客户端和服务器端中更新通知网络流量的显著增加。 \\t\t\t
\\t\t\t 10 \\t\t\t	\\t\t\t 数据库集成 \\t\t\t	\\t\t\t Ignite可以自动集成外部的数据库-RDBMS, NoSQL,和HDFS \\t\t\t	\\t\t\t 不支持 \\t\t\t

5 总结

按照官方的说法，Ignite是很强大的整体解决方案和开发平台，功能很多而且复杂，和相关技术的比较中也没有提到缺点或者不足，这个只能使用过程中逐步发现。

从设计的角度看，Ignite对开发者非常友好，提供了丰富的、符合各种标准和规范的API，如果在已有项目或者系统中集成的话，对已有代码的侵入性或者对已有架构设计的破坏性较小，在已有架构代码中做出不是很大的修改，就可以在整个系统中加入一个数据缓存层或者内存计算层，对下可以映射各种关系库或者非关系库，对上方便的对接应用系统。

目前来看，一个显而易见的问题就是，社区刚刚建立，文档等开发资料较少，虽然 Ignite本身历史尚短，但是既然来源于历史不算短的商业软件，还是经过实际生产环境验证的，可用性肯定是有的。社区的活跃和文档的完善还需要较长的时间，应用开发商和开发者对他的认知和接受，也还需要一个过程，Ignite技术和社区是不是会像Hadoop等技术一样活跃甚至火爆，或者是不是能替代一些技术，还需要观察，路还很长。

你可能感兴趣的:(Apache Ignite 初探)

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
C语言探索之旅 | 第一部分第五课：变量的世界（二），变量声明哪有岁月静好
上一课我们学习的是C语言探索之旅|第一部分第四课：变量的世界（一），内存那档事。相信我，上一课对于内存的初探绝对很有用。这一课我们一起来学习变量的声明。简单地说，变量就是暂时储存在内存中的一小段信息。为什么叫做变量呢？变量的英语是variable，做形容词用的话是“可变的，易变的”之意，所以变量就是在程序运行期间其值可以改变的量。你将会看到，我们写的程序，常常是充满变量的。在C语言中（大多数语言也
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户