wangweislk

分布式查询工具-Apache Drill

1.概述.

2.特点.

3.原理.

4.架构.

5.Drill安装.

6.集群安装.

7.连接数据源

8.应用

9.性能调优

1）查询计划选项的修改

2）Modify broadcast join options

3）Switch between 1 or 2 phase aggregation

3）Enable/disable hash-based memory-constrained operators

4）Enable query queuing

5）Control parallelization

6）Partition Pruning：分区拆剪

7）Change storage formats

8）Disable Logging (See Logging and Debugging)

10.自定义函数

1.概述

Apache Drill是一个低延迟的分布式海量数据（涵盖结构化、半结构化以及嵌套数据）交互式查询引擎，使用ANSI SQL兼容语法，支持本地文件、HDFS、Hive、HBase、MongoDB等后端存储，支持Parquet、JSON、CSV、TSV、PSV等数据格式。受Google的Dremel启发，Drill满足上千节点的PB级别数据的交互式商业智能分析场景。

本质上，Apache Drill是Google Dremel的开源实现，本质是一个分布式的mpp查询层，支持SQL及一些用于NoSQL和Hadoop数据存储系统上的语言，将有助于Hadoop用户实现更快查询海量数据集的目的。

Drill的目的在于支持更广泛的数据源、数据格式及查询语言，可以通过对PB字节数据的快速扫描（大约几秒内）完成相关分析，将是一个专为互动分析大型数据集的分布式系统。

2.特点

能快速上手

低延迟的SQL查询

灵活的数据模型

没有集中的元数据

自描述文件数据的动态查询（如JSON，Parquet，text），MAPR-DB / HBase表，不需要元数据定义的Hive元数据。

ANSI SQL

嵌套的数据支持

与Apache Hive一体化（Hive表和视图的查询，支持所有Hive文件格式和HiveUDFs）

BI/ SQL工具集成使用标准的JDBC驱动程序

3.原理

当提交一个Drill查询时，客户端或应用程序以SQL语句的方式发送查询给Drill集群中的DrillBit。DrillBit是处理运行在每个活动节点上的坐标、查询计划和执行查询，以及跨集群分发查询任务以实现数据本地性的最大化。

下图表示客户端、应用程序和DrillBit之间的通信：

DrillBit接收来自客户端和应用程序的查询的Drill变成查询和驱动整个查询的Foreman。Foreman解析器解析SQL，将自定义规则应用到特定的SQL操作符转换成特定的Drill理解的逻辑操作语法。集合的逻辑运算符形成逻辑的计划。逻辑计划描述了作业所需要生成的查询结果和定义了数据源和应用操作。

Foreman发送逻辑计划到一个基于优化在一个语句和逻辑读计划的SQL操作的顺序的优化器。优化器使用与各种类型规则的重新整理以及函数的最优化方案。优化器将逻辑计划转换成一个描述如何执行查询的物理计划。

Foreman的并行化转换的物理计划分为多个阶段，包括主要(Major)和次要(Minor)的Fragment。这些Fragment创建并且执行多层次执行重写查询树根据配置的数据源，将结果返回给客户端和应用程序。

Major Fragment：

Major Fragment是抽象的概念，代表查询执行的一个阶段。一个阶段由一个或多个操作组成。Drill为每个Major Fragment分配一个MajorFragmentID。

例如，执行两个文件的哈希聚合，Drill为这个计划创建两个Major Fragment，第一个Fragment用于扫描两个文件，第二个Fragment用于数据的聚合。

Drill通过一个交换操作符分离两个Fragment。交换的改变发生在数据所在位置或者物理计划的并行化中。交换是由发送器和接收器组成，允许数据在节点之间移动。

Major Fragment不执行任何的查询任务。每个Major Fragment被划分成一个或多个Minor Fragment，执行实际所需完成的查询操作并返回结果给客户端。

Minor Fragments：

每个Major Fragment是由多个minor Fragment并行构成的。一个Minor Fragment是内部运行线程的逻辑作业单元。在Drill中，一个逻辑作业单元也被称为碎片(slice)。Drill产生的执行计划由Minor Fragment组成。Drill为每个Minor Fragment分配一个Minor FragmentID.

Foreman的并行器在执行期间从Major Fragment创建一个或多个Minor Fragment,分解的Major Fragment与多个Minor Fragment一样能同时运行在集群上。

Drill能够尽快的根据上游的数据需求来执行每个Minor Fragment。Drill使用节点的本地化调度Minor Fragment，然后Drill采用轮训的方式调度存在的，可用的DrillBit。

Minor Fragment包含一个或多个关系运算符，一种运算符执行一个关系运算，例如，scan、filter、join、group等。每种运算符都有特定的运算符类型和一个运算符ID。每个运算符ID定义了它所在的Minor Fragment的关系。

例如，当执行两个文件的散列聚集时，Drill分解的第一阶段用于扫描两个Minor Fragment。每个Minor Fragment 包含扫描文件的扫描操作符。Drill分解第二阶段为了聚集四个Minor Fragment。四个Minor Fragment都包括散列聚集操作符。

Execution of Minor Fragments：

Minor Fragment可以作为root、intermediate、leaf Fragment三种类型运行。一个执行树只包括一个root Fragment。执行树的坐标编号是从root开始的，root是0。数据流是从下游的leaf Fragment到root Fragment。

运行在Foreman的root Fragment接收传入的查询、从表读元数据，重新查询并且路由到下一层级服务树。下一级的Fragment包括Intermediate 和leaf Fragment。

当数据可用或者能从其他的Fragment提供时，Intermediate Fragment启动作业。他们执行执行数据操作并且发送数据到下游处理。通过聚合Root Fragment的结果数据，进行进一步聚合并提供查询结果给客户端或应用程序。

Leaf Fragment并行扫描表并且与存储层数据通信或者访问本地磁盘数据。Leaf Fragment的部分结果传递给Intermediate Fragment，然后对Intermediate结果执行合并操作。

4.架构

Apache Drill的核心是DrillBit服务，主要负责接收客户端请求，处理查询，并将结果返回给客户端。

DrillBit能够被安装和运行在hadoop集群中所需要的节点上形成一个分布式环境。当DrillBit运行在集群的每个节点上时，能够最大限度的实现数据的本地化执行，不要进行网络和节点间的数据移动。Drill使用Zookeeper来维护和管理集群节点和节点的健康状况。

尽管Drill运行在hadoop集群中，但是它不依赖hadoop集群，可以运行在任何的分布式集群中。

Core Module:

The following image represents components within each Drillbit:

下面的列表描述了DrillBit的关键部件：

RPC end point:Drill 是一个低开销的基于protobuf的RPC通信协议。此外，C++和JavaAPI层也用于客户端应用程序与Drill进行交互。在提交查询之前，客户端可以直接和特定的DrillBit通信或者通过Zookeeper来发现可用的DrillBit。推荐做法是客户端通过Zookeeper来维护客户端从集群管理的复杂性，如添加和删除节点。

SQL parser：Drill使用Optiq开源框架来解析传入的查询。该解析器的组件输出是语言无关的。

Storage plugin interfaces：Drill服务作为多个数据源之上的查询层，Drill的存储插件表示的是与数据源交互的抽象。存储插件为Drill提供了下面信息：

元数据来源的可用

Drill读取接口和写入数据源

数据的位置和一组优化规则有助于Drill查询效率和更快的执行在一个特定的数据源。

架构设计方面的性能考虑：

Dynamic schema discovery：动态模式探索

Drill在数据启动查询处理过程中不需模式和类型说明，Drill在执行批处理数据的过程中动态探索模式。在Drill利用动态查询时，自描述数据格式如Parquet,JSON,avro,nosql数据库为他们部分数据指定了模式说明。因为在Drill的查询过程中模式是可以改变的，当模式改变的时候，Drill的所有操作被重新配置他们的模式。

Flexible data model：灵活的数据模型

Drill允许访问嵌套数据属性,就像SQL列,并提供直观的容易扩展的操作。从架构的角度来看,Drill提供了一个灵活的分层柱状数据模型,可以表示复杂,高度动态和发展的数据模型。在设计和执行阶段，Drill允许高效的处理这些模型而不需要flatten或materialize他们。Drill的关系数据是当被作一个特殊的或简化复杂/ 多结构数据。

De-centralized metadata：分散型元数据

Drill没有集中的元数据的需求。我们不需要在一个元数据库中创建和管理表和视图,或依赖于一个数据库管理员group这样的一个函数。Drill数据来源于存储插件对应的数据源。存储插件提供的元数据从完整的元数据(Hive),部分元数据(HBase),或没有集中的元数据(文件)。分散型元数据意味着Drill不是绑定到一个单一的Hive库中。我们能够一次查询多个Hive库,然后从HBase表或一个分布式系统中的文件合并数据。还可以使用SQL DDL的Drill语法来创建元数据,该操作就像一个传统的数据库。Drill是通过ANSI标准INFORMATION_SCHEMA数据库元数据。

Extensibility可扩展

Drill在所有层面都提供了可扩展的架构，包括：存储插件、查询器、查询优化器、查询执行器和客户端API。用户可以自定义任何层来进行扩展。

5.Drill安装

Windows安装，直接解压tar.gz安装包，启动bin下的sqline.bat

命令行：sqlline.bat -u "jdbc:drill:zk=local"

使用自带的文件系统查询：

查询一个json文件：

SELECT * FROM cp.`employee.json` LIMIT 3;

Querying a Parquet File :

SELECT * FROM dfs.`F:/Hadoop/drill/apache-drill-1.0.0/apache-drill-1.0.0/sample-data/region.parquet`;

6.集群安装

条件：

JDK7

Zookeeper集群

Hadoop集群

DNS

步骤：

安装Drill
配置Drill和Zookeeper

编辑drill-override.conf位于/conf目录

提供了一个独特的集群ID和Zookeeper的主机名和端口号zk.connect。如果在多个节点上安装Drill，分配相同的集群ID如果每个节点都安装了Drill节点共享相同的ID，Zookeeper默认端口是2181。

配置后即可使用Drill：

bin/drillbit.sh restart

bin/drill-localhost

bin/drill-conf

jdbc:drill:zk=: select * from sys.drillbits;

sqlline –u jdbc:drill:[schema=;]zk=[:][,[:]... ]

bin/sqlline –u jdbc:drill:schema=dfs;zk=centos26

bin/sqlline –u jdbc:drill:zk=cento23,zk=centos24,zk=centos26:5181

连接数据源

8047

注意：在对Drill进行安装时一定要保证drill-env.sh文件中对内存的配置一定要小于或等于可用内存，否则启动不会成功。

7.连接数据源

1）存储插件的注册

Web UI: http://:8047/storage

2）存储插件配置

3） FS 存储插件

{

"type" : "file",

"enabled" : true,

"connection" : "hdfs://10.10.30.156:8020/",

"workspaces" : {

"root" : {

"location" : "/user/root/drill",

"writable" : true,

"defaultinputformat" : null

}

},

"formats" : {

"json" : {

"type" : "json"

}

工作空间
Hbase存储插件

{

"type": "hbase",

"config": {

"hbase.zookeeper.quorum":"10.10.100.62,10.10.10.52,10.10.10.53",

"hbase.zookeeper.property.clientPort": "2181"

"size.calculator.enabled": false,

"enabled": true

}

Hive存储插件，以下是对Drill与Hive集成的使用：

Web UI 默认：http://localhost:8047

内嵌方式(未测试)：

{

"type":"hive",

"enabled":true,

"configProps":{

"hive.metastore.uris":"",

"javax.jdo.option.ConnectionURL":"jdbc:mysql://localhost:3306/hive;create=true",

"hive.metastore.warehouse.dir":"/user/hive/warehouse",

"fs.default.name":"hdfs://weiw:9000",

"hive.metastore.sasl.enabled":"false"

}

远程方式（测试通过）：

Drill Web UI 配置

{

"type": "hive",

"enabled": true,

"configProps": {

"hive.metastore.uris": "thrift://weiw:9083",

"hive.metastore.sasl.enabled": "false"

}

Hive中hive-site.xml配置：

hive.metastore.uris

thrift://weiw:9083

启动metastore 服务：hive –service metastore

测试创建hive表：

create table tt(id string,name string)row format delimited fields terminated by '\t' stored as textfile;

load data local inpath '/usr/local/hadoop/data/id' overwrite into table tt;

JDBC客户端执行SQL：

命令行客户端执行SQL查询：

WEB UI执行SQL查询：

8.应用

查询测试：

查询JSON：SELECT * FROM cp.`employee.json` LIMIT 5;

查询Paquet: SELECT * FROM dfs.`/usr/local/hadoop/drill/sample-data/region.parquet`;

查询普通文件：

select * from dfs.` /usr/local/hadoop/data/plays.csv`;

select columns[0],columns[1] from dfs.` /usr/local/hadoop/data/plays.csv`;

use dfs;

SELECT COLUMNS[0] AS Ngram,

COLUMNS[1] AS Publication_Date,

COLUMNS[2] AS Frequency

FROM `/data1/bbdhadoop/wangwei/drill/googlebooks-eng-all-5gram-20120701-zo.tsv`

WHERE ((columns[0] = 'Zoological Journal of the Linnean')

AND (columns[2] > 250)) LIMIT 10;

查询目录：

select columns[0],columns[1] from dfs.`/data1/bbdhadoop/wangwei/drill/testdata` order by 1;

查询hbase:

SELECT * FROM students;

SELECT CONVERT_FROM(row_key, 'UTF8') AS studentid,

CONVERT_FROM(students.account.name, 'UTF8') AS name,

CONVERT_FROM(students.address.state, 'UTF8') AS state,

CONVERT_FROM(students.address.street, 'UTF8') AS street,

CONVERT_FROM(students.address.zipcode, 'UTF8') AS zipcode

FROM students;

查询Hive：

SELECT firstname,lastname FROM hiveremote.`customers` limit 10;`

复杂数据：

select id, type, name, ppu from dfs.`/usr/local/Hadoop/data/donuts.json`;

select id, type from dfs.` /usr/local/Hadoop/data/donuts.json` where id>0 order by id limit 1;

select tbl1.id, tbl1.type from dfs.` /usr/local/Hadoop/data/donuts.json` as tbl1 join dfs.` /usr/local/Hadoop/data/moredonuts.json` as tbl2 on tbl1.id=tbl2.id;

select type, avg(ppu) as ppu_sum from dfs.` /usr/local/Hadoop/data/donuts.json` group by type;

select tbl.topping[3].id as record, tbl.topping[3].type as first_toppingfrom dfs.` /usr/local/Hadoop/data/donuts.json ` as tbl;

查询schema info:

SCHEMATA:

SELECT CATALOG_NAME, SCHEMA_NAME as all_my_data_sources FROM INFORMATION_SCHEMA.SCHEMATA ORDER BY SCHEMA_NAME;

CATALOGS

TABLES

COLUMNS

VIEWS

查询系统表:

Query the drillbits, version, options, boot, threads, and memory tables in the sys database.

9.性能调优

Drill 是为大型数据集的高效分析而设计的，下面几点保证了Drill的性能：

Distributed engine：

Drill提供了一个强大的分布式执行引擎来处理查询。用户可以提交请求到集群中的任何节点。可以简单地将新节点添加到集群以支持规模更大的数据,支持多用户。

Columnar execution：

Drill通过使用内存数据模型的列式存储和执行优化是层次化和列式。当处理存储在列式格式中的数据时，Drill避免磁盘访问的列不参与分析查询。

Vectorization：矢量化

宁愿操作单个值也不操作单条表记录，同时，Drill的矢量化允许CPU矢量运行，被称为批处理。记录批次分别来自许多不同的记录值的数组。矢量处理技术的效率是基于现代deep-pipelined CPU芯片技术设计的。

Runtime compilation：

运行时编译比解释执行更快。Drill为每一个单次操作产生高效的单次查询代码。

1）查询计划选项的修改：

planner.width.max_per_node

配置这个选项来实现细粒度，绝对的并行化控制。

在这种环境下，宽度是指扇出和潜在分布：能够并行运行一个在核心节点或集群节点上的查询能力。

每个节点的最大宽度定义了最大程度的并行查询的任何片段,但这个设置适用于水平集群中的一个节点。默认最大程度的并行计算每个节点如下,与理论最大自动缩减(四舍五入),因此只有70%的实际可用容量考虑:活跃drillbits(通常每个节点一个)数量*每个节点的核数* 0.7

planner.width_max_per_query

并行运行跨越所有节点查询的线程数的最大值。当Drill在非常大的集群上并行运行时，修改这个选项。默认1000

planner.slice_target

预估记录处理Major Fragment数量的最小值，在申请额外的并行化之前，默认100000

planner.broadcast_threshold

允许广播连接局部记录数量的最大值。默认值10000000。

2）Modify broadcast join options：

在一个广播连接中，所有被选中的文件记录在连接执行之前被广播到其他所有节点。当外部保持原样没有任何重新分发时，连接内部被广播。

当广播连接用一个大的事实表连接一个相对较小的维度表时是很有用的。如果事实表被存储在分布式系统的多个文件中，取代了通过网络重新分发事实表，它能充分降低广播的内部成本。然后，广播相同数据到集群的所有节点上，根据集群的大小和数据量的大小，在某种情况下它可能不是最有效的方式。

planner.broadcast_factor：广播因子

在执行连接时控制广播成本。设置的越低，它执行一个广播连接相比其他类型的分布成本更低，如哈希分布。默认1

planner.enable_broadcast_join：启用广播连接

改变聚合和连接操作符的状态。广播连接可用于哈希连接(hash join)，合并连接(merge join)，嵌套循环连接(nest loop join)。用于连接大的事实表和相对较小的维度表。默认true

planner.broadcast_threshold广播阀值

根据行数，确定阀值是否选择一个查询加入广播连接。不管broadcast_join 选项是否启用，广播连接不会被选择，除非连接的右侧估计的行数比这个阀值更少。这个选项的目的是避免广播连接太多的行。广播涉及到跨节点发送数据，并且是一个网络密集型操作。默认值：10000000

3）Switch between 1 or 2 phase aggregation：

planner.enable_multiphase_agg：默认true

对于包含Group by的查询，Drill执行1或2两个聚合阶段。在这两个阶段中，Drill可以使用哈希聚合和流聚合物理操作符。Drill默认的执行行为是第2阶段的聚合。

在第2聚合阶段，每个Minor Fragment在第1个阶段执行本地聚合。然后，采用基于哈希分布操作符，发送部分聚合结果到其他Fragment。哈希分布通过keys到Group BY中。这第2阶段，所有的Fragment执行一个总体聚合来接收第1阶段的数据。

第2阶段聚集的方法是非常有效的在数据分组密钥包含一个合理的重复值的数量，这样做将减少发送到下游操作符的行数。然而，如果减少不多的化，最好使用第1阶段聚合。

3）Enable/disable hash-based memory-constrained operators：

Drill根据查询特征使用基于哈希和排序的操作符。哈希聚集和哈希连接是基于哈希操作符的。流聚合和合并连接是基于排序操作的。他们都会消耗内存，然后哈希聚合和哈希连接操作时最快和内存明感操作。

目前，基于哈希的操作不会泄露所需的磁盘，但是基于排序的操作会泄露。基于排序的Drill查询计划，通过评估可用内存大小乘以配置的可变常量，然后限制基于排序操作的内存量的最大值。

如果基于哈希的操作在执行期间消耗完内存，查询失败。如果大量哈希操作不适合在内存中执行，则可以禁用这个操作。当被禁用时，Drill就会创建允许泄露到磁盘的替代计划。

还可以修改最小哈希表大小，当大量内存被使用时，可以增加规模非常大的聚合和连接的内存量。如果存在大型数据集，可以增加哈希表大小来提升性能。

下面选项控制基于哈希操作：

planner.enable_hashagg：

启动哈希聚合，Drill就不会使用基于排序聚合，就不会持久化到磁盘上。默认true

planner.enable_hashjoin：

启动哈希连接，Drill假设一次查询有足够的内存来完成查询操作并尝试使用最快的操作来完成用哈希表进行的inner、left、right、full连接计划，不会持久化到磁盘。禁用哈希连接的话，允许Drill在小内存占用下管理任意大的数据。默认true

exec.min_hash_table_size:

哈希表大小的最小值。根据可用内存来增加大小可提升性能。Default: 65536 Range: 0 - 1073741824

exec.max_hash_table_size：

Default: 1073741824 Range: 0 - 1073741824

planner.memory.enable_memory_estimation

切换内存状态评估和再计划查询。启动时，Drill会保守估计内存需求，通常不包括内存受限操作和对性能造成的负面影响。默认是false

planner.memory.max_query_memory_per_node：

一次查询每个节点最大内存大小。如果太低，Drill就会重新计划查询计划，没有内存受限操作。Default: 2147483648

4）Enable query queuing：

默认情况下，Drill并发运行所有查询。然后，当增加一小部分并发查询时就会增加性能。可以启动查询队列来限制并发查询的最大量。切分大查询为多个小查询并且启动的那个查询队列。

当启动查询队列时，需要配置大小队列。Drill在运行时通过路由队列来确定基于查询的大小。Drill能快速完成查询然后继续下一个查询。

exec.queue.enable：

查询队列的状态变化来控制同时运行的查询数，禁用时，并发查询量没有限制。默认false

exec.queue.large：

能同时运行在集群上的大规模查询量。范围:0 - 1000。默认值:10

exec.queue.small：

ange: 0 - 1073741824 Default: 100

exec.queue.threshold：

这取决于查询的复杂性在队列,用于确定一个查询是否大或小。复杂的查询有更高的阈值。范围:0 - 9223372036854775807默认:9223372036854775807

exec.queue.timeout_millis：

显示查询可以在队列中等待多久才能查询失败。

范围:0 - 9223372036854775807默认:300000

5）Control parallelization：

planner.width.max.per.node

planner.width.max.per.query

6）Partition Pruning：分区拆剪

分区拆剪是一种性能优化方案，当Drill读取查询文件系统和Hive表时，限制文件和分区的数量。当对数据进行分区时，Drill只读取驻留在文件系统或Hive表的部分分区的一个文件子集在一个查询匹配特定的过滤标准。

Drill的查询计划评估过滤器过滤操作符的一部分。如果没有过滤分区存在，底层扫描操作符读取所有目录并且发送数据给下游的操作符。如果过滤分区存在，查询计划确定，如果它能够增加过滤器到扫描器以至于扫描器只能读取匹配分区过滤器目录，从而减少磁盘I/O.

7）Change storage formats：

Drill支持的文件格式 CSV, TSV, PSV, JSON, and Parquet.修改默认的格式是一种优化性能的典型的功能性改变。Drill运行最快不利于Parquet文件格式，因为Parquet数据表示方式几乎与Drill描述数据相同。

优化处理大型文件，Parquet整理数据列，把相关值相互接近的放置在一起以优化查询性能，减少IO和利于压缩。Parquet检测并编码相同或相似的数据的这种技术可以节省资源。

Parquet文件存储格式的优势

8）Disable Logging (See Logging and Debugging)：

10.自定义函数

1）普通函数

@FunctionTemplate(name = "myaddints", scope = FunctionScope.SIMPLE, nulls = NullHandling.NULL_IF_NULL)

public static class IntIntAdd implements DrillSimpleFunc

2）聚合函数

@FunctionTemplate(name = "count", scope = FunctionTemplate.FunctionScope.POINT_AGGREGATE)

public static class BitCount implements DrillAggFunc{

3）在Drill中注册，drill-override.conf

drill.logical.function.package+= [“org.apache.drill.exec.expr.fn.impl","org.apache.drill.udfs”]

你可能感兴趣的:(Apache,Drill)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
ASP.NET Core 入门教学二十八 linux打包部署充值内卷 asp.net linux 后端
在Linux上打包和部署ASP.NETCore应用程序涉及几个步骤。以下是一个详细的指南，帮助你在Linux系统上完成这一过程。1.准备工作确保你的Linux系统已经安装了以下软件：.NETSDK（用于构建应用程序）.NETRuntime（用于运行应用程序）Apache或Nginx（作为反向代理服务器）你可以使用以下命令安装.NETSDK和Runtime：sudoaptupdatesudoapti
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1