神丶废

clickhouse hadoop_ClickHouse国家级项目最佳实践

原标题：ClickHouse国家级项目最佳实践

编者按

ClickHouse自从2016年开源以来，在数据分析(OLAP)领域火热，各个大厂纷纷跟进大规模使用,百分点在某国家级项目中的完成了多数据中心的ClickHouse集群建设，目前存储总量超10PB，日增数据100TB左右，预计流量今年会扩大3倍。本文是结合百分点在前期设计中的经验对ClickHouse做的整理，其中百分点最佳实践部分是基于我们的业务场景以及数据规模，经过大量的测试及总结后得到的结论，并且充分保证了整个系统日后的稳定运行，极具参考意义。

作者：百分点邹立民赵群

ClickHouse是"战斗民族"俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库，是面向 OLAP 的分布式列式DBMS，圈内人戏称为"喀秋莎数据库"。ClickHouse简称"CH",但在中文社区里大家更偏爱"CK",反馈是因为有"AK"的感觉！与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：列式存储数据库，数据压缩；关系型、支持SQL；分布式并行计算，把单机性能压榨到极限；高可用；数据量级在PB级别。

适用场景从社区分享的案例看主要有以下3类：日志数据的行为分析，标签画像的分析，数据集市层分析。百分点除了以上应用场景应用外，还作为存储引擎集成在了产品内部，应用于知识图谱作为本体数据存储，及标签数据的存储引擎等。

· 绝大多数请求都是用于读访问

· 表很"宽"，即表中包含大量的列

· 在处理单个查询时需要高吞吐量

· 每次查询中大多数场景查询一个大表

· 查询结果显著小于数据源，即数据有过滤或聚合

在使用ClickHouse之前需要明确一些核心概念，在此我们梳理了五个概念进行分享：

(1) 表引擎(Engine)

表引擎决定了数据在文件系统中的存储方式，常用的也是官方推荐的存储引擎是MergeTree系列，如果需要数据副本的话可以使用ReplicatedMergeTree系列，相当于MergeTree的副本版本。读取集群数据需要使用分布式表引擎Distribute。常用的引擎见【附常用引擎】的内容。

(2) 表分区(Partition)

表中的数据可以按照指定的字段分区存储，每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段，数据量大的表可以按照小时分区，数据量小的表可以在按照天分区或者月分区，查询时，使用分区字段作为Where条件，可以有效的过滤掉大量非结果集数据。

(3) 分片(Shard)

一个分片本身就是ClickHouse一个实例节点，分片的本质就是为了提高查询效率，将一份全量的数据分成多份(片)，从而降低单节点的数据扫描数量，提高查询性能。这里先埋一个问题，当其中一个分片查询异常的时候，我们如何处理呢？选择1返回异常；选择2 跳过异常节点；见【参数实践】的内容。

(4) 复制集(Replication)

简单理解就是相同的数据备份，在CK中通过复制集，我们实现保障了数据可靠性外，也通过多副本的方式，增加了CK查询的并发能力。这里一般有2种方式：1、基于ZooKeeper的表复制方式；2、基于Cluster的复制方式。由于我们推荐的数据写入方式本地表写入，禁止分布式表写入，所以我们的复制表只考虑ZooKeeper的表复制方案。

(5)集群(Cluster)

可以使用多个ClickHouse实例组成一个集群，并统一对外提供服务。

百分点最佳实践

部署安装

(1) 部署包的获取

ClickHouse官方并没有提供RPM安装包，这里就为大家提供一个标准渠道。资源地址：https://packagecloud.io/Altinity。页面提供2个目录：

clickhouse目录下多为测试版更新，更新速度快；

clickhouse-altinity-stable目录为稳定版发布目录。

(2) 部署包说明

ClickHouse安装部署需要四个安装包：

clickhouse-client.rpm

clickhouse-common-static.rpm

clickhouse-server.rpm

clickhouse-server-common4.rpm

(3) 部署方式

下载安装包时要对应版本下载四个安装包，将四个安装包拷贝到统一目录下，执行rpm -ivh * 即可完成安装。

安装完成后的主要目录以及文件说明：

/etc/clickhouse-server：配置文件目录，包括：config.xml和users.xml

/etc/clickhouse-client：客户端配置文件目录

/var/lib/clickhouse：默认数据目录

/var/log/clickhouse-server：默认日志目录

/etc/init.d/clickhouse-server：启动shell脚本

/etc/security/limits.d/clickhouse.conf：最大文件打开数的配置

/etc/cron.d/clickhouse-server：定时任务配置，默认没有任务

/usr/bin/clickhouse-client：clickhouse客户端

服务器的选择

如上图，是我们的线上服务器情况，ClickHouse查询使用并行处理机制，对CPU和内存的要求还是比较高的，不建议单台机器上部署多个节点，同时也要求ClickHouse节点与集群中ZooKeeper节点分开，防止高负载下相互影响。

由于当时使用的ClickHouse版本不支持多数据盘，所以选择一个合适的Raid方式也是很多人关心的问题，这里我们直接建议Raid5，注意配置热备盘，这样无论从磁盘IO，数据可靠性，数据恢复，及运维复杂度来说都提供了很好的保障。这里也给出了Raid5情况下的磁盘恢复的影响，供大家参考。

此外， 19.15 版本开始，ClickHouse开始实现多卷存储的功能。它具有多种用途，其中最重要的用途是将热数据和冷数据存储在不同类型的存储中。这种配置被称为分层存储，如何很好的利用多卷存储能力，实现结合业务实现分层存储，也期待大家能分享自己的经验。

分布式集群

图1 分布式集群示例

图2 分片和副本关系示例

如【图1、图2】，ClickHouse分布式集群有4个节点，2个Shard，副本数为2。其中节点example1,example2属于同一Shard，互为副本，他们的数据一致。example3,example4属于同一Shard。查询时，分布从2个Shard中随机取一个节点进行访问。其中任何单节点异常时，写入和查询都能保障数据完整性，高可用，业务无感知。

ClickHouse的分布式也是一个有意思的设计方式，多个节点部署完成后，节点与节点之间并没有联系。通过ClickHouse集群的配置文件来实现，即节点与节点之间通过配置文件来形成成集群，配置中包含集群的节点信息，复制节点，分片节点，同构成一个Cluster。

这样就形成了一个有意思的现象。我们可以抽象为："集群定义节点，和节点关系，节点不知道集群"。这样一个引用关系，表现为ClickHouse的分布式在使用上就很灵活。

举个例子，一个集群里有30节点，我可以挑选其中2个配置整个集群的分布式关系，这样你会发现每个节点都是独立的，并不知道整个集群的全貌，集群的调整我只要关注2个节点的配置就行。包括基于之上的，数据安全，外部访问控制等等。

如上，从高可用的角度，我们默认都是采用分布式集群方式，数据做分片，保证数据写入不中断。数据副本提供可靠性，同时提升并发查询能力。

集群配置

有四个节点，example1、example2、example3、example4，可以在config.xml中配置，配置文件中搜索remote_servers，在remote_servers内即可配置字集群，也可以提出来配置到扩展文件中。incl属性表示可从外部文件中获取节点名为clickhouse_remote_servers的配置内容。

通常，我们采用扩展文件的方式来配置集群，首先，在config.xml文件中添加外部扩展配置文件metrika.xml的配置信息，在config.xml文件中加入以下内容允许使用扩展文件metrika.xml来配置信息。

然后，在/etc/clickhouse-server下新建metrika.xml文件，并且插入以下内容。

说明：

1) clickhouse_remote_servers与config.xml中的incl属性值对应

2) cluster_with_replica是集群名，可以自定义。

3) shard即为数据分片

4) internal_replication =true 这个参数和数据的写入，自动复制相关。从生产环境角度考虑，我们都是复制表，通过本地表写入，这里配置true就好。不推荐也不需要考虑其他情况。

5) macros是使用复制引擎时指定的zookeeper路径中占位符替换的信息。(注意这里的配置在创建Distribute表时会用到，见【6.3 表的创建】，注意这里不同的shard和replica需要区分开来，通常集群中的每个节点都不一样的。

6) zookeeper-servers来同步数据，指定当前集群的zookeeper信息即可。

7) clickhouse_compression数据的压缩。

表的创建

我们这里以有副本模式的数据写入为例，首先在每一个节点创建本地表，可以到每个实例上运行一次建表语句。

(1) 创建本地表：

1) /clickhouse/tables/{shard}/test：代表的是这张表在ZooKeeper上的路径。即配置在相同shard里面的不同replica的机器需要配置相同的路径，不同shard的路径不同。

2) {replica}：分片的名称，可以理解是机器名,即需要每台机器都不同。

3) 集群的配置,{shard}{replica}配置在配置文件metrika.xml中。

此时，将internal_replication设置为true，这种配置下，写入不需要通过分布式表，而是将数据直接写入到每个shard内任意的一个本地表中，如图所示。

(2) 创建分布式表：

我们只借助于分布式表提供分布式查询能力，与数据写入无关，类似创建DB的View命令，所以这里只需要在提供查询入口的机器上创建，并不一定在所有机器上创建。

(3) 借助集群的指令

on cluster {cluster_name} 这个指令使得操作能在集群范围内的节点上都生效。这里使用类似create table xxx on cluster [cluster_name](xxx) ENGINE = ReplicatedMergeTree()。

在任意一个节点上运行，ClickHouse会根据集群里面配置的分片信息在每一个节点上将表格创建好。有些日常批量维护的命令可以通过类似方式执行。

如果需要通过此方式进行维护，需要注意维护一个专门用户发送集群指令的节点列表。

实际生产运维中，我们并不推荐集群指令的方式，建议通过运维的方式，从管理规范上，准备日常维护的批量脚本，，配置文件的分发和命令的执行，从操作机上，使用脚本批量远程登陆执行。

数据的写入

禁止分布式写入，采用本地表写入。

社区很多伙伴在分享时，也都提到了禁止使用分布式表写入。我们也一样。

禁止使用的原因是需要设计及减少Part的生成频率。这对整个集群的稳定性和整体性能有着决定的作用。这个在之前我司的分享中曾经介绍过。我们控制批次的上线和批次的时间窗口。保障写入操作对每个节点的稳定压力。

这里也分享下我们在做评估写入稳定性测试的结果，作为大家可借鉴的评估思路。其本质是平衡好合并速度和Part数量的关系，一定是需要相对均衡的。

(1) 写本地表

数据写入时，可以由客户端控制数据分布，直接写入集群中ClickHouse实例的本地表。也可以通过LB组件(如LVS，Nginx)进行控制。

(2) 写分布式表

数据写入时，先写入集群中的分布式表下的节点临时目录，再由分布式表将Insert语句分发到集群各个节点上执行，分布式表不存储实际数据。

ClickHouse在分布式写入时，会根据节点数量在接收请求的节点的下创建集群节点的临时目录，数据(Insert语句)会优先提交的本地目录下，之后同步数据到对应的节点。此过程好处是提交后，数据不会丢失。我们模拟同步过程中节点异常，重启后数据也会自动恢复。如果你的数据量及集群压力并不大，分布式也可以认为是一种简单的实现方式。

(3) 写入副本同步

在集群配置中，shard标签里面配置的replica互为副本。将internal_replication设置成true，此时写入同一个shard内的任意一个节点的本地表，zookeeper会自动异步的将数据同步到互为副本的另一个节点。

业务查询

业务查询入口要保障查询高可用，需要提供负载均衡和路由的能力。一些大厂都会有自己的LB基础设施。其实大家可以能够观察ClickHouse提供两个网络端口分别是：

HTTP 默认8123；

TCP 默认9000；

ClickHouse的JDBC客户端是通过HTTP的方式与ClickHouse进行交互的。我们可以判断场景的可以基于HTTP协议做负载均衡，路由的中间件是可以满足需求的。这样我们的选择其实就有很多了。基于传统运维常见中间件的如：LVS,Nginx，HAProxy都有相关的能力。这里我们选用了Nginx。

我们基于它实现2个目的：(1)、负载均衡能力(2)、采集请求响应日志。

大家可能奇怪第2个目的，ClickHouse本身有自己的查询响应日志，为啥还要单独采集。原因很简单，我们把ClickHouse本身的日志定位为做具体问题，排查与分析的日志，日志分散在了集群内部，并且分布式的查询转换为本地SQL后作为集群的系统行监测，我们认为并不合适。我们通过Nginx日志分析线上业务的请求情况，并进行可视化展现包括业务使用情况，慢查询，并发能力等等，如果确实有需要追溯的场景时候，才会使用到ClickHouse的自身日志。

同时我们发现社区目前也提供了CHProxy作为负载均衡和HTTP代理。从我们角度更愿意选择一个简单，熟悉的。

需要注意的是，我们只针对提供查询入口的实例配置分布式表，然后通过Nginx进行代理。由Nginx将请求路由到代理的ClickHouse实例，这样既将请求分摊开，又避免了单点故障，同时实现了负载均衡和高可用。并且我们在生产环境中也根据不同的业务配置路由入口，实现访问的业务和负载隔离。

Nginx转发后的节点(根据负载配置多个)，使用Distribute表引擎作为集群的统一访问入口，当客户端查询分布式表时，ClickHouse会将查询分发到集群中各个节点上执行，并将各个节点的返回结果在分布式表所在节点上进行汇聚，将汇聚结果作为最终结果返回给客户端。

跨中心访问

在我们的业务中，需要实现跨数据中心的分析。可以利用ClickHouse的灵活配置化分布式特性，将多数据中心的所有集群的分片都添加到一个ClickHouse实例中，并在该ClickHouse实例上创建分布式表，作为客户端查询的统一入口。如下图所示。

当客户端查询该分布式表时，ClickHouse会将查询分发到各个数据中心的所有分片上，并将各个分片的返回结果在分布式表所在配置的节点上进行汇聚，汇聚结果作为最终结果返回给客户端，需要注意的是如果数据量巨大会给汇聚节点造成巨大的压力，所以要平衡好数据量与服务器硬件资源之间的关系，才可以保证系统的稳定性。从业务的安全来说，也只有对外的入口节点知道整个集群的信息。

最佳参数实践

在实际项目中，无论是写入、查询以及保证集群稳定运行，需要配置一些参数来维护集群的状态。下属表格中的参数是我们根据依据线上业务总结出来的最佳实践参数。如果大家基于ClickHouse的生产使用，我们希望使用者理解其中每一个参数的含义，和配置的目的。社区的交流过程发现很多同行中经常遇到一些问题，实际都可以从表格中得到答案。

请注意，其中很多参数配置是对集群的稳定性有着决定性的作用。在理解的基础上，大家才能结合自己的硬件和业务设置自己的最佳参数实践。

集群监控

ClickHouse集群监控通常使用ClickHouse Exporter + Prometheus + Grafana方式， Exporter负责信息采集，时序数据库Prometheus存储相关日志，并用Grafana进行展现， Grafana基于ClickHouse的监控主题可以查询社区贡献的插件。

我们定义监控有2个维度：

(1) 集群信息监控

这里主要是ClickHouse服务的指标，我们除了通过Exporter采集的数据进行展现外。大家可以选择合适的Grafana的主题同时自己也可以扩展通过ClickHouse直接访问系统的配置信息进行展示。

(2) 业务信息监控

这里我更想介绍的是业务信息的监控。见【2.6业务查询】，我们通过Nginx额外收集所有访问日志，这些日志我们也同样存储到了ClickHouse，基于这个我们进行了并发，响应时间，长尾查询相关的统计分析。

同时也针对业务表，进行配置了相关统计任务，统计信息存储与ClickHouse的统计表。

基于Grafana我们将这些业务信息进行了可视化展现。

这里主要是ClickHouse服务的指标，我们除了通过Exporter采集的数据进行展现外。大家可以选择合适的Grafana的主题同时自己也可以扩展通过ClickHouse直接访问系统的配置信息进行展示，如图所示，为我们的一个监控页面，展示着集群的数据量变化以及其他业务信息。

版本升级

在数据模型版本兼容的情况下，可是使用如下方式升级版本，总体流程：

1) 停止当前进程

2) 然后卸载已安装的clickhouse相关安装包

3) 备份当前集群的配置文件config.xml、metrika.xml、users.xml

4) 安装新的安装包

5) 使用备份的配置文件覆盖自动生成的文件

注意：

ClickHouse正常部署完成有三个配置文件，分别是：

config.xml (基本配置)

metrika.xml (集群配置)

users.xml (用户以及限额相关配置)

卸载原版本后会将users.xml删除，并且将config.xml重命名为config.rpmsave，所以users.xml要注意备份，可以先将users.xml重命名，这样就不会被删除。

升级过程：

1) 停止进程，查看已安装的ClickHouse：rpm -qa | grep clickhouse

clickhouse-client-19.15.3.6-1.el7.x86_64

clickhouse-server-common-19.15.3.6-1.el7.x86_64

clickhouse-server-19.15.3.6-1.el7.x86_64

clickhouse-common-static-19.15.3.6-1.el7.x86_64

2) 卸载以上安装包

注意按照顺序卸载

rpm -e clickhouse-client-19.15.3.6-1.el7.x86_64

rpm -e clickhouse-server-19.15.3.6-1.el7.x86_64

rpm -e clickhouse-common-static-19.15.3.6-1.el7.x86_64

rpm -e clickhouse-server-common-19.15.3.6-1.el7.x86_64

卸载完成后提示：

warning: /etc/clickhouse-server/config.xml saved as /etc/clickhouse-server/config.xml.rpmsave

此时/etc/clickhouse-server/下只剩两个配置文件，并且config.xml被重命名为config.rpmsave，users.xml被删除。(若users.xml有更改要，卸载前要注意备份)

3) 安装新版本

rpm -ivh *

此时/etc/clickhouse-server/下重新生成了新的config.xml与users.xml

使用原来的config.xml替换新生成的config.xml

rm -rf config.xml

mv config.xml.rpmsave config.xml

使用用原来的users.xml替换新生成的users.xml

rm -rf users.xml

mv users.xml.bak users.xml

4) 启动ClickHouse

service clickhouse-server start

附常用引擎

MergeTree

MergeTree是ClickHouse中最强大的表引擎。在大量数据写入时数据，数据高效的以批次的形式写入，写入完成后在后台会按照一定的规则就行数据合并，并且MergeTree引擎家族还有很多扩展引擎*MergeTree，注意，Merge引擎不属于*MergeTree系列。

建表：

· ENGINE—引擎名和参数。 ENGINE = MergeTree(). MergeTree 引擎没有参数。

· PARTITION BY—分区键。

· ORDER BY—表的排序键。

· PRIMARY KEY—主键。(默认情况下主键跟排序键(由 `ORDER BY` 子句指定)相同。)

· SAMPLE BY—用于抽样的表达式。

· SETTINGS—影响 MergeTree 性能的额外参数：

index_granularity—索引粒度。即索引中相邻『标记』间的数据行数。默认值，8192。

index_granularity_bytes—索引粒度，以字节为单位，默认值: 10Mb。

enable_mixed_granularity_parts—启用或禁用通过index_granularity_bytes控制索引粒度的大小。

use_minimalistic_part_header_in_zookeeper—数据片段头在ZooKeeper中的存储方式。如果设置了 use_minimalistic_part_header_in_zookeeper=1 ，ZooKeeper 会存储更少的数据。

min_merge_bytes_to_use_direct_io—使用直接I/O来操作磁盘的合并操作时要求的最小数据量。

merge_with_ttl_timeout—TTL合并频率的最小间隔时间。默认值: 86400 (1天)。

write_final_mark—启用或禁用在数据片段尾部写入最终索引标记。默认值:1(不建议更改)。

storage_policy—存储策略。

· ReplacingMergeTree

该引擎和MergeTree的不同之处在于它会删除具有相同主键的重复项。数据的去重只会在合并的过程中出现。合并会在未知的时间在后台进行，所以你无法预先作出计划。有一些数据可能仍未被处理。因此，ReplacingMergeTree适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。同时ReplacingMergeTree在一定程度上可以弥补ClickHouse不能对数据做更新的操作。

建表：

· 合并的时候，ReplacingMergeTree 从所有具有相同主键的行中选择一行留下：

如果 ver 列未指定，选择最后一条。

如果 ver 列已指定，选择 ver 值最大的版本。

SummingMergeTree

该引擎继承自 MergeTree。区别在于，当合并 SummingMergeTree 表的数据片段时，ClickHouse 会把所有具有相同主键的行合并为一行，该行包含了被合并的行中具有数值数据类型的列的汇总值。如果主键的组合方式使得单个键值对应于大量的行，则可以显著的减少存储空间并加快数据查询的速度。

建表：

· columns - 包含了将要被汇总的列的列名的元组。可选参数。

如果没有指定 `columns`，ClickHouse 会把所有不在主键中的数值类型的列都进行汇总。

Replicated*MergeTree

· ReplicatedMergeTree

· ReplicatedSummingMergeTree

· ReplicatedReplacingMergeTree

· ReplicatedAggregatingMergeTree

· ReplicatedCollapsingMergeTree

· ReplicatedVersionedCollapsingMergeTree

· ReplicatedGraphiteMergeTree

副本是表级别的，不是整个服务器级的。所以，服务器里可以同时有复制表和非复制表。副本不依赖分片。每个分片有它自己的独立副本。要使用副本，需在配置文件中设置 ZooKeeper 集群的地址。需要 ZooKeeper 3.4.5 或更高版本。

例如：

Distributed

以上引擎都是数据存储引擎，但是该引擎-分布式引擎本身不存储数据，但可以在多个服务器上进行分布式查询。读是自动并行的。读取时，远程服务器表的索引会被使用。

建表：

分布式引擎参数：服务器配置文件中的集群名，远程数据库名，远程表名，数据分布策略。

致谢

在ClickHouse的学习、评测、应用及对集群的维护过程中，得到了来自同行以及ClickHouse中文社区，还有ClickHouse研发团队的巨大帮助，尤其感谢新浪高鹏的帮助，为我们解决使用过程中的难题提供了思路，同时还为我们的集群架构提出了很多非常有建设性的指导建议。返回搜狐，查看更多

责任编辑：

你可能感兴趣的:(clickhouse,hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
从底层原理上理解ClickHouse 中的稀疏索引 goTsHgo 大数据分布式 Clickhouse 数据库 clickhouse
稀疏索引（SparseIndexes）是ClickHouse中一个重要的加速查询机制。与传统数据库使用的B-Tree或哈希索引不同，ClickHouse的稀疏索引并不是为每一行数据构建索引，而是为数据存储的块或部分数据生成索引。这种索引的核心思想是通过减少需要扫描的数据范围来加速查询，特别适用于大数据量场景。1.基本概念：数据存储与索引在理解稀疏索引之前，首先需要理解ClickHouse的列式存储
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
ClickHouse 高性能的列式数据库管理系统小丁学Java ClickHouse clickhouse 数据库
ClickHouse是一个高性能的列式数据库管理系统（DBMS），主要用于在线分析处理查询（OLAP）。以下是对ClickHouse的详细介绍：基本信息：来源：由俄罗斯的Yandex公司于2016年开源。全称：ClickStream,DataWareHouse，简称ClickHouse。创始人：AaronKatz、AlexeyMilovidov、YuryIzrailevsky。主要特点：高性能：能
对话 ClickHouse 创始人 Alexey：不仅是数据库，所有的数据处理系统都能从 AI 受益 AI科技大本营 clickhouse 数据库人工智能
“Alexey，你希望ClickHouse的未来怎么发展？”我希望ClickHouse成为最流行的开源分析数据库，从此任何人考虑分析数据库的时候，脑海里第一个也是显而易见的选择就是ClickHouse。顺便说一句，我们其实已经是最流行的开源分析数据库了，所以我想让这个现状保持下去，以便更多的人能知道这一点。作者|王启隆出品|《新程序员》编辑部当今的分析型数据库领域，ClickHouse是最闪亮的名
clickhouse-v24.1-离线部署 Wonderful呀数据库 clickhouse 数据库运维 linux
部署版本数据库版本：24.1.1.2048jdk版本：jdk84个文件（三个ck的包）：OpenJDK8U-jdk_x64_linux_hotspot_8u382b05.tarclickhouse-client-24.1.1.2048.x86_64.rpmclickhouse-common-static-24.1.1.2048.x86_64.rpmclickhouse-server-24.1.1.
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交