yyoc97

58同城离线计算平台设计与实践（大数据进阶）

编者荐语：

58离线计算平台基于 Hadoop 生态体系打造，单集群4000+台服务器，数百 PB 存储，日40万计算任务，面临挑战极大。本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。

分享嘉宾：余意 58同城高级架构师

编辑整理：史士博

内容来源：58大数据系列直播

出品平台：DataFun

导读：58离线计算平台基于 Hadoop 生态体系打造，单集群4000+台服务器，数百 PB 存储，日40万计算任务，面临挑战极大。58大数据平台的定位主要是服务数据业务开发人员，提高数据开发效率，提供便捷的开发分析流程，有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括：数据存储、实时计算、离线计算、数据查询分析，本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。

本文主要内容包括：

58在集群快速增长的过程中遇到的问题以及解决之道；
58大数据集群跨机房迁移的相关工作，如何在5个月时间快速完成3000台集群服务的迁移工作。

▌数据平台部简介

数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分：

数据接入：文本的收集，我们采用 flume 接入，然后用 kafka 做消息缓冲，我们基于 kafka client 打造了一个实时分发平台，可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。
离线计算：我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。
实时计算：目前主要是基于 Flink 打造了一个一栈式的流式计算开发平台 Wstream。
多维分析：我们主要提供两组多维分析的解决方案。离线的使用 Kylin，实时的使用 Druid。
数据库：在数据库的这个场景，我们主要还是基于 HBase 的这个技术体系来打造了出来，除了 HBase 提供海量的 K-V 存储意外，我们也基于 HBase 之上提供 OpenTSDB 的时序存储、JanusGraph 图存储。

我们综合以上技术框架支撑了公司上层的业务：如商业、房产、招聘等核心业务。此外，整个数据平台部打造了统一的运营管理平台，各个用户在整个数据平台上 ( 包括离线平台、实时平台等 ) 使用的是同一套主账号在管理平台上做数据方面的管理，包括：元数据管理、成本预算、数据自助治理、以及运营监控的一些细节。

在上图的右半部分我们简单的介绍了几个数据平台的指标。Flume 每天的日志采集量 240T，Haddop 单集群服务器台数4000+，Flink 每天进行超过6000亿次的计算，Druid 已经构建超过 600 亿条实时数据索引。

▌Hadoop 平台建设优化

我们的 Hadoop 集群从17年的1600台->18年的2800台->19年的4000台。可以看到集群的增长速度还是非常迅速的。在整个集群中：HDFS 存储数据150P+，YARN 每天调度超过8000万的 Container， MR/Spark 每日计算任务总数40万+、中间处理数据量超过 14P。在此基础上集群规模也在不断增长，集群稳定性能和效率对我们来说是一个比较大的挑战。下面我将给大家介绍在上述背景下，我们关于 Hadoop 平台建设以及优化的具体实践。

我们将从以下几个方面来做介绍：

1. 规模扩展

首先，对于大规模 HDFS 集群可扩展性这一块，我们采用的解决方案是 HDFS Fedoration。HDFS 最大的痛点的话是 NameNode 单点瓶颈的问题，这其中包括内存的问题以及小文件的问题。通过 Fedoration 使用多个 NN 来缓解元数据内存的压力以及均衡元数据访问的 RPC。

其次，通过 ViewFileSystem 对业务做统一。ViewFileSystem 有一个好处是它在客户端实现，这样它的稳定性和性能就有保证。当然，社区原生版本有一些缺点，就是不支持跨 mount 点 mv，这一点我们对它做了修复。另外，它的维护成本比较高，在58我们是通过控制用户规模来保证低维护的成本，具体如下：通过58数据平台运营管理一套主账号体系，我们给每个业务一个大的根目录，在第一层子目录下只分配四个目录，通过这种方式来管控目录的数量来保证低成本维护，同时这样做在发生业务变更时影响也非常小。

2. 稳定性杀手

虽然有 Fedoration 机制来均衡各个 NN 的压力，但是对于单个 NN 压力仍然非常大，各种问题时刻在挑战 HDFS 稳定性，比如：NN RPC 爆炸，我们线上最大的 NS 有15亿的 RPC 调用，4000+ 并发连接请求，如此高的连接请求对业务稳定影响很大。针对这个问题，我们使用"拆解+优化"的两种手段相结合的方式来改进。拆解就是说我们把一些大的访问，能不能拆解到不同的集群上，或者我们能不能做些控制，具体案例如下：

Hive Scratch：我们经过分析 Hive Scratch 的临时目录在 RPC 调用占比中达到 20%，对于 Hive Scratch 实际上每个业务不需要集中到一个 NS 上，我们把它均衡到多个 NS 上。
Yarn 日志聚合：Yarn 的日志聚合主要是给业务查看一些日志，实际上他没有必要那个聚合到 HDFS 上，只需要访问本地就可以了。
ResourceLocalize：同样把它均衡到各个 NS 上。

经过这种拆解就可以降低单个 NS 的压力。

对于 RPC 的性能瓶颈还有很多，本文主要介绍以下几种典型案例：

DN BlockReport：即 DataNode 全量块汇报，目前 DN 都是大存储的机器，存在单机 60T 数据、100w+ Block，这种情况下单机做一次 BlockReport 对性能的影响非常大。针对这种情况，我们的改进措施是降低汇报频率，从1小时/次降低到 10小时/次；
DN IBR ( Incremental Block Report )：即 DN 的增量块汇报。在集群比较繁忙的时候，增量块汇报的规模也是比较庞大的，在这块的优化中参考社区新版本的 issue，就是我们使用批量块汇报的方式来降低增量块汇报的频率；
DN Liveless：即 DN 假死。有时候 NN 或者 DN 比较繁忙的时候会出现心跳超时的情况，这样会导致 NN 会对心跳超时的情况做冗余操作，单个 NN 的块数量非常大，做冗余的话对 RPC 的性能压力也是很大的。这里的做法是使用独立心跳，避免"假死"导致百万 block 冗余。

核心链路优化：我们对线上出现的一些问题对核心链路做的优化，主要思想是提高并行度，比如：

PermissionCheck ---减少持锁时间
QuotaManager ---避免递归，提高效率
ReplicationMonitor ---增加吞吐
choseTarget ---提高匹配效率

3. NS 间负载均衡

对于 NS 间负载均衡，提供了 FastCopy 工具来做数据的拷贝，因为 Fedoration 已经做到了很好的数据本地化，没有必要去做跨集群拷贝，通过 FastCopy HardLink 的机制可以直接将 block 指向到目标 block。当然这种方案在做 NS 之间元数据拷贝的时候，还是有一些迁移的成本，这时候就需要业务来做一些配合。

4. GC 调优

在 GC 这块，NN 线上最大堆内存达到了 230G，GC 调优我们使用的 CMS GC，这是一个比较成熟的调优方式。主要通过下述手段：

降低 Young GC 的频率和时间：通过一些参数来减少它的频率和参数
CMS GC initialmark & Remark
避免 Concurrent mode failure 和 Promotion failure ，避免它做 Full GC

5. 慢节点问题

慢节点问题是我们遇到典型问题之一，主要有三个场景：

慢节点问题一：DN IO Util 100%

我们线上集群在业务快速扩增的过程中，曾经出现过大量 DN IO Util 100%的现象，而且 DN IO Util 100%的持续时间很有可能会超过二十分钟甚至半个小时，这会导致业务读取数据非常缓慢，甚至超时、失败。对我们核心业务的影响是非常大的，比如对于某个有很多业务依赖的上游业务，如果这个上游业务的延时比较长，那么所有的下游业务的延时将会不可控。针对这个问题，我们分析主要是由以下三个操作会导致这个问题的出现并做了改进，改进整体效果良好，改进后计算任务的执行时间提速了 25%。

第一：10min 间隔 CheckDir 的操作，改进措施：不检查所有，只检查父目录，这样会做到基本无 IO 消耗。
第二：10min间隔 du 操作，改进措施：改成 df 实现，改进后基本无 IO 消耗。由于 du 会扫描磁盘上的所有的块，是非常重的一个操作，事实上在这里我们不需要那么精确，使用 df 是完全可行的。
第三：6h 间隔 directoryScan 操作，改进措施：扫描限速 & 低峰执行，改进后 IO 控制在30%。做限速避免持续占用带宽，避免高峰期执行操作，58 的高峰基本在凌晨至早晨时间 0：00 -9：00，我们在这个时间段不做这个操作，放在空闲时间。

慢节点问题二：读数据

预读支持：对于大数据量下客户端读 DN 的比较慢的情况，hadoop 本身提供的预读方案是在随机访问情况下的优化，但是对于离线计算基本是顺序读的场景不能使用，我们对此做了扩展，对顺序读提供了预读支持。
千兆机器持续负载优化：在58异构情况非常严重，之前1000多台千兆机器，千兆机器会持续打满负载。针对这种情况我们使用社区关于 DataNode 快速重启的方案 ( HDFS-7928 )，基本可以在30S时间内重启 DN，这样我们通过快速重启 DN 的方式把客户端的请求分配到其他的节点上再还给他。

慢节点问题三：写 pipeline 无限重试

客户端写一个块的操作会在三个节点上都一个块，我们线上遇到的一个比较严重的问题：在写的过程中如果一个节点出现故障，会去不断的重试将集群中所有的几点重试一遍然后失败，这种情况社区也有对应 issue ( HDFS-9178 )，原因是在做 DN 的 pipeline 恢复的时候把异常的节点当成了正常的节点来做 pipeline 恢复的对象。

6. YARN建设优化

Yarn 调度的优化主要是两个方面：一个是稳定性，另一个效率方面。

稳定性：

① 服务稳定性：

服务稳定性主要针对于系统的核心模块，下面介绍下线上易出现的核心问题：

YARN-4741：升级过程中大规模的 NM 重启的时候容易出现千万级的冗余事件，这样会造成 NM OOM 从而集群会挂掉，因此需要对冗余事件过滤。
异常 APP 过滤：在做 RM 切换的时候遇到的 App 异常状态，导致 RM 直接挂掉
DNS：DNS 服务挂掉导致集群宕机，主要是通过 cache 机制来解决，包括在集群层面、硬件层面做 cache。

② 计算稳定性：

业务方面：提供标签调度隔离，把业务做物理隔离保证重点业务的执行
Quene & APP 方面：提供优先级的支持，保证高优先级的任务先拿到资源
节点层面：container 做 Cgroup 的隔离，保证 container 的稳定性

③ 过载保护：

在集群层面有过载保护措施，比如：最大用户数，最大 APP 数，最大 container 数等。

YARN 调度吞吐保证：

减少调度规模怕从而减轻压力：Hivesql 切换 sparkThriftServer，因为 sparkThriftServer 是一个常驻的服务，在初始化时申请下资源后基本不会再去向 YARN 申请资源，切换后可以减少吞吐。
错峰：核心任务优先保证，在空闲阶段再跑一些非核心业务。
调度优化：YARN 调度主要有三个线程，三个线程共享一把锁来做各自的锁逻辑，所以一个优化思路就是解决这个锁竞争的问题，另一个思路是对核心的调度逻辑做优化。

持锁时间优化：

通过 Profiling 发现调度进程在排序操作的过程种需要消耗90%的 CPU 时间，而且在做排序的时候基本上只是读的操作，没有必要去拿锁。另外调度的三个线程没有必要都用排他锁，我们可以做一个锁降解，对于更新线程 updateThread 用读锁就可以了，另外我们需要做一个加锁顺序的保证来避免死锁的情况。

核心计算逻辑 Profiling：

核心逻辑 Profiling 的几种思路：

一是降低时间复杂度，社区使用的归并排序的思想，复杂度为 O(N * logN)，实际上调度的时候我们只需要找到一个适配的节点，通过优化可以将复杂度降为 O(n + k * logN)；
二是通过空间换时间的思想，比如通过预计算、预取数来减少计算次数；
三是在做排序的时候对于一些已经不需要排序的，不需要资源的地方做优化。

整体优化完成以后调度系统提高到 3000 container/s，基本上满足了我们的需求。

7. 计算引擎优化

接下来我们来介绍下关于计算引擎方面的优化，主要是下面几个方面：

云窗 Hive –> SparkSql：

云窗是 58 使用非常广泛的 Sql 查询平台，主要用在即席查询场景。之前一直存在一个痛点问题：查询引擎只有 Hive，因此查询效率很受局限。17年底的时候我们开始将查询引擎由 Hive 转向 SparkSql，在做即席查询引擎转换升级的时候我们做了一些调研，对比了 Impala，Presto 等等，结合 58 现状我们最终使用 SparkSql 来替换了 Hive。当时 Spark 最新版本为 Spark 2.2，基于稳定性考虑没有激进的选择使用最新的版本而是选择了比较稳定的版本 Spark 2.1.2。另外支持 SparkSql 引擎，也对 SparkThriftServer、Zeppelin 等解决方案做了调研，综合以下几个方面我们选择了 SparkThriftServer：

一是由于云窗 Hive 主要是和前端 JDBC 的使用方式，这时候用 SparkThriftServer 改造起来就非常简单；

二是需要在应用性上做些保证，比如业务可以实时查询执行进度，可以组取消等相关操作；

三是云窗 Hive 是提供给多个用户使用需要，所以需要支持多租户。

SparkThriftServer 多租户：

多租户的问题主要在权限这一块，需要把各个业务的权限打通，这样各个业务在做查询的时候做到安全隔离；此外在计算方面，由于 SparkThriftServer 业务使用公共资源，也需要把重点业务的资源做隔离。

SparkSql 兼容 Hive 的实现：

我们需要保证云窗 Hive 用户的查询和 SparkSql 的查询做到一致性。主要用到下面四个问题：UDF 支持问题，语法兼容性问题，数据质量问题，参数兼容问题。这块的解决方案比较简单，当时是把云窗 Hive 的所有语句迁移到 SparkSql 来做测试，根据测试的结果来修复相关的问题，最后修复了50+个 issue 把成功率提高到95%以上。

SparkThriftServer 平台稳定性建设：

SparkThriftServer 平台稳定性建设也做了比较多的工作，重点说以下几点：

Spark 自身稳定性问题种 Spark Driver 内存管理的问题
保障服务的稳定性方面，通过 HA 机制提供多台 SparkThriftServer 支持，另外在云窗上层提供重试策略，这样在下游出现问题但不影响上游情况下通过上游重试来提高运行成功率
通过一些任务管控做集群的过载保护
降低集群压力：Spark 对集群的压力还是非常大的，特别是在不正确使用的情况下，我们需要对它对 HDFS 的压力做一些管控，比如输入输出这一块

SparkSql 上线运行后发现的一些问题：

比如在云窗上 Hive 和 Spark 默认情况下使用了同样的配置，在云窗上用户不会关心使用的是 Hive 还是 SparkSql，这样存在一个问题就是很难对业务做一个针对性的调优，这里我们做了一些优化，优化过程中主要参考了 Intel SparkAE 的一些特性。

最优 Shuffle Partition：Partition 数量的指定在各个阶段都是一样的，事实上很难达到一个最优的效果；
Join 的策略：原生的 join 策略是根据初始数据来做 join 策略，我们可以通过一些中间结果来做一些策略的改变；
数据倾斜：在做 Sql 查询中我们遇到的比较多的情况就是数据倾斜，我们也是做了自动的数据倾斜的优化。做完这些优化后，线上的任务基本上都有2-3倍的提升，效果还是非常明显的。

8. WSSM 平台建设

对于大规模的集群，运营能力还是很重要的，否则集群开发人员会花费大量时间来做运维。运营主要在存储和计算。

海量存储一站式运营管理：

存储运营有很多要做，比如目录配额管控，权限控制，告警机制，成本的优化等。我们主要是通过 FSImage + EditLog 的方式拿到需要分析的数据存储信息，集群运营者分析获取到的信息然后做相应的存储优化策略。使用 FSImage + EditLog 一个好处就是对 NN 无影响。我们集群运营每天可以对4000万+目录做冷热、增长等方面的分析；运营用户可以根据数据目录的冷热情况自定义生命周期等策略来管理数据目录，通过目录增长信息用户可以知道数据的增长情况是否正常。我们也提供了自动化目录压缩的接入，业务想做数据治理的化可以一键接入；自动化压缩有以下几个特点：冷数据使用 GZIP 压缩，热数据使用 LZO 压缩；提供数据完整性校验机制。数据压缩带来效果还是比较明显的，以19年实践为例：通过压缩数据累计节省了 100P+ 空间，相当于千台服务器的节省。

海量计算自主运营分析：

海量计算自助运营分析平台可以避免很多重复工作，减少资源的浪费，提高业务开发以及集群运维开发的工作效率。

我们是基于 LinkedIn 开源的大象医生 Dr-elephant 做的扩展改进，在改进过程中主要解决几个问题：

Dr-elephant 的扩展性问题，我们通过 AppList 派发到多台 Dr-elephant 来支持扩展性问题。
对 spark 的各个版本做了兼容性的实现，比如：Spark2.1，Spark2.3
Dr-elephant 原生启发式算法改进。改进后支持分析：MR 是否分配在慢节点上，container 的资源是否合理等。

下图是我们运营管理的界面，其中左半部分是存储方面，右半部分是计算方面的。

▌跨机房迁移

下面给大家介绍下数据平台部在19年下半年做的跨机房迁移这方面的事情。

迁移背景：

全量迁移：3000台机器，130P数据，40万计算任务
老机房资源紧张，无法扩容，业务持续增长
低成本迁移，控制时耗，Hadoop 机位半年内腾空
其它：跨机房带宽比较充裕 ( 2Tb )，延迟 2ms 左右 ( 机房内 0.1ms )；离线 Hbase 集群混部，80台 RS，100+表

方案预研以及选型结果：

常用方案——多集群多机房

新机房搭建同套环境，稳定性好，改造少 ( 新版本特性可以直接使用 )
业务配合 ( 数据一致性验证等 )，影响大，时间不可控
机器成本高

58方案——HDFS 单集群多机房

业务透明 -> 影响小
老机房下线机器，扩容新机房 -> 成本低
先迁移数据节点，后迁移主节点

跨机房网络

压测跨机房性能影响15% 以内，网络延时较好，可控
老机房峰值网络吞吐 1.3T，带宽充足

下面介绍迁移具体方案和实践：

1. 单集群跨机房 HDFS 数据迁移

数据从老机房迁移到新机房主要用到了 HDFS 的 Decommision 特性。这里我们针对 decommision 存在的一些问题做了一些改进，改进后性能提升超过6倍，具体问题与方案如下：

不可指定机房：decommision 的数据目标节点是不确定的，如果直接使用 decommision 会产生较多的数据冗余，所以我们在数据路由上做了改进，让 decommision 可以支持指定机房，这样下线的时候就可以将数据直接 decommision 到新机房。

性能：decommision 本身性能较差吞吐量小且对 NameNode 的压力较大，在这里做了如下的改进：

dfs.namenode.replication.max-streams
降低 NN RPC 负载，充分利用 DN 机器带宽 ( HDFS-7411，HDFS-14854 )

稳定性：decommision 存在一些稳定性问题，比如：不能正常结束，这里我们参考社区 issue(HDFS-11847)，做了 decommision 的监控工具，分析 decommision 不能结束的具体原因然后做针对性的处理。另外在 decommision 的执行过程中可能会出现块丢失问题，线上曾经出现丢失几百万个块，还好后来数据做了及时修复，此处参考 HDFS-11609。

此外，我们是在低峰期执行 decommision 以降低影响。为保证服务稳定下线速率保持在每天下线50台，基本在5个月的时间内完成集群迁移。

2. 网络

在实践过程中，我们发现网络急剧增长，最大到 1.8T 接近上限，非常危险了，针对这个问题我们做了如下分析。

第一，因为集群是异构的，集群中有大量千兆机器，在迁移过程中千兆机器在持续的下线，这样很多计算落在了万兆机器，从而增长了带宽；
第二，在迁移完成后，我们会千兆机器的网卡升级到万兆，因为网络的性能提升，把带宽提升上去了。

在网络降低带宽方面的优化策略：

跨机房读写策略，整体策略完成后跨机房带宽降低50%，具体如下：首先需要支持机房网络拓扑结构，支持本机房写。另外考虑到老机房很少有存储的情况，这里做动态配置策略：默认是本机房写，通过修改配置可以随机写或者指定机房写。在读方面优先级顺序由高到低为: 同节点 -> 同机架 -> 同机房 –> 跨机房
控制大业务带宽，主要是以下两点：一是 Flume sink HDFS 实现压缩机制，峰值带宽 200Gb 降低到 40Gb 左右；二是分析计算依赖，对计算迁移控制跨机房计算的规模。
其他管控：比如硬件层面保证控制流优先，这样即使带宽打满也不会发生心跳信息无法传递导致集群崩溃

3. 新机房磁盘倾斜

在迁移过程中，遇到第二个比较大问题：新机房磁盘倾斜比较严重，大量机器存储超过了95%，此时节点出现 unhealthy 情况。由于机器在计算方面做了标签隔离，如果存储占满对重要业务运行稳定性影响非常大，需要有一个快速均衡方案来均衡高负载节点。这里我们使用 HDFS Balance 作为一个解决方案，同时优化了 HDFS Balance 的几个痛点问题：

支持可指定源节点，目的节点
直接从 DN 获取 Blocks 信息，减轻 NN 压力同时提高并发
源节点避免写，控制读
支持限速，水位可控，且可用于
机房数据迁移错峰运行

通过以上方案，日支持 PB 级数据 balance，线上975台90%水位 DN5 个工作日完成均衡。

4. 计算迁移

计算服务更像是一个无状态的服务，也不需要做单集群跨机房，做起来就比较轻松。只需要在新机房部署一个新的 YARN 集群就可以，也可以保证计算任务不会跨机房。在整个迁移过程以队列为粒度，根据队列映射机房，在迁移初期给任务更富裕的资源以保证任务运行更加稳定。迁移期间会做一些灰度检验，此时需要业务配合，同时也会对迁移前后任务的运行情况做分析对比以确保迁移不影响业务的正确性。

整个迁移过程如上图所示，期间由业务与平台相互协作。业务主要评估迁移前后的差异，包括性能、成功率等。其他任务都是由平台来做，分为离线、实时、Hbase 等部分，其中离线部分流程为：

新机房资源准备，业务梳理 -> 测试新机房性能 –> 业务一队列粒度切换新机房 ->回收老机房资源 -> 搬迁至新机房扩容

实时任务迁移参考离线部分，大同小异；Hbase 集群迁移请参考另一篇关于58 大数据平台分享第三期：Hbase 专场。

整体迁移过程：先迁移计算和存储再迁移 HDFS 等核心服务，核心服务通过域名化变更来迁移，这里在源生 Hadoop 做了改进增加了对异常捕获的处理。

▌后续规划

后续规划主要对两个方面，一个 Hadoop3.X，一个是云融合。

①Hadoop3.X

Hadoop 现在版本是在 CDH-Hadoop 2.6 做的定制，后续计算对 Hadoop 升级到 3.X。主要对 Hadoop3.X 两个特性比较看好：

第一：对 EC ( erasure coding 纠删码 ) 的支持，可以节省很大的存储空间
第二：对象存储 ( ozone )

② 云融合探索

目前公司私有云主要支持在线的业务，大数据平台主要支持离线的业务。在线业务一般晚上资源比较空闲，离线业务晚上资源比较繁忙，因此考虑是否可以错峰相互借用资源以降低成本。

▌精选问题的回答

1. 批流统一怎么做？

答：目前在58 已经在将 Storm 迁移到了 Flink，这个具体方案的文章已经发布在 58 技术公众号上，感兴趣的同学可以去公众号查看。另外 Spark Streaming 我们也建议业务可以迁移到 Flink 上，根据部分迁移业务来看，资源的使用有比较大的提升，而且在流方面整理来看 Flink 比 SparkStreaming 更有优势，无论是功能方面还是架构方面，这些都有大量的文章介绍。

我们已经基于 Flink 开发了一栈式实时开发平台 Wstream，支持使用 Sql 开发实时程序，支持 DDL、Join，关于这些会在58大数据平台分享第二期做具体介绍。

2. OLAP 选型怎么做？

答：在58 OLAP 场景目前是使用 Kylin 来支持离线的业务，比如 BI 报表，Kylin 的话建议维度不要超过50维度，超过维度支持的会不友好；另外 Druid 来支持实时的场景，比如广告效果的评估，用户行为分析等。

Kylin 和 Druid 都是预计算的思想，因此查询场景比较受限，而且对其他组件依赖较重导致维护成本较高，目前业界也有一些新的优秀解决方案，比如 ClickHouse 这些没有对其他组件的依赖相对来说比较轻量。这些组件性能上基本上都是采用列式存储的思想，提高硬件使用效率等。

Kylin、Druid 目前从使用上来看是比较成熟的 ( 包括对 Sql 语法的支持等 )，58数据平台目前也在做 OLAP 相关的调研，争取尽早落地，届时再与大家分享。

你可能感兴趣的:(大数据)

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro