Ververica

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

作者：陈越晨

整理：刘河

本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战，以及平台构建化流程。主要内容如下：

爱奇艺在实时计算方面的的演化和遇到的一些挑战

爱奇艺使用Flink的User Case

爱奇艺Flink平台化构建流程

爱奇艺在Flink上的改进

未来工作

爱奇艺简介

爱奇艺在2010年正式上线，于2018年3月份在纳斯达克上市。我们拥有规模庞大且高度活跃的用户基础，月活跃用户数5.65亿人，在在线视频领域名列第一。在移动端，爱奇艺月度总有效时长59.08亿小时，稳居中国APP榜第三名。

一、爱奇艺在实时计算方面的演化和遇到的一些挑战

1. 实时计算在爱奇艺的演化过程

实时计算是基于一些实时到达、速率不可控、到达次序独立不保证顺序、一经处理无法重放除非特意保存的无序时间序列的数据的在线计算。

因此，在实时计算中，会遇到数据乱序、数据延时、事件时间与处理时间不一致等问题。爱奇艺的峰值事件数达到1100万/秒，在正确性、容错、性能、延迟、吞吐量、扩展性等方面均遇到不小的挑战。

爱奇艺从2013年开始小规模使用storm，部署了3个独立集群。在2015年，开始引入Spark Streaming，部署在YARN上。在2016年，将Spark Streaming平台化，构建流计算平台，降低用户使用成本，之后流计算开始在爱奇艺大规模使用。在2017年，因为Spark Streaming的先天缺陷，引入Flink，部署在独立集群和YARN上。在2018年，构建Streaming SQL与实时分析平台，进一步降低用户使用门槛。

2. 从Spark Streaming到Apache Flink

爱奇艺主要使用的是Spark Streaming和Flink来进行流式计算。Spark Streaming的实现非常简单，通过微批次将实时数据拆成一个个批处理任务，通过批处理的方式完成各个子Batch。Spark Streaming的API也非常简单灵活，既可以用DStream的java/scala API，也可以使用SQL定义处理逻辑。但Spark Streaming受限于微批次处理模型，业务方需要完成一个真正意义上的实时计算会非常困难，比如基于数据事件时间、数据晚到后的处理，都得用户进行大量编程实现。爱奇艺这边大量使用Spark Streaming的场景往往都在于实时数据的采集落盘。

Apache Flink框架的实时计算模型是基于Dataflow Model实现的，完全支持Dataflow Model的四个问题：What，支持定义DAG图；Where：定义各类窗口（固定窗口、滑动窗口和Session窗口）；When：支持灵活定义计算触发时间；How：支持丰富的Function定义数据更新模式。和Spark Streaming一样，Flink支持分层API，支持DataStream API，Process Function，SQL。Flink最大特点在于其实时计算的正确性保证：Exactly once，原生支持事件时间，支持延时数据处理。由于Flink本身基于原生数据流计算，可以达到毫秒级低延时。

在爱奇艺实测下来，相比Spark Streaming，Apache Flink在相近的吞吐量上，有更低的延时，更好的实时计算表述能力，原生实时事件时间、延时数据处理等。

二、在爱奇艺使用Flink的一些案例

下面通过三个Use Case来介绍一下，爱奇艺具体是怎么使用Flink的，包括海量数据实时ETL，实时风控，分布式调用链分析。

1. 海量数据实时ETL

在爱奇艺这边所有用户在端上的任何行为都会发一条日志到nginx服务器上，总量超过千万QPS。对于具体某个业务来说，他们后续做实时分析，只希望访问到业务自身的数据，于是这中间就涉及一个数据拆分的工作。

在引入Flink之前，最早的数据拆分逻辑是这样子的，在Ngnix机器上通过“tail -f /xxx/ngnix.log | grep "xxx"”的方式，配置了无数条这样的规则，将这些不同的数据按照不同的规则，打到不同的业务kafka中。但这样的规则随着业务线的规模的扩大，这个tail进程越来越多，逐渐遇到了服务器性能瓶颈。

于是，我们就有了这样一个设想，希望通过实时流计算将数据拆分到各个业务kafka。具体来说，就是Nginx上的全量数据，全量采集到一级Kafka，通过实时ETL程序，按需将数据采集到各个业务Kafka中。当时，爱奇艺主的实时流计算基本均是基于Spark Streaming的，但考虑到Spark Streaming延迟相对来说比较高，爱奇艺从这个case展开开始推进Apache Flink的应用。

海量数据实时ETL的具体实现，主要有以下几个步骤：

解码：各个端的投递日志格式不统一，需要首先将各个端的日志按照各种解码方式解析成规范化的格式，这边选用的是JSON
风控：实时拆分这边的数据都会过一下风控的规则，过滤掉很大一部分刷量日志。由于量级太高，如果将每条日志都过一下风控规则，延时会非常大。这边做了几个优化，首先，将用户数据通过DeviceID拆分，不同的DeviceID拆分到不同的task manager上，每个task manager用本地内存做一级缓存，将redis和flink部署在一起，用本地redis做二级缓存。最终的效果是，每秒redis访问降到了平均4k，实时拆分的P99延时小于500ms。
拆分：按照各个业务进行拆分
采样、再过滤：根据每个业务的拆分过程中根据用户的需求不同，有采样、再过滤等过程

2. 实时风控

防机器撞库盗号***是安全风控的一个常见需求，主要需求集中于事中和事后。在事中，进行超高频异常检测分析，过滤用户异常行为；在事后，生成IP和设备ID的黑名单，供各业务实时分析时进行防刷使用。

以下是两个使用Flink特性的案例：

CEP：因为很多黑产用户是有固定的一些套路，比如刚注册的用户可能在短时间内会进行一两项操作，我们通过CEP模式匹配，过滤掉那些有固定套路的黑产行为
多窗口聚合：风控这边会有一些需求，它需要在不同的一些时间窗口，有些时间窗口要求比较苛刻，可能是需要在一秒内或亚秒内去看一下某个用户有多少次访问，然后对他进行计数，计数的结果超过某些阈值就判断他是异常用户。通过Flink低延时且支持多窗口的特点，进行超高频的异常检测，比如对同一个用户在1秒内的请求进行计数，超过某个阈值的话就会被识别成黑产。

3. 分布式追踪系统

分布式调用链追踪系统，即全链路监控，每个公司基本都会有。在一个微服务架构当中，服务间的调用关系错综复杂，往往很难排查问题，识别性能性能瓶颈，这时候就需要分布式调用链追踪系统了。

上图是一个调用链的追踪拓扑图，每个点是一个具体的一个应用，就是具体经过哪个应用，每条边是说明这个应用到下一个应用当中耗时了多久。

除了宏观分析外，业务还想去看具体某一条日志的分析，具体某一次调用它是哪里慢了，哪里快了？所以，调用链还有另外一个需求，就是对于具体某次调用，想看一下它的具体耗时。

系统简单架构如上图，上半部分偏重于埋点，下半部分偏于分析。埋点简单来讲，就是通过客户端SDK埋点以及Agent采集，将系统调用日志全部打到Kafka中，我们通过Flink对他们进行各类分析。对于统计类的分析，就是通过Flink计算存储到HBase当中，提供一些监控报警、调用链拓普查询等这种分析。针对这类需求，我们运用了Flink的多窗口聚合的特性，通过一分钟或者多分钟的窗口，从茫茫日志中寻找哪条是实际的调用链，构建APP各个应用的拓扑调用关系，第二级是基于第一级分析的一个结果，分析出那个拓普图按各个窗口、各个不同的边去算每条边的平均耗时的统计。除此之外，我们还将通过Flink将原始数据打到ES里面供用户直接去查询。

三、Flink平台化

1. 概览

接下来将主要介绍爱奇艺的大数据平台的构建。上图不限于Flink，是大数据平台的整体架构图。在爱奇艺，存储层基本是基于Hadoop生态的，比如像HDFS、HBase、Kudu等；计算层，使用YARN，支持MapReduce、Spark、Flink、Hive、Impala等这些引擎；数据开发层，主要是一些自研产品，批处理开发在爱奇艺有工作流开发，数据集成等。实时计算开发，有流计算开发、Streaming SQL、实时分析等平台工具可以使用。

接下来，我们将简单介绍爱奇艺实时计算与分析平台。

2. 实时计算平台

2.1 流任务平台

流任务平台是爱奇艺实时计算的底层平台，支持流任务的提交运行与管理。流任务平台支持YARN, Mesos, Flink独立集群等多种资源调度框架；支持Storm, Spark Streaming, Flink, Streaming SQL等计算任务的托管与运行。在功能上，我们支持用户直接打包程序上传部署流任务，也支持用户通过Streaming SQL工具编写SQL进行流计算开发。为了更好地对计算任务进行管理，流计算平台提供JAR包、函数管理，任务指标监控，以及资源审计功能。

2.2 Streaming SQL

无论对于Spark Streaming还是Flink来说，他们均有一个较好的SQL优化引擎，但均缺乏DDL、DML创建的语义。于是对于业务来说，均需要业务先编程定义Source以及Sink，才可以使用SQL进行后续开发。

因此，爱奇艺自研的Streaming SQL定义了一套DDL和DML语法。其中，我们定义了4种表：
流表：定义了输入源是什么？具体的解码方式是什么？系统支持Json的解码方式，也支持用户自定义解码函数。
维度表：主要是静态表，支持MySQL，主要是用于流表Join的。
临时表：和Hive的临时表类似，用户定义中间过程。
结果表：定义了具体输出的类型，输出的源是什么？怎么访问？这边的输出源支持，就是常见的比如Kafka、MySQL、Kudu、ES、Druid、HBase等这样一些分析型数据库。

为了更好地支持业务需求，StreamingSQL默认也支持IP库相关的预定义函数，也支持用户自定义函数。

上图是一个StreamingSQL的应用Case，将P99，P50耗时打印到Console中。

为了更好地支持业务使用Streaming SQL，StreamingSQL提供Web IDE，提供代码高亮、关键词提示、语法检查、代码调试等功能。

3. 实时分析平台

实时分析平台，是爱奇艺基于Druid构建的分钟级延时的实时分析平台，支持通过Web向导配置，完成超大规模实时数据多维度的分析，并生成分钟级延时的可视化报表。支持的功能有，接入实时数据进行OLAP分析；制作实时报警；生产实时数据接口，配置监控报警等。

产品优势：

全向导配置：从实时数据到报表生成仅需向导配置即可
计算存储透明：无需管理大数据处理任务与数据存储
分钟级低延时: 从数据产生到报表展示只有1分钟延时
秒级查询：亚秒级返回分析报表
支持灵活变更需求：业务可灵活更改维度，重新上线即可生效

3.1 用户向导配置

实时分析平台，将整个分析流程抽象成数据接入，数据处理，模型配置和报表配置4个过程。其中，模型配置完全按照OLAP模型，要求实时数据符合星型模型，存在时间戳、指标、维度等字段。

3.2 数据处理配置

在数据处理层，实时分析平台提供向导配置页面，支持用户通过纯页面的方式就可以配置数据处理过程，这主要应对一些简单场景，针对部分连SQL都不熟悉的小白用户提供页面配置方案；初次之外，类似StreamingSQL，实时分析也提供用户自定义SQL方式定义数据处理过程。

四、Flink改进

在Flink平台化的时候，我们遇到了几个Flink的问题，分别对其进行了些改进。

1. 改进 - 优雅恢复checkpoint

第一个改进是关于checkpoint的优雅恢复。这个问题的出发点是，业务希望使用Spark Streaming可以通过代码控制从哪个checkpoint恢复，但对于Flink来讲，业务没法通过代码控制checkpoint恢复点，需要手动指定检查点去恢复checkpoint。于是，我们希望Flink可以像Spark Streaming一样，直接通过代码方式恢复checkpoint。

针对这个问题，我们修改源码，在Flink任务启动时，从实际的路径当中找到他最新的一个checkpoint，直接从那个checkpoint当中恢复，当然这个也是可以让用户选的，他如果还想用原生方式恢复也可以，但提供一个选项，它可以支持从最近的checkpoint恢复。

2. 改进 - Kafka Broker HA

第二个改进是关于Kafka Broker HA的一个问题，比如像Kafka Broker故障的时候，Kafka还可以正常工作，但Flink程序往往会挂掉。针对这个问题，我们处理了Flink在Kafka Broker退出之后的sockerTimeOutException，支持用户重试次数配置来解决这个问题。

五、Flink未来工作

最后，介绍一下爱奇艺在Apache Flink的未来工作。目前StreamingSQL还只支持Spark Streaming和Structured Streaming引擎，后续很快会支持Flink引擎，大幅降低业务的Flink开发成本。随着Flink任务规模不断变大，我们将重点提升Flink在爱奇艺的成熟度，完善监控报警，增加资源审计流程（目前还仅对Spark Streaming进行资源审计）。另外，我们要研究下Flink 1.6的一些新特性，尝试下Kafka 2.0，调研Exactly once方案；另外，我们将对Flink新版本进行一些尝试，推进批流统一。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，