数据与智能

「Flink实时数据分析系列」1. 有状态流处理简介

来源 | 「Stream Processing with Apache Flink」

作者 | Fabian Hueske and Vasiliki Kalavri

翻译 | 吴邪大数据4年从业经验，目前就职于广州一家互联网公司，负责大数据基础平台自研、离线计算&实时计算研究

校对 | gongyouliu

编辑 | auroral-L

Apache Flink是一个开源的分布式流处理引擎，为有状态数据流处理应用程序提供了丰富的api接口，以实现各种简单或复杂的计算功能。不仅如此，它能够高效地支持大规模有状态流应用程序运行，并保证了程序的容错性，在这一点上会比其他的流式计算引擎凸显更多优势。那么这样的Flink是从什么时候开始进入业界的视野的呢？2014年4月，Flink作为一个孵化器项目正式加入了Apache软件基金会组织，并于2015年1月份成为Apache的顶级项目，发展可谓非常迅速，从Flink加入Apache之后，就拥有一个非常活跃且用户和代码贡献者持续增长的社区，时至今日，已经有超过500多人为Flink贡献了代码，随着Flink的快速发展并得到广泛的应用，Flink得到了业界的认可，慢慢地成为了当下最流行的开源流式计算处理计算引擎，因为Flink可以支持大规模商业核心业务应用场景，因此在全球不同的国家和地区受到很多企业的青睐。

随着信息时代的到来，物联网和5G得到广泛的使用，带来的是海量的数据，用户和企业对数据处理的实时性要求越来越高，流式处理技术变得越来越重要，可以为企业赋能，为大大小小的企业很多成型的业务场景提供了高效可行的解决方案，比如数据分析、ELT数据处理和一些事务性应用程序，同时为企业的应用和软件架构提供新的解决思路，获得更多的商机。最后，我们简易讨论一下开源流式计算处理器的演进，并帮助你了解如何在本地运行Flink流式应用实例。

传统的数据基础架构

在过去的几十年，数据以及数据处理在企业和商业应用显得无处不在，随着时间的推进，多年以来，数据的收集和使用一直保持着持续增长的趋势，数据如何有效地管理成为每个公司的大事，为了更好的管理源源不断产生的用户数据，很多公司着力于设计和构建数据基础架构，通常情况下主要分为两种类型的架构：一是事务型数据处理，二是分析型数据处理，基于以上两种类型，下面我们讨论这两种类型的基础架构是如何管理和处理数据的。

事务型数据处理架构

很多公司在日常的业务场景中使用了五花八门的应用程序，比如说企业资源管理系统（ERP），客户关系管理系统（CRM）以及基于Web端的系统。这些系统通常在设计的时候会区分不同的数据处理层（即应用程序本身）和数据存储（事务型关系数据库），每个系统自成一套流程，如下图1-1 所示：

以上这些应用程序通常用于连接系统外部服务或者为使用者处理业务需求，比如获取订单信息、接收或者发送邮件以及网站点击行为等等，当我们在处理事件时，应用程序会读取事件的状态或者通过远程数据库系统更新事件的状态，一般来说，一个数据库系统会同时为多个应用程序服务，可能出现共用同一个数据库甚至同一张表的情况。

基于事务型数据处理的架构设计存在不少的弊端，举个例子，当运行的应用程序需要进行扩展时会出现很多的问题，为什么这么说呢？从图中可以看到，由于多个应用程序可能会处理相同的数据或者共享同一个数据存储系统，耦合性很强，这种情况下会涉及到数据库表结构或者数据库的变更，需要花费很多精力去重新设计和规划，会导致生产成本大大提升且系统不稳定性大大增强，如果数据库挂了，会导致所有的应用程序无法对外提供服务，造成的损失可想而知。

问题的出现必然会推动技术的变更来解决问题，微服务的出现很好的解决了应用程序捆绑的问题，微服务的定义是什么呢？顾名思义，微服务的设计原则就是拆分功能模块，使其尽可能小且各自独立，划分单一职责与功能模块；微服务遵循UNIX的哲学思想，只做一件事，并且做好它。越来越多的复杂应用程序通过连接少量的微服务标准接口进行通信，比如RESTful HTTP连接，为什么要这样做呢？因为微服务彼此之间是严格解耦的，通过定义好的接口进行通信，每个微服务的编程语言也不受限，可以使用不同的技术栈去实现，不局限于编程语言、库和数据存储。通常情况下，微服务和所必需的软件包以及服务会被打包并部署在独立的容器中，图1-2描述的就是微服务的架构：

数据分析型处理架构

对于一个公司来说，存储在各种事务型数据库系统中的数据，通常能为公司的运营决策提供有价值的参考依据，比如说，通过对订单处理系统的数据进行分析，可以掌握商品在一段时间内销售的增长率，以此来确定商品延期出货的根源，也可以用来预测未来的销售趋势，及时调整商品库存。然而，事务型数据通常分布在几个互不相连的数据库系统中，在需要进行联合分析时才显得更有价值，此外，不同数据库系统的数据在分析时通常需要转化为通用的处理格式。

与直接在事务型数据库执行分析查询有所不同，在数据分析型处理架构中，数据通常会被统一复制到数据仓库中，即专门用于数据分析查询的数据存储仓库，为了填充数据仓库，需要将事务型数据库系统管理的数据库的数据全部复制到数据仓库中，这个迁移数据的过程我们通常称为“提取-转换-加载”，也就是我们常说的ETL。ETL流程负责从事务型数据库（OLTP）抽取数据，根据一定的规范对数据进行验证、编码、去重以及数据结构等一系列操作进行转换，最终把处理好的数据加载到分析型数据库（OLAP）中，当ETL处理过程非常复杂的时候，这时候就需要考虑采用高性能的技术解决方案来满足需求，ETL通常被设置为一个定期运行的任务，目的是为了及时将事务型数据仓库的数据同步到数据仓库中，尽可能保证数据的完整性。

数据一旦被导入到数据仓库中，就可以用来做查询和分析，常见的有两类查询，第一种类型是定期报表查询统计，用于计算与业务相关的统计数据，如收入、用户增长或生产输出。把这些指标组合汇总到报告中，可以帮助管理层评估业务的总体健康状况。第二种类型是即席查询，旨在支撑特定问题的答案用来作为企业关键性决策的依据，例如，通过查询公司营收和投放广告支出，以评估营销活动方案的有效性，本质上，这两类查询说到底都是通过在数据仓库中执行批处理任务，从而得到计算结果，如图FIgure1-3所示：

现如今，Apache Hadoop生态系统的组件已经成为很多企业不可或缺的IT基础架构，而不再是将所有数据都插入到关系数据库系统中，而是将大量数据(如日志文件、社交媒体或web点击日志)写入Hadoop的分布式文件系统(HDFS)、S3或其他大容量数据存储系统，如Apache HBase，这些数据存储系统花费很小的成本就可以提供巨大的存储容量。存储系统中的数据可以通过SQL-on-Hadoop引擎进行查询和处理，例如Apache Hive、Apache Drill或Apache Impala。不可否认的是，这些基础架构设施基本上仍然与传统的数据仓库体系结构相同。

有状态流处理

实际上，所有数据的产生都可以看做连续的事件流，试想一下，用户与网站或手机APP应用产生的互动，订单的信息，服务器产生的日志或者传感器测量等等，统统都可以算是事件流。事实上，很难找到一个一次性生成有限并且完整的数据集的例子。有状态流处理是用于处理无界事件流的应用程序设计模式，适用于公司IT基础结构中的许多不同用例，在我们讨论这些用例之前，我们先简单解释一下有状态数据流处理的工作原理。

任何处理事件流的应用程序都应该是有状态的、能够被存储并且支持中间数据访问，而不仅仅是简单做实时数据记录的转换，当一个应用程序接收到一个事件时，能够通过从事件状态中读取或写入的数据进行任意的计算，对于状态来说，其本身可以存储并访问不同的介质，包括程序变量、内存、本地文件、嵌入式数据库或者外部数据库系统等。

Apache Flink通常将应用程序状态存储在本地内存中，或者嵌入式数据库中，比如Redis、RocksDB，由于Flink是一个分布式系统，因此需要保障本地状态的安全性，避免当应用程序失败或者机器故障引起数据丢失的情况发生。为了防止这种情况的出现，Flink通过定期对应用程序的状态做一致性checkpoint（检查点），类似于快照，并持久化到远程的数据库中，在下一章中，我们会对状态以及状态一致性和Flink checkpoint机制进行详细的讨论，本章节不做展开，图1-4展示的是一个有状态的Flink流式处理程序。

有状态流处理程序可以接收来自很多不同渠道和形式的数据，通常从事件流的日志提取事件注入流程序中进行计算，将事件日志存储并分发到事件流中，在这个过程中，事件会以追加的形式有序地持久化到日志中，这是一个有序的过程，一旦事件写入就无法修改顺序。写入事件日志的流可以被相同或不同的消费者多次读取，基于日志只能被追加的属性，所有的事件始终以完全相同的顺序发布给下游的消费者。在实际的使用中，有几个基于事件日志的开源软件可以作为我们的选择，比如Kafka、RabbitMQ、ActiveMQ，其中以Apache Kafka最受欢迎，Kafka作为时下最火热的消息中间件，可以集成到很多不同场景的系统架构中，受到很多云计算服务厂商的青睐。

出于很多不同的原因，将Flink上的有状态流应用程序和事件日志系统搭配使用是非常合适的，在这种体系结构中，事件日志可以用来持久化不断输入的事件，并可以按确定性顺序进行重放。在出现故障的情况下，Flink可以通过先前保存的检查点恢复状态并且重置事件日志上的读取位置来恢复有状态的流应用程序，然后流应用程序会根据检查点重放（快速转发）来自事件日志的输入事件，在流中重新进行有效回放，这项技术用于程序故障恢复，同时也可以用于更新应用程序、修复缺陷以及修复先前得出的结果、支持将应用程序迁移到不同的集群中运行或者用于区分程序版本进行A/B测试。

正如上面所说，有状态的流处理是一种通用且灵活性高的架构设计，可以用来处理不同应用场景下的用例，接下来，我们会介绍三种比较有代表性的应用：

事件驱动型应用
数据管道型应用
数据分析型应用

虽然我们区分了有状态流处理的应用类型，目的是为了说明有状态流处理的通用性，实际上在真实的应用场景中，通常不会使用单独一种应用类型，一般会结合起来使用。

事件驱动型应用

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据接收到的事件进行数据计算、状态更新或其他外部动作。根据不同的业务逻辑，事件驱动的应用程序可以触发不同的操作，例如发送报警信息或分析电子邮件信息或将事件写入输出流作为新的事件流给其他的事件驱动程序使用。

事件驱动型应用程序有以下几种典型的用例：

实时推荐（比如用户在浏览电商网站时推荐产品）
模式检查或复杂事件处理（例如用于信用卡交易中的欺诈检测）
异常检测（比如试图侵入计算机网络检测）

事件驱动型应用是微服务的演进，微服务通过REST调用进行通信，基于事务型数据库或K-V数据库写入或读取数据；而事件驱动型应用则是利用事件日志进行通信，应用数据会以本地状态形式存储，图1-5显示了由事件驱动的流应用程序组成的服务体系结构。

图1-5中的应用程序通过事件日志进行关联，一个应用程序将其输出发送到下游事件日志，上游程序的输出结果可以作为输入事件给另一个应用程序进行消费，事件日志可以将发送器和接收器之间的关联关系实现解耦，并提供异步、非阻塞事件传输。每个应用程序都可以是有状态的，并且可以在本地管理自己的状态，而不需要访问外部数据存储，不仅如此，每个应用程序也可以单独或者关联起来运行。

相对于传统的事务型应用和微服务来说，事件型驱动应用有几个比较明显的优势，事件驱动型应用无须查询远程数据库，本地数据访问使得它具有更高的吞吐和更低的延迟。而由于定期向远程持久化存储的 checkpoint 工作可以异步、增量式完成，因此对于正常事件处理的影响甚微。事件驱动型应用的优势不仅限于本地数据访问。传统分层架构下，通常多个应用会共享同一个数据库，因而任何对数据库自身的更改（例如：由应用更新或服务扩容导致数据布局发生改变）都需要谨慎协调。反观事件驱动型应用，由于只需考虑自身数据，因此在更改数据表示或服务扩容时所需的协调工作将大大减少。

另外，事件驱动型应用程序对运行它们的流处理器有相当高的要求，不是所有的流处理器都适合运行事件驱动型应用程序。事件驱动型应用会受制于底层流处理系统对时间和状态的把控能力，Flink 诸多优秀特质都是围绕这些方面来设计的。它提供了一系列丰富的状态操作原语，允许以精确一次的一致性语义合并海量规模（TB 级别）的状态数据。此外，Flink 还支持事件时间和丰富的窗口逻辑操作，而且它内置的 ProcessFunction 支持细粒度时间控制，方便实现一些高级业务逻辑。同时，Flink 还拥有一个复杂事件处理（CEP）类库，可以用来匹配数据流中的模式，Apache Flink符合以上所有的要求，是事件驱动型应用非常好的选择。Flink 中针对事件驱动应用有一个天然的特性—— savepoint。savepoint 是一个一致性的状态快照，它可以用来初始化任意状态兼容的应用。在完成一次 savepoint 后，即可放心对应用进行升级或扩容，还可以启动多个版本的应用来执行 A/B 测试。

数据管道型应用

现如今的IT体系结构包括许多不同的数据存储媒介，如关系数据库和非关系型数据库系统、事件日志、分布式文件系统、内存缓存数据库和检索系统等等，以上所有的系统都能以不同的数据格式和数据结构存储数据，这样可以为不同数据库特定访问模式提供最佳的性能。通常，公司会将相同的数据存储在多个不同的系统中，目的是为了提高数据访问的性能，降低单一数据库的压力，例如，Webshop中提供的产品信息可以存储在事务数据库、Web缓存和全文检索引擎中；由于数据的复制，意味着不同数据存储系统之间的数据必须保持同步。

周期性ETL作业是解决不同数据存储系统直接数据同步问题的常用手段，但是通常延迟非常高，随着企业对实时性要求越来越高，周期性ETL无法满足很多要求低延迟的业务场景，这时候可以考虑使用事件日志进行动态分发，将变更的记录写入事件并进行快速分发，及时同步数据更新，这样一来，日志的消费者就会将这个更新过的数据记录同步到不同的数据存储介质中，根据不同的用例，数据在进入目标数据库之前需要先进行标准化和聚合处理。和周期性 ETL 作业相比，持续数据管道可以明显降低将数据移动到目的端的延迟。此外，由于它能够持续消费和发送数据，因此用途更广，支持的应用场景更多。

数据管道和 ETL 作业的用途相似，都可以转换、提取数据，并将其从某个存储系统移动到另一个。但数据管道是以持续流的模式运行，而非周期性触发，因此它支持从一个不断生成数据的源头读取记录，并将它们以低延迟移动到终点，要求在短时间内处理大量的数据，例如：数据管道可以用来监控文件系统目录中的新文件，并将其数据写入事件日志；另一个应用可能会将事件流物化到数据库或增量构建和优化查询索引。数据管道流处理器还支持各种source connector和sink connector，通过不同的连接器可以实现不同数据管道数据的关联和处理，Flink完全满足数据管道型应用需要的所有特性。

数据分析型应用

数据分析型应用根据实时性大致可以分为批处理和流处理两种类型。

批处理分析

其中最典型的处理方式就是ETL，ETL作业定期将数据导入到数据存储中，用于临时查询或生成报表，批处理的一个好处是，不需要关心数据存储的架构是基于数据仓库还是Hadoop生态系统的组件，虽然ETL技术在不断地改进，但是仍然存在一个很明显的缺点，对于数据分析还是存在着相当大的延迟。根据作业调度时间间隔和数据量的不同，有些任务需要运行几个小时甚至几天才能生成报表，意味着要得到分析结果需要等待相当长的时间，有时候会很大程度上影响企业的运营决策，错失商业机会，付出不小的代价。通过数据管道型应用导入数据到数据存储介质可以在一定程度上降低时间延迟，尽管如此，就算是连续的ETL作业，在执行查询事件之前还是会存在延迟，这种情况放在以前是能够被企业所接受的，但是呢，放在今天的话，人们更多的是希望可以做到实时采集数据并即刻响应数据的变化和快速得到查询分析结果，比如说，根据系统订单的状态，实时修改处理商品库存的变化。

流式处理分析
与批处理分析型应用不同的是，流式处理不需要周期性去触发作业，而是实时地处理不断输入的事件流，通过及时计算并合并最新的结果，达到低延迟的效果，类似数据库用于更新物化视图技术。通常来说，流应用程序将其计算结果存储在支持高效更新的外部数据存储中，例如数据库或K-V类型的存储系统中，另外，流分析应用的实时更新结果可应用到仪表盘，如图1-6所示。
流分析应用程序除了能用更短的时间合并事件的分析结果之外，还有一个相对不太明显的优势，传统的数据分析管道由几个独立的组件组成，比如ETL作业、存储系统，以及基于hadoop生态的数据处理引擎和调度器触发作业或查询，通常需要将这些组件进行编排，当程序出现故障时需要花费比较多的时间去排查错误。与之相反的是，有状态流应用程序的流处理器会负责处理所有这些数据处理步骤，包括事件摄入、连续计算（中间状态维护）和结果更新。不但如此，Flink提供exactly-once（状态一致性）机制，可以保证程序出现异常时进行正确的恢复并调整集群计算资源，诸如Flink这样的流计算引擎拥有事件时间机制、高吞吐量的特性，可以很短的时间内处理海量数据，输出正确的结果。
流分析型应用有下面几种较典型的场景：

1.实时监控移动设备的网络和流量

2.基于移动设备的用户行为分析

3.实时分析消费者数据

值得一提的是，虽然以上内容没有提到Flink的另一个功能特性，其实Flink也支持在流上执行SQL查询，通过执行SQL语句就可以得到与开发流处理应用程序一样的效果，在使用上更加简单，市场上已经有很多企业应用到实际的场景中了。

开源流处理的演进

其实流处理技术并非完全是新生技术，早在20世纪90年代末就已经出现有人研究这方面的模型，并且出现了商业化的产品，近些年来随着流处理技术被广泛使用，很大程度上驱动着开源流处理技术变得愈加成熟。在今天，开源的分布式流处理引擎在很多方面为不同的企业赋能，如零售行业、社交领域、移动通信、游戏行业和金融领域等方面，为什么开源技术能得到大量的使用呢？主要有两方面的原因：

开源意味着免费和开放，门槛低，容易被大众接受和使用。
由于开源社区的努力，很多开放者贡献了自己的代码，使得开源技术往更好、易用、高性能等好的方向快速发展，促进开源技术变得越来越成熟。

Apache 软件基金会拥有超过12个与流处理相关的项目，不断催生新的孵化项目成为新的开源分布式流处理引擎，以新的功能特性和自身优势向其他流处理引擎发起挑战，试图引起人们的关注，与其他流处理引擎形成良性竞争。同时，开源社区持续不断增加开源项目的功能特性和核心能力，不局限于解决单一的业务场景，逐步扩大流处理的边界，大有流批一体化的趋势，在这里我们简要回顾一下流处理技术发展的历史以及当前的形势。

历史回顾

第一代开源分布式流处理引擎出现在2011年，主要用于解决低延迟事件处理，达到毫秒级，并提供了容灾机制，避免在程序发生故障时出现数据丢失的情况。初期，这些系统只提供了低级API，没有内置保证结果一致性和正确性的语义，最终的结果往往取决于事件到达的时间和顺序，而且，就算事件没有被丢失，也会出现重复计算的情况。与批处理引擎相比，第一代开源的流处理引擎牺牲了结果的精确度，换来了低延迟响应计算结果，弥补了批处理的不足，有个折中的办法就是同时进行批处理和流处理作业，既保证了结果正确性又降低了时间延迟，这也是lambda架构设计出现的根本原因，如图1-7所示：

从图中可以看到，lambda架构的底层使用了Speed Layer层来解决传统周期性批处理延迟高的问题，事件日志进去lambda架构之后，会被同时写入批处理程序和流处理程序，此时，流处理程序可以快速计算结果并写入速度表（Speed Table）中，用于快速查询分析，而批处理程序则负责周期性处理数据得到准确的结果并存入表中，与流处理程序得到的结果进行校对，移除速度表中不准确的计算结果，最终程序对两张表的结果进行合并，这样既保证了数据的准确性又实现了低延迟。

lambda架构虽然不是最好的架构，因为其本身的架构设计，存在着很明显的缺陷，首先需要维护两套计算逻辑，开发的时候需要用不同的API，其次，流处理程序计算的结果会出现不准确性，相对来说，lambda体系本身比较复杂，所以很多人不选择使用它，尽管如此，还是存在不少的应用场景使用到了lambda架构。

基于第一代开源分布式流处理引擎存在的问题，2013年，第二代开源分布式流处理引擎出现了，并在第一代的基础上提供了更优秀的容错机制，更好地保证结果一致性，另外，相对于第一代提供的低级API，第二代封装了很多高级的API，大大丰富了API的类别，虽然第二代流处理引擎很多方面得到了提升，但是在时间延迟方面不升反降，时间延迟由毫秒级变为秒级，而且最终的结果还是取决于事件到达的顺序和时间。

直至2015年，第三代开源分布式流处理引擎才解决了计算结果取决于事件到达的顺序和时间这个问题，并成为第一个同时解决一致性计算且保证计算结果正确性的流处理引擎，不仅可以用于实时处理数据，还可以用于离线数据的计算，快速得到计算结果。不仅如此，这一代的流处理器同时满足了低延迟、高吞吐量的特性，解决了lambda架构的严重缺陷，lambda架构被在逐渐被新的流处理引擎所取代。除此之外，在计算资源管理方面，第三代流处理引擎支持集成YARN、Mesos或者Kubernetes等资源管理器，可以更好的控制资源合理分配，降低资源粒度，而且还支持升级应用程序代码或将作业迁移到不同的集群以及流处理器的版本向下兼容等特性，并保证不会丢失应用程序的当前状态。

Flink 速览

Apache Flink就是第三代流式处理引擎中的典型代表，具备很多卓越的特性，如低延迟、高吞吐量等，在这里列举Flink的部分优势：

丰富的时间语义，支持三种时间语义，processing-time、ingest-time、event-time，其中event-time语义提供了一致性结算结果支持，可以处理乱序数据，而process-time语义适用于实时性要求非常严格的应用程序。
状态一致性保证。
Flink实现了毫秒级别延迟，并且能够每秒处理数百万个事件，Flink应用程序可以扩展到在数千个cpu core上运行。
Flink具有层次分明的API，提供了三种不同的 API，每一种 API 在简洁性和表达力上有着不同的侧重，并且针对不同的应用场景。本书涵盖了DataStream API和底层ProcessFunction，常用于流处理操作(如窗口处理和异步通信)，还提供了精确控制状态和时间的接口。包括了SQL&Table API，本书不做展开说明。
Flink提供了丰富的connector连接器与外部存储系统连接，如Apache Kafka、Apache Cassandra、Elasticsearch、JDBC、Kinesis、HDFS和S3等存储媒介。
保证7x24小时全天候服务，提供高可用方案并将程序托管在YARN、Mesos和Kubernetes等高效的资源管理器上，动态调控资源，提升资源利用率。
能够更新应用程序代码并将作业迁移到不同的Flink集群中，而不会丢失应用程序的状态。
细粒度监控集群各项指标，以提前做好预警处理工作。
支持流批一体化。

除了以上的特性，Flink封装了很多易用的API接口，这对开发人员来说是一个非常友好的框架，在开发和测试的过程中，还可以在单核JVM处理器中通过IDE工具进行调试。

运行首个Flink 应用

接下来，我们指导你在本地集群运行你的第一个Flink应用程序，对随机生成的温度传感器数据进行转换和聚合操作，让你对Flink应用有个大概的了解。首先准备Flink集群运行的环境，JDK 1.8，Unix或Centos 系统，实在不行也可以在window是系统上安装虚拟机环境。

1.下载安装包，具体可以到Apache Flink官网下载不同的版本，这里以flink-1.7.1-bin-scala_2.12.tgz为例。

2.解压安装包

tar xvfz flink-1.7.1-bin-scala_2.12.tgz

3.启动集群
$ cd flink-1.7.1$ ./bin/start-cluster.sh
Starting cluster.Starting standalonesession daemon on host xxx.Starting taskexecutor daemon on host xxx.
4.在浏览器输入 http:// localhost:8081，进入flink webUI页面，默认只有一个slot，如图1-8所示。

5.下载本书示例的JAR文件

$ wget https://streaming-with-flink.github.io/\
examples/download/examples-scala.jar

6.在本地集群运行样例程序

$ ./bin/flink run \
-c
io.github.streamingwithflink.chapter1.AverageSensorReadings \
examples-scala.jar


提供任务之后会出现以下提示信息：
Starting execution of program
Job has been submitted with JobID
cfde9dbe315ce162444c475a08cf93d9

7.在Flink webUI点击Running Job可以看到提交运行的任务，点击对应的任务可以看到更多详细的指标，如图1-9所示。

8.计算结果会被标准输出到默认的文件中，可以在安装目录的log文件夹下看到，执行下面的指令即可。

$ tail -f ./log/flink--taskexecutor--.out 
执行命令之后，就会看到下面的输出信息，包括了SensorReading对象的id，时间戳，和平均温度
SensorReading(sensor_1,1547718199000,35.80018327300259)
SensorReading(sensor_6,1547718199000,15.402984393403084)
SensorReading(sensor_7,1547718199000,6.720945201171228)
SensorReading(sensor_10,1547718199000,38.101067604893444)

9.一旦提交任务，程序就会一直运行直到任务完成，不管最后是执行成功还是执行失败，也可以通过命令或者在界面上点击cancel按钮取消任务。

10.关闭集群

$ ./bin/stop-cluster.sh

以上我们完成了Apache Flink本地集群的安装部署，并且试着运行了第一个流应用程序，当然啦，目前为止，我们只是简单认识了Flink，对于Flink来说，可能勉强算得上刚入门，关于Apache Flink这个框架还有非常多的内容需要我们不断去学习，这也是本书的价值所在。

总结

本章节我们介绍了Apache Flink的有状态流处理的架构思想和常见的应用类型，讨论了很多不同的用例；对比了传统的数据基础架构，了解现阶段很多企业在数据采集、分析场景下的技术架构选型，企业对实时性有了更高的要求，从ETL到微服务再到流处理引擎这样一个演变的过程；回顾流处理引擎发展的历史，明白了流处理引擎是如何一步步提升优化，最后发展为如今炙手可热的技术，为企业提供了可靠可行的解决方案，得到市场的青睐，文章最后介绍了Apache Flink一些突出的特性并演示了单机部署Flink集群和运行第一个流应用程序。

批注：Flink支持批处理API和流处理API，即DataSet API和DataStream API，分别对应不同的应用场景，目前Flink社区正致力于实现真正的流批一体化，原理是将批处理看成流处理的一种特殊状态，把离线的数据看作有界的数据流，这样一来的话，流处理API同样适用于批处理。

你可能感兴趣的:(数据库,大数据,分布式,编程语言,hadoop)

星返邀请码是多少?(2024附星返app邀请码填写及获取指南)网络购物和智能省钱凌风导师
关于星返极速版邀请码2024年的最新汇总及填写步骤，由于我无法直接访问实时更新的数据库或官方公告，以下信息基于当前可获取的资料和一般经验进行总结：星返极速版邀请码最新汇总请注意：由于邀请码可能随平台政策、推广活动等因素变化，以下提供的邀请码仅供参考，具体有效性需以星返极速版官方发布的信息为准。常见邀请码：包括但不限于这些邀请码在多个渠道中被提及，但具体使用时请确认其有效性。官方渠道获取：最可靠的方
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
Netflix DGS 框架项目推荐
NetflixDGS框架项目推荐项目基础介绍和主要编程语言NetflixDGS框架是一个专为SpringBoot设计的GraphQL服务器框架，旨在简化Java开发者在SpringBoot环境中构建GraphQL服务的流程。该项目主要使用Java和Kotlin作为编程语言，充分利用了SpringBoot的强大功能和生态系统。项目核心功能NetflixDGS框架提供了丰富的功能，帮助开发者快速构建和
Netflix DGS 框架常见问题解决方案颜虹笛
NetflixDGS框架常见问题解决方案项目基础介绍NetflixDGS框架（DomainGraphService）是一个基于SpringBoot的GraphQL开发框架，专为Java开发者设计。它简化了在SpringBoot应用中集成GraphQL的过程，提供了丰富的功能和工具，帮助开发者快速构建和维护GraphQL服务。主要的编程语言是Java，框架依赖于SpringBoot和GraphQL技
实现分布式锁
在黑马点评项目中，在实现分布式锁的时候提到了实现的几种方式，本文来简单了解一下。一、MySQL、Redis、ZooKeeper是不是都是“数据库”？严格来说，三者的定位和功能差异很大，但广义上都可以视为“数据存储系统”，不过它们的核心设计目标和适用场景完全不同。我们可以从“数据模型”和“核心用途”两个维度区分：类型MySQLRedisZooKeeper核心定位关系型数据库（OLTP，事务型存储）内
Zabbix 企业级分布式监控部署伤不起bb zabbix 分布式
目录一、监控系统基础认知1.为什么需要监控？2.监控的5个层次（从底层到上层）3.监控系统的基本原理二、Zabbix系统详解1.Zabbix是什么？2.Zabbix核心功能3.Zabbix核心组件三、Zabbix部署实战（分布式架构）1.环境准备（4台服务器）2.部署ZabbixServer（核心步骤）步骤1：添加Zabbix源并安装依赖步骤2：配置数据库步骤3：导入Zabbix初始数据步骤4：配
部署Zabbix企业级分布式监控 YUNYINGXIA Zabbix
目录一、监控系统概述1.1监控的重要性1.2监控类型1.3监控层次划分二、监控系统的实现原理2.1模块组成2.2采集协议2.3监控模式2.4代理架构三、监控系统的开源产品四、Zabbix系统概述4.1初识zabbix4.2Zabbix的功能特性4.3Zabbix角色及架构五、部署流程5.1资源清单5.2基础环境配置5.3部署zabbixserver5.4zabbix页面配置5.5部署proxy5.
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
Java全栈开发性能优化全攻略：从数据库到前端 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 java 性能优化数据库 ai
Java全栈开发性能优化全攻略：从数据库到前端关键词：Java全栈、性能优化、数据库索引、后端缓存、前端渲染、响应时间、系统瓶颈摘要：本文从全栈视角出发，系统讲解Java开发中数据库、后端服务、前端页面三大核心层的性能优化方法。通过生活类比、代码示例和实战案例，带你一步步理解索引设计、缓存策略、懒加载、防抖节流等关键技术，掌握从“发现瓶颈”到“精准优化”的完整流程，最终实现用户体验与资源效率的双重
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
鸿蒙分布式数据同步全解析：用一套代码搞定多设备实时共享前端世界 harmonyos harmonyos 分布式华为
摘要在万物互联的趋势下，多设备间的数据协同成了刚需。从手机到平板、手表、电视，再到智能车载系统，用户希望数据无缝同步、实时一致。鸿蒙系统通过分布式数据库与分布式消息总线，为开发者提供了一套跨设备的数据同步机制，简化了开发流程。本文将从实际开发角度出发，带你用最简单的方式了解如何实现跨设备的数据同步。引言过去，我们经常需要自己去写Socket通信、同步逻辑、数据一致性校验，整个过程又难又容易出错。而
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
阿里云代金券更新，新增30元50元云产品通用代金券阿里云最新优惠和活动汇总
最近，阿里云代金券种类又增加新的代金券了，新增了30元和50元云产品通用代金券，最新的代金券总额达到1830元，包含了4张云产品通用代金券和3张云数据库专用代金券。如何领取阿里云代金券？用户只需进入阿里云官方云小站，点击代金券面额下的立即领取即可。点击进入阿里云小站最新版的阿里云代金券，统一在阿里云小站领取，云小站是集阿里云产品代金券、新用户专享特惠、热门活动入口为一体的综合优惠平台。云小站新代金
Flutter GetX 模板项目常见问题解决方案
FlutterGetX模板项目常见问题解决方案项目基础介绍FlutterGetX模板项目是一个基于Flutter框架的开源项目，旨在为开发者提供一个快速启动Flutter应用的模板。该项目使用了GetX包进行状态管理、路由和依赖注入，并采用了MVVM（Model-View-ViewModel）架构模式。主要的编程语言是Dart，这是Flutter框架的官方编程语言。新手使用注意事项及解决方案1.环
操作系统视角下鸿蒙应用多语言的多媒体处理实践操作系统内核探秘操作系统内核揭秘 OS harmonyos wpf 华为 ai
操作系统视角下鸿蒙应用多语言的多媒体处理实践关键词：鸿蒙操作系统、多语言支持、多媒体处理、分布式架构、应用开发实践摘要：本文从鸿蒙操作系统的底层设计出发，结合多语言适配与多媒体处理两大核心场景，通过“系统能力-应用开发-用户体验”的全链路分析，揭示鸿蒙如何通过分布式架构、统一资源管理和多端协同特性，简化开发者在多语言多媒体应用中的开发复杂度。文章包含原理讲解、代码示例和实战案例，帮助开发者快速掌握
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
QT下SQLite应用（二）菜鸟12号 qt 数据库 linux C++
一.简要介绍Qt是一个跨平台的C++应用程序开发框架，它提供了丰富的库和工具，用于开发GUI应用程序、数据库应用程序等。在Qt中，可以使用QSqlDatabase类和QSqlQuery类来操作SQLite数据库。此外，借助百度智能云文心快码（Comate）的智能代码生成功能，可以进一步提升开发效率。SQLite是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它
数据库第三次作业努力的代码农数据库
数据库第三次作业第三次作业1.SQL命令查询李勇选修的课程号，成绩；（嵌套查询实现）2.SQL命令查询选修“数据库”的学生学号、姓名；（嵌套查询实现）3.SQL命令查询有不及格课程的学生学号、姓名；（嵌套查询实现）4.SQL命令查询没有不及格课程的学生学号；（嵌套查询、集合查询实现，）5.SQL命令查询选修学生“1001”修过的全部课程的学生姓名。第三次作业1.SQL命令查询李勇选修的课程号，成绩
【MySQL高可用集群】MySQL的MGR搭建架构师之路魂数据库 mysql 数据库 MGR 高可用集群
前情提要：MySQL官方在5.7.17版本正式推出组复制（MySQLGroupReplication，简称MGR），使用类似zookeeper的多于一半原则。在一个集群由2N+1个节点共同组成一个复制组，一个事务的提交，必须经过N+1（也就是集群节点数/2+1）个节点决议并通过后才可以提交。这是目前MySQL数据库高可用与高扩展的最优解决方案。MGR有以下几个限制条件：1、存储引擎必须为Innod
数据库第一次作业和第二次作业 zsk123456_ 数据库
1.要求2.作业代码好的，这份“第一次作业”的核心内容是要求完成MySQL8.0数据库的安装（在Windows环境下），创建数据库mydb6_product，并在其中创建三张具有特定结构的表（employees,orders,invoices）。下面是完成此任务所需的正确步骤和SQL语句：核心任务分解与解决方案任务1:在Windows上安装MySQL8.0推荐方式（之一）：使用官方MySQLIns
Spring Cloud LoadBalancer 详解大手你不懂 spring Java Java项目实战 spring cloud spring 后端
在分布式系统快速发展的当下，服务间的调用日益频繁且复杂。如何合理分配请求流量，避免单个服务节点过载，保障系统的稳定性与高效性，成为关键问题。负载均衡技术便是解决这一问题的重要手段。SpringCloudLoadBalancer作为SpringCloud官方推出的负载均衡器，在微服务架构中发挥着至关重要的作用。本文将对其进行详细解析。一、SpringCloudLoadBalancer基本概念Spri
数据仓库是什么，一文读懂数据仓库设计步骤 Leo.yuan 数据数据仓库大数据人工智能数据库信息可视化
目录一、数据仓库：干啥用的？1.数据仓库是啥？2.数据仓库有啥大用？二、设计之前：准备啥？1.搞清楚业务要啥2.摸清数据家底3.划好仓库边界三、概念设计：搭框架1.定好主题域2.分清维度和事实3.画出概念模型四、逻辑设计：定细节1.设计维度表和事实表2.想好怎么存数据3.定好安全规矩五、物理设计：落地实施1.选好数据库软件2.优化数据库性能3.部署上线六、实施与测试：跑起来1.ETL：灌数据2.全
Spring, Spring Boot 和Spring MVC的关系以及区别棕豆兔＆面试总结 spring spring boot mvc
一、Spring简单来说,Spring是一个开发应用框架，主打轻量级、一站式、模块化，其目的是用于简化企业级应用程序开发。Spring的主要功能：管理对象，以及对象之间的依赖关系，面向切面编程，数据库事务管理,数据访问，web框架支持等。但是Spring具备高度可开放性，并不强制依赖Spring，开发者可以自由选择Spring的部分或者全部，Spring可以无缝继承第三方框架，比如数据访问框架(H
Oracle数据库性能调优完整指南.zip 高杉峻
本文还有配套的精品资源，点击获取简介：Oracle数据库性能优化是企业和数据库专业人员必须掌握的关键技能。Oracle作为广泛使用的数据库管理系统，其性能直接影响业务效率。本文档深入探讨了性能优化的各个方面，包括SQL优化、索引管理、表和分区设计、内存调优、系统资源管理、并发控制、日志和归档策略、性能监控和诊断，以及数据库架构优化和版本升级。通过综合考虑业务场景和硬件环境，结合Oracle提供的工
34、Oracle数据库调优全攻略 tequila 精通Oracle Oracle数据库调优 STATSPACK
Oracle数据库调优全攻略1.调优目标与策略调优的目标是让数据库满足业务需求，即解决依赖系统的用户所发现的问题。管理者和终端用户更关心报表能否按时生成以及数据能否快速返回屏幕，而非数据库内部的精妙程度。因此，需要明确他们认为重要的方面，然后进行调优以实现目标。例如，对于OLTP系统性能不佳的情况，应专注于让数据快速返回屏幕，而非修复偶尔出现的批处理作业。调优时要关注能带来最大收益的领域，并知道何
39、Oracle 数据库内存管理：SGA 与 PGA 配置指南 apple5 解读Oracle Oracle数据库 SGA配置 PGA配置
Oracle数据库内存管理：SGA与PGA配置指南1.手动配置SGA参数如果你想对系统全局区（SGA）的内存分配进行更多控制，可以从完全自动内存管理（AMM）切换到自动共享内存管理（ASMM）。启用ASMM很简单，只需将SGA_TARGET设置为所需的值。即使启用了ASMM，你仍然可以控制由SGA_TARGET控制的SGA组件的最小大小。此外，你还需要手动调整一些初始化参数。1.1理解自动共享内存
sqlplus连接Oracle 11g 数据库 zone-- sqlplus oracle
sqlplus连接Oracle11g数据库安装如下Oracle11g安装教程//Anhighlightedblocksqlplus有几种登陆方式比如：sqlplus"/assysdba"--以操作系统权限认证的oraclesys管理员登陆sqlplus/nolog--不在cmd或者terminal当中暴露密码的登陆方式conn/assysdbaconnsys/passwordassysdbasql
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文