hf200012

Apache Doris 1.1 特性揭秘：Flink 实时写入如何兼顾高吞吐和低延时

导读：随着数据实时化需求的日益增多，数据的时效性对企业的精细化运营越来越重要，使得实时数仓在这一过程中起到了不可替代的作用。本文将基于用户遇到的问题与挑战，揭秘 Apache Doris 1.1 特性，对 Flink 实时写入 Apache Doris 的优化实现与未来规划进行详细的介绍。

背景

随着数据实时化需求的日益增多，数据的时效性对企业的精细化运营越来越重要，在海量数据中，如何能实时有效的挖掘出有价值的信息，快速的获取数据反馈，协助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

在这种形势下，Apache Doris 作为一款实时 MPP 分析型数据库脱颖而出，同时具备高性能、简单易用等特性，具有丰富的数据接入方式，结合 Flink 流式计算，可以让用户快速将 Kafka 中的非结构化数据以及 MySQL 等上游业务库中的变更数据，快速同步到 Doris 实时数仓中，同时 Doris 提供亚秒级分析查询的能力，可以有效地满足实时 OLAP、实时数据看板以及实时数据服务等场景的需求。

挑战

通常实时数仓要保证端到端高并发以及低延迟，往往面临诸多挑战，比如：

如何保证端到端的秒级别数据同步？
如何快速保证数据可见性？
在高并发大压力下，如何解决大量小文件写入的问题？
如何确保端到端的 Exactly Once 语义？

结合这些挑战，同时对用户使用 Flink+Doris 构建实时数仓的业务场景进行深入调研，在掌握了用户使用的痛点之后，我们在 Doris 1.1 版本中进行了针对性的优化，大幅提升实时数仓构建的用户体验，同时提升系统的稳定性，系统资源消耗也得到了大幅的优化。

优化

流式写入

Flink Doris Connector 最初的做法是在接收到数据后，缓存到内存 Batch 中，通过攒批的方式进行写入，同时使用 batch.size、batch.interval 等参数来控制 Stream Load 写入的时机。这种方式通常在参数合理的情况下可以稳定运行，一旦参数不合理导致频繁的 Stream Load，便会引发 Compaction 不及时，从而导致 version 过多的错误 (-235)；其次，当数据过多时，为了减少 Stream Load 的写入时机，batch.size 过大的设置还可能会引发 Flink 任务的 OOM。为了解决这个问题，我们引入了流式写入 ：

Flink 任务启动后，会异步发起一个 Stream Load 的 Http 请求。
接收到实时数据后，通过 Http 的分块传输编码 (Chunked transfer encoding) 机制持续向 Doris 传输数据。
在 Checkpoint 时结束 Http 请求，完成本次 Stream Load 写入，同时异步发起下一次 Stream Load 的请求。
继续接收实时数据，后续流程同上。

由于采用 Chunked 机制传输数据，就避免了攒批对内存的压力，同时将写入的时机和 Checkpoint 绑定起来，使得 Stream Load 的时机可控，并且为下面的 Exactly-Once 语义提供了基础。

Exactly-Once

Exactly-Once 语义是指即使在机器或应用出现故障的情况下，也不会重复处理数据或者丢失数据。Flink 很早就支持 End-to-End 的 Exactly-Once 场景，主要是通过两阶段提交协议来实现 Sink 算子的 Exactly-Once 语义。在 Flink 两阶段提交的基础上，同时借助 Doris 1.0 的 Stream Load 两阶段提交，Flink Doris Connector 实现了 Exactly Once 语义，具体原理如下：

Flink 任务在启动的时候，会发起一个 Stream Load 的 PreCommit 请求，此时会先开启一个事务，同时会通过 Http 的 Chunked 机制将数据持续发送到 Doris。

在 Checkpoint 时，结束数据写入，同时完成 Http 请求，并且将事务状态设置为预提交 (PreCommitted)，此时数据已经写入 BE，对用户不可见。

Checkpoint 完成后，发起 Commit 请求，并且将事务状态设置为提交 (Committed)，完成后数据对用户可见。

Flink 应用意外挂掉后，从 Checkpoint 重启时，若上次事务为预提交 (PreCommitted) 状态，则会发起回滚请求，并且将事务状态设置为 Aborted。

基于此，可以借助 Flink Doris Connector 实现数据实时入库时数据不丢不重。

秒级别数据同步

高并发写入场景下的端到端秒级别数据同步以及数据的实时可见能力，需要 Doris 具备如下几方面的能力：

事务处理能力

Flink 实时写入以 Stream Load 2PC 的方式与 Doris 进行交互，需要 Doris 具备对应的事务处理能力，保障事务基本的 ACID 特性，在高并发场景下支撑 Flink 秒级别的数据同步。

数据版本的快速聚合能力

Doris 里面一次导入会产生一个数据版本，在高并发写入场景下必然带来的一个影响是数据版本过多，且单次导入的数据量不会太大。持续的高并发小文件写入场景对 Doris 并不友好，极其考验 Doris 数据合并的实时性以及性能，进而会影响到查询的性能。Doris 在 1.1 中大幅增强了数据 Compaction 能力，对于新增数据能够快速完成聚合，避免分片数据中的版本过多导致的 -235 错误以及带来的查询效率问题。

首先，在 Doris 1.1 版本中，引入了 QuickCompaction，增加了主动触发式的 Compaction 检查，在数据版本增加的时候主动触发 Compaction。同时通过提升分片元信息扫描的能力，快速的发现数据版本多的分片，触发 Compaction。通过主动式触发加被动式扫描的方式，彻底解决数据合并的实时性问题。

同时，针对高频的小文件 Cumulative Compaction，实现了 Compaction 任务的调度隔离，防止重量级的 Base Compaction 对新增数据的合并造成影响。

最后，针对小文件合并，优化了小文件合并的策略，采用梯度合并的方式，每次参与合并的文件都属于同一个数据量级，防止大小差别很大的版本进行合并，逐渐有层次的合并，减少单个文件参与合并的次数，能够大幅的节省系统的 CPU 消耗。

Doris 1.1 对高并发导入、秒级别数据同步、数据实时可见等场景都做了针对性优化，大大增加了 Flink + Doris 系统的易用性以及稳定性，节省了集群整体资源。

效果

通用 Flink 高并发场景

在调研的通用场景中，使用 Flink 同步上游 Kafka 中的非结构化数据，经过 ETL 后使用 Flink Doris Connector 将数据实时写入 Doris 中。这里客户场景极其严苛，上游维持以每秒 10w 的超高频率写入，需要数据能够在 5s 内完成上下游同步，实现秒级别的数据可见。这里 Flink 配置为 20 并发，Checkpoint 间隔 5s，Doris 1.1 的表现相当优异。具体体现在如下几个方面：

Compaction 实时性

数据能快速合并，Tablet 数据版本个数维持在 50 以下， Compaction Score 稳定。相比于之前高并发导入频出的 -235 问题，Compaction 合并效率有 10+ 倍提升。

CPU 资源消耗

Doris 1.1 针对小文件的 Compaction 进行了策略优化，在上述高并发导入场景，CPU 资源消耗下降 25%。

QPS 查询延迟稳定

通过降低 CPU 使用率，减少数据版本的个数，提升了数据整体有序性，从而减少了 SQL 查询的延迟。

秒级别数据同步场景（极限大压力）

单 BE 单 Tablet，客户端 30 并发极限 Stream Load 压测，数据在实时性 < 1s，Compaction Score 优化前后对比

使用建议

数据实时可见场景

对延迟要求特别严格的场景，比如秒级别数据同步，通常意味着单次导入文件较小，此时建议调小 cumulative_size_based_promotion_min_size_mbytes，单位是 MB，默认 64，可以设置成 8，能够很大程度提升 Compaction 的实时性。

高并发场景

对于高并发的写入场景，可以通过增加 Checkpoint 的间隔来减少 Stream Load 的频率，比如 Checkpoint 可以设置为 5-10s，不仅可以增加 Flink 任务的吞吐，也可以减少小文件的产生，避免给 Compaction 造成更多压力。

此外，对数据实时性要求不高的场景，比如分钟级别的数据同步，可以增加 Checkpoint 的间隔，比如 5-10 分钟，此时 Flink Doris Connector 依然能够通过两阶段提交 +checkpoint 机制来保证数据的完整性。

未来规划

实时 Schema Change

目前通过 Flink CDC 实时接入数据时，当上游业务表进行 Schema Change 操作时，必须先手动修改 Doris 中的 Schema 和 Flink 任务中的 Schema，最后再重启任务，新的 Schema 的数据才可以同步过来。这样使用方式需要人为的介入，会给用户带来极大的运维负担。后续会针对 CDC 场景做到支持 Schema 实时变更，上游的 Schema Change 实时同步到下游，全面提升 Schema Change 的效率。

Doris 多表写入

目前 Doris Sink 算子仅支持同步单张表，所以对于整库同步的操作，需要手动在 Flink 层面进行分流，写到多个 Doris Sink 中，这无疑增加了开发者的难度，在后续版本中我们也将支持单个 Doris Sink 同步多张表，这样就大大的简化了用户的操作。

自适应的 Compaction 参数调优

目前 Compaction 策略参数较多，在大部分通用场景能发挥较好的效果，但是在一些特殊场景下并不能高效的发挥作用。我们将在后续版本中持续优化，针对不同的场景，进行自适应的 Compaction 调优，在各类场景下提高数据合并效率，提升实时性。

单副本 Compaction

目前的 Compaction 策略是各 BE 单独进行，在后续版本中我们将实现单副本 Compaction，通过克隆快照的方式实现 Compaction 任务，减少集群 2/3 的 Compaction 任务，降低系统的负载，把更多的系统资源留给用户侧。

作者：张家锋
链接：https://juejin.cn/post/7127084589389971469
来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(Doris,flink,大数据,apache,doris)

Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
阿里云服务器使用教程：CentOS 7 安装JDK及Tomcat详细步骤（以jdk1.8、tomcat9.0.37为例）蓝多多的小仓库云服务器配置及使用服务器阿里云 java
目录1、下载JDK及Tomcat的安装包并上传至服务器2、安装JDK3、安装Tomcat4、Tomcat启动后无法打开Tomcat首页的原因1、下载JDK及Tomcat的安装包并上传至服务器（1）下载JDK1.8版本压缩包官网：JavaDownloads|Oracle（2）下载Tomcat9.0.37的安装包官网：ApacheTomcat®-Welcome!
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Apache Tomcat 9.0.37 压缩免安装版松京焕Max
ApacheTomcat9.0.37压缩免安装版apache-tomcat-9.0.37-windows-x64.zip项目地址:https://gitcode.com/open-source-toolkit/94318简介本仓库提供了一个经过压缩的ApacheTomcat9.0.37免安装版本。该版本无需复杂的安装步骤，解压后即可直接使用，非常适合快速部署和开发环境使用。资源文件文件名:apac
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
Apache OFBiz路径遍历漏洞(CVE-2024-36104) WuY1nSec 漏洞复现 apache
0x01漏洞描述ApacheOFBiz是美国阿帕奇（Apache）基金会的一套企业资源计划（ERP）系统。该系统提供了一整套基于Java的Web应用程序组件和工具。ApacheOFBiz18.12.14之前版本存在命令执行漏洞，该漏洞源于ControlFilter对路径限制不当导致用户能够访问ProgramExport导出功能执行Groovy代码。0x02影响版本ApacheOFBiz<18.12
Java通过Apache POI操作Excel IT__learning 数据分析 java apache excel
1、添加依赖org.apache.poipoi3.9org.apache.poipoi-ooxml3.9joda-timejoda-time2.10.12、读EXCELpublicstaticvoidread()throwsException{FileInputStreamstream=newFileInputStream("D:\\Test\\file.xlsx");//1.创建工作簿对象,并指
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
向量库集成指南三月七꧁ ꧂ langchain+llm 集成学习自然语言处理语言模型机器学习人工智能 gpt llama
文章目录向量库集成指南Chroma集成Pinecone集成MiLvus集成向量库集成指南向量库是一种索引和存储向量嵌入以实现高效管理和快速检索的数据库。与单独的向量索引不同，像Pinecone这样的向量数据库提供了额外的功能，例如，索引管理、数据管理、元数据存储和过滤，以及水平扩展。特别是在处理大数据和复杂查询时，向量库在多种应用场景中发挥着关键作用。其中，语义文本搜索是一个典型的应用，用
Maven的安装配置 2301_82243979 作者\/maven java
（注：文章是前段时间写的忘记发了，防止丢失在此记录一下）Maven是Apache下的纯Java开发的开源项目,是一个项目管理工具,使用Maven对项目进行构建,依赖管理。依赖管理就是一个项目中要使用第三方jar包才可以运行。Maven正是对这些jar包进行规范化管理，所以在Maven的项目中只需要在pom.xml中添加jar包的坐标,自动从Maven仓库中下载jar包,运行即可。Maven项目对比
elk的相关的基础 weixin_43806846 elk
以下是关于ELK（Elasticsearch,Logstash,Kibana）的200个基础问题及其答案，涵盖了ELK的核心概念、组件、配置、使用场景、优化等方面。Elasticsearch基础**什么是Elasticsearch？**答：Elasticsearch是一个分布式、RESTful的搜索和分析引擎，基于ApacheLucene构建。**Elasticsearch的主要用途是什么？**答
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
Mybatis的基本使用学c真好玩 mybatis
MyBatis简介MyBatis用于持久层框架,持久层是对数据库操作的部分，前版本iBatis由Apache软件基金组织进行更名并维护。特点:简化数据库的操作SQL映射灵活(半ORM框架)支持高级映射易于集成维护配置动态SQL缓存机制功能：替代JDBC,JDBC是java中提供的用于操作数据库的技术及方案数据库的连接控制难。连接池SQL语句硬编码。将sql语句存放到xml配置文件中参数传递问题。提
IDEA项目maven project没有出现plugins和Dependencies 冬瓜生鲜 IDEA Maven
背景：今天学习Springboot，但是用的apache-maven3.0，导入springboot1.5.19，Maven项目老是爆红线，还没有plugins和Dependencies方案一：方案二：jdk+SpringBoot+maven版本不对《我把maven版本换高，就成功解决了》Springboot版本SpringFrameworkjdk版本maven版本1.2.0版本之前63.01.2
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
深入理解Tomcat：Java Web服务器的安装与配置杨凯凡 JavaWeb java tomcat
大家好！今天我们来聊聊JavaWeb开发中最重要的工具之一——ApacheTomcat。Tomcat是一个开源的JavaServlet容器和Web服务器，它是运行JavaWeb应用程序的核心环境。无论是开发、测试还是部署JavaWeb应用，Tomcat都是不可或缺的工具。本文将详细介绍Tomcat的安装、配置以及常见问题的解决方法，帮助你快速上手并深入理解Tomcat的工作原理。准备好了吗？让我们
Tomcat：开源Web服务器的中流砥柱互联网动态分析 tomcat
在当今的软件开发领域，Web服务器扮演着举足轻重的角色。它们不仅负责处理客户端的请求，还负责将相应的资源返回给客户端。而在众多Web服务器中，ApacheTomcat凭借其开源、稳定、高效的特点，成为了众多开发者和企业的首选。本文将深入探讨Tomcat的各个方面，包括其背景、功能、配置以及在现代Web开发中的应用。一、Tomcat的背景Tomcat，全称ApacheTomcat，是由Apache软
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
Linux系统之部署记忆配对网页小游戏江湖有缘玩转小游戏合集 linux 服务器 web 小游戏
Linux系统之部署记忆配对网页小游戏一、小游戏介绍1.1小游戏简介1.2项目预览二、本次实践介绍2.1本地环境规划2.2本次实践介绍三、检查本地环境3.1检查系统版本3.2检查系统内核版本3.3检查软件源四、安装Apache24.1安装Apache2软件4.2启动apache2服务4.3查看apache2服务状态4.4防火墙设置4.5浏览器测试web服务五、部署小游戏5.1下载小游戏源码5.2查
30个节点的Doris集群，每个节点有2块7TB的SSD盘，12块8TB的机械盘，分区和分桶的最佳实践 fzip Doris Doris分区分桶
针对30个节点（每个节点配备2块7TBNVMe盘+12块8TBSATA盘）的Doris集群，以下是分区与分桶的最佳实践方案：一、硬件资源规划与存储优化存储介质分层•NVMe盘：用于存储热数据分区（如最近3天数据）、元数据和高频查询表，利用其高IOPS特性提升实时查询性能。•SATA盘：存储冷数据分区（如历史数据）、大宽表和批量导入的中间数据，通过成本优势支撑海量存储。磁盘负载均衡•每个节点的14块
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
如何解决 Apache 直接显示 PHP 源码问题？ apachephp
在设置web服务器时，您可能会遇到浏览器直接显示原始PHP代码的问题。这通常意味着您的服务器没有正确处理PHP文件。让我们看看为什么会发生这种情况，以及如何在基于Debian和RHEL的系统上修复它。可能的原因PHP模块没有在Apache中正确安装或配置。Apache配置中.php文件没有链接到PHP模块。.htaccess文件中有错误。1.安装配置PHP首先，确保安装了PHP和ApachePHP
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他