DolphinScheduler社区

构建数据湖上低延迟数据 Pipeline 的实践

T 摘要 ·

云原生与数据湖是当今大数据领域最热的 2 个话题，本文着重从为什么传统数仓

无法满足业务需求? 为何需要建设数据湖？数据湖整体技术架构、Apache Hudi

存储模式与视图、如何解决冷数据频繁更新、如何在数据湖上进行准实时

分析、数据湖上调度为何选型 Apache DolphinScheduler、二次开发新特性以及规划等多个角度进行了阐述。

讲师介绍

杨华，T3 出行大数据平台负责人。Apache Hudi Committer & PMC、Apache Kylin Committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。曾在腾讯主导 Flink 在腾讯从落地到支撑日均近 20 万亿消息的处理。

赵玉威，T3 出行高级工程师，对大数据任务调度有深入研究。

这里也简要介绍一下 T3 出行：T3出行是由一汽、东风、长安联合腾讯、阿里巴巴等共同投资打造，有中国网约车“国家队”之称。

10 月 25 日的 COSCon’20 & Apache Roadshow - China 上，来自 T3 出行大数据平台负责人杨华和高级工程师赵玉威同学带来了题为《T3 出行构建数据湖上低延迟数据管道的实践》的分享。以下是分享视频:

什么是数据湖

引用来自 AWS 对数据湖的定义：

A data lake is a centralized repository that allows you to store all yourstructured and unstructured data at any scale. You can store your data as-is,without having to first structure the data, and run different types ofanalytics—from dashboards and visualizations to big data processing, real-timeanalytics, and machine learning to guide better decisions.

数据湖是一个集中式的存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析–从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

T3出行为什么需要数据湖

出行行业存在着下次出行前支付这个支付长尾问题，这造成了超长的业务闭环窗口，历史冷数据随机更新还有多级更新、链路长等特点，

T3 出行数据湖整体技术架构

数据湖框架 - Apache Hudi 简介

Hudi 插件化的架构

Hudi 存储模式与视图

T3 出行如何在数据湖上进行准实时分析

Hudi 与 DolphinScheduler 的集成

Why DolphinScheduler？

目前在业界应用较多的工作流调度系统包括 Oozie、Azkaban、Airflow 以及 Dolphin Scheduler 等。

从高可用、易用性、社区活跃度、可拓展性、与 Hadoop 生态圈集成以及维护成本几个维度进行了调研对比：

T3 出行从EasyScheduler 升级为 DolphinScheduler

DolphinScheduler 最近发布的 1.3.2 版本，性能较 EasyScheduler 有 2~3 倍的提升，主要体现在调度策略、执行效率、单位时间吞吐、堆积处理等几个核心性能指标上。

DolphinScheduler 与 EasyScheduler 压测对比

l调度密度：调度周期为 1h，工作流每隔 20 秒调度一次

l集群非调度时间内处于空闲状态，状态基本一致；在调度周期内只有工作流内的任务在耗用资源

DolphinScheduler 与 EasyScheduler系统运作的差异

在 DolphinScheduler 新架构(黑线)中 Master 职能更加丰富，Worker 则更加专注于执行。

在 EasyScheduler 中 Worker 不仅要主动“揽活”，还要负责“善后”工作。

任务的执行状态要通过访问数据库才能获得，对于那些任务复杂的工作流来说，时效性，任务吞吐，数据库压力都会成为调度性能的瓶颈。

DolphinScheduler 提升细节 - Netty 的引入

在 EasyScheduler 架构中，由于 Master 与 Worker 间没有直接交互的渠道，因而使得 Master 的职能比较单一，同时降低了 Worker 的执行效率；两者通过第三方系统“曲线”通信带来的弊端是：耗费了大量时间与资源在数据库与ZooKeeper的操作上，牺牲性能以保障系统能够运作，这种过度使用底层组件的方式也为集群及调度自身的稳定埋下了隐患。

DolphinScheduler 提升细节 - Balance 机制

在 EasyScheduler 中 Worker的使用率与负载率难以均衡：

lMaster 只负责工作流的拆分，无法管控任务如何分发；

lWorker 通过非公平锁的方式从 zk 的任务队列中竞争拉取任务，无法合理分配

为此 DolphinScheduler 提供了三种任务分配策略：随机，轮询和资源线性加权。

Ø随机分发策略与非公平锁竞争类似；

Ø轮询分发策略只能保证使用率与负载率的均衡；

Ø资源线性加权根据 cpu，内存及 loadAverage 加权计算出各 worker 负荷指标，择优分发

线性加权是 DolphinScheduler 默认的分发策略，计算密集型或者内存紧吃的任务不会轻易得再由负荷较高的 Worker 去执行。

DolphinScheduler 提升细节 - 易用性提升

除了性能方面，社区也一直致力于易用性的提升，使调度对运维人员及业务开发人员更加亲和友好。

Ø支持 K8s：DolphinScheduler 支持 K8s 部署；

Ø简化配置：分离 install.sh 中的参数配置和集群部署配置，install.sh 仅供集群部署，集群参数配置文件抽取到 conf/config/install_config.conf 中；

Ø工作流布局优化：提供一键美化工作流 DAG 功能，这对于通过 http client 与调度交互时非常实用。开发人员只需要关注 DAG 中的依赖关系即可，坐标信息，连接信息交给格式化工具来处理。

T3出行做了哪些改进

在充分利用 DolphinScheduler 原生功能特性的基础上，基于平台与业务的赋能驱动，T3对 DolphinScheduler 进行了大量嵌入式开发，目的是：

l解决调度嵌入平台时遇到的兼容性问题，同时提供插件化所需的接口规范

l提供定制化任务类型的支持与现有任务类型的拓展

l特定场景下原生调度模式的适配及重构

l数仓业务由 EasyScheduler 向 DolphinScheduler 升级的版本兼容性问题

T3 开发调度新特性 - 调度场景拓展

提供 httpclient 用于平台内组件与 DolphinScheduler 交互。多数情况下，平台内业务都倾向于通过消息触发的方式与调度进行交互，通过 http client 调度可以将核心功能完全释放到平台侧，对于上层业务来说甚至不感知调度的存在。

通过平台可以对调度上的任务进行 CURD 操作，以及状态信息及日志的查看

T3 开发调度新特性 - 服务滚动升级

调度系统自适应平台最终体现在服务的变更，服务集成滚动升级是自适应的前提与低成本的保障。

T3 开发调度新特性 - 策略式通知管理

订阅式策略通知管理，细粒度的任务监控体系：

ü策略动态配置、启用与屏蔽

ü细粒度事件管理，避免通知时出现“羊群效应”

ü同一事件源一对多告警群组

ü同一群组内同一事件源单一触发

T3 开发调度新特性 - 对接 Prometheus

ü服务集成 PushGateway 完成指标推送

ü多维度展示统计类与趋势变化类指标

ü易拓展，支持指标定制化，动态生效

T3 正在doing - 事件驱动调度模式

事件驱动调度：把不同系统的业务逻辑用事件关联起来，来驱动业务或者流程继续执行。

l内部事件源：例如调度中一个工作流中的子任务节点，它是通过所有父节点执行完毕这个事件驱动触发的；

l外部事件源：例如外部某个组件，当其激活后需要立即拉起任务，获取数据以提供服务，”激活”就是事件

l事件重放：对于外部事件源，事件驱动只需要业务方抛出事件即可（异步任务调度除外），调度则应该负责持久化该事件以具备重放能力。

l解决方案：配置定时任务轮询捕获外部事件源虽然可行，但调度使用监听来驱动事件无疑更节约资源，任务触发实时性更高；并且事件中可以传递任务所须的参数，当调度监听到事件后解析参数然后组装成对应的任务，调度执行。

T3 正在doing - 异步回调调度模式

异步任务调度：核心是提供结果回调功能。

l使用场景：调度上某个任务执行完成后，需要将这个消息传达到外部以推动第三方系统内业务的流转，必要时消息中需要携带第三方所需的配置参数，结果信息等

l与事件驱动调度的区别：

• 该场景下，调度系统任务结束成为了外部事件源

• 调度系统不能只是简单地将事件抛出，还需兼顾延迟回调，回调失败重试，回调审计等功能

l解决方案：对于回调的方式，可以参考 hudi 使用的 http 回调，或者 Kafka回调。

T3 正在doing - 策略式任务集成

当调度原生的任务类型无法满足业务线的个性需求时，需要不断地去适配，并且适配内容间鲜有共性，无法复用。对此，调度可以将差集内的任务执行策略交由业务自定义，自身负责策略模板的提供与执行策略的解析与管理。

T3 正在doing - 策略延迟调度

延迟任务调度：当任务提交后，在指定时间后延迟执行

l类似场景：包括用户下单后，一定时间后未付款自动关闭订单；用户打车后，一定时间后自动评价等

l常规方案与缺陷：扫描业务表，筛选出符合条件的数据对其进行操作，但存在扫描间隔影响任务延迟触发的精准性及可靠性等问题

l改进措施：调度维护延迟队列或在任务配置参数中新增延迟选项，即可以保证延迟执行的精确性，同时也能发挥自身高可用，可重试，能告警，提供管理视图的优势

T3的未来规划

T3 打算做TODO - 运维管理

提供指标概览页面单独的统计类运维概览页面，通过图表的形式展示任务相关的统计类指标据，例如：

l近 M 天内执行时长的 TopN 实例或异常次数最多的 TopN 实例的柱状图；

l可以标识数据量变化或调度负载变化的实例近 M 天运行时长的折线图；

l提供 SQL 类图表生成器，可定制化

T3 打算做TODO - 路由策略

Ø故障转移：失败策略可选配置“故障转移”，工作节点故障后，自动 failover 切换到一台运行正常的工作点上重试

Ø忙碌转移：增加等待策略，当任务处于 WAITING 状态达到一定时间，由管理节点重新分配，尝试将任务转移到相对空闲的工作节点

T3 打算做TODO - 审计日志

T3 打算做TODO - 数据血缘

Ø血缘关系管理：记录上下游数据资源编码，数据项编码和数据资源转换规则等数据血缘信息，动态更新

Ø血缘关系分析：对数据资源进行数据流向分析和溯源分析，更进一步可以提供数据血缘图谱展示

Ø血缘关系查询：支持按照数据类别、数据项和转换规则进行数据血缘查询Ø数据价值评估：通过数据血缘标出数据流转的引用/更新频次，展示各级数据的应用热度

T3 打算做TODO - 调度客户端

l状态管理：提供命令行，方便监管调度服务状态，提供统计信息

例如: scheduler restart worker-server; scheduler state 等

l任务管理器：不同于 http client 的 java 客户端形式，通过客户端脚本作为环境变量，以 shell 命令的方式拓展平台与调度的交互方式

例如: scheduler submit ...; schedulerkill ...; scheduler rerun ... 等

T3 打算做TODO - 跨集群调度与容灾

l跨集群调度：调度内服务通过标签的形式标识为不同集群组，提供类似 agent的服务由一个 ui 页面统一管理。

l容灾：在实现跨集群调度的基础上，主备集群容灾的全量与增量数据备份都可以通过调度定时完成，并通过调度提供的异步调度与事件通知机制来监管备份过程。

参与贡献

参与 DolphinScheduler 社区有非常多的参与贡献的方式，包括文档、翻译、布道、答疑、测试、以及代码等，此外也极其欢迎各种实践文章，DolphinScheduler开源社区非常期待您的参与。

贡献第一个PR(文档、代码) 我们也希望是简单的，试想如果是一个新人一上来就贡献1个改了几十个文件的 PR 将会对参与 review 的伙伴的心理造成多大的摧残，????

如何参与贡献链接：https://dolphinscheduler.apache.org/zh-cn/docs/development/contribute.html

文档github地址：https://github.com/apache/incubator-dolphinscheduler-website

来吧，DolphinScheduler开源社区需要您的参与，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是巨大的

DolphinScheduler's Github Repo 传送门

↓↓↓

https://github.com/apache/incubator-dolphinscheduler

喜欢❤️ DolphinScheduler 的话，别忘了 Star 收藏一下哟～

点击“阅读原文”获取会议PPT资料

\SpringBootDemo-1.0-SNAPSHOT.jar中没有主清单属性郭宝 JavaEE #Spring Boot jar maven java
背景：java-jar.\SpringBootDemo-1.0-SNAPSHOT.jar--spring.profiles.active=dev在运行打包以后的maven项目时，出现了如下报错信息解决办法：1、需要在项目根目录下的pom.xml文件中添加SpringBoot构建的插件org.springframework.bootspring-boot-maven-pluginrepackage<
Java学习第十七部分——Mocking 框架慕y274 java 学习开发语言
目录一.概述1.Mockito2.PowerMock3.EasyMock4.JMockit5.WireMock二.选择一.概述在Java开发中，Mocking框架是单元测试的重要工具，用于模拟外部依赖，从而隔离被测试代码与外部系统之间的交互。以下介绍几种流行的JavaMocking框架：1.MockitoMockito是目前最流行的JavaMocking框架之一，具有以下特点：-**简洁的API*
Java学习第三部分——面向对象基础慕y274 java 学习开发语言
目录一.简介二.类和对象（一）类（Class）（二）对象（Object）三.构造方法（Constructor）四.封装（Encapsulation）五.继承（Inheritance）六.多态（Polymorphism）（一）方法重载（MethodOverloading）（二）方法覆盖（MethodOverriding）七.抽象类和接口（一）抽象类（AbstractClass）（二）接口（Inter
介绍Flutter
一、Flutter的核心优势：不止于跨平台高性能原生渲染自研引擎Skia：直接调用GPU绘制UI，绕过原生控件依赖，消除JavaScript桥接性能损耗，实现60fps流畅动画。三棵树渲染机制（Widget-Element-RenderObject）：通过差异化更新最小化重绘范围，效率远超传统WebView方案。极速开发体验热重载（HotReload）：代码修改后毫秒级生效，保留应用状态调试，开发
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
LinkedList数据结构链表辞暮尔尔-烟火年年集合数据结构链表
LinkedList在Java中是一个实现了List和Deque接口的双向链表。它允许我们在列表的两端添加或删除元素，同时也支持在列表中间插入或移除元素。在分析LinkedList之前，需要理解链表这种数据结构：链表：链表是一种动态数据结构，由一系列节点组成，每个节点包含数据部分和指向列表中下一个节点的引用。双向链表：每个节点都有两个链接，一个指向前一个节点，另一个指向后一个节点。LinkedLi
ClickHouse【理论篇】02：ClickHouse架构和组件做一个有趣的人Zz ClickHouse clickhouse 架构
ClickHouse的架构设计深度适配OLAP（在线分析处理）场景，通过列式存储、向量化执行、分布式分片与副本等核心技术，实现了对海量数据的高效分析与实时查询。以下从核心存储引擎、查询处理流程、分布式架构、元数据管理、复制与分片等维度详细解析其内部架构与关键组件。一、核心存储引擎：MergeTree系列ClickHouse的存储引擎是其性能的核心，其中MergeTree系列引擎（如MergeTre
Kafka消费者分区分配机制与生产环境配置指南
引言在分布式系统中，Kafka作为高性能消息队列被广泛应用。本文将深入探讨Kafka消费者的分区分配机制，分析不同分配策略的优劣，并提供生产环境中的最佳配置实践。我们还将详细解析消费者常见问题的排查方法，特别是消费者未分配到分区的情况。一、Kafka消费者分区分配机制1.1基础分配原则Kafka通过消费者组（ConsumerGroup）机制实现消息的并行处理。核心规则包括：消费者组隔离：不同消费者
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
【性能优化与架构调优（一）】Java 应用性能优化
Java应用性能优化：从JVM到并发编程的全方位解析一、JVM调优：打造高性能运行环境1.1JVM内存模型与核心参数配置JVM内存结构主要包含堆(Heap)、栈(Stack)、方法区(MethodArea)、本地方法栈(NativeMethodStack)和程序计数器(PCRegister)。其中，堆是GC的主要区域，可通过以下参数进行调优：#JVM启动参数示例（以生产环境常用配置为例）java-
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
Kotlin 安装使用教程小奇JAVA面试安装使用教程 kotlin 开发语言 android
一、Kotlin简介Kotlin是JetBrains开发的一种现代、静态类型的编程语言，完全兼容Java，主要应用于Android开发、后端服务开发、前端Web开发（Kotlin/JS）和多平台开发（KotlinMultiplatform）。二、Kotlin安装方式2.1使用IntelliJIDEA（推荐）下载IntelliJIDEA（社区版即可）：https://www.jetbrains.co
AndroidStudio用华为手机调试出现联网即闪退问题的解决办法鹿小黑 Android android
第一步：调试一开始出现的错误：java.lang.NoClassDefFoundError:Failedresolutionof:Lorg/apache/http/impl/client/DefaultHttpClient解决方法：在manifest.xml文件中的application节点下添加第二步：执行上述步骤后调试出现的错误：java.io.IOException:Cleartexttra
聊聊JVM如何优化
首先应该明确的是JVM调优不是常规手段，JVM的存在本身就是为了减轻开发对于内存管理的负担，当出现性能问题的时候第一时间考虑的是代码逻辑与设计方案，以及是否达到依赖中间件的瓶颈，最后才是针对JVM进行优化。1.JVM内存模型针对JAVA8的模型进行讨论，JVM的内存模型主要分为几个关键区域：堆、方法区、程序计数器、虚拟机栈和本地方法栈。堆内存进一步细分为年轻代、老年代，年轻代按其特性又分为E区，S
手把手教你安装使用文心快码(Baidu Comate)
前言在编程的世界里，一款高效的集成开发环境（IDE）是每位开发者的得力助手。IntelliJIDEA作为一款功能强大的IDE，广泛应用于Java、Kotlin等编程语言的项目开发中。而百度智能云文心快码（Comate），则是一款能够显著提升编码效率的智能工具，它利用先进的AI技术，为开发者提供代码补全、语法检查等强大功能。接下来，本文将结合百度智能云文心快码（Comate），详细介绍Intel
ECMAScript 2025（ES15）核心新特性全面解析 neon1204 新技术 ecmascript 前端开发语言
ECMAScript2025（ES15）核心新特性全面解析本文深入探讨ECMAScript2025（ES15）的最新语言特性一、ES2025核心特性概览ECMAScript2025（通常简称为ES15）作为JavaScript的最新年度标准更新，引入了一些新特性，优化了一些问题。这些改进主要体现在以下方向：模块系统增强：原生JSON模块与延迟加载优化数据结构扩展：不可变数据类型与集合操作增强流程控
网络资源模板--基于Android Studio 实现的天气预报App 编程乐学 Android 网络项目模板安卓课设安卓大作业 androidstudio android 天气预报
目录一、环境说明二、项目简介三、项目演示四、部设计详情（部分)注册页面首页五、项目源码一、环境说明二、项目简介该项目是一个基于Android平台的天气预报应用，使用AndroidStudio开发工具和Java编程语言完成。项目采用了SQLite数据库存储用户数据和地区信息，通过OkHttp实现网络请求获取天气数据，并结合Gson解析JSON格式的天气信息。界面方面使用MaterialDesign设
云原生Kubernetes系列 | etcd3.5集群部署和使用降世神童云原生技术专栏云原生 kubernetes 容器
云原生Kubernetes系列|etcd3.5集群部署和使用1.etcd集群部署2.etcd集群操作3.新增etcd集群节点1.etcd集群部署 etcd3.5官网站点： https://etcd.io/docs/v3.5/op-guide/clustering/ https://etcd.io/docs/v3.5/tutorials/how-to-setup-cluster/[root@l
《Spring 中上下文传递的那些事儿》Part 5：分布式链路追踪——SkyWalking 实战指南大手你不懂 Spring 中上下文传递的那些事儿 Java项目实战 spring 分布式 skywalking
Part5：分布式链路追踪——SkyWalking实战指南随着微服务架构的广泛应用，分布式系统的链路追踪和性能监控变得尤为重要。在之前的文章中，我们探讨了如何使用Sleuth和Zipkin实现基本的链路追踪。今天，我们将介绍另一种强大的工具——ApacheSkyWalking，它不仅提供了全面的链路追踪功能，还支持JVM、数据库、消息队列等多方面的监控。本文将带你了解SkyWalking的核心概念
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
＜数据结构＞链表实战之单链表与双链表的增删改查叶落秋白数据结构与课程设计 c语言开发语言链表 visualstudio
✅作者简介：一名即将大三的计科专业学生，为C++，Java奋斗中✨个人主页：叶落秋白的主页系列专栏：数据结构干货分享推荐一款模拟面试、刷题神器进入刷题的世界前言上篇博客分享了创建链表传入二级指针的细节，那么今天就分享几个c语言课程实践设计吧。这些程序设计搞懂了的话相当于链表的基础知识牢牢掌握了，那么再应对复杂的链表类的题也就能慢慢钻研了。学习是一个积累的过程，想要游刃有余就得勤学苦练！目录单链表的
5G与边缘计算融合架构：核心能力下沉与网络切片技术解析码农老gou 5G 5G 边缘计算架构
15G核心能力下沉的技术逻辑在数字化转型浪潮中，网络架构正经历从中心化向分布式模式的根本性变革。5G网络与边缘计算的深度融合正在重构下一代智能连接架构，其核心在于将传统的中心化网络能力下沉至边缘节点，形成分布式算力网络。这种架构转型源于对超低时延、高带宽和海量连接的业务需求，驱动网络基础设施向用户侧靠拢，实现计算与通信的无缝融合。1.1分布式架构转型需求5G三大核心能力——增强移动宽带（eMBB）
阿里P7面试实录：靠这份“收割机指南”，他当场拿下60k+ offer！
“上周面了个前阿里P7，Java八股文和分布式架构原理背得炉火纯青，秒杀系统设计讲得比我们架构组还细！”一位蚂蚁金服面试官在技术群感慨道。细问才知，这位求职者刚用一份阿里内部流出的《后端offer收割机养成指南》突击了2周，直接通过6轮面试斩下60k+offer。2025年Java后端面试的3大新趋势（附高频考点）据近期阿里、字节、美团等大厂面试反馈，技术考察正发生显著变化：八股文升级场景化基础题
Fiber是什么? 醉方休 react.js
对React的Fiber架构的理解需要从React的核心目标与面临的挑战说起。它本质上是React16引入的全新协调（Reconciliation）引擎，旨在解决React15及之前版本在处理大型应用和复杂更新时遇到的根本性性能瓶颈和用户体验问题。核心理解：Fiber是什么？虚拟的底层数据结构：Fiber是对React组件、DOM节点或其他UI元素的轻量级、链式表示的JavaScript对象。每个
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
分布式数据库设计——分布式数据库的基础概念庄小焱数据库域数据库
摘要分布式数据库设计系列将分为四个大的部分。将从以下四方面让大家对分布式数据库的设计和使用有深入的理解。模块一，分布式数据历史演变及其核心原理。从历史背景出发，讲解了分布式数据库要解决的问题、应用场景，以及核心技术特点。模块二，分布式数据库的高性能保证——存储引擎。这是专栏的亮点内容，简要展示了现代数据库的存储引擎，比如典型存储引擎、分布式索引、数据文件与日志结构存储、事务处理。其中，我会特别介绍
javascript基础从小白到高手系列四千八百七十一：读取响应状态信息完美句号 javascript 开发语言 ecmascript
Response对象包含一组只读属性，描述了请求完成后的状态，如下表所示。属性值headers响应包含的Headers对象ok布尔值，表示HTTP状态码的含义。200~299的状态码返回true，其他状态码返回falseredirected布尔值，表示响应是否至少经过一次重定向status整数，表示响应的HTTP状态码statusText字符串，包含对HTTP状态码的正式描述。这个值派生自可选的H
javascript基础从小白到高手系列四千八百七十二：数值范围
除了"email"和"url"，HTML5还定义了其他几种新的输入元素类型，它们都是期待某种数值输入的，包括：“number”、“range”、“datetime”、“datetime-local”、“date”、“month”、“week”和"time"。并非所有主流浏览器都支持这些类型，因此使用时要当心。浏览器厂商目前正致力于解决兼容性问题和提供更逻辑化的功能。本节内容更多地是介绍未来趋势，而
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

构建数据湖上低延迟数据 Pipeline 的实践

你可能感兴趣的:(大数据,分布式,java,kubernetes,hadoop)