DolphinScheduler社区

突破单点瓶颈、挑战海量离线任务，Apache Dolphinscheduler在生鲜电商领域的落地实践

点亮 ⭐️ Star · 照亮开源之路

GitHub:https://github.com/apache/dolphinscheduler

精彩回顾

近期，食行生鲜的数据平台工程师单葛尧在社区线上 Meetup 上给大家分享了主题为《Apache Dolphinscheduler在食行生鲜的落地实践》的演讲。

随着大数据的进一步发展，不管是离线任务量还是实时任务量都变得越来越多，对调度系统的要求也越来越高，不仅要求系统稳定还要求操作简单，上手方便。

而 Apache Dolphinscheduler 就是当下非常流行且好用的一款调度系统。首先它是分布式运行且是去中心化的，其次有一个非常好的页面，使得调度的任务变得非常容易上手。

讲师介绍

单葛尧

食行生鲜数据平台工程师

文章整理：硕磐科技-刘步龙

今天的演讲会围绕下面三点展开：

背景介绍
实施落地
元数据系统 Datahub 与 Dolphinscheduler 集成

背景介绍

我司食行生鲜是一家采用“预订制”模式，通过全程冷链配送和社区智能冷柜自提方式，为用户提供优质生鲜服务的新零售企业。

随着业务发展，大量的离线同步及计算任务开始对我们的数据架构的易用性与稳定性带来了挑战。

01 数据架构

上图是我们目前的基础架构体系，主要是批处理和流处理。批处理主要是以 Hive 和 Spark 为主的的全量数仓的分级计算。流处理以 Flink 为主，主要用于用户轨迹实时 ETL 和实时业务监控，目前采用美柚开源的巨鲸平台，后续会陆续迁移 Apache 新晋项目 StreamPark 中，它支持多个版本的 Flink，提供一系列开箱即用的连接器，大大减轻了开发部署实时任务的复杂度。

我们的数据来源有 MySQL、PostgreSQL、物流供应链端的 SQLServer 数据、同行的数据及风控类的数据。相对应的日志类数据非常多且复杂，故数据类型也多种多样。

我们的业务主体有两种：业务产生的数据，比如说用户去下单，用户的各种余额，积分优惠券；**埋点系统的轨迹数据，**比如说用户的点击、下单、进入商品详情等行为轨迹类操作；

一般来说，T+1的数据采用离线计算，轨迹数据用的是实时计算。

抽数工具是以 Sqoop 为主，其次是 binlog 消费，对于部分不支持的数据源，就用了 Apache SeaTunnel。

经过数仓的复杂计算之后，我们的下游数据的 OLAP 场景主要以 TiDB 和GreenPlum 为主。

TiDB 运用于业务的查询，比如查询近7日某商品的购买量；

GreenPlum 主要以内部的看板为主。比如集团核心的财务指标，运营部门的运营成果及绩效指标；另外会用 HBase 存储一些维度数， ElasticSearch 存储一些算法模型训练出的画像结果。

**Kylin 用于指标体系。**它服务于我们内部的指标计算。比如站点状态的监控，展现业务成果的各维度。比如今天的实时订单情况，是否需要向供应链增派人力，最近下单的数据流向是否有猛增等现象，以此来调整销售策略。

02 DMP的能力与组成

任务数量随着业务发展日益增长，数据资产的管理、数据质量的监控等问题愈发严峻，DMP（Data Management Platform）的需求应运而生。

一般而言，DMP 衍生出数据应用，数据应用包括以下能力：

**决策支持类：**主题报表（月度/季度/年度/专题）、舆情监控、热点发现、大屏数据可视化展示等；

**数据分析类：**交互式商业智能、OLAP分析、数据挖掘、数据驱动的机器学习等；

**数据检索类：**全文检索、日志分析、数据血缘分析、数据地图等；

**用户相关：**用户画像服务、用户成长/流失分析及预测、点击率预测、智能推荐等；

**市场相关：**数据服务于搜索引擎、数据服务于推荐引擎、热点发现、舆情监控等；

**制造生产相关：**预测性维护、生产过程实时数据监控、数字孪生等；

实施落地

日益增长的业务系统数据催生了对调度系统的高可用要求，原有自研的单节点调度系统不再适合我们当前的业务体量。

我们开始在市面上调研新的调度工具，然而我们不仅需要调度系统是分布式高可用，还能简单易用，对无编程经验的分析师们提供友好的交互体验，对开发人员也可以支持高扩展性，便于后期可以随着业务增长良好的扩展其可支持的任务类型及集群规模。

01 选择Apache DolphinScheduler

最终我们选择了海豚调度，然而对于我司调度系统的发展经历了几个工具的迁移。

最开始用的是 Azkaban ，因为一些历史原因，后续弃用了 Azkaban ；随后自研了一套调度系统，而随着业务数据的激增，自研系统存在的一个致命问题：该系统为单点式，没有办法扩展资源，只能单机运行；

去年六月份，我们对 AirFlow 和 Dolphinscheduler 做了一个调研。面对业务场景，我们希望以 SQL 的形式去定义 flow ；希望系统以分布式的形式运行，而不是单机，以此来解决单机的瓶颈问题；

AirFlow 的技术栈是 Python，而公司主要是以 Java 为主；

经过比较，我们最终选择了 Dolphinscheduler 。

02 实施落地

去年6月，首次在生产环境接入了 DolphinScheduler 的1.3.6版本，经过业务的锤炼与社区的共建，现已成功更新至3.0.0，至今服务于我司一年有余，平均每日稳定运行6000+任务。

03 任务执行

我们在使用 DolphinScheduler 时，主要使用其 Shell 组件，内部封装了 Hadoop 相关 Tools ，用来通过 Shell 提交相关 SQL ，并指定任务提交的 Yarn 资源队列。

我们根据 DolphinScheduler 内部的五个优先级 HIGHEST、HIGH、MEDIUM、LOW、LOWEST 也分别创建了五个对应的 Yarn 资源队列，便于根据流程的优先级提交到指定的优先级队列，更好的去利用并分配资源。

在原有的 Worker 线程池的等待队列中，把从原有的 LinkedBlockingQueue 转换 PriorityBlockingQueue ，以实现超 Worker 其 exec-threads 时可以依照其设定的优先级重新排序，实现高优先级任务在出现异常时，可以在资源较满的情况下实现“插队”效果。

04 告警策略

DolphinScheduler 提供了开箱即用的多种告警组件。

Email 电子邮件告警通知
DingTalk 钉钉群聊机器人告警，相关参数配置可以参考钉钉机器人文档。
EnterpriseWeChat 企业微信告警通知相关参数配置可以参考企业微信机器人文档。
Script 我们实现了 Shell 脚本告警，会将相关告警参数透传给脚本，在 Shell 中实现相关告警逻辑，如果需要对接内部告警应用，这是一种不错的方法。
FeiShu 飞书告警通知
Slack Slack告警通知
PagerDuty PagerDuty告警通知
WebexTeams WebexTeams告警通知相关参数配置可以参考WebexTeams文档。
Telegram Telegram告警通知相关参数配置可以参考Telegram文档。
HTTP Http告警，调用大部分的告警插件最终都是Http请求。根据 Alert SPI 的设计，为其扩展了两个插件：内部OA通知+阿里云电话告警，以保证服务的可用性及数据产出的及时性。 DolphinScheduler 的 Alert SPI 设计的相当优秀，我们在新增插件时，只需关注扩展 org.apache.dolphinscheduler.alert.api.AlertChannelFactory 即可。另外，DolphinScheduler 的告警覆盖场景也相当广泛，可以根据工作流及任务的平时的完成时间来设置超时时间，与新出的数据质量模块相结合，可以较好的保证数据的及时性与准确性。

元数据系统 Datahub与 Dolphinscheduler 集成

Datahub由 LinkedIn 开源，原来叫做 WhereHows 。经过一段时间的发展 Datahub 于2020年2月在 Github 开源，首先简单介绍一下 Datahub 这个系统。

01 总体架构

DataHub 是一个现代数据目录，旨在实现端到端的数据发现、数据可观察性和数据治理。

这个可扩展的元数据平台是为开发人员构建的，以应对其快速发展的数据生态系统的复杂性，并让数据从业者在其组织内充分利用数据的价值。

02 搜索元数据

DataHub 的统—搜索支持跨数据库、数据湖、BI平台、ML功能存储、编排工具等显示结果。

支持的 Source 相当丰富，目前截止v0.8.45已有

Airflow、Spark、Great Expectations、Protobuf Schemas、Athena、Azure AD、BigQuery、Business Glossary.ClickHouse.csv、dbt、Delta Lake、Druid、ElasticSearch.Feast、FileBased Lineage、File、Glue.SAP HANA、Hive、lceberg.Kafka Connect、Kafka、LDAP、Looker、MariaDB、Metabase、Mode、MongoDB、MicrosoftsQLServer、MySQL、Nifi、Okta、OpenAPI、Oracle,Postgres、PowerBl、Presto onHive、Pulsar、Redash.Redshift、S3 Data Lake.SageMaker、Salesforce、Snowflake、Other SQLAlchemydatabases、Superset.Tableau、Trino、Vertica等。

03 血缘支持

可通过跨平台、数据集、ETL/ELT管道、图表、仪表板等跟踪血缘,快速了解数据的端到端的流向。

与市面上其他元数据系统不—样的是，Datahub 一直支持从数据集到B看板的整个流向的追踪，已经为我们提供了如 Redash、SuperSet 之类开源看板的元数据接入。

04 元数据的抽取步骤

**第一步：**开启元数据采集和创建密钥的权限；

**第二步：**选择所摄取血缘的数据源（除了当前所支持的外，也支持自定义）；

**第三步：**配置采集血缘的表以及下游走向；

**第四步：**设置时区与定时，元数据采集就会像我们的调度系统一样，定时调取完成采集。

05 Metadata Ingestion架构

Pull-based lntegration

DataHub 附带一个基于 Python 的元数据摄取系统，该系统可以连接到不同的源以从中提取元数据。然后，此元数据通过 Kafka 或 HTTP 推送到 DataHub 存储层。元数据摄取管道可以与 Airflow 集成，以设置计划摄取或捕获血缘。

Push-based Integration

只要您可以向 Kafka 发出元数据更改建议(MCP)事件或通过 HTTP 进行 REST 调用，您就可以将任何系统与 DataHub 集成。

为方便起见，DataHub 还提供简单的 Python 发射器供您集成到系统中，以在源点发出元数据更改(MCP-s)。

06 Datahub与Dolphinscheduler集成

方案一 通过 Kafka 作为 MetadataChangeEvent 发出简单的 dataset 到 dataset 的血缘

import datahub.emitter.mce_builder as builder

**方案二：**通过Rest去emit血缘关系。

import datahub.emitter.mce_builder as builder

上述形式适用于所有 dataset 到 dataset 的血缘关系构建，可以在任何数据集处理下使用。

后续在社区的贡献计划

01 对流处理的支持（flink stream与debezium）

在社区PMC蔡顺峰的帮助下，**现在已经完成了对流任务的初步集成，**可以通过 Flink sdk 去提交任务到 Yarn ，可视化的启动、停止、Savepoint，直观的在列表里看到任务的 Yarn Application ID 和 Job ID 等信息。

接下来的TODO LIST顺峰已经写在 related items 里

flink 集群管理
支持 flink sql
增加 flink 的metric
支持其他流任务（如 kafka connector）
事件驱动调度（最终目标）

02 与版本管理工具的集成（GIT与SVN）

社区确实是能人辈出，我们准备的这个 RoadMap ，我不仅在 DSIP 里找到了提案，而且提案还提到了以下几个资源插件：

GitHub
GitLab
Amazon S3
AliCloud OSS

当然，基于底层 Decorator implementation 的存在，该 Resource Plugin 会非常的易于扩展。

当时在准备 Data Quality 相关开发时，就惊喜的发现社区提供了相关的提案，我们仅是在3.0.0上稍作改动，就投入了生产环境的使用，提供了我们数据准确性、及时性等多重保障。

我们后期准备在该基础上扩展社区的 HiveCli 插件，并把我们目前的工程逐步从 SVN 迁移到 Git 上，以摆脱目前纯 Shell 使用，让分析师们更关注于业务。

03 更好的与yarn集群及队列的管理与使用

我司目前的所有资源调度都是基于 Yarn 的，包括所有的 MapReduce、Spark及Flink 任务，统一都由 Yarn 来管理。

由于历史遗留原因及测试生产环境的隔离等因素，目前集群存在多套 Yarn 环境，每个 Yarn 的资源总量及策略配置各不相同，导致管理困难。

再者，基于 DolphinScheduler 设计来看，Yarn 队列与执行的用户绑定，用户来定义默认的租户及提交队列。这个设计不太符合生产环境的要求，租户来定义数据的权限，队列来定义任务的资源，后面我们会把队列单独作为一个配置或是直接把提交队列和任务的优先级绑定。

Yarn 环境的多套集群管理，可以后期远程提交任务到指定集群，来替换掉目前的方案，后期可以在调度里可以直接监控调度系统里的任务在 Yarn 的一些运行状态。

04 更好的与DataHub的集成

给大家提供一个好用的Python插件，SqlLineage,可解析SQL语句中的信息。

给定一个 sql 语句，sqllineage 将告诉您源表和目标表。如果您想要血缘结果的图形可视化，可以切换它的切换图形可视化选项，此时就会启动一个 web ，在浏览器中显示血缘结果的 DAG 图，目前我司基于此组件解析了我们版本管理工具下的所有 sql ，在此基础上构建了我们的上下游血缘。

后期我们将会依照 Datahub 的 Airflow 组件功能，扩展开发 Datahub 的 Dolphinscheduler 元数据组件。

[lineage]

Datahub 的 Airflow 血缘配置如上所示，可以发现 Datahub 为 Airflow 提供了开箱即用的 acryl-datahub[airflow] 插件，提供以下功能：

Airflow Pipeline (DAG) metadata
DAG and Task run information
Lineage information when present

我们会扩展 Dolphinscheduler 的 Python Gateway 能力，后续将会回馈到社区，希望可以为大家提供更好的元数据系统集成体验。

参与贡献

随着国内开源的迅猛崛起，Apache DolphinScheduler 社区迎来蓬勃发展，为了做更好用、易用的调度，真诚欢迎热爱开源的伙伴加入到开源社区中来，为中国开源崛起献上一份自己的力量，让本土开源走向全球。

参与 DolphinScheduler 社区有非常多的参与贡献的方式，包括：

贡献第一个PR(文档、代码) 我们也希望是简单的，第一个PR用于熟悉提交的流程和社区协作以及感受社区的友好度。

社区汇总了以下适合新手的问题列表：https://github.com/apache/dolphinscheduler/issues/5689

非新手问题列表：https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22

如何参与贡献链接：https://dolphinscheduler.apache.org/zh-cn/community/development/contribute.html

来吧，DolphinScheduler开源社区需要您的参与，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是巨大的。

apache2 无法用本机ip地址访问而只能用本地回环地址（localhost、127.0.0.1）访问的解决办法我为代码狂 php apache google url
最近发现一个奇怪的问题，自己机器上开发好的东西想给小组其他成员看，我将本地地址localhost替换成本机ip之后将url发给同事访问，结果返回的都是403forbidden错误。我在本地也只能通过localhost或127.0.0.1访问，用本机ip的话也是同样的错误。经过google之后发现，原来是apache的配置使然。修改httpd.conf为如下：#onlineofflinetag-do
PB 级别的大数据？百态老人大数据
在当今数字化时代，PB级别大数据正日益成为各领域关注的焦点。PB即佩他字节，1PB约等于1000TB或100万GB，代表着极为庞大的数据存储容量。中国科研团队在超大容量超分辨三维光存储研究中取得突破性进展。上海光学精密机械研究所与上海理工大学等科研单位合作，利用国际首创的双光束调控聚集诱导发光超分辨光存储技术，实现了点尺寸为54nm、道间距为70nm的超分辨数据存储，并完成了100层的多层记录，单
解锁Archive of Our Own的无限可能 sgsdhd sqlite oracle json sql database redis
项目介绍AO3API是一个非官方的Python库，旨在通过编程方式访问ArchiveofOurOwn（AO3）网站的数据。AO3是一个广受欢迎的同人作品存档网站，拥有大量的同人小说、评论和用户数据。通过AO3API，开发者可以轻松地获取、处理和分析这些数据，从而为同人社区带来更多创新的应用和服务。项目技术分析AO3API的核心功能被划分为九个模块：works、chapters、users、seri
腾讯云大数据套件TBDS与阿里云大数据能力产品对比奋力向前123 数据库 java 人工智能腾讯云大数据阿里云
前言博主在接触大数据方向研究的时候是在2016年，那时候正是大数据概念非常火热的一个时间段，最著名的Google的3篇论文。GoogleFS、MapReduce、BigTable，奠定了大数据框架产品的基础。Google文件系统，计算框架和存储框架。往后所有的大数据产品和过程域无一不是在三个模块的基础上进行搭建，迭代，完善。我们最开始使用的都是开源的产品，比如hadoop，HDSF，MAPRedu
R 语言必备十大资源后端
引言R是进行统计计算和数据分析的热门编程语言之一，广泛应用于数据科学家、研究者和统计学家之间，用于处理大数据、执行复杂分析和结果可视化。如果你是R的新手或希望提升你的R技能，这里有一些核心资源可以助你一臂之力，无论是从基础学起还是提高现有水平，包括官方站点、知名学府和互动式学习平台。1.R项目官网(r-project.org)R项目的官方网站是开启R学习之旅的首选，它提供免费的R软件、文档、教程和
Java NIO基础与实战：如何提升IO操作性能薛伟同学 Netty：高性能网络编程技巧 java nio
JavaNIO概述JavaNIO（新I/O）是Java提供的一个更为高效的I/O处理框架。JavaNIO（NewI/O）是对传统I/O（java.io）模型的改进，它引入了非阻塞I/O操作和面向缓冲区的数据读写方式，解决了传统I/O模型中的性能瓶颈。NIO的设计目标是使I/O操作更加高效，特别是在大数据量、高并发情况下，能够充分利用操作系统的底层I/O多路复用机制。JavaNIO的核心概念包括：B
信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
IDEA配置JSTL 阿俊仔（摸鱼版） intellij-idea java tomcat
IDEA配置JSTL下载JSTL官网下载地址：https://tomcat.apache.org翻到下面找到：点击，download下载下面内容：（就Impl和Spec）配置JSTL将两个下好的jar包放在lib文件夹下ctrl+shift+alt+s打开ProjectStructure左侧找到Modules->右侧选择Dependences->点击➕号Library->点击java->选中WEB
github提示 Filename too long JavaGameServer #git rocketmq
gitconfig--globalcore.longpathstrueerror:open("chapter13/rocketmq-externals-master/rocketmq-externals-master/rocketmq-connect/rocketmq-connect-runtime/src/test/java/org/apache/rocketmq/connect/runtime
基于neo4j知识图谱+flask的大数据医疗领域知识问答系统（完整源码+源码解析+开发文档+视频讲解等资料 2401_84185074 neo4j 知识图谱 flask
1.classMedicalSpider::定义了一个名为MedicalSpider的类。2.def**init**(self)::这是类的构造函数，用于在创建类的实例时进行初始化。在初始化过程中，建立了与MongoDB数据库的连接，并选择了名为‘medical’的数据库和名为‘data’的集合。3.definsert\_data(self,data)::这是一个方法，用于插入数据到MongoDB
全方位剖析Docker:架构、原理与实践寂夜了无痕 docker docker 运维 docker详解 dockerfile docker实践 docker架构
引言:随着云原生技术的飞速发展,容器技术正成为软件交付和部署的关键基础设施。而Docker凭借其简单易用的特性,已经成为容器技术的代名词。无论是初学者还是资深开发人员,了解Docker的架构、原理和实践都至关重要。本文将全面解析Docker,帮助你从根本上理解这项革命性技术。一、Docker简介Docker是一个开源的应用容器引擎,它基于Go语言并遵循Apache2.0协议开源。Docker可以让
ubuntu22安装maven step by step. maven java
ubuntu22安装mavenmaven下载页面：https://maven.apache.org/download.cgi下载最新：wgethttps://dlcdn.apache.org/maven/maven-3/3.9.0/binaries/apache-maven-3.9.0-bin.zip-P/tmp太慢就win下下载再传输过去（下面加sudo是因为/tmp目录的权限问题）解压缩到/o
基于分布式架构的毕业设计题目50例 love_java_code 计算机专业毕业设计题目分布式架构系统架构
基于分布式架构的毕业设计题目1-10题1、基于分布式架构的网络考试系统的设计2、基于分布式架构的融合客户数据中心探讨3、基于分布式架构的内网监控系统的应用与研究4、基于分布式架构的铁路企业社会保障管理信息系统设计5、基于分布式架构打造证券交易新核心6、基于分布式架构的融合用户数据中心部署方案研究7、基于分布式架构的大数据建模实践8、基于分布式架构的通航运营管理系统研究9、基于分布式架构的网络流量分
数据清洗与预处理：提升数据质量的关键步骤 Echo_Wish 实战高阶大数据 python spark 大数据
数据清洗与预处理：提升数据质量的关键步骤在大数据时代，数据已成为企业和组织的重要资产。然而，数据的价值取决于其质量。高质量的数据可以支持有效的决策和精确的分析，而低质量的数据则可能导致误导性的结论和错误的决策。因此，数据清洗与预处理成为了数据分析过程中不可或缺的关键步骤。一、数据质量的挑战在实际应用中，数据通常来自多个来源，如传感器、日志文件、用户输入等。这些数据可能存在以下问题：缺失值（Miss
Java与Python的集成与性能对比研究向哆哆 Java入门到精通 java python 开发语言
Java与Python的集成与性能对比研究随着科技的不断进步，Java和Python这两种编程语言在不同领域得到了广泛应用。Java凭借其高性能、平台独立性和庞大的生态系统，广泛应用于企业级应用、Web开发和大数据处理等领域。而Python因其简洁易学、灵活性强，在数据科学、人工智能和快速原型开发方面具有显著优势。虽然这两种语言在设计上有很大的差异，但它们可以通过多种方式进行集成，结合各自的优势，
无人机遥感在农林信息提取中的实现方法与GIS融合制图教程岁月如歌，青春不败生态遥感无人机农业科学林业科学 GIS 制图遥感生态学
遥感技术作为一种空间大数据手段，能够从多时、多维、多地等角度，获取大量的农情数据。数据具有面状、实时、非接触、无伤检测等显著优势，是智慧农业必须采用的重要技术之一。一：综合态势分析1.1研究区及作物品种分析（1）形态指标分析（2）生理生化指标分析（3）胁迫指标分析（4）产量指标分析（5）综合分析1.2无人机平台分析：析目前常用于农林行业的无人机平台。1.3无人机机载传感器分析：析目前常用于农林行业
Apache RocketMQ 命令注入漏洞（含批量验证poc）今天晚上早睡觉漏洞复现 rocketmq web安全
简介ApacheRocketMQ是一个开源的分布式消息传递系统，它最初是由阿里巴巴集团开发的。RocketMQ具有高可靠性、高吞吐量、低延迟等特点，被广泛应用于各种分布式应用场景，如电商、金融、物流等。RocketMQ支持多种消息传递模式，如点对点、发布/订阅、请求/响应等，同时还提供了多种消息过滤和顺序传递功能。RocketMQ采用了分布式架构，支持水平扩展，可以轻松应对高并发的消息传递需求。该
Paimon实战 -- paimon原理解析阿华田512 Paimon学习必读系列 paimon 数据湖 paimon介绍 flink写入
一.简介ApachePaimon原名FlinkTableStore，2022年1月在ApacheFlink社区从零开始研发，Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。二.基本概念1、快照（Snapshot）快照捕获表在某个时间点的状态。用户可以通过最新的快照访
paimon实战 --核心原理和Flink应用进阶阿华田512 Paimon学习必读系列 Flink学习必读系列 flink 大数据 flink读写 paimon 数据湖
简介Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代的StreamingLakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink社区内部孵化了FlinkTableStore（简称FTS）子项目，一个真正面向Streaming以及Realtime的数据湖存储项目。2023年3月1
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
vulhub漏洞复现 Apache Shiro 1.2.4反序列化漏洞 Apache Shiro 认证绕过漏洞记录笔记 linux docker
vulhub漏洞复现ApacheShiro1.2.4反序列化漏洞ApacheShiro认证绕过漏洞
基于联邦学习的政务大数据平台应用研究宋罗世家技术屋计算机软件及理论发展专栏政务大数据
摘要当前数字政府建设已进入深水区，政务大数据平台作为数据底座支撑各类政务信息化应用，其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法，基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先，介绍政务大数据平台及联邦学习应用现状；然后，分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战；接着，阐述基于联邦学习的推荐算法和隐私集合求交技术的解决
Apache SeaTunnel 社区2025年全年计划公布，共同构建下一代数据集成生态数据库
ApacheSeaTunnel社区正在全球范围内寻找热爱开源、乐于分享的技术先锋！无论你是开发者、用户、布道者还是行业专家，这里都有属于你的舞台。欢迎社区有志之士加入我们，一起推动开源数据集成工具的创新与发展！ApacheSeaTunnel社区全年活动规划一览：https://gzg9x067ms.feishu.cn/base/Hnp1bIKqLaAaTQsqzKscMJ0OnFd...申请流程：
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
深入剖析 Apache Shiro550 反序列化漏洞及复现垚垚 Securify 前沿站十大漏洞网络安全 apache web安全系统安全运维
目录前言一、认识ApacheShiro二、反序列化漏洞：隐藏在数据转换中的风险三、Shiro550漏洞：会话管理中的致命缺陷四、漏洞危害：如多米诺骨牌般的连锁反应五、漏洞复现：揭开攻击的神秘面纱（一）准备工作（二）复现过程六、总结与防范：筑牢安全防线结语前言在网络安全的复杂版图中，漏洞的挖掘与研究始终处于核心位置。今天，我们将聚焦于臭名昭著的ApacheShiro550反序列化漏洞，深入探究其背后
政务数据标识技术研究进展及下一代政务数据标识体系宋罗世家技术屋计算机软件及理论发展专栏政务
摘要政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结，比较了不同数据标识技术编码规则的异同，并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点，提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中，外部码兼容了统一社会信息用代码，内部码建立了“机构部门-系统-数据
浅谈Java中Excel导入导出的技术详解 foolhuman java excel
引言在Java开发中，Excel文件的导入导出是一个常见的需求。无论是数据批量处理、报表生成还是数据迁移，Excel都是一个不可或缺的工具。然而，Excel导入导出过程中涉及到的技术细节和潜在问题常常让开发者感到头疼。本文将从技术难点出发，结合代码示例，详细介绍如何在Java中高效地实现Excel的导入导出功能。技术难点分析在Excel导入导出过程中，以下几个技术难点需要特别关注：大数据量处理当处
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多