Apache Flink

Apache Flink 在实时金融数据湖的应用

摘要：本文由中原银行大数据平台研发工程师白学余分享，主要介绍实时金融数据湖在中原银行的应用。主要内容包括：

背景概况
实时金融数据湖体系架构
场景实践

Tips：点击文末「阅读原文」即可下载作者分享 PPT 并回顾原版分享视频～

一、背景概况

首先简单介绍一下中原银行，它位于河南省郑州市，是河南省唯一的省级法人银行，是河南省最大的城市商业银行。2017 年 7 月 19 日在香港成功上市。中原银行在成立之初就将科技利行和科技兴行作为我行的战略，我行立志要成为一个科技银行和数据银行。我们一直在从事技术，也崇尚技术，希望用技术的手段来解决现在的问题。

本文将从实时金融数据湖的建设背景、体系架构、场景实践三个方面分享。

1.数据湖诞生的业务背景

■ 决策方式变迁

下面来看一下背景概况，我们认为现在的银行的决策方式正面临巨大的变迁。

首先，传统的银行数据分析主要集中在银行的收入、成本、利润的分配和应对监管部门的监管。这些数据分析非常复杂，但也存在一定的规律，它属于财务数据分析。随着互联网金融的不断发展，银行的业务不断受到挤压，如果仍然将数据分析集中在收入、成本、分配及监管方面，已经不能满足业务的需求。如今，更好的了解客户，收集大量的数据，做更多有针对性的营销和决策分析是当务之急。因此，现在银行的业务分析决策由传统的财务分析逐步转向面向 KYC 的分析。
其次，传统的银行业务主要依靠业务人员进行决策以满足业务的发展需求。但是随着银行业务的不断发展，各种各样的应用产生大量的多类型数据。仅仅依靠业务人员去做决策，已无法满足业务的需求。当前面临的问题更加复杂，影响因素也日渐增多，需要用更全面、智能的技术方式来进行解决。因此，银行需要将传统的纯业务人员决策方式转变为越来越多依靠机器智能的决策方式。

■ 问题分析

大数据的时代最大的特点就是数据量大、数据的类型多。在使用大规模数据的过程中涉及各种各样的技术，包括：

传统的面向财务分析离线数据分析
面向非财务的数据分析
面向事件或日志等频繁变更
实时性较高的数据分析

我们需要多样化的数字营销手段来描绘更全面、准确、科学的客户画像。同时，也需要实时风险决策技术来实时监控业务面临的风险、多模数据加工技术来有效支撑不同类型的数据，包括结构化数据、半结构化数据、非结构化数据等。当然也需要机器学习和人工智能技术来支持问题的智能分析和决策。

如此多的技术，加上数据驱动决策的场景，决定了当前银行的数据分析面临着一个巨大的变迁，从传统的面向财务的、面向离线的数据分析，逐步转向面向客户的、面向实时的数据分析。以上是实时金融数据湖建设的第一个观点。

2.数据湖诞生的技术背景

实时金融数据湖建设的第二个观点是，在银行体系下，面向规范化、精准加工的传统数仓体系，能够较好的解决财务分析等场景，并在很长时间内仍会是主流方案。

■ 传统数仓架构

下图展示的是传统的数仓架构。从下往上，依次是基础贴源层、公共数据的整合层、业务集市层和应用加工层。不同的层每天通过批的方式执行大量的运算，来得到业务想要的结果。银行很长时间内非常依赖传统的数仓体系，因为它非常好的解决了财务分析的问题。其特点也比较明显：

精准、规范
多层数据加工
口径统一
T+1 数据处理
具备较高的性能
经过长时间积累沉淀
适合财务分析

以上是传统数据仓库的优势。当然它的缺点也比较明显：

变更困难
单位存储成本较高
不适合海量日志、行为等变更频繁，实时性高的数据
半结构化数据和非结构化数据兼容差

以上是实时金融数据湖建设的第二个观点，即传统的数据仓库有它的优势和不足，并将长期存在。

■ 数仓的变迁

实时金融数据湖建设的第三个观点是，面向 KYC、机器智能的分析，需要支持多类型数据、多时效数据、更加敏捷的使用，因此需要新的与数据仓库互补的架构体系。

3.实时金融数据湖的特点

通过以上介绍的三个观点引出今天介绍的主题，实时金融数据湖。主要有三个特点：

第一，开放性。支持多类型场景，如 AI、非结构化、历史数据，海纳百川。
第二，时效性。具备有效的支持实时分析与实时决策的体系架构。
第三，融合性。与银行数据仓库技术架构融合，统一数据视图。

整体的实时金融数据湖是一个融合的数据湖，它的融合理念主要体现在以下 6 个方面：

第一，数据汇聚的融合，各种海量、多样数据汇聚的地方，包括结构化、半结构以及非结构数据。
第二，技术实现的融合，包含云计算、大数据、数据仓库的融合以及流计算和批处理技术的融合。
第三，规范设计的融合，数据模型主题设计灵活，同时支持 Schema-on-read 和 Schema-on-write 模式，支持多维、关系数据模型。
第四，数据管理的融合，数据湖和数仓元数据管理的统一以及用户开发体验的统一。
第五，物理位置的融合，可以是物理集中的单一大集群，也可以是物理分散，逻辑集中的逻辑集群。
第六，数据存储的融合，分析数据统一存储的技术平台，符合入湖仓标准的数据按照要求放入，降低存储和运维成本。

二、体系架构

1.实时金融数据湖架构

■ 功能架构

首先来看一下实时金融数据湖的功能架构。在功能上，包括数据源、统一的数据接入、数据存储、数据开发、数据服务和数据应用。

第一，数据源。不仅仅支持结构化数据，也支持半结构化数据和非结构化数据。
第二，统一数据接入。数据通过统一数据接入平台，按数据的不同类型进行智能的数据接入。
第三，数据存储。包括数据仓库和数据湖，实现冷热温智能数据分布。
第四，数据开发。包括任务开发，任务调度，监控运维，可视化编程。
第五，数据服务。包括交互式查询，数据 API，SQL 质量评估，元数据管理，血缘管理。
第六，数据应用。包括数字化营销，数字化风控，数据化运营，客户画像。

■ 逻辑架构

实时金融数据湖的逻辑架构主要有 4 层，包括存储层、计算层、服务层和产品层。

在存储层，有 MPP 数据仓库和基于 OSS/HDFS 的数据湖，可以实现智能存储管理。
在计算层，实现统一的元数据服务。
在服务层，有联邦数据计算和数据服务 API 两种方式。其中，联邦数据计算服务是一个联邦查询引擎，可以实现数据跨库查询，它依赖的就是统一元数据服务，查询的是数据仓库和数据湖中的数据。
在产品层，提供智能服务：包 RPA、证照识别、语言分析、客户画像、智能推荐。商业分析服务：包括自助分析、客户洞察、可视化。数据开发服务：包括数据开发平台，自动化治理。

2.实时金融数据湖工程实践

下面讲一下实时金融数据湖的工程实践，主要针对实时结构化数据分析。整体基于开源架构搭建，如下图所示，主要有 4 层，包括存储层、表结构层、查询引擎层和联邦计算层。

存储层和表结构层是数据智能分布的组成部分，支持 Upsert/Delete、Table Schema 和 ACID 的语义保证，并且它可以兼容存储半结构化数据和非结构化数据。
查询引擎层和联邦计算层是统一数据开发平台的一个组成部分。统一数据开发平台提供的是一站式的数据开发，可以实现实时数据任务的开发和离线数据任务的开发。

本次分享主要针对的是实时数据任务的开发。后面主要介绍的是一站式流计算开发平台，它可以实现实时任务的开发、管理、运维，保障实时任务的稳定运行。

3.流计算开发平台

为什么银行需要流计算开发平台，流计算开发平台的优势是什么？

■ 优势

流计算开发平台的优势在于可以有效降低实时数据开发准入门槛，助力实时业务快速发展。通过流计算开发平台，提供一个一站式的实时数据开发平台，包括可视化的数据开发，任务管理，实现多租户和多项目的管理，统一运维管理、权限管理，可以在这个平台上完成实时数据任务的开发。流计算开发平台是基于 Flink SQL 来做的，Flink SQL 本身是一种生产力。

通过 Flink SQL 的不断应用，可以把流计算开发平台的能力下推至分支行，分支行可以通过平台，按照业务需求自主的开发实时数据的任务，以此来促进银行业务的发展。

■ 架构

流计算开发平台的架构如下图所示。主要有数据存储、资源管理、计算引擎、数据开发、Web 可视化等。

它可以实现多租户的管理、多项目的管理，并且用户可以在上面实现一个实时任务的运维监控。流计算开发平台资源管理方式，支持物理机和虚拟机的方式，同时支持统一的云底座 K8s。平台计算引擎是基于 Flink，提供了数据集成、实时任务的开发、运维中心、数据管理，和可视化数据开发 IDE 等功能。

■ “直通式”实时场景

上面主要介绍了流计算开发平台的架构和优势，下面针对具体的场景做进一步介绍。首先是“直通式”实时场景架构。

不同的数据源数据被实时的接入到 Kafka，Flink 实时读取 Kafka 数据进行处理，将处理的结果发送给业务端。业务端可以是 Kafka，也可以是 HBase 等不同的下游。业务的维表数据是用 Elastic 来存储。“直通式”架构可以实现 T+0 的数据的时效性，主要用在实时决策场景中。

实时决策分析

这里举了一个简单的例子，临期贷后催收业务。贷款快过期了需要进行催收。业务依赖账户余额、交易金额、本期应还金额。通过三个数据，针对不同的业务进行决策，是通过短信催收、智能语音催收，还是电话催收？

如果是基于原有的离线数仓的架构，得到的数据都是 T+1 的。用过期的数据决策，可能客户已经还款，但是仍然存在电话催收的问题。而通过“直通式”场景架构的应用，可以实现 T+0 的账户余额，交易金额和本期应还金额，实时进行决策，提升用户的体验。

实时 BI 分析

再来看一个例子，实时获取过去一段时间到现在的理财产品销量信息，这个需求有一些关键字，需要“实时获取”，即需要 T+0 的数据。“一段时间到现在”，它涉及历史数据的查询。理财产品的销量信息涉及到银行业务，一般都比较复杂，需要用到多流 join。

整个需求是一个实时 BI 需求，这个需求使用“直通式”的架构无法有效解决，“直通式”架构用的是 Flink SQL，但 Flink SQL 无法有效应对历史数据的查询，并且银行的业务一般都比较复杂，现在主要用的双流 join。要解决这个问题，需要探索区别于“直通式”实时场景架构的新架构。

■ “落地式”实时场景

下面介绍“落地式”的实时场景架构，数据源被实时接入到 Kafka 之后，Flink 可以实时处理 Kafka 的数据，并将处理的结果写入到数据湖中。数据湖整体基于开源方案搭建，数据的存储是用的 HDFS 和 S3，表格式用的是 Iceberg。Flink 读取完 Kafka 的数据之后进行实时处理，这时候可以把处理的中间结果写入到数据湖中，然后再进行逐步处理，最终得到业务想要的结果。处理的结果可以通过查询引擎对接应用，包括 Flink、Spark、Presto 等。

4.实时金融数据湖

■ 架构

下面是中原银行的实时金融产品架构。包括“直通式”实时应用场景和“落地式”的实时金融场景。数据会实时的接入到 Kafka，然后 Flink 实时的读取 Kafka 中的数据进行处理。如果涉及维表数据，则是存在 Elastic 中。这里存在两种情况：

业务逻辑简单，Flink 实时读取 Kafka 中的事件数据和 Elastic 中的维表数据进行处理，处理的结果会直接发送给业务。
业务逻辑复杂，会进行分步处理，将中间结果先写到数据湖，再进行逐步的处理，得到最终的结果。然后最终的结果会通过查询引擎对接不同的应用。

■ 数据流向

这是实时金融数据湖的数据流向图。实时数据的数据源都来自于 Kafka，然后 Flink SQL 通过 ETL 方式实时读取 Kafka 中的数据。通过实时数据的 ETL 和数据湖平台两种方式对接应用，提供的是实时和准实时的输出结果。其中，实时数据 ETL 对应的是“直通式”实时场景架构，而数据湖平台对应的是“落地式”的实时应用场景架构。

■ 实时金融数据湖特点

实时金融数据湖的特点有三点。

• 第一，开放性。数据湖兼容支持复杂 SQL，支持大量的金融场景。

• 第二，时效性。支持实时和准实时的数据分析处理，并且有落地和非落地的两种应用对接的方式。

• 第三，融合性。数据湖提供的是一个金融数据湖的架构，支持流批统一的结构化数据的分析处理。当然也支持半结构化和非结构化，因为数据湖用的是分布式存储。

■ 建设成果

通过数据湖的不断建设，整体也取得了一系列成果。我们现在是 T+0 的数据时效性，已经支持 20+ 的金融产品，存储成本可以降低 5 倍。

三、场景实践

1.智能实时反欺诈

实时金融数据湖主要应用在两个大的方面，一个是实时 BI，一个是实时决策。其中，实时决策的典型应用是智能实时反欺诈业务，它依赖于实时计算平台、知识图谱平台、机器学习平台、实时数据模型，提供一系列的数据服务，包括关系欺诈服务、设备指纹服务、行为监测服务、位置解析服务和共性匹配服务，以此来支持交易反欺诈场景、申请反欺诈场景和营销反欺诈场景。

当前已经实现日均实时处理 140 万条风险数据，日均实时阻断 110 次，日均实时预警 108 次。

2.实时 BI

再来看一个实时 BI 场景，主要是客户实时洞察平台，内部叫知秋平台，依赖于实时计算平台、知识图谱平台、客户画像平台、智能分析平台。不同的平台组合在一起，提供了交互式查询服务、统一的元数据管理服务、SQL 质量评估服务、配置式开发服务、统一可视化数据展示等。支持了趋势分析、圈子分析、留存分析、客户客群分析等场景。现在已经可以打通实时分析类场景常用需求和服务，实现实时 BI 分析闭环可视化，分行自主数字化实时 BI 分析，已落地实时 BI 分析用例 26800 个，实时 BI 分析平台平均月活 10000+，每天辅助分析各类实时 BI 需求 30000+。

点击文末「阅读原文」可回顾作者分享的原版视频～

▼ 关注「Flink 中文社区」，获取更多技术干货 ▼

戳我，回顾作者分享视频！

SourceTree安装与使用缘来的精彩 sourceTree git
一、简介：一个用于Windows和Mac的免费Git客户端。Sourcetree简化了如何与Git存储库进行交互，这样您就可以集中精力编写代码。通过Sourcetree的简单GitGUI可视化和管理存储库。官网下载地址：Sourcetree|FreeGitGUIforMacandWindowsSourceTree下载-SourceTree最新版下载V3.4.22-阔思亮本文介绍的版本为source
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
python使用Bokeh库实现实时数据的可视化 Oona_01 python 信息可视化数据分析
Python语言以其丰富的数据科学生态系统而闻名,其中Bokeh库作为一种功能强大的可视化工具,为实时数据的可视化提供了优秀的支持,本文将介绍如何使用Bokeh库实现实时数据的可视化,并提供相关代码实例,需要的朋友可以参考下使用Python的Bokeh库进行实时数据可视化的实现Bokeh简介实时数据可视化的需求使用Bokeh实现实时数据可视化的步骤代码示例Bokeh的进阶应用总结使用Python的
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
软件工程课程作业 cfjybgkmf 软件工程课程作业软件工程
一、什么是DevOps?DevOps中的Dev指的是Development（开发），Ops指的是Operations（运维）DevOps包含了三个部分：开发、测试和运维，是一组过程、方法与系统的统称，用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。DevOps是为了填补开发端和运维端之间的信息鸿沟，改善团队之间的协作关系；突出重视软件开发人员和运维人员的沟通合作，通过自动化流程来使得软
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
Kafka扩分区和分区副本重分配之后消费组会自动均衡吗？石臻臻的杂货铺 Kafka kafka 消费者
作者：石臻臻,CSDN博客之星Top5、KafkaContributor、nacosContributor、华为云MVP,腾讯云TVP,滴滴Kafka技术专家、KnowStreamingPMC)。KnowStreaming是滴滴开源的Kafka运维管控平台,有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,带你一起你参与开源！。KnowStreaming体验环境请访问：
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
我的编程学习之旅 Stars·ꦿ໊ོ 学习
大家好，我是一名编程领域的初学者，怀揣着对代码世界的无限热忱，踏上了这充满挑战与惊喜的学习之路。我并非本科出身，在过往的学习，逐渐被编程的魅力所吸引。日常里，我喜欢拆解电子产品、探究其原理，这份好奇心也驱使我深入代码的海洋，期望能从软件层面创造更多“奇迹”。如今，我选择从C语言开始敲开编程世界的大门，它作为一门基础且强大的编程语言，有着广泛的应用场景，无论是底层系统开发、嵌入式编程，还是对理解计算
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
Shell 脚本：自动化运维的利器 Waitccy linux 服务器运维
Shell脚本：自动化运维的利器一、引言在计算机的世界里，效率就是一切。当我们需要频繁执行一系列命令时，手动输入不仅繁琐，还容易出错。Shell脚本就是为解决这类问题而生的强大工具。它允许用户将一系列的命令组合在一起，形成一个可执行的脚本文件，从而实现自动化任务，提高工作效率。无论是系统管理员进行服务器维护，还是开发者进行项目部署，Shell脚本都发挥着重要的作用。本文将详细介绍Shell脚本的基
深度剖析哈希表数据结构：原理、冲突解决与优化策略麻辣酸甜笔记
摘要哈希表作为一种高效的数据结构，在计算机科学领域广泛应用。本文深入探讨哈希表的工作原理，详细分析常见的冲突解决方法，如开放地址法、链地址法等，并进一步研究哈希表在不同场景下的优化策略，旨在帮助读者全面理解哈希表数据结构及其应用。一、引言在计算机程序中，快速查找和插入数据是常见需求。哈希表以其平均时间复杂度为O(1)的高效查找和插入特性，成为解决这类问题的有力工具。从数据库索引到编程语言的集合类实
Ubuntu使用Docker部署Nginx并结合内网穿透实现公网远程访问鸭鸭渗透 eureka 云原生
目录1.安装Docker2.使用Docker拉取Nginx镜像3.创建并启动Nginx容器4.本地连接测试5.公网远程访问本地Nginx5.1内网穿透工具安装5.2创建远程连接公网地址5.3使用固定公网地址远程访问在开发人员的工作中，公网远程访问内网是其必备的技术需求之一。对于运维人员和开发者来说，能够通过公网远程访问内部的服务和应用，能够极大地提升工作效率和便利性。本文将介绍如何利用Ubuntu
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

Apache Flink 在实时金融数据湖的应用

你可能感兴趣的:(可视化,运维,大数据,编程语言,hadoop)