Apache Flink

Apache Flink 实时计算在美的多业务场景下的应用与实践

摘要：本文整理自美的集团实时数据负责人、资深数据架构师董奇，在 Flink Forward Asia 2022 主会场的分享。本篇内容主要分为四个部分：

实时生态系统在美的的发展和建设现状

核心传统业务场景 Flink 实时数字化转型实践

新兴业务场景 Flink 实时数字化应用实践

未来展望

Tips：点击「阅读原文」查看原文视频&演讲 ppt

01 实时生态系统在美的的发展和建设现状

纵观过去几年美的的实时大数据建设之路，在实时数据技术架构演进过程中实时的应用阶段共分为五个阶段。

第一阶段，初阶应用（2017-2018）。我们当时主要是有一些简单的业务数据清洗，以及准实时前序的实时数据接入需求。因此当时就选择了 StreamSets 技术栈，它有比较简单的可视化配置以及简单的代码逻辑加工，可以完成相应的需求工作。因此在 2017-2018 阶段，我们的阶段性总结就是初阶应用这一部分，为准实时的计算加工链路去做相应的前序实时接入的准备。

第二阶段，深入探索（2018-2020）。随着整体业务需求场景越来越复杂，我们就不得不去探索更加适用的实时技术栈，来支撑我们更加复杂的实时数据需求。我们当时的选型是 Spark Streaming，但由于 Spark Streaming 的分布式比较复杂，以及 Scala 晦涩难懂的语法糖。因此在 2019 年我们去做了 Spark Streaming+Spark SQL 平台化的结合，在此基础上去满足更加复杂的业务数据需求。但由于 Spark 分布式对应的 connector 还比较匮乏，它对更加复杂的业务化场景支持力度不够，以及它本质上还是微批的实时处理概念，并不是真正的流处理。所以在 2020 年，我们踏入了重新选型，寻求更好的、更能满足业务场景的技术栈。

第三阶段，重新选型（2020-2021 年初）。我们在 2020 年重新选型，最终选择了 Flink DataStram+Redis/HBase 整个一套结合的外部存储体系去管理状态，去做技术栈的融合，以及实现相对比较复杂的实时业务场景。当时基于这套架构，我们也支持了设备数据的实时接入，包括智能设备的实时自动调控以及实时的消息推送等等。但我们为什么在这个阶段最终选择 Redis/HBase 的外部存储，还是因为沿用 Spark Streaming 原来的这套架构体系，因为 Spark Streaming 的状态管理还是用外部存储去实现的，且当时的研发同学对于 Flink 相关的了解并不够深入，因此还是沿用了之前相应的外部存储的状态管理机制。

第四阶段，稳定应用（2021 年初-2021 年底）。我们需要去寻求更加稳定的应用和更低的开发成本，也基于对 Flink 的进一步深入了解，在此基础上，选型用了 Flink DataStream+RocksDB 状态存储管理策略，真正实现了 Exactly Once 语义去做更简便的容灾恢复机制的实现，同时也做到了真正 Flink 相关的稳定应用阶段的实现。

第五阶段，体系建设（2021 年底-2022 年底）。我们由于 Flink DataStream 对于业务的支撑以及需求的快速迭代交付还是比较慢，所以在 2021 年底我们去做了体系化建设。用 Flink SQL+相应基础平台实时数仓建设，去支撑我们所有的业务体系需求。在此基础上，我们做了逻辑元数据的管理；统一自定义的 connector+统一自定义的 UDF；预编译+调试功能；大状态任务相应 State 的自动优化；长周期场景的支持；以及相应的运维管理体系保障的可视化建设等。

目前数据源主要来源于四个部分，分别是云端设备日志，是针对 IoT 场景相关的；埋点上报日志；业务数据库日志；算法加工数据以及其他第三方日志。

中间的实时研发平台主要分为三个模块，分别是资源管理、任务管理、运维监控。

资源管理：主要做元数据管理以及 UDF 和自定义数据源管理。
任务管理：主要是 DataStream 和 SQL 任务的支持，以及模板任务和物化视图的沉淀。简便了开发流程，提供了固定逻辑的沉淀，以及未来新同学做开发的时候，它能够快速引用迭代起来。
运维监控：主要做了告警自定义的规则配置，以及通知信息的打通。再到下面可视化运维监控体系的打通，也就是 Flink Metrics+Prometheus+ Grafana 这整一套内容。

应用层主要分为两大部分，分别是实时数据服务和实时数据分析。

实时数据服务：主要是内部实现了统一的接口服务平台。在平台之上，我们可以做逻辑数据源的配置；统一数据服务单元的维护；实时逻辑结果表统一定义；实时逻辑接口定义。而其中，实时服务单元的维护其实就是统一来源表的维护。
实时数据分析可以分为汇总数据指标对接和明细指标对接两部分。汇总数据指标对接主要依赖多表关联查询，中间和 QBI 打通做数据集加工，最终进行汇总表数据指标对接的实时数据分析服务。明细数据表对接是单表查询的连接，数据源主要是 StarRocks 和 ClickHouse，在这基础上对接 QBI 实现明细报表的分析应用。

基于上面的内容，我们总结实时数仓体系建设的思路主要分为三大部分，第一是时效性，第二是稳定性，第三是灵活性。

时效性指时效性保障架构设计，从上图可以看到，实时数据源主要来源于左边四个部分，云端设备日志、Oracle 的数据库、MySQL 数据库、埋点上报日志。

离线数据源，是最终作为中间长周期的源表，以及实时任务中依赖的维表开发的数据源。业务系统通过 SQOOP 同步到 Hive 去和 Kafka 做 Union All 的源表长周期的引入，然后同步到 HBase 或者 Redis 做维表和实时计算打通的引入。

再到应用层的结果表，为保障时效性，对于小的单表我们在 MySQL 上提供数据服务应用，对于大的单表查询，在 StarRocks 之前我们是运用 ClickHouse 去做支撑的，所以在单表应用上，前序最终数据服务的赋能是用 ClickHouse 去做实现的。但由于今年我们的业务场景更加复杂，所以存在单表的查询场景，也会存在多表聚合关联查询的场景。在此需求背景下，我们整体引入了 StarRocks，用 StarRocks 支撑在线数据分析场景和多表联合查询数据应用场景来更好更灵活的去满足业务场景诉求。

稳定性的建设体系主要分为两个部分，开发阶段和运行阶段。

开发阶段主要做了数据源连通性校验、逻辑元数据表 WITH 参数格式校验、实时任务预编译校验、抽样数据 Debug 逻辑校验、大状态任务 RocksDB 磁盘路径动态查询分配。

运行阶段主要做了集群资源监控和告警、任务状态监控和告警、任务数据流量异常监控和告警、任务 Flink Metrics 监控运维告警。同时也跟我们内部的监控报警平台和体系打通，做到及时报警通知的功能。

灵活开发加工主要分为两个部分，资源管理和任务管理。

在资源管理方面，我们支持以下功能：

统一的元数据管理去做逻辑表全生命周期的维护，任务只需要做简单的 Import 引入，就可以支持元表的自动引用接入。在表侧我们也支持统一的快速克隆复制去满足特定场景的新增和修改。
统一的自定义 UDF 管理和自定义 Connector 管理。
统一的数据源管理和资源 JAR 包管理。
外部数据源的关联打通。在我们的平台上就可以直接查看 HBase、Kafka 等数据源表里的数据内容，做快速的校验和探查。

在任务管理方面，我们支持以下功能：

支持场景化的逻辑沉淀和公共逻辑沉淀。比如去重、前序统一的归一化处理，我们都可以把它统一的沉淀起来。多个任务只要统一引用一个模块的视图或者模板化的任务模板，就可以去做开发工作。
支持一键新增和修改，也是跟元表一样，在任务模块我们支持一键克隆和修改的功能。
支持预编译，Fail Fast 支撑语法和词法问题开发态的一键暴露。
支持任务调试功能，让我们在开发过程中，就可以发现计算逻辑或者开发逻辑的错误。
支持暂停、恢复功能，对于有状态的任务，可以做到 JobGragh 不变的情况下，快速进行停止、重启的工作，不需要回滚或重跑太久远的数据。

02 核心传统业务场景 Flink 实时数字化转型实践

第一个是 B 端长周期相关的场景，其主要分为两个核心场景，分别是美云销 APP 数据看板和全链路订单可视。

在传统行业，它的供应链以及订单的全链路是比较长的。以内销为例，从下单到下单审批，制造生产，中间的物料齐套，品质检验，物流发车，物流状态跟踪，整个流程节点多达 20 多个。如果在此基础之上，我们要回溯过去 1-2 年长周期订单状态的跟踪，对于实时的挑战还是比较大的。

到美云销 APP 数据看板这一部分，我们也需要回溯过去很久的数据，来供应整个代理商或者零售商，查看他们门店经营策略的数据情况，包括采购分析情况、销售分析情况、库存分析情况等等。所以基于这样的需求背景，我们设计了如上图左侧所示的实时开发架构链路。

因为 B 端长周期对于过去历史数据的引入，是通过业务库数据同步数据到 Hive 表里，然后 Hive 表里我们用 Flink 去对接之后去应用它的 Hive 表中分区表的概念。自动加载每一天分区新的全量数据，以及结合当天的 Kafka 实时增量数据做 Union All 的结合。最后输出给 Flink 计算逻辑做进一步逻辑加工，以及后续加工链路中维表打宽的内容扩展。所以在此链路上，我们需要用这样一套技术链路来支撑 B 端长周期场景的实现。

但由于实时和离线分布在两个不同的调度集群中，离线调度集群经常出现延迟的问题。为了解决这个问题，并且保证第二天业务能够在早上 8 点或 9 点之前看到实时数据内容。所以我们用存储去换计算时间的及时性，多加了一天 Kafka 的存储，把实时增量数据直接 Union All 到前一天的数据内容上，做续跑的加工，保障数据的实时性。

这样就可以做到，12 点的通讯表的自动逻辑切换工作，重点监控保障今天全增量准确的数据在 12 点之前产出，而不用去考虑原来的早上 7 点或者 8 点需要起夜去重跑处理离线表未能及时产出的问题，较大减轻团队同学凌晨值班的压力，保障对应任务的稳定性和及时性。

工厂生产进度的逻辑相对比较简单，因为它其实是从上面拆分而来的，是上面大的节点中的小节点。基于需求背景下，每天工厂的管理人员、小组长，或者是下面的开工员工，都可以实时看到自己每个小时当班的生产进度，去完成今天白班或者晚班的生产进度要求，它是实时大屏，所以在业务过程中就发挥了很大的价值。

所以在此基础上，我们会从 MES 系统数据接入实时数据进来，然后通过 OGG 同步到 Kafka。但是在 OGG 同步过来的数据会有一个问题，因为它是部分字段更新，所以它就需要今天的数据和原来的全量全行数据做补齐，再去写到 Kafka 里才能真正实现，今天拿到的实时计算数据是全面的，才能进行进一步的 Flink 逻辑加工。

在这一部分处理完之后，我们把数据写到 MySQL 里，通过接口服务平台供应到产品端使用。因为这一部分汇总完的数据量还比较小，所以总结来说就是常规的实时增量数据的计算跟踪场景，最终在接口侧进行复合指标加工来满足产品应用。

这个场景的背景是，中国区域/运营中心/事业部每年都会不定期举行酒会或者其他活动，组织美的的代理商、运营商零售商参与其中，并进行美的的抢单活动。这里面会有涉及到哪些策略的优惠内容呢？一般是参与酒会的代理商、运营商、零售商，可以拿到价格保障、供货保障，以及新品首发保障等。所以抢单活动还是比较关键的，同时对运营商完成年度或者月度的 KPI 也非常关键。

因此在现场我们就需要有大屏可以指导大家及时调整自己的运营策略，更好的展示活动热烈的氛围，让 B 端的代理商、零售商更好的开展零售活动或者抢单活动，最后进行套餐或者组装活动抢购的舒适体验。

这个场景和美云销全链路 APP 可视的场景非常相似，唯一的不同点在于，针对这个场景我们最终接入 StarRocks 之后，需要和接口平台、服务平台进行打通，做防下滑功能的设计和自定义出入参的设计，最终放到大屏端做比较稳定、灵活、及时性的数据展示。

03 新兴业务场景 Flink 实时数字化应用实践

首先是家居设备实时智能调控场景，这里我们举了三个例子，分别是冰箱云管家、洗地机云管家、电热云管家。

冰箱云管家主要是根据用户的行为习惯，包括冰箱开关门的次数、开关门的时间点、传感器的温度等等，匹配相应的算法规则和算法模型，做整个速冷模式的控制，以达到节能的目的。

洗地机云管家主要根据自身的上报数据和用户的配置数据，包括出水量、地理位置、第三方气候温湿度等数据信息，分析用户使用的时间段，控制出水量信息。当我们需要提前使用，可以开启自动唤醒功能，以达到节能的目的。

电热云管家主要根据自身的上报数据和用户的配置数据，包括温度、地理位置、第三方气候温湿度等数据信息，做用户行为分析。匹配算法模型的结果和规则，做电热温度的自动调控、不同阶段使用温度的调整、峰谷夜电预加热的功能，以达到节能和自动化调控的目的。

这一部分实时链路通过云端设备数据接入进来，打通内部防火墙，写到 Redis，再通过 LogStash 读取 Redis 的数据写到 Kafka 供 Flink 消费。这里的 Flink 是用上面的第三方数据和规则数据，写到 Redis 之后，整体关联打通，再把数据结果写回到 Kafka。通过 IoT 云做指令下发，到达设备数据中，完成智能设备自动调控的全流程体系的打通。

这一部分实现之后，为了防止下发指令出现问题，我们也做了同步的实时监控，包括下发指令的错发、漏发、迟发等等。

说到自动调控功能就不得不提到，为什么我们会搭配 Hi 服务实时消息推送的功能。因为很多功能虽然都可以实现自动调控，但也有很多需要人机交互完成，甚至有还需要人为操控完成的操作，去满足更优的用户体验。所以我们才有了 Hi 服务实时消息推送功能去衔接智能场景化的服务。

Hi 服务实时消息推送功能主要覆盖了美的 40+的品类，最终实现了 169 个在线服务以及 1000+在线规则。其中它有三个核心功能，智能工程师、贴心小管家、懂你销售员。

智能工程师的功能包括故障提醒、安全提醒、异常提醒；贴心小管家的功能包括完成提醒、清洁提醒以及忘关机提醒；懂你销售员的功能包括耗材到期提醒、用户场景提醒、美食推荐提醒。产生这个功能的主要原因是，有的用户对智能设备的了解程度并不多，所以当我们发现，你的多样性智能设备或者单一智能设备下，有智能场景没有被应用，我们就会做相应的推荐。比如在用了厨房相关的电器设备后，我们会根据冰箱里的食材和烹饪工具，给你一些美食相关的推荐。

这部分链路也跟上面很相似，只是最终数据不会推送到 IoT 云，而是推送到第三方推消息送平台，再打通各个服务中心，包括美居、美的服务以及其他小程序、手机短信、手机顶部消息弹送等等，来进行消息推送。

这一部分我们也会做实时分析监控，包括效果回收、体验分析、异常监控等等。效果回收是指，我们推送给你消息后，你的反馈是怎样的，日活/月活表现是怎样的。

体验分析是指，我们推送完后有多少用户觉得干扰，然后取消了这些推送功能，后续不再推送了，然后根据统计的比例和量做进一步分析。

异常监控是指，我们会防止太多消息推送对用户造成干扰，所以我们会监控消息推送的量是否符合常态化标准。

在电商活动大屏监控的基础上，我们原来是由各个运营在第三方电商平台，包括淘宝、天猫、京东、拼抖快等等，自己收集数据手工上报，然后自己在 Excel 做聚合打通、联动分析把结果分析进来。比如我作为品类运营今年的 KPI 在大促活动几件全平台完成了多少，哪里我还要去尽快调整等等，这是全平台的运营分析需求。

所以在此背景下，我们先做了业务数据化，即把手工录入上报的数据，通过我们的系统平台自动落到数据库里。然后根据数据库实时接入的数据，感知大促的数据变化。通过 Flink 加工，写到 StarRocks，并把去年同期数据的引入维表用作对比分析，放到 QBI 上。最后用 QBI 做各种分析内容的大屏搭建的展示，从而给用户、运营更快、更直观的运营决策。

04 未来展望

基于我们现在实时生态体系建设，包括应用场景还是有很多的痛点，所以我们的短期的未来目标还是降本提效和工具赋能。

上图左侧是基础运维。

第一，云原生架构部署。然后这一部分主要是做弹性扩缩容的探索。
第二，集群热点机器自动均衡。对于新加的热点机器，可以自动打通热点机器自动均衡，包括磁盘的打散分类。
第三，任务报错根因和修复策略提示。把运维更加智能化，去提供基础运维更多的能力给上层。

我觉得好的平台不仅仅能帮助用户更快的提效，还应该对使用的开发人员有指导作用。让他们根据平台能更好的发现自己任务的问题，以及在过程中能学习到引擎底层、平台运维底层的知识。

上图右侧是平台和业务的展望。

第一，希望基于 Flink 去做可视化配置集成工具的建设。
第二，希望做细粒度资源配置的平台化打通，来形成开发过程中任务稳定性的保障，细粒度的控制资源放在哪些节点或者 operater 上会更好、更合适。
第三，流批一体的实践。基于今天的背景，离线数据的相应冗余计算浪费了我们太多的资源，希望在引擎统一的基础上，做流批一体的实践，以及进一步做 state 层面的打通，让离线算好的数据，实时基于 state 复用，来减轻更多存储和计算资源的浪费。

往期精选

▼ 关注「Apache Flink」，获取更多技术干货 ▼

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Apache Flink 实时计算在美的多业务场景下的应用与实践

01 实时生态系统在美的的发展和建设现状

02 核心传统业务场景 Flink 实时数字化转型实践

03 新兴业务场景 Flink 实时数字化应用实践

04 未来展望

你可能感兴趣的:(Flink,大数据,实时计算,flink,大数据,spark,scala,hbase)