leaeason

宜信实时数据平台介绍

宜信实时数据平台介绍（根据相关资料整理）

文章目录

宜信实时数据平台介绍（根据相关资料整理）

1.架构设计方案

1.1 定位和目标
1.2 整体设计架构

1)统一数据采集平台
2)统一流式处理平台
3)统一计算服务平台
4)统一数据可视化平台

2.技术组件介绍

2.1 数据总线平台DBus

2.1.1 DBus设计思想
2.1.2 DBus功能特性
2.1.3 DBus技术架构
2.1.4 DBus（Github链接）

2.2 分布式消息系统Kafka
2.3 流处理平台Wormhole

2.3.1 Wormhole设计思想
2.3.2 Wormhole功能特性
2.3.3 Wormhole技术架构
2.3.4 Wormhole（Github链接）

2.4 常用数据计算存储选型
2.5 计算服务平台Moonbox

2.5.1 Moonbox设计思想
2.5.2 Moonbox功能特性
2.5.3 Moonbox技术架构
2.5.4 Moonbox（Github链接）

2.6 可视应用平台Davinci

2.6.1 Davinci设计思想
2.6.2 Davinci功能特性
2.6.3 Davinci（Github链接）

作者：宜信技术学院
链接：https://juejin.im/post/5d0c53ad5188255716490f92 （如何设计实时数据平台（技术篇））

来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1.架构设计方案

1.1 定位和目标

实时数据平台（Real-time Data Platform，以下简称RTDP），由宜信技术学院研发的一个开源的实时数据平台（文章中有平台各组件的Github链接），旨在提供数据端到端实时处理能力（毫秒级／秒级／分钟级延迟），可以对接多数据源进行实时数据抽取，可以为多数据应用场景提供实时数据消费。作为现代数仓的一部分，RTDP可以支持实时化、虚拟化、平民化、协作化等能力，让实时数据应用开发门槛更低、迭代更快、质量更好、运行更稳、运维更简、能力更强。

1.2 整体设计架构

概念模块架构，是实时数据处理Pipeline的概念层的分层架构和能力梳理，本身是具备通用性和可参考性的，更像是需求模块。下图给出了RTDP的整体概念模块架构，具体每个模块含义都可自解释，这里不再详述。

如下图所示，我们针对概念模块架构的四个层面进行了统一化抽象：

统一数据采集平台（DBus）
统一流式处理平台（Wormhole）
统一计算服务平台（Moonbox）
统一数据可视化平台（Davinci）

同时，也对存储层保持了开放的原则，意味着用户可以选择不同的存储层以满足具体项目的需要，而又不破坏整体架构设计，用户甚至可以在Pipeline中同时选择多个异构存储提供支持。

下面分别对四个抽象层进行解读：

1)统一数据采集平台

统一数据采集平台，既可以支持不同数据源的全量抽取，也可以支持增强抽取。其中对于业务数据库的增量抽取会选择读取数据库日志，以减少对业务库的读取压力。平台还可以对抽取的数据进行统一处理，然后以统一格式发布到数据总线上。这里我们选择一种自定义的标准化统一消息格式UMS（Unified Message Schema）做为统一数据采集平台和统一流式处理平台之间的数据层面协议。

UMS自带Namespace信息和Schema信息，这是一种自定位自解释消息协议格式，这样做的好处是：

整个架构无需依赖外部元数据管理平台；
消息和物理媒介解耦（这里物理媒介指如Kafka的Topic, Spark Streaming的Stream等），因此可以通过物理媒介支持多消息流并行，和消息流的自由漂移。

平台也支持多租户体系，和配置化简单处理清洗能力。

2)统一流式处理平台

统一流式处理平台，会消费来自数据总线上的消息，可以支持UMS协议消息，也可以支持普通JSON格式消息。同时，平台还支持以下能力：

支持可视化／配置化／SQL化方式降低流式逻辑开发／部署／管理门槛
支持配置化方式幂等落入多个异构目标库以确保数据的最终一致性
支持多租户体系，做到项目级的计算资源／表资源／用户资源等隔离

3)统一计算服务平台

统一计算服务平台，是一种数据虚拟化／数据联邦的实现。平台对内支持多异构数据源的下推计算和拉取混算，也支持对外的统一服务接口（JDBC／REST）和统一查询语言（SQL）。由于平台可以统一收口服务，因此可以基于平台打造统一元数据管理／数据质量管理／数据安全审计／数据安全策略等模块。平台也支持多租户体系。

4)统一数据可视化平台

统一数据可视化平台，加上多租户和完善的用户体系／权限体系，可以支持跨部门数据从业人员的分工协作能力，让用户在可视化环境下，通过紧密合作的方式，更能发挥各自所长来完成数据平台最后十公里的应用。

以上是基于整体模块架构之上，进行了统一抽象设计，并开放存储选项以提高灵活性和需求适配性。这样的RTDP平台设计，体现了现代数仓的实时化／虚拟化／平民化／协作化等能力，并且覆盖了端到端的OLPP数据流转链路。

数据源、客户端，列举了大多数数据应用项目的常用数据源类型。
数据总线平台DBus，作为统一数据采集平台，负责对接各种数据源。DBus将数据以增量或全量方式抽取出来，并进行一些常规数据处理，最后将处理后的消息发布在Kafka上。
分布式消息系统Kafka，以分布式、高可用、高吞吐、可发布-订阅等能力，连接消息的生产者和消费者。
流式处理平台Wormhole，作为统一流式处理平台，负责流上处理和对接各种数据目标存储。Wormhole从Kafka消费消息，支持流上配置SQL方式实现流上数据处理逻辑，并支持配置化方式将数据以最终一致性（幂等）效果落入不同数据目标存储（Sink）中。
在数据计算存储层，RTDP架构选择开放技术组件选型，用户可以根据实际数据特性、计算模式、访问模式、数据量等信息选择合适的存储，解决具体数据项目问题。RTDP还支持同时选择多个不同数据存储，从而更灵活的支持不同项目需求。
计算服务平台Moonbox，作为统一计算服务平台，对异构数据存储端负责整合、计算下推优化、异构数据存储混算等（数据虚拟化技术），对数据展示和交互端负责收口统一元数据查询、统一数据计算和下发、统一数据查询语言（SQL）、统一数据服务接口等。
可视应用平台Davinci，作为统一数据可视化平台，以配置化方式支持各种数据可视化和交互需求，并可以整合其他数据应用以提供数据可视化部分需求解决方案，另外还支持不同数据从业人员在平台上协作完成各项日常数据应用。其他数据终端消费系统如数据开发平台Zeppelin、数据算法平台Jupyter等在本文不做介绍。
切面话题如数据管理、数据安全、开发运维、驱动引擎，可以通过对接DBus、Wormhole、Moonbox、Davinci的服务接口进行整合和二次开发，以支持端到端管控和治理需求。

2.技术组件介绍

2.1 数据总线平台DBus

2.1.1 DBus设计思想

1）从外部角度看待设计思想

负责对接不同的数据源，实时抽取出增量数据，对于数据库会采用操作日志抽取方式，对于日志类型支持与多种Agent对接。
将所有消息以统一的UMS消息格式发布在Kafka上，UMS是一种标准化的自带元数据信息的JSON格式，通过统一UMS实现逻辑消息与物理Kafka Topic解耦，使得同一Topic可以流转多个UMS消息表。
支持数据库的全量数据拉取，并且和增量数据统一融合成UMS消息，对下游消费透明无感知。

2）从内部角度看待设计思想

基于Storm计算引擎进行数据格式化，确保消息端到端延迟最低。
对不同数据源数据进行标准化格式化，生成UMS信息，其中包括：

✔ 生成每条消息的唯一单调递增id，对应系统字段ums_id_

✔ 确认每条消息的事件时间戳（event timestamp），对应系统字段ums_ts_

✔ 确认每条消息的操作模式（增删改，或insert only），对应系统字段ums_op_

对数据库表结构变更实时感知并采用版本号进行管理，确保下游消费时明确上游元数据变化。
在投放Kafka时确保消息强有序（非绝对有序）和at least once语义。
通过心跳表机制确保消息端到端探活感知。

2.1.2 DBus功能特性

支持配置化全量数据拉取
支持配置化增量数据拉取
支持配置化在线格式化日志
支持可视化监控预警
支持配置化多租户安全管控
支持分表数据汇集成单逻辑表

2.1.3 DBus技术架构

2.1.4 DBus（Github链接）

更多DBus技术细节和用户界面，可以参看：

GitHub： github.com/BriData

2.2 分布式消息系统Kafka

Kafka已经成为事实标准的大数据流式处理分布式消息系统，当然Kafka在不断的扩展和完善，现在也具备了一定的存储能力和流式处理能力。关于Kafka本身的功能和技术已经有很多文章信息可以查阅，本文不再详述Kafka的自身能力。

2.3 流处理平台Wormhole

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r9ba7C6f-1590318188187)(宜信实时数据平台介绍.assets/RTDP架构之Wormhole-1590132527372.png)]

2.3.1 Wormhole设计思想

1)从外部角度看待设计思想

消费来自Kafka 的UMS消息和自定义JSON消息
负责对接不同的数据目标存储 (Sink)，并通过幂等逻辑实现Sink的最终一致性
支持配置SQL方式实现流上处理逻辑
提供Flow抽象。Flow由一个Source Namespace和一个Sink Namespace定义，且具备唯一性。Flow上可以定义处理逻辑，是一种流上处理的逻辑抽象，通过与物理Spark Streaming、Flink Streaming解耦，使得同一个Stream可以处理多个Flow处理流，且Flow可以在不同Stream上任意切换。
支持基于回灌（backfill）的Kappa架构；支持基于Wormhole Job的Lambda架构

2)从内部角度看待设计思想

基于Spark Streaming、Flink计算引擎进行数据流上处理。Spark Streaming可支持高吞吐、批量Lookup、批量写Sink等场景；Flink可支持低延迟、CEP规则等场景。
通过ums_id_, ums_op_实现不同Sink的幂等入库逻辑
通过计算下推实现Lookup逻辑优化
抽象几个统一以支持功能灵活性和设计一致性

✔ 统一DAG高阶分形抽象

✔ 统一通用流消息UMS协议抽象

✔ 统一数据逻辑表命名空间Namespace抽象

抽象几个接口以支持可扩展性

✔ SinkProcessor：扩展更多Sink支持

✔ SwiftsInterface：自定义流上处理逻辑支持

✔ UDF：更多流上处理UDF支持

通过Feedback消息实时归集流式作业动态指标和统计

2.3.2 Wormhole功能特性

支持可视化，配置化，SQL化开发实施流式项目

支持指令式动态流式处理的管理、运维、诊断和监控

支持统一结构化UMS消息和自定义半结构化JSON消息

支持处理增删改三态事件消息流

支持单个物理流同时并行处理多个逻辑业务流

支持流上Lookup Anywhere，Pushdown Anywhere

支持基于业务策略的事件时间戳流式处理

支持UDF的注册管理和动态加载

支持多目标数据系统的并发幂等入库

支持多级基于增量消息的数据质量管理

支持基于增量消息的流式处理和批量处理

支持Lambda架构和Kappa架构

支持与三方系统无缝集成，可作为三方系统的流控引擎

支持私有云部署，安全权限管控和多租户资源管理

2.3.3 Wormhole技术架构

2.3.4 Wormhole（Github链接）

更多Wormhole技术细节和用户界面，可以参看：

GitHub：github.com/edp963/worm…

2.4 常用数据计算存储选型

RTDP架构对待数据计算存储选型的选择采取开放整合的态度。不同数据系统有各自的优势和适合的场景，但并没有一个数据系统可以适合各种各样的存储计算场景。因此当有合适的、成熟的、主流的数据系统出现，Wormhole和Moonbox会按照需要相应的扩展整合支持。

这里大致列举一些比较通用的选型：

关系型数据库（Oracle/MySQL等）：适合小数据量的复杂关系计算
分布式列存储系统

✔ Kudu：Scan优化，适合OLAP分析计算场景

✔ HBase：随机读写，适合提供数据服务场景

✔ Cassandra：高性能写，适合海量数据高频写入场景

✔ ClickHouse：高性能计算，适合只有insert写入场景（后期将支持更新删除操作）

分布式文件系统

✔ HDFS/Parquet/Hive：append only，适合海量数据批量计算场景

分布式文档系统

✔ MongoDB：平衡能力，适合大数据量中等复杂计算

分布式索引系统

✔ ElasticSearch：索引能力，适合做模糊查询和OLAP分析场景

分布式预计算系统

✔ Druid/Kylin：预计算能力，适合高性能OLAP分析场景

2.5 计算服务平台Moonbox

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4muwfAuj-1590318188191)(宜信实时数据平台介绍.assets/RTDP架构之Moonbox.png)]

2.5.1 Moonbox设计思想

1)从外部角度看待设计思想

负责对接不同的数据系统，支持统一方式跨异构数据系统即席混算
提供三种Client调用方式：RESTful服务、JDBC连接、ODBC连接
统一元数据收口；统一查询语言SQL收口；统一权限控制收口
提供两种查询结果写出模式：Merge、Replace
提供两种交互模式：Batch模式、Adhoc模式
数据虚拟化实现，多租户实现，可看作是虚拟数据库

2)从内部角度看待设计思想

对SQL进行解析，经过常规Catalyst处理解析流程，最终生成可下推数据系统的逻辑执行子树进行下推计算，然后将结果拉回进行混算并返回
支持两层Namespace：database.table，以提供虚拟数据库体验
提供分布式服务模块Moonbox Grid提供高可用高并发能力
对可全部下推逻辑（无混算）提供快速执行通道

2.5.2 Moonbox功能特性

支持跨异构系统无缝混算
支持统一SQL语法查询计算和写入
支持三种调用方式：RESTful服务、JDBC连接、ODBC连接
支持两种交互模式：Batch模式、Adhoc模式
支持Cli Command工具和Zeppelin
支持多租户用户权限体系
支持表级权限、列级权限、读权限、写权限、UDF权限
支持YARN调度器资源管理
支持元数据服务
支持定时任务
支持安全策略

2.5.3 Moonbox技术架构

2.5.4 Moonbox（Github链接）

更多Moonbox技术细节和用户界面，可以参看：

GitHub： github.com/edp963/moon…

2.6 可视应用平台Davinci

2.6.1 Davinci设计思想

1)从外部角度看待设计思想

负责各种数据可视化展示功能
支持JDBC数据源
提供平权用户体系，每个用户可以建立属于自己的Org、Team和Project
支持SQL编写数据处理逻辑，支持拖拽式编辑可视化展示，提供多用户社交化分工协作环境
提供多种不同的图表交互能力和定制化能力，以应对不同数据可视化需求
提供嵌入整合进其他数据应用的能力

2)从内部角度看待设计思想

围绕View和Widget展开。View是数据的逻辑视图；Widget是数据可视化视图
通过用户自定义选择分类数据、有序数据和量化数据，按照合理的可视化逻辑自动展现视图

2.6.2 Davinci功能特性

1)数据源

支持JDBC数据源
支持CSV文件上传

2)数据视图

支持定义SQL模版
支持SQL高亮显示
支持SQL测试
支持回写操作

3)可视组件

支持预定义图表
支持控制器组件
支持自由样式

4)交互能力

支持可视组件全屏显示
支持可视组件本地控制器
支持可视组件间过滤联动
支持群控控制器可视组件
支持可视组件本地高级过滤器
支持大数据量展示分页和滑块

5)集成能力

支持可视组件CSV下载
支持可视组件公共分享
支持可视组件授权分享
支持仪表板公共分享
支持仪表板授权分享

6)安全权限

支持数据行列权限
支持LDAP登录集成

2.6.3 Davinci（Github链接）

更多Davinci技术细节和用户界面，可以参看：

GitHub：github.com/edp963/davi…

探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
龙珠训练营机器学习task04 a_little_pig_ python
学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：https://tianchi.aliyun.com/competition/entrance/231702/introduction?spm=5176.20222472.J_3678908510.8.8f5e67c2RKrT98总体思路：分别使用LightGBM，xgboost，gbdt，catboost建立多个个体学习器（加入b
Lambda离线实时分治架构深度解析与实战喜欢猪猪架构
一、引言在大数据技术日新月异的今天，Lambda架构作为一种经典的数据处理模型，在应对大规模数据应用方面展现出了强大的能力。它整合了离线批处理和实时流处理，为需要同时处理批量和实时数据的应用场景提供了成熟的解决方案。本文将对Lambda架构的演变、核心组件、工作原理及痛点进行深度解析，并通过Java代码实现一个实战实例。二、Lambda架构的演变Lambda架构是由Storm的作者NathanMa
“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce 绒绒毛毛雨大数据挖掘数据挖掘 mapreduce 人工智能
文章目录O背景知识1数据挖掘2邦费罗尼原则3TF.IDF4哈希函数5分布式文件系统一、MapReduce基本介绍1.Map任务2.按键分组3.Reduce任务4.节点失效处理5.小测验：在一个大型语料库上有100个map任务和若干reduce任务：二、基于MapReduce的基本运算1.选择（Selection）2.交（Intersection）3.并（Union）4.补（Difference）5
【贪心算法】洛谷P1106 - 删数问题仟濹算法学习笔记贪心算法算法 c语言 c++
2025-01-22-第46篇【洛谷】贪心算法题单-【贪心算法】-【学习笔记】作者(Author):郑龙浩/仟濹(CSND账号名)目录文章目录目录P1106删数问题题目描述输入格式输出格式样例#1样例输入#1样例输出#1提示思路代码P1106删数问题题目描述键盘输入一个高精度的正整数nnn（不超过250250250位），去掉其中任意kkk个数字后剩下的数字按原左右次序将组成一个新的非负整数。编程对
新能源汽车 BMS 学习笔记篇——如何选择继电器 & MOS 管作为开关 WPG大大通其他教程笔记 MOS 大大通继电器
序：继电器和MOSFET（俗称MOS管）都可以用作BMS（BatteryManagementSystem，电池管理系统）中控制电池充放电的开关，但它们在原理、结构和特性上存在一些区别，以下总结它们之间主要区别及适用场景一、继电器&MOS管的组成结构及工作原理1、继电器：由线圈、触点和机械部件组成。当ControlSwitch闭合时，触发继电器的电磁线圈产生磁场，使其吸引或释放触点（RelayCon
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
基于大数据的电影数据分析可视化系统设计与应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于大数据的电影数据分析可视化系统设计与应用作者：禅与计算机程序设计艺术1.背景介绍1.1大数据时代的电影行业随着互联网技术和数字化的发展,电影行业已经进入大数据时代。每天都有海量的电影相关数据在各个平台上生成,包括票房数据、评分数据、影评数据等。这些数据蕴含着巨大的价值,如果能够有效地分析和利用,将为电影行业的发展提供重要的决策支持。1.2电影数据分析与可视化的意义1.2.1洞察电影市场趋势通过
【C++】初学者的浪漫编程指南星霜旅人 C++c++
少年不惧岁月长，彼方尚有荣光在。前言这是我自己学习C++的第一篇博客总结。后期我会继续把C++学习笔记开源至博客上。C++的兼容性1.C++兼容绝大多数C语言的语法，因此只需要把.c后缀文件改为.cpp即可。2.VS编译器看到是.cpp就会调用C++编译器编译。#define_CRT_SECURE_NO_WARNINGS#includeintmain(){printf("helloworld\n"
基于大语言模型构建本地个人AI助理由数入道人工智能语言模型自然语言处理
在构建本地专属的个人AI助理时，我们需要处理多个方面的技术需求，确保其在多模态数据处理、实时查询、灵活推理、知识图谱更新等方面具备高效性、实时性和可扩展性。以下探讨如何基于大语言模型构建一个具备全面功能的个人AI助理，涵盖知识库管理、动态推理、用户交互、实时学习和跨模态集成等关键技术。一、技术设计总体架构1.目标与需求个性化AI助理：构建一个本地专属AI助理，能够处理多种输入格式（文本、图像、音频
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
LiteOS 学习第二篇——基本介绍未知电子
基本概念从系统的角度看，任务是竞争系统资源的最小运行单元。任务可以使用或等待CPU、使用内存空间等系统资源，并独立于其它任务运行。HuaweiLiteOS的任务模块可以给用户提供多个任务，实现了任务之间的切换和通信，帮助用户管理业务程序流程。这样用户可以将更多的精力投入到业务功能的实现中。HuaweiLiteOS是一个支持多任务的操作系统。在HuaweiLiteOS中，一个任务表示一个线程。Hua
1.24学习总结张张张312 学习
1.树的性质性质二：对于度为m的树，第i层上最多有...个结点性质三：对于高度为h，度为m的树，最多有....个结点2.二叉树（每个结点至多只有两棵子树）性质一、二、三、四、五满二叉树完全二叉树3.二叉树的存储结构-链式结构4.二叉树的遍历前序遍历中序遍历后序遍历非递归前序遍历二叉树遍历性质4.线索二叉树线索化：利用叶节点的空余空间记录前驱，后继存储结构具体线索化使用线索进行遍历5.哈夫曼树
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
Command Center AI 由数入道应急管理人工智能机器学习智能体
CommandCenterAI是一种先进的智能决策支持系统，专门用于应急指挥和资源调度管理，尤其在高压、复杂的环境中，如自然灾害应对、军事指挥、城市公共安全等领域，帮助决策者做出快速、有效的响应。它集成了大数据处理、实时情报分析、优化调度、决策模拟等功能，为指挥官提供多维度的决策支持。1.CommandCenterAI的核心功能1.1实时数据整合与情报分析CommandCenterAI需要从多个数
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
如何在WPS/Excel中批量查询手机号码归属地不吃鱼不吃鱼 wps excel
在这个信息化发展时代，无论是企业客服中心、销售团队，经常需要处理大量的电话号码。从客户信息管理到市场调研，再到日常生活中的通讯记录整理，号码归属地的查询成为了不可或缺的一环。然而，手动查询不仅耗时耗力，还容易出错。今天，就让我们一起探索Excel函数库的神奇之处，学习如何利用简单的公式实现号码归属地的自动查询，让数据处理变得更加高效便捷！那么如何使用这个号码归属地查询公式呢？第一步：安装Excel
设计模式的艺术-中介者模式晚秋贰拾伍设计模式中介者模式
行为型模式的名称、定义、学习难度和使用频率如下表所示：1.如何理解中介者模式如果在一个系统中对象之间存在多对多的相互关系，可以将对象之间的一些交互行为从各个对象中分离出来，并集中封装在一个中介者对象中，由该中介者进行统一协调，这样对象之间多对多的复杂关系就转化为相对简单的一对多关系。通过引入中介者来简化对象之间的复杂交互，中介者模式是迪米特法则的一个典型应用。中介者模式（MediatorPatte
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
FastAPI介绍 -zZR fastapi python
1.fastapi介绍一个用于构建API的现代、快速（高性能）的web框架。特点快速：可与NodeJS和Go并肩的极高性能（归功于Starlette和Pydantic）。最快的Pythonweb框架之一。高效编码：提高功能开发速度约200％至300％。更少bug：减少约40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单：设计的易于使用和学习，阅读文档的时
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
一、新手学习爬虫第一课对网站发起请求（基于python语言） [木子加贝] python自学爬虫学习爬虫 python 开发语言后端
目录前言一、安装并引用请求模块requests1.安装请求模块2.引用requests请求模块3.引用requests请求模块并使用别名二、发起请求1.对网站发起get请求（最常用的请求）：（1）第一种方法（字符串）（2）第二种方法（变量）（3）第三种方法（关键字传参）2.对网站发起带参数的get请求：3.对网站发起post请求：4.对网站发JSON数据的post请求：4.注意事项总结前言爬虫的本
【学习笔记】手把手教你使用Autoware标定SICK-2D激光雷达和相机 Masec 学习笔记 Autoware标定二维雷达
2019/06/21更新说明：很多小伙伴反应从github上下载的Autoware没有CalibrationToolkit，是作者在github的新源码和我用的版本不一样了。该教程仅针对2018年11月7日的发布版本。网上Autoware的教程不多，而且都是关于多线的威力登雷达和相机的联合标定。自己摸索使用Autoware标定SICKTIM561单线激光雷达和相机的方法，写一个详细的教程，希望可以
Three.js学习笔记(一) hzxwonder three.js webgl three.js
Three.js学习笔记(一)1.四大组建1.场景任何要显示的东西，放在场景的任何位置一个页面可以有多个场景实现方式THREE.Scene=function()2.相机浏览器中所能看到的东西，就是由相机拍摄出来。即将相机能看到的内容显示在浏览器画面上分类1.透视相机近大远小+灭点2.正投影相机远处和近处一样大，也称正交相机参数THREE.PerspectiveCamera=function(fov
Qt笔记——QLineEdit 繁缕怀夕 QT qt 开发语言
QT零基础——QLineEdit1、QLineEdit类1.1、常用成员函数1.2、常用信号2、QLineEdit功能实现1、QLineEdit类//根据学习实践进度–程序更新1.1、常用成员函数成员函数说明clear()清空LineEdit中的文本内容text()const获取LineEdit的当前文本内容setText(constQString&)设置LineEdit的文本内容setText(
Github上最热门的11个Java开源项目你会了吗 Java小叮当项目 Github 项目 java 程序员 IT
前言4月份GitHub上最热门的Java开源项目排行已经出炉啦，一起来看看吧！1JimuReport（地址见文末）这是一款免费的数据可视化工具，报表与大屏设计！类似于excel操作风格，在线拖拽完成报表设计！功能涵盖:报表设计、图形报表、打印设计、大屏设计等，永久免费！2dolphinscheduler（地址见文末）ApacheDolphinScheduler是一个可视化的分布式大数据工作流任务调
CSS学习笔记9——定位position green_pine_ CSS css 学习笔记前端 html
CSS定位可以让盒子自由的在某个盒子内移动位置或者固定屏幕中某个位置，并且可以压住其他盒子定位组成定位=定位模式+边偏移定位模式用于指定一个元素在文档中的定位方式边偏移决定了该元素的最终位置定位模式通过position属性来设置值语义static静态定位relative相对定位absolute绝对定位fixed固定定位边偏移属性：top、bottom、left、right属性示例描述toptop:
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

宜信实时数据平台介绍

宜信实时数据平台介绍（根据相关资料整理）

文章目录

1.架构设计方案

1.1 定位和目标

1.2 整体设计架构

1)统一数据采集平台

2)统一流式处理平台

3)统一计算服务平台

4)统一数据可视化平台

2.技术组件介绍

2.1 数据总线平台DBus

2.1.1 DBus设计思想

2.1.2 DBus功能特性

2.1.3 DBus技术架构

2.1.4 DBus（Github链接）

2.2 分布式消息系统Kafka

2.3 流处理平台Wormhole

2.3.1 Wormhole设计思想

2.3.2 Wormhole功能特性

2.3.3 Wormhole技术架构

2.3.4 Wormhole（Github链接）

2.4 常用数据计算存储选型

2.5 计算服务平台Moonbox

2.5.1 Moonbox设计思想

2.5.2 Moonbox功能特性

2.5.3 Moonbox技术架构

2.5.4 Moonbox（Github链接）

2.6 可视应用平台Davinci

2.6.1 Davinci设计思想

2.6.2 Davinci功能特性

2.6.3 Davinci（Github链接）

你可能感兴趣的:(大数据,学习)