OpenPie｜拓数派

DTCC 2023丨云原生环境下，需要什么样的 ETL 方案？

2023年8月16日~18日，第14届中国数据库技术大会（DTCC 2023）于北京隆重召开，拓数派受邀参与本次大会，PieCloudDB 技术专家邱培峰在大会做了《云原生虚拟数仓 PieCloudDB ETL 方案设计与实现》的主题演讲，详细介绍了 PieCloudDB 的 ETL 方案总体设计与实现，分析了 ETL 工具 pdbconduct 及相关数据库内核扩展。

图为拓数派 PieCloudDB 技术专家邱培峰标题

对于数据库用户而言，ETL 的重要性不言而喻。 ETL（ Extract, Transform, Load ），即数据的抽取、转换和加载，简单理解为数据库的数据导入过程。ETL 的本质是不同系统（数据组织形式）之间的数据移动。ETL 的过程有助于数据库用户实现数据的高效管理和优化。它确保数据库中的数据不仅仅是存储在其中，还经过了精心的处理，以满足用户的需求。

1 云原生环境下的 ETL

随着云原生时代的到来，经济实惠且可轻松扩展的对象存储解决方案成为满足用户对高弹性、高性价比需求的首选。传统 ETL（Extract, Transform, Load）是一种将数据从源系统抽取、清洗、转换，最后加载到目标系统中进行分析的过程。传统 ETL 的特点是吞吐量大，批量加载性能非常好，缺点是对源端和目标系统影响较大，通常是在非业务高峰进行，因而会有较大的数据延迟，通常为 T+1。

CDC（Change Data Capture）是指实时或者准实时捕获数据库或文件系统中发生变化的数据，并将其同步到其他数据系统中，同时确保数据的一致性和准确性。CDC 通常通过解析源端日志的方式实现，对源系统影响较小，且有较低的时延。但对目标系统，尤其是分析性数据库，相比于批量模式，会带来较大的数据更新开销。即使如此，CDC 方式在数据同步方面应用越来越广泛；同样的，传统的 ETL 模式在很多场景仍有不可替代的优势。

无论 ETL 还是 CDC 都是把数据复制作为目标的，因此不可避免的会造成一定程度的数据冗余，也存在造成数据不一致的风险；而基于湖仓技术的一写多读，zero-ETL 等技术可以完全消除数据复制造成潜在冗余和不一致风险。统一 ETL、CDC 和湖仓技术正是 PieCloudDB Database 的 ETL 方案的目标之一。

PieCloudDB 存算分离的架构使得不同系统可以直接共享同一份底层数据，避免了繁琐的数据抽取、转换和加载过程。目前，PieCloudDB 支持直接读取对象存储上的 Parquet 等格式的文件，实现了数据共享和访问方面提供了便捷性。

某些实际场景下会产生 ETL 需求，例如同一份底层原始数据使用不同系统查询时，或为不同类型的查询特化的系统会有不同的存储方式等。因此，在进行 ETL 的方案设计时需要考虑以下几个要素：

多种数据源：需要考虑不同系统和数据源（如生产 IoT 数据）的多样性，确保能够从不同来源（事务型数据库，HDFS，Kafka 等）抽取数据，应对不同系统的数据接入需求。
多种数据格式：数据可能以多种格式存在：如 CSV、JSON、Parquet、二进制等。确保 ETL 流程具备处理不同格式数据的能力，能够解析、转换和统一这些数据以适应目标系统的要求。
通用的数据处理/转换：使数据能够被规范地清洗、加工和转换，以满足不同系统的需要。这将提高数据质量并减少冗余的转换逻辑。
唯一性和事务性保证：确保在数据加载过程中维护数据的唯一性和事务性。避免重复数据的导入，同时在 ETL 过程中实现事务控制，确保数据的完整性。
断点续传：在 ETL 过程中，通过记录和恢复处理状态，避免数据丢失或重复处理。
错误处理：能够捕获、记录和处理在 ETL 过程中出现的错误，包括数据格式错误、连接问题等，保证数据的完整性和可靠性。

这些要素的设计将帮助确保数据在从抽取到加载的整个过程中得到适当处理，为数据驱动的决策和分析提供坚实的基础。

2 PieCloudDB ETL 方案总体设计与实现

2.1 PieCloudDB ETL 方案的总体设计

充分考虑到云原生时代的ETL需求，PieCloudDB 的 ETL 方案总体设计主要包括三个方面：

任务调度总控 pdbconduct：在 ETL 流程中，任务的调度和协调由 pdbconduct 负责。pdbconduct 充当着总控角色，管理任务的排程、执行顺序和依赖关系。通过 pdbconduct ，不同的 ETL 任务可以被智能地调度，确保整个数据流程的有效运行。
数据源提取（插件/客户端工具）：数据源提取阶段涉及从业务系统的原始数据库中获取数据。这需要开发插件和工具，以确保从业务系统中高效导出数据。这些插件和工具能够与不同业务系统进行连接，从中抽取数据，然后将其转换成适合 ETL 流程的格式。
计算节点 Foreign Table 和 Formatter 解耦：在计算节点上运行Foreign Table 是 ETL 过程的核心。这一步骤将从业务系统中提取的数据传输到 PieCloudDB 中，并在计算节点上维护不同的数据格式。Foreign Table 允许将数据映射到数据库表中，为数据的转换和处理创造了环境。

通过这三个方面的设计，PieCloudDB 的 ETL 方案能够实现任务的有效调度、从业务系统提取数据以及在计算节点上处理数据的目标。整个流程确保了数据从业务系统到 PieCloudDB 的顺畅传输，并为数据的转换和处理提供了必要的基础。这使得数据在被集成、转换和加载的过程中保持了准确性和一致性，为后续分析和应用提供了高质量的数据资源。

2.2 PieCloudDB ETL 执行流程

当在 PieCloudDB 上开启 ETL 任务时，具体流程如下图所示：

源系统连接和数据提取：首先，与源系统建立连接，执行 SQL 查询或其他高频操作，以提取所需数据。这一步骤有助于从源系统获取需要进行 ETL 的数据。
数据传输到中间系统：提取的数据可以直接传输到中间系统，其中中间系统可以是源系统的本地磁盘、PieCloudDB 的磁盘，或者其他中间存储位置。这一步骤有助于临时存储数据，以便后续处理。
中间系统处理：中间系统可能是云存储或服务器（例如 Kafka），具体选择根据业务场景的需要进行配置。在中间系统中，为后续的 Foreign Table 准备数据。
Foreign Table 连接：在准备好的数据上，通过 Foreign Table 的连接机制，将数据映射到 PieCloudDB 中。这一步骤使得数据可以在 PieCloudDB 的环境下被进一步处理和分析。
数据加载及验证：可以进行数据的转换和处理，同时确保云存储上的文件是否符合预期，进行必要的验证和检查，以确保数据的完整性和正确性。

根据业务需求，任务调度总控 pdbconduct 会在适当的时间按需触发 ETL 任务，从源系统中提取所有需要进行处理的数据。这一步确保所需数据可用于后续的处理。

一旦数据导出完成，pdbconduct 将相应的 SQL 语句发送到 PieCloudDB 的控制节点。这些 SQL 语句可能包括数据转换、加载或其他操作，以准备数据进入 PieCloudDB 的环境。

在 PieCloudDB 控制节点执行 SQL 语句后，pdbconduct 收集执行结果，记录任务的进度以及任何可能的错误信息。这可以帮助监测任务的状态，并在出现问题时迅速采取适当的措施。如果在执行过程中出现错误，pdbconduct 将记录所有错误信息，并根据需要采取相应的补救措施。

2.3 INSERT/MERGE 模式

PieCloudDB 的 ETL 支持 INSERT 和 MERGE 两种常见的数据处理模式。用户可以根据业务需求、数据更新频率、和数据变化情况选择 INSERT 模式或 MERGE 模式。

2.3.1 INSERT 模式

INSERT 模式是将源系统中的数据直接插入到 PieCloudDB 中的一种模式。在这种模式下，从源系统中提取的数据会被逐行或逐批插入到 PieCloudDB 中的对应表中。INSERT 模式适用于对数据进行批量导入，或者当数据变化较小，且新增记录为主要操作时。INSERT 模式的优势在于简单直接，支持单纯的导入场景，特别擅长与现有数据没有逻辑关联的时序数据流

步骤 1：获取原始数据

首先，针对特定的数据源，需要开发适配器或插件，以便 PieCloudDB 能够连接到该数据源。可能需要开发 PostgreSQL 扩展来支持数据源的通信和数据格式解析。

接着，控制节点将读取数据源信息（包括连接参数、认证信息、数据抽取规则等），决定是否将任务进行拆分来提高并发性和效率，接着生成任务信息（查询语句、任务依赖关系等）。最后，计算节点根据任务信息读取数据源，并将原始数据和元信息返回给控制节点。

通过这些步骤，INSERT 模式下的 ETL 流程将数据从数据源中获取，并通过 Foreign Table 的方式插入到 PieCloudDB 中。

CREATE FOREIGN TABLE foreign_table(meta text, raw bytea); 
SELECT meta, raw FROM foreign_table;

步骤 2：数据的准备和解析

经过步骤 1，从 Foreign Table 中获取的原始数据需要经过解析和转换，以适应内部行格式。而这个转换过程通常是通过 Formatter 完成的。

PieCloudDB Formatter 会先对 Foreign Table 中获得的原始数据进行解析，根据数据的格式（如 CSV，JSON，XML 等），将原始数据分解成可操作的数据单元（字段、行、列等）。

接着，PieCloudDB Formatter 会将解析后的数据进行转换，以适应 PieCloudDB 的内部的行格式，生成需要的各列。

CREATE FUNCTION formatter(input bytea) RETURNS user_type …; 
SELECT meta, raw FROM foreign_table 
LATERAL JOIN formatter(raw);

步骤 3：数据的转换

在步骤 3 中，会对步骤 2 中解析出的列执行数据转换操作，以确保数据的准确性和一致性，使数据能够顺利插入 PieCloudDB 表中，为后续的分析和应用提供可靠的数据基础。

SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table 
LATERAL JOIN formatter(raw) AS r) sub;

步骤 4：插入目标表

经过前面三个步骤，数据已经完成了准备和转换，此时，将在步骤 4 中完成插入目标表。

INSERT INTO table 
SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table 
LATERAL JOIN formatter(raw) AS r) sub;

步骤 5：插入历史表，支持断点续传

最后，为了支持断点续传，会将数据插入历史表，以保存数据的变更历史（新增、更新和删除操作），从而实现对断点续传的支持。

INSERT INTO history 
SELECT meta FROM foreign_table;

2.3.2 MERGE 模式

PieCloudDB 的 ETL MERGE/UPSERT 模式支持 CDC（Change Data Capture）场景。这种模式可处理具有操作类型、逻辑主键和顺序键的数据，以实现数据的插入、更新和删除操作。

在MERGE模式下，数据需要包含操作字段（OP，即 INSERT/UPDATE/DELETE）、逻辑主键和顺序键。当逻辑主键不存在时，模式会执行 INSERT 操作；当逻辑主键已存在时，会执行更新或删除操作。顺序键用于确定操作的顺序，在处理多个操作时，根据顺序键确定操作的执行顺序，以防止操作间的冲突。MERGE 模式允许处理重复数据，但不可以有事务逻辑错误。

步骤 1：数据解析和导入临时表

首先，从外部数据源获取的原始数据经过解析，以获取包含操作字段（OP）、逻辑主键（LPK）和顺序键（OK）等的数据。接着将解析后的数据导入到与目标表类型相同的临时表中。这个临时表用于存储待合并和更新的数据。

SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table 
LATERAL JOIN formatter(raw) AS r) parsed;

步骤 2：临时表内部去重

在临时表内部，对于具有相同逻辑主键（LPK）的行，根据顺序键（OK）选择保留 OK 最大的那行，确保只保留顺序键最大的唯一记录。

INSERT INTO temp_table 
SELECT all_columns FROM ( SELECT *, row_number() OVER PARTITION BY lek 
ORDER BY ok DESC FROM parsed 
) AS no_dup WHERE no_dup.row_number = 1;

步骤 3：目标表删除 PK 匹配行

在目标表中，根据逻辑主键（LPK）进行匹配，删除与临时表中的数据具有相同逻辑主键的记录。这确保了数据的更新操作。

DELETE FROM table USING temp_table 
WHERE table.pk = temp_table.pk;

步骤 4：插入目标表，完成 merge

将经过去重和操作处理后的数据插入到目标表中，完成数据的合并和更新。插入操作可能涉及 INSERT、UPDATE 或 DELETE 操作，根据数据的操作字段（OP）决定。

INSERT INTO table SELECT all_columns 
FROM temp_table;

在完成 MERGE 后，同 INSERT 模式一样，会记录历史信息，这里就不再赘述。

最后,让我们通过一段视频讲解及 demo 更加具象地了解一下这个过程。

每日算法题-Nim 游戏 - 台阶晚夜微雨问海棠呀算法游戏
给定一个台阶数n，玩家每次可以选择跳跃1到m个台阶，最后一个台阶到达者获胜。假设两位玩家都采取最优策略，判断先手玩家是否会获胜。输入格式一行包含两个整数n和m（1≤n,m≤10^9）。输出格式如果先手玩家能获胜，输出"Yes"；否则输出"No"。n,m=map(int,input().split())ifnm时，若n%(m+1)≠0，先手可以通过策略使剩余台阶数变为(m+1)的倍数，将必败态转移给
AtCoder Beginner Contest 156题解（未完） wdxcqupt 算法 c++
AtCoderBeginnerContest156D-Bouquet题意：一共有n种不同的花，问将x种花组成一束花的方案数，1<=x<=n，x!=a，x!=b。思路：补集思想，总共有∑i=1n\sum_{i=1}^n∑i=1nCniC_n^iCni=2n−12^n-12n−1,种方案，不合情况的有CnaC_n^aCna与CnbC_n^bCnb减去即是答案。E-Roaming题意：有n个房间，每个房
量子化学仿真软件：Quantum Espresso_（8）.dos.x模块使用 kkchenjj 分子动力学2 分子动力学仿真模拟模拟仿真人工智能
dos.x模块使用在量子化学仿真软件中，dos.x模块用于计算和分析能态密度（DensityofStates,DOS）。能态密度是描述材料电子结构的重要物理量，可以提供关于材料能带结构、电子态分布和电子性质的详细信息。本节将详细介绍如何使用dos.x模块进行能态密度的计算和分析。1.基本概念1.1能态密度（DOS）定义能态密度（DOS）是指单位能量区间内的量子态数。在固体物理中，DOS可以描述材料
sealos自动部署k8s集群 SilentCodeY linux 运维服务器云原生 kubernetes 容器
官网：安装K8s集群|Sealos:专为云原生开发打造的以K8s为内核的云操作系统1、sealos工具下载二进制自动下载VERSION=`curl-shttps://api.github.com/repos/labring/sealos/releases/latest|grep-oE'"tag_name":"[^"]+"'|head-n1|cut-d'"'-f4`curl-sfLhttps://m
Axios源码深度剖析 - XHR篇 IT博客技术分享 ajax node.js javascript
Axios源码深度剖析-XHR篇#Axios源码深度剖析-XHR篇[axios](https://github.com/axios/axios)是一个基于Promise的http请求库，可以用在浏览器和node.js中，目前在github上有42K的star数##分析axios-目录-[axios项目目录结构](#axios项目目录结构)-[名词解释](#名词解释)-[axios内部的运作流程图]
SAP-ABAP：SAP BW模块架构与实战应用详解爱喝水的鱼丶 ABAP开发之必须知道的 VIP详情查看专栏 SAP-ABAP开发基础详解开发语言 SAP ABAP ERP 开发运维
SAPBW模块架构与实战应用详解—##一、核心架构分层设计###1.数据仓库层（DataWarehousingLayer）|组件|功能说明|典型对象||-------------------|--------------------------------------------------------------------------|-----------------------------
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
WebRTC建立Description的通信的实际的原理堕落年代 vue 杂论 webrtc 网络
一、正确流程的核心逻辑//发送端正确代码示例constsenderPC=newRTCPeerConnection();//生成Offer时立即开始收集候选✅senderPC.createOffer().then(offer=>{awaitsenderPC.setLocalDescription(offer);//触发icecandidate事件sendToReceiver(offer);});//
a4如何打印双面小册子_a4如何排版打印双面小册子? weixin_39908082 a4如何打印双面小册子
我来告诉你！！你手上这种册子的装订方式是骑马订！这种装订方式在adobepdf里面用拼版插件拼版非常快，不过非专业人士都不会用！有的打印机的打印驱动页面里面也有小册子打印的方式，可以直接打印出来！重点来了，以上的方法你都用不了的话，就只能用最费事的方法了！在word或者wps里面一张一张的排！1.页面数，骑马订册子的页面数必须是4的倍数，不够的话就得加空白页，空白页最好加在封二或者封三(封面的背面
使用 Airbyte Typeform 加载器进行数据文档化 shuoac python
在数据集成的世界中，Airbyte是一个非常强大的平台，它为我们的ETL管道提供了从API、数据库和文件到数据仓库和湖泊的连接器。但是，随着技术的快速发展，某些工具和方法可能会被弃用，例如AirbyteTypeform加载器。不过这并不意味着不能使用其他更好的解决方案。因此，这篇文章就带大家一起了解如何使用Airbyte原生支持的加载器来处理Typeform的数据文档化。技术背景介绍Airbyte
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
代码训练day7哈希表2 徵686 散列表数据结构
1.四数相加IIleetcode454哈希表判断是否存在classSolution{//四数相加ii统计个数publicintfourSumCount(int[]nums1,int[]nums2,int[]nums3,int[]nums4){HashMapmap=newHashMapmagazine.length())returnfalse;//java字符串长度s.length()for(cha
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
C#基础学习（二）C#数组生存手册：从入门到“血压拉满“的奇妙旅程 FAREWELL00075 c#学习开发语言数组 Array
作为一只C#萌新，当你试图用数组装下整个世界时，系统可能会温柔地弹出一句**"Indexwasoutsidetheboundsofthearray."**。别慌！这份求生指南将用段子教你玩转数组一、数组是什么数组简单来说就是由相同元素组成的一个集合，数组里面不一定是数，还可能是bool,string等类型组成的集合。那么他有些什么特点呢：本质：装着相同类型元素的集装箱（比如一箱肥宅快乐水）特性：长
access读取EXCEL文件,并根据动态生成表，完成报表的导入 MES先生 ACCESS VBA access
OptionCompareDatabasePublicsheetidAsString'报表IDPublictempAsString'获取年月时分秒PublictmpIAsInteger'对应EXCEL行PublictmpJAsInteger'对应EXCEL列PublicXlsAppAsObjectPublicXlsWorkbookAsObjectPublicXlsWorkSheetAsObject
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
《Oracle DBA入门实战：十大高频问题详解与避坑指南》鸿·蒙数据库 Oracle数据库 DBA入门数据库管理 IT技术干货学习笔记
OracleDBA入门作业十问十答本文为OracleDBA入门作业整理，涵盖工具使用、配置管理及权限控制等核心知识点，适合新手快速上手。如有疑问或补充，欢迎评论区交流！1.DBA常用工具有哪些？OracleUniversalInstaller(OUI)用途：安装、升级或删除软件组件。OracleDatabaseConfigurationAssistant(DBCA)用途：通过图形界面创建、删除或修
form的表单序列化码田里的小白菜 ajax 服务器 javascript
百度可知：表单序列化的作用是：将表单内容序列化成一个字符串，方便Ajax传递表单值给服务器。随着Ajax的出现，表单序列化成为一种常见需求序列化应满足以下几点要求：1、对表单字段和值进行url编码，使用&符号分割2、不发送表单的禁用字段3、只发送选则的复选框和单选按钮4、不发送type为“reset”和“button”的按钮functionserialize(data){letlist=[];Ob
架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
LTE与5G NR频段组合：理解流数和双连接模式空间机器人 5G等射频知识专栏 5G
LTE与5GNR频段组合：理解流数和双连接模式在现代移动通信技术中，LTE（4G）和5GNR（NewRadio）的频段组合是提高网络吞吐量、降低延迟和提升用户体验的关键之一。为了最大化数据传输速率，运营商往往采用载波聚合（CarrierAggregation,CA）和双连接（DualConnectivity,ENDC）技术来将多个频段组合在一起。本文将详细讲解LTE和5GNR各种频段组合的流数支持
【最低2万搞定！】10万双枪充电桩平台神级配置：服务器成本直降80%+日志/数据库存储全拆解！慧知开源充电桩平台！！！必看攻略文慧的科技江湖更新日志 -(慧哥)慧知充电桩平台服务器数据库开源直流充电桩充电桩 spring cloud 架构
10万台充电桩设备双枪，需要最小的服务器配置？服务器费用控制2-3万，服务器日志产生多少g,数据库订单数据产生多少g!-慧知开源充电桩平台一、服务器配置方案及逻辑（阿里云）1.需求分析设备规模：10万台双枪充电桩，理论最大并发连接数为20万（每个枪独立通信）。请求类型：心跳包（高频）、充电启停、支付、状态上报等，假设平均每秒请求量约5,000QPS。费用目标：总成本控制在2-3万元/月（按包年包月
代码随想录day7-链表俩数相加凌凡天链表数据结构 java 算法 leetcode
给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一位数字。请你将两个数相加，并以相同形式返回一个表示和的链表。你可以假设除了数字0之外，这两个数都不会以0开头。示例1：输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
Sklearn.model_selection.GridSearchCV kakak_ Machine Learning
sklearn.model_selection.GridSearchCV具体在scikit-learn中，主要是使用网格搜索，即GridSearchCV类。estimator:即调整的模型param_grid：即要调参的参数列表，以dict呈现。cv:S折交叉验证的折数，即将训练集分成多少份来进行交叉验证。默认是3,。如果样本较多的话，可以适度增大cv的值。scoring:评价标准。获取最好的模型
蓝桥杯备赛Day12 动态规划1基础爱coding的橙子蓝桥杯蓝桥杯动态规划 c++算法
动态规划动态规划基础动态规划将复杂问题分解成很多重叠的子问题，再通过子问题的解得到整个问题的解分析步骤:确定状态:dp[i][j]=val,“到第i个为止，xx为j的方案数/最小代价/最大价值”状态转移方程:确定最终状态要求:(1)最优子结构(2)无后效性:已经求解的子问题，不会再受到后续决策的影响。(3)子问题重叠，将子问题的解存储下来两种思路:(1)按题目线性DP数字三角形学习:(1)将整个大
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul