CrisAppleYan

数据库激荡 40 年，深入解析 PostgreSQL、NewSQL 演进历程

作者 | 张秋剑，天云数据上海副总经理

责编 | 唐小引

头图 | CSDN 下载自东方 IC

出品 | CSDN（ID：CSDNnews）

近日，有传闻 PostgreSQL 会发布 13 版本，这是去年 9 月发布 12 版本之后，PG 社区紧锣密鼓的又一大动作，包括提升查询性能，特别是对大数据集，总的空间利用率等方面。同时，国内以华为 GaussDB 200 从 PostgreSQL 9 中继承而来，PostgreSQL 在中国的生态变得空前火热。

这与近两年来以 Google F1 理论为代表的 NewSQL 数据库一起，形成了数据库在这个时代的两支牛角，气势如虹地改变着 TI 数据中心架构的新世界。我们今天就来“庖丁解牛”一把，看看两种技术路线的不同之处。

PostgreSQL 的前世今生

PostgreSQL 是一个功能强大的开源对象关系型数据库系统，它使用和扩展了 SQL 语言，并结合了许多安全存储和扩展最复杂数据工作负载的功能。PostgreSQL 的起源可以追溯到 1986 年，作为加州大学伯克利分校 POSTGRES 项目的一部分，并且在核心平台上进行了 30 多年的积极开发。直到 2019 年 9 月，已经正式发布到了 12 版本。

图片来源：维基百科

Michael Stonebraker，2014 图灵奖获得者，PostgreSQL 数据库创始人。目前数据库领域一共有四位获得图灵奖：

1973 年 Bachman（数据库与网状数据库）
1981 年 Codd（关系数据库）
1998 年 Gray（数据库与事务处理）

伯克利分校是 Postgres 的摇篮

（图：伯克利分校著名地标萨瑟门，CSDN 下载自东方 IC）

PostgreSQL 的特点可以用以下这张图来概括，PostgreSQL 的架构最合适做企业级数据库。

基于 PostgreSQL 的开源项目分支

述说完了 PostgreSQL 的历史，我们来聊聊 PostgreSQL 在开源社区世界的发展，我们知道，数据库近 40 年来的发展，基本上是从 RDBMS 到 OLTP/OLAP 分离，再到分布式数据库发展的这样一个历程。

PostgreSQL 的历程也是如此，从 PostgreSQL 内核开始，也经历了 OLTP 分支、OLAP 分支，再到大势所趋，两者重新融合，往混合 OLA/TP 的分布式数据库方向演进。

分布式 PostgreSQL-X2 架构介绍

既然 PostgreSQL 已经发展到了混布阶段，那么我们就直接从本文主旨开讲，看一看 X2 架构的特点。

首先，X2 是基于 PostgreSQL 源代码改造成的分布式数据库，所以几乎拥有与单机数据库的所有功能：

支持复杂的 SQL 和跨节点 JOIN；
全局事务的强一致性；
支持 Read commited 事务隔离级别；
几乎支持所有单机数据库的 DDL 语句；
支持跨节点的视图；
支持跨节点的存储过程。

其次，X2 主要目的实现数据是水平分片，也就是说需要基于分库分表来解决数据线性扩展的问题。

再次，X2 针对 OLAP 是 shared-nothing 架构，所以是一种 MPP 的技术原理，可以实现 ETL 的数仓加工。

最后，API 完全兼容，外部应用程序可以透明的访问 Postgres-X2，原先的 jdbc 等不同编程语言的驱动也基本不需要修改就可以访问 Postgres-X2。

从上图的 X2 架构我们可以看到，X2 主要由三个部分组成：

GTM：全局事务管理，提供全局事务的服务；
Coordinator：存储全局的元数据，接受用户请求，负责生成并执行全局查询计划（全局查询计划由若干局部查询计划组成，执行时将局部查询计划分发给 datanode）；
Datanode：存储本地的元数据，接受并执行 coordinator 的局部查询计划（局部查询计划也是 SQL）。

分布式 PostgreSQL-X2 的 CAP 分析

我们知道 CAP 原理是考量一个数据库标高的评价标准，在 RDBMS 时代，Oracle、MS SQLServer 都能较好地接近 CAP。在分布式数据库时代，CAP 理论依然是我们评价的主要工具。AP 原则又称 CAP 定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）。CAP 原则指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。

首先，在一致性上，PostgreSQL-X2 采用 GTM 来实现：

GTM 对事务强一致的保护是比肩传统 RDBMS 的，这一点上具备生产级。与 2PC 和 MVCC 相比，有先进之处。然而，总体开销会比较大，如果是巨大的互联网应用场景，动作上亿的并发访问，性能难于优于 MySQL。

2PC 又称两阶段提交（two-phase commit protocol）,2pc 是一个非常经典的强一致、中心化的原子提交协议。这里所说的中心化是指协议中有两类节点：一个是中心化协调者节点（coordinator）和 N 个参与者节点（partcipant）。

MVCC 英文全称为 Multi-Version Concurrency Control,翻译为中文即多版本并发控制。MVCC 的实现，通过保存数据在某个时间点的快照来实现的。这意味着一个事务无论运行多长时间，在同一个事务里能够看到数据一致的视图。根据事务开始的时间不同，同时也意味着在同一个时刻不同事务看到的相同表里的数据可能是不同的。

客观上，我们认为它就是乐观锁的一整个实现方式，就是每行都有版本号，保存时根据版本号决定是否成功。

在可扩展性方面，Postgres-X2 的扩容，可以在 Coordinator 和 Datanode 两个方面同时进行扩容。

Postgres-X2 符合分布式数据库线性扩展的标准，在 x86 横行的时代，通过横向对机器的方式扩展计算资源和存储资源是分布式的核心理念，在这一点上，Postgres-X2 也是这么做的。

但是，Postgres 本身的问题是数据量不能支持很大，数据量在 40 个 TB~200TB，做大型数仓仓库，性能随数据量增大，节点数增多，而出现衰减，不能够完全跟随线性扩展做线性性能叠加。这是容易被诟病的一点。

再一个，不能够很好地支持在线热插拔，热添加。如果新增节点，需要做停机重启，这样的话，实时 ODS 这一类的应用就不能够在 Postgres-X2 构建的 OLAP 上应用。

分区容错性不是 PostgresSQL 主要考虑的问题。因为多数分布式系统都分布在多个子网络。每个子网络就叫做一个区（partition）。分区容错的意思是，区间通信可能失败。比如，一台服务器放在中国，另一台服务器放在美国，这就是两个区，它们之间可能无法通信。

上图中，G1 和 G2 是两台跨区的服务器。G1 向 G2 发送一条消息，G2 可能无法收到。系统设计的时候，必须考虑到这种情况。这种情况，目前主要是大型云厂商如：Amazon QWS S3、Google Spanner 和阿里云的 OceanBase 去着重打造。Postgres-X2 我们只从数据中心的高可用性上探讨：

高可用方面，GTM 不像 Greenplum 只有一个 master 节点，不适合 OLTP 业务。虽然 Postgres-X2 本身也没有自动的高可用性，但可以通过 SPOF（single point of failure）分析，根据不同的业务情况进行高可用建设，例如上图是采用 Primary–Standby 的方式来构建高可用架构。另外，原来的 Postgres-XC 的 D-Node 间不能传数据，数据需要汇聚到 C 节点进行处理 Postgres-X2 之后允许 D-Node 间进行数据传输。

以上，我们算是比较全面的了解了 PostgresSQL 和他的分布式项目 Postgres-X2，我们可以总结一下：

在“从数据库技术的 40 年发展历程看新征程”一文中，我们通过回顾数据库的发展史，重新理解了数据库的定义——数据库就是一个存放数据的仓库，这个仓库按照一定的数据结构（数据结构是指数据的组织形式或数据之间的联系）来组织存储的，我们可以通过数据库提供的多种方法来管理数据库里的数据。我们的程序都是在内存中运行的，一旦程序运行结束或者计算机断电，程序运行中的数据都会丢失,所以我们就需要将一些程序运行的数据持久化到硬盘之中，以确保数据的安全性。说白了，数据库就是存储数据的仓库。

我们已经提到数据库已经可以分为几类有：

数据库经过 40 年的发展，经过从 RDBMS 到 MPP 再到 NoSQL 数库，如今我们开始关注 NewSQL 数据库。每个阶段的特点是怎样的呢？

RDBMS——关系型数据库的优点是：事务、索引、关联、强一致性，其缺点是：有限的扩展能力、有限的可用性、数据结构取决于表空间；
MPP——大规模并行计算数据库的优点为扩展性强、事务、索引、关联、可调一致性，缺点：应用级切分、数据结构取决于表空间；
NoSQL——超越关系型数据库，数据库其优点在于扩展性强、可调一致性、灵活的数据结构，而缺点是事务支持差、索引支持差、SQL 支持差。

最经典的是传统关系型 OLTP 数据库，其主要用于事务处理的结构化数据库，典型例子是企业的转账记账、订单以及商品库存管理等。其面临的核心挑战是高并发、高可用以及高性能下的数据正确性和一致性。

其次是 NoSQL 数据库及专用型数据库，其主要用于存储和处理非结构化或半结构化数据（如文档，图，时序、时空，K-V），不强制数据的一致性，以此换来系统的水平拓展、吞吐能力的提升。

再者是分析型数据库(On-Line Analytic Processing，OLAP)，其应用场景就是海量的数据、数据类型复杂以及分析条件复杂的情况，能够支持深度智能化分析。其面临的挑战主要是高性能、分析深度、与 TP 数据库的联动，以及与 NoSQL 数据库的联动。

除了数据的核心引擎之外，还有数据库外围的服务和管理类工具，比如数据传输、数据备份以及数据管理等。

NoSQL 数据库解决了扩展性，高并发访问，但还有很多未尽如人意之处，比如：

索引，无法有效使用索引 —>Ad Hoc Query；
协处理器无法分散计算任务 —>大表的 Join 查询；
SQL 以外的分析查询 —>Data Science / Machine Learning；
访问其他数据源 —>和现有 Hadoop 数据联合查询（多源异构）；
交互式分析—>复杂 SQL 查询的性能问题。

于是 NewSQL 呼之欲出。

要说 NewSQL 数据库，我们要先从 Google 的 F1/Spanner 大规模分布式数据库说起。

一、Google F1/Spanner

和众多互联网公司一样，在早期 Google 大量使用了 Mysql。Mysql 是单机的，可以用 Master-Slave 来容错，分区来扩展。但是需要大量的手工运维工作，有很多的限制。因此 Google 开发了一个可容错可扩展的 RDBMS——F1。和一般的分布式数据库不同，F1 对应 RDMS 应有的功能，毫不妥协。起初 F1 是基于 MySQL 的，不过会逐渐迁移到 Spanner。

F1 有如下特点：

7×24 高可用。哪怕某一个数据中心停止运转，仍然可用；
可以同时提供强一致性和弱一致；
可扩展；
支持 SQL；
事务提交延迟 50-100ms，读延迟 5-10ms，高吞吐。

Spanner 是 Google 的全球级的分布式数据库(Globally-Distributed Database)。Spanner 的扩展性达到了令人咋舌的全球级，可以扩展到数百万的机器，数以百计的数据中心，上万亿的行。更给力的是，除了夸张的扩展性之外，他还能同时通过同步复制和多版本来满足外部一致性，可用性也是很好的。冲破 CAP 的枷锁，在三者之间完美平衡。

Spanner 是个可扩展、多版本、全球分布式还支持同步复制的数据库。他是 Google 的第一个可以全球扩展并且支持外部一致的事务。Spanner 能做到这些，离不开一个用 GPS 和原子钟实现的时间 API。这个 API 能将数据中心之间的时间同步精确到 10ms 以内。因此有几个核心的功能：无锁读事务，原子 schema 修改，读历史数据无 block。

由于 F1/Spanner 并不开源，通过现有公开资料仅仅只能窥得 F1/Spanner 的沧海一粟，所以我们主要通过 Google 的公开资料的学习和发展自身，这比拿来主义的 PostgreSQL 要难能可贵的多。

二、F1 Query 对于 NewSQL 的奠基

2018 年，Google 发表了论文“F1 Query：Declarative Querying at Scale”，意味着对 F1/Spanner 架构的升级。解决了如下几个核心问题：

一是，多种异构的存储平台（Bigtable,Spanner,Google Spreadsheets 等）共存；
二是，不同存储平台上的计算不统一；
三是，复杂的商业逻辑开始需要实时的分析和数据处理（HTAP）。

于是 F1 数据库延伸成了这样一种数据库：

第一，它是独立计算层，底层对接了不同的数据源；
第二，它试图统一 OLTP、OLAP 和 ETL 的 Workload；
第三，它也是一个完整的 ETL 平台；
第四，它推出了几种访问数据的新形式，UDF、UDA 和 TVF SQL；
第五，Shading-nothing，这个之后会详细介绍。

一种数据，在完美融合 CAP 原理之后，又破天荒的解决了同时支持 OLTP、OLAP、ETL 三种场景的数据库使用。可以说给我们带来了一片“新”天地，因为开创了数据库的“新”纪元。这个“新”，被 451 Group 的分析师 Matthew Aslett 命名为“NewSQL”。

三、NoSQL 谢幕，NewSQL 登场

NewSQL 一词是由 451 Group 的分析师 Matthew Aslett 在研究论文中提出的。它代指对老牌数据库厂商做出挑战的一类新型数据库系统。NewSQL 是对各种新的可扩展/高性能数据库的简称，这类数据库不仅具有 NoSQL 对海量数据的存储管理能力，还保持了传统数据库支持 ACID 和 SQL 等特性。

NewSQL 是指这样一类新式的关系型数据库管理系统，针对 OLTP（读-写）工作负载，追求提供和 NoSQL 系统相同的扩展性能，且仍然保持 ACID 和 SQL 等特性（scalable and ACID and (relational and/or sql -access)）。

NewSQL 一经问世，发展至今，已经形成一个庞大的技术 family 了：

通过上文我们可以知道，NewSQL 的优势在于 SQL 的支持能力、扩展性、实时性和事务的处理能力。在 NewSQL 蓬勃发展的前提下，许多新兴技术公司开始打造自己的新一代分布式数据库，其设计理念：

一、分布式架构

通过主节点下发任务的模式，每个节点都可以提供服务，在扩展性上，Master 不会是瓶颈。

客户端通过不同的接口访问形式，直接访问主服务节点服务；
主服务节点收到服务请求进行分析处理，分配到不同的分配服务节点执行；
分片服务节点收到执行请求，进行 SQL 解析处理并执行 SQL 计划；
SQL 执行服务底层存储数据进行处理访问，并反回处理结果；
通过 Raft 协议确保服务之间数据同步；
存储根据 AP、TP 分为共享存储和非共享存储。

而与之相比较，PostgreSQL 现在的分布式都是 MPP 的架构，share nothing，存在增加、减少节点数据重新分配的问题。

二、从分库分表走向 Sharding 与 Partition（分片与分区）

通过我们前面对 PostgreSQL 的解读，数据分库分表是一种被迫的选择，无奈之举，如果能够不做分库分表，就尽量不要做这方面的设计，因为会对业务提出要求，或者改动业务。所以，我们在 NewSQL 的设计上，要多做 Sharding 与 Partition（分片与分区）的设计。

数据分区

分区就是把一张表的数据分成 N 个区块，在逻辑上看最终只是一张表，但底层是由 N 个物理区块组成的。

什么时候考虑使用分区呢？当一张表的查询速度已经慢到影响使用的时候，数据量大，SQL 经过优化，表中的数据是分段的，或者对数据的操作往往只涉及一部分数据，而不是所有的数据。

分区解决的问题主要是可以提升查询效率。

数据分片

在分布式存储系统中，数据需要分散存储在多台设备上，数据分片（Sharding）就是用来确定数据在多台存储设备上分布的技术。数据分片要达到三个目的：

分布均匀，即每台设备上的数据量要尽可能相近；
负载均衡，即每台设备上的请求量要尽可能相近；
扩缩容时产生的数据迁移尽可能少。

三、数据同步与一致性 —— Raft/Paxos

目前主流的 NewSQL 数据库的数据同步是基于 Raft 协议的。

在 Raft 中三种角色：

Leader：负责接收客户端的请求，将日志复制到其他节点并告知其他节点何时应用这些日志是安全的；

Candidate：用于选举 Leader 的一种角色；

Follower：负责响应来自 Leader 或者 Candidate 的请求。

所有节点初始状态都是 Follower 角色；
超时时间内没有收到 Leader 的请求则转换为 Candidate 进行选举；
Candidate 收到大多数节点的选票则转换为 Leader；发现 Leader 或者收到更高任期的请求则转换为 Follower；
Leader 在收到更高任期的请求后转换为 Follower。

Raft 状态机：

所有一致性算法都会涉及到状态机，而状态机保证系统从一个一致的状态开始，以相同的顺序执行一些列指令最终会达到另一个一致的状态。
所有的节点以相同的顺序处理日志，那么最终 x、y、z 的值在多个节点中都是一致的。

在这一点上，PostgreSQL-X2 的架构是以主备的模式来确定的。

四、分布式事务

事务开始，记录事务唯一 ID，执行操作，记录修改的 shard，执行预提交动作，提交或回滚；
写入时当前采用锁机制；
读取使用快照读取，存储层每次写入都是追加写入，通过覆盖机制进行数据变更。

这样的好处是，数据的鲜活性可以实时保证，数据更新插入和分析可以一起完成，像实时数仓、实时统计汇总计算就能够实现了。而在 PostgreSQL 的 OLAP 虽然可以通过批量或者插入的方式实现更新，但要人工做优化，持续投入人力干预，性能被动式保证。

五、存储层——KV 存储

在存储方面，我们有两种选择：

堆存：数据可以通过 key 获取，同时可以直接读取数据；
非堆存：数据只能通过 key 来获取，无法直接读取到数据。

非堆存储只能通过 key 来获取数据，会导致不断的离散的读取，所以不能适应于 AP 的场景。

客户端通过不同的接口访问形式，直接访问主服务节点服务；
主服务节点收到服务请求进行分析处理，分配到不同的分配服务节点执行；
分片服务节点收到执行请求，进行 sql 解析处理并执行 SQL 计划；
SQL 执行服务底层存储数据进行处理访问，并反回处理结果；
Zookeeper 保证相关服务应用的高可用；
HDFS 持久化底层存储数据，并利用三副本技术保证数据不丢失。

与之相比较，PostgreSQL 是本地化存储，存储也可以分为列存和行存等。

六、多源异构与数据邦联

NewSQL 的数据多源异构，要兼顾考虑对过去数据库的全面支持，尤其是 NoSQL 和 Hadoop 生态体系，因为毕竟这两者已经非常普及。

在多源异构方面，PostgreSQL 是通过 FDW 支持多源异构，可访问 Oracle、PG、MySQL、MongoDB 等，对 Hadoop 体系和 NoSQL 支持力度低，效率和性能也较难做到极致。

七、基于 NewSQL 的分布式数据库实践

综合以上六点，通过对 NewSQL 的：

分布式架构；
数据的分区分片；
数据同步与一致性；
分布式事务；
存储层，KV 存储设计；
数据库多源异构。

我们综合设计研发，推出了一款自主可控的国产分布式数据库 —— Hubble。Hubble 同时支持 OLTP 和 OLAP 场景，即在同一份数据上，实现事务型处理的同时支持实时分析，省去了费时的 ETL 过程。

最后，将 Hubble 作为代表与 PsostgreSQL-X2 做一个横向分析，能够帮助我们更好地理解本文开篇所言 —— 分布式数据库的两支牛角各自的技术路线。

作者简介：张秋剑，天云数据上海分公司副总经理，资深金融行业大数据技术架构专家。计算机科学技术硕士学位后，曾就职于 IBM 等公司，九三学社金融委员会委员。目前主要为银行、证券和保险等金融行业客户提供大数据平台及人工智能平台的规划和方案设计工作。曾在 IEEE 等期刊发表多篇论文。

【END】

更多精彩推荐

☞开源激荡 30 年：从免费社区到价值数十亿美元公司

☞理解 AI 最伟大的成就之一：卷积神经网络的局限性

☞GitHub 标星 10,000+，Apache 顶级项目 ShardingSphere 的开源之路

☞港科大郑光廷院士问诊未来，揭露 AI 最新应用与实践

☞大促下的智能运维挑战：阿里如何抗住“双11猫晚”？

☞以太坊2.0中的Custody Game及MPC实现

☞很用心的为你写了9道MySQL面试题，建议收藏！

你点的每个“在看”，我都认真当成了喜欢

你可能感兴趣的:(数据库,分布式,大数据,hadoop,人工智能)

Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
django orm关联查询_Django框架基于ORM实现外键关联操作多表查询数据 weixin_39559523 django orm关联查询
我们知道在数据库中可以存在外键关联，那么在django中同样也可以实现。下面我们来创建一个类：fromdjango.dbimportmodelsclassUserGroup(models.Model):pid=models.AutoField(primary_key=True)#创建一个自增的id主键需要设置参数caption=models.CharField(max_length=60)ctim
基础篇——深入解析SQL多表操作与关联查询：构建复杂数据关系的桥梁暴怒的代码后端 sql java android
一、关系型数据库的核心：多表协作的艺术在真实业务场景中，94%的SQL查询涉及多表操作（据2023年StackOverflow开发者调查）。理解多表关联机制是成为SQL高手的必经之路。本文将从基础连接类型到复杂子查询，系统讲解数据关系的处理技巧。二、连接类型：数据关系的不同维度2.1INNERJOIN：精确匹配的交集--订单与客户信息关联SELECTo.order_id,c.customer_na
基础篇——从零开始掌握SQL基础语法：构建数据操作的基石暴怒的代码后端数据库 sql
一、SQL语言概述SQL（StructuredQueryLanguage）作为关系型数据库的核心交互语言，自1974年由IBM研究员提出以来，已成为数据领域最通用的标准语言。根据DB-Engines的最新统计，SQL在数据库查询语言中的使用占比超过83%，其重要性不言而喻。本文将系统讲解SQL的基础语法体系，帮助读者构建坚实的数据操作基础。二、CRUD操作：数据操作四象限2.1数据检索（SELEC
【期刊】【Engineering Applications of Artificial Intelligence】【人工智能的工程应用】资源存储库期刊人工智能
https://www.sciencedirect.com/search?qs=train%20energy&pub=Engineering%20Applications%20of%20Artificial%20Intelligence&cid=2710951Aimsandscope目标和范围TheInternationalJournalofIntelligentReal-TimeAutomati
数据挖掘的建模流程慢跑的Liam 算法数据挖掘算法流程模型构建
1、定义数据挖掘目标任务理解指标确定2、数据取样建模抽样(大数据是用过滤后的全量数据)抽样之前需要衡量数据质量衡量的标准主要有以下几点：资料完整无缺，各类指标齐全数据准确无误，反映的都是正常状态下的数据数据抽样的方式：随机抽样等距抽样分层抽样从起始位置开始抽样分类抽样实时采集3、数据探索数据质量分析1.数据质量分析是数据挖掘分析结论有效性的基础2.缺失值分析3.异常值分析是用来检测数据是否有录入错
2024年工信部人工智能应用工程师含金量怎么样？证书用途有哪些泰迪智能科技01 人工智能职业技术培训人工智能
工业和信息化部介绍中华人民共和国工业和信息化部（简称：工业和信息化部，工信部），是根据2008年3月11日公布的国务院机构改革方案，组建的国务院组成部门。1、“职业能力水平评价”是不是工信部组织的考试？证书的用途是什么？“职业能力水平评价”是中心与合作机构开展的评价考试项目，由中心人才评价处负责组织实施。“职业能力水平评价”主要为提升工业和信息化领域技术技能人员的职业能力，增强其就业竞争力;“学员
避免Hive和Spark生成HDFS小文件穷目楼数据库大数据大数据 spark hive hadoop
HDFS是为大数据设计的分布式文件系统，对大数据做了存储做了针对性的优化，但却不适合存储海量小文件。Hive和spark-sql是两个在常用的大数据计算分析引擎，用户直接以SQL进行大数据操作，底层的数据存储则多由HDFS提供。对小数据表的操作如果没做合适的处理则很容易导致大量的小文件在HDFS上生成，常见的一个情景是数据处理流程只有map过程，而流入map的原始数据数量较多，导致整个数据处理结束
AI大模型知识图谱和学习路线！ hhaiming_ 人工智能知识图谱学习
23年AI大模型技术狂飙一年后，24年AI大模型的应用已经在爆发，因此掌握好AI大模型的应用开发技术就变成如此重要，那么如何才能更好地掌握呢？一份AI大模型详细的知识图谱和学习路线就变得非常重要！一、大模型全套的学习路线学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳
Java实现向MySQL数据库批量更新数据的常见方法来杯@Java 数据库 java mysql
文章目录一、IN二、For+Update三、insertinto...onduplicatekeyupdate四、replaceinto五、set...case...when...where六、创建临时表案例一、IN第一种方式是借助IN语句，这种方式局限性较大，更新结果必须一致，比如下面就是将满足条件的行的状态（status）都置为1。如果是一部分置为1，一部分置为2等，则无法实现，要么就是写多条
Linux 下Hive 安装(Remote Metastore Database 单节点) A6-母婴小店-第6分店 HIVE hadoop
1、Linux下安装好mysql：Linux下Mysql安装2、启动hadoop集群：1、zk启动[root@node02~]#zkServer.shstartZooKeeperJMXenabledbydefaultUsingconfig:/opt/software/apache-zookeeper-3.6.2-bin/bin/../conf/zoo.cfgStartingzookeeper...
人工智能和python的关系兜里揣着星星 python 人工智能
Python实现了智能化爬取数据,其中Python只是一种计算机程序设计语言,而人工智能片面的讲就是人为的通过嵌入式技术把程序写入机器中使其实现智能化,显然它们不是同一种概念,不能化等号。人工智能是计算密集型，需要非常精细的优化，其中还需要GPU、专用硬件之类的接口，这些都只有C/C++能做到，所以某种意义上来说，其实C/C++才是人工智能领域最重要的语言。而Python其实是APIbinding
Nestjs中怎么自动对应mysql结构的dto和entity? 人工智能
在NestJS中，自动将MySQL数据库的结构映射到DTO（数据传输对象）和Entity（实体类）通常是通过TypeORM（或Sequelize等ORM库）来实现的。你可以通过TypeORM的装饰器来自动映射数据库表结构到实体类，并使用DTO来定义数据交换的格式。下面是如何使用TypeORM自动对应MySQL数据库结构的DTO和Entity的基本步骤。1.安装依赖首先，确保你已经安装了以下依赖：n
Nestjs中怎么自动对应mysql结构的dto和enti 人工智能
在NestJS中，自动将MySQL数据库的结构映射到DTO（数据传输对象）和Entity（实体类）通常是通过TypeORM（或Sequelize等ORM库）来实现的。你可以通过TypeORM的装饰器来自动映射数据库表结构到实体类，并使用DTO来定义数据交换的格式。下面是如何使用TypeORM自动对应MySQL数据库结构的DTO和Entity的基本步骤。1.安装依赖首先，确保你已经安装了以下依赖：n
使用 pymysql 连接 MySQL 数据库 TD_ccdd 数据库 mysql python
使用pymysql连接MySQL数据库在现代应用程序开发中，与数据库的交互是一个常见的需求。本文将介绍如何使用Python的pymysql库连接到MySQL数据库，并执行基本的查询操作。我们将通过一个简单的例子来说明整个过程。1.安装pymysql库在开始之前，需要确保你的开发环境中安装了pymysql库。你可以使用以下命令通过pip来安装它：pipinstallpymysql2.连接到MySQL
安当全栈式PostgreSQL数据库安全解决方案：透明加密、动态凭据与勒索防护一体化实践安当加密 postgresql 区块链数据库
引言：数字化转型下的数据库安全挑战随着PostgreSQL在企业核心业务中的广泛应用，其承载的敏感数据价值日益攀升。然而，近年来针对数据库的攻击事件频发，如SQL注入漏洞（CVE-2025-1094）、勒索病毒攻击、内部越权操作等，直接威胁企业数据资产安全。传统安全方案存在三大痛点：加密改造成本高、账号管理粗放、勒索防护滞后。安当基于多年技术沉淀，推出覆盖数据全生命周期的PostgreSQL安全解
MOSN 基于延迟负载均衡算法——走得更快，期待走得更稳 go网关负载均衡延迟加载开源
文｜纪卓志（GitHubID：jizhuozhi)京东高级开发工程师MOSN项目Committer专注于云原生网关研发的相关工作，长期投入在负载均衡和流量控制领域前言这篇文章主要是介绍MOSN在v1.5.0中新引入的基于延迟的负载均衡算法#2253。首先会对分布式系统中延迟出现的原因进行剖析，之后介绍MOSN都通过哪些方法来降低延迟，最后构建与生产环境性能分布相近的测试用例来对算法进行验证。在开始
iOS中的设计模式（六）- 单利模式胖虎1 iOS中的设计模式设计模式单利模式 iOS中单利 Swift单利 OC单利
引言在iOS开发中，单例模式（SingletonPattern）是一种非常常见且实用的设计模式。它通过确保某个类只有一个实例，并提供一个全局的访问点，帮助开发者管理共享资源或提供全局配置。在许多应用场景中，我们需要确保某些对象在整个应用中只有一个实例，以避免资源浪费或不一致的状态。例如，在网络请求管理、数据库连接、日志记录等场景中，单例模式可以简化对象的管理，避免重复创建和销毁实例，提高性能。然而
教你如何在Java中操作Redis Jacky-YY Redis java redis 开发语言
Redis的Java客户端Redis的Java客户端很多，常用的几种：Jedis：基于Java的Redis客户端，提供了Redis命令的全面支持。Lettuce：高性能的Java客户端库，用于与Redis数据库进行交互。它支持同步、异步和反应式编程模型，提供了丰富的API来操作Redis。Lettuce与Jedis并列成为最热门的RedisJava客户端之一，并且已经成为SpringBoot2.0
Redis学习归纳总结--包含redis的所有基础知识点小白白007 数据库 redis 数据库 java 缓存后端
Redisredis是开源的，内存中的数据结构存储系统，他可以用作数据库，缓存和消息中间件它支持多种类型的数据结构，如字符串，散列，列表，突然关机可能导致内存内容丢失，所以redis有磁盘持久化，减少损失dubbo的数据中心关系型数据库和非关系型数据库关系型数据库优点：清晰易理解使用方便，通用的sql语言易于维护，丰富的完整性缺点：磁盘I/O是并发的瓶颈海量数据查询效率低横向扩展困难，无法简单的通
缓存穿透、击穿、雪崩 _咸蛋. redis 缓存 redis 数据库
缓存穿透、击穿、雪崩前言一、缓存穿透二、缓存击穿三、缓存雪崩总结前言在实际开发中，常常会用到redis作为存储层（例如Mysql等常用数据库）的缓存层。作为缓存层也会常常遇到缓存失效等问题，这些问题的如何来的，又要怎样解决，可以一起来往下探讨。一、缓存穿透概念缓存穿透从字面意思上看，就是穿过缓存层直接访问存储层。其原因是因为redis里没有用户想要查询的数据，从而去访问持久层数据库查询。例如在双1
redis基础知识整理以及案例分析小鹿的周先生
redis基础知识整理以及案例分析1.redis1.概念2.下载安装3.命令操作1.数据结构4.持久化操作5.使用Java客户端操作redisRedis1.概念：redis是一款高性能的NOSQL系列的非关系型数据库1.1.什么是NOSQLNoSQL(NoSQL=NotOnlySQL)，意即“不仅仅是SQL”，是一项全新的数据库理念，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关
基础设施安全（Infrastructure Security）是什么？ dev.null 计算机科学服务器网络安全网络数据库
基础设施安全（InfrastructureSecurity）指的是保护IT基础设施（包括物理和云端的服务器、网络设备、存储、数据库等）免受网络攻击、数据泄露、未授权访问、系统故障等威胁的各种安全措施和技术。1.基础设施安全的主要组成部分（1）网络安全（NetworkSecurity）防火墙（Firewall）：控制进出网络的流量，防止未经授权的访问。入侵检测和防御（IDS/IPS）：监测和拦截可疑
本地部署DeepSeek安全风险自查及安全加固方案安全方案安全 DeepSeek
简要介绍随着人工智能技术的快速发展，AI大模型DeepSeek部署需求日益增长。然而，在享受AI技术带来便利的同时，我们也不能忽视其背后潜在的安全风险。近期有关DeepSeek本地部署存在安全风险事件的报道引发了关注，其中Ollama服务作为一个重要的开源框架，因其配置导致的安全风险受关注。本文将分析这一问题，并提供安全加固方案。安全风险原因什么是Ollama？Ollama是一个开源框架，用于快速
面试题：你们的服务是怎么做日志收集的？ clownAdam SpringCloud面试 spring cloud 后端微服务面试
面试题：你们的服务是怎么做日志收集的？在面试中，关于日志收集的问题是一个常见的技术考察点。日志收集是分布式系统中非常重要的一环，用于监控、调试和故障排查。以下是一个清晰、详细的回答模板，帮助你在面试中脱颖而出：日志收集的背景在微服务架构中，服务数量多且分布在不同节点上，日志分散在各个服务实例中。为了便于集中管理和分析，需要将日志收集到一个中心化的存储系统中。日志收集的流程日志收集通常包括以下几个步
Redis——知识点其实不会敲代码面试题真的记不住一点 redis
Redis问答1.认识Redis1.1什么是RedisRedis是一种基于内存的数据库，对数据的读写都在内存上操作，因此读写速度很快，常用于缓存、消息队列、分布式锁等的应用场景Redis提供了很多数据类型来支撑各种场景，例如String、hash、list、set、zset、bitmapas、hyperloglog、GEO，对数据的操作都是原子性的，单线程过程，不存在锁的竞争除此之外，Redis还
缓存雪崩、缓存穿透、缓存击穿 Amireux_chai 缓存数据库 java
1.缓存穿透当发生缓存雪崩或击穿时，数据库中还是保存了应用要访问的数据，一旦缓存恢复相对应的数据，就可以减轻数据库的压力，而缓存穿透就不一样了。当用户访问的数据，既不在缓存中，也不在数据库中，导致请求在访问缓存时，发现缓存缺失，再去访问数据库时，发现数据库中也没有要访问的数据，没办法构建缓存数据，来服务后续的请求。那么当有大量这样的请求到来时，数据库的压力骤增，这就是缓存穿透的问题。缓存穿透的发生
高效API开发：FastAPI中的缓存技术与性能优化 Switch616 Python Web fastapi 缓存性能优化负载均衡 python
高效API开发：FastAPI中的缓存技术与性能优化目录使用缓存优化性能：Redis与Memcached设计合适的缓存策略基于请求结果的缓存与数据库缓存1.使用缓存优化性能：Redis与Memcached缓存技术在高并发Web应用中起着至关重要的作用，能够显著提高API的响应速度，降低数据库的压力，改善系统的整体性能。在PythonWeb开发中，常见的缓存技术包括Redis和Memcached，它
Python使用PyMySQL操作MySQL完整指南 web15117360223 面试学习路线阿里巴巴 python mysql 数据库
Python使用PyMySQL操作MySQL完整指南1.安装依赖pipinstallpymysql2.基础配置和数据库操作2.1基础配置类importpymysqlfromtypingimportList,Dict,OptionalfromdatetimeimportdatetimeclassMySQLDB:def__init__(self):self.conn=Noneself.cursor=N
Redis 的几个热点知识知行小栈 redis redis 数据库缓存
前言Redis是一款内存级的数据库，凭借其卓越的性能，几乎成为每位开发者的标配工具。虽然Redis包含大量需要掌握的知识，但其中的热点知识并不多。今天，『知行』就和大家分享一些Redis中的热点知识。Redis数据结构Redis中常用的数据结构大致可分为两类：核心类型：String、Hash、List、Set、Zset（SortedSet）扩展类型：Bitmap、Geospatial、Stream
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep