程序IT圈

2万字长文，数据库系统设计概述

数据库系统设计概述

世界上只有两种开发人员，一种使用数据库系统的，一种开发数据库系统的。

数据是系统最重要的信息。大部分系统都是对数据的管理。应用系统通过数据模型来构建现实世界，通过算法操作对象或数据结构，来改变数据模型的状态。数据被组织在操作系统文件中，我们通过数据系统来组织，查询，搜索，处理数据。

本文将从数据库的发展、数据库的分类、常见数据库架构，数据库常见概念和技术等方面探讨这个我们接触最多的底层系统，并通过穿插不同数据库的实现原理，来了解数据库的具体实现。

本文分为五个大章节。探古溯源，从数据库的诞生，发展，现状和展望来了解数据库存在的意义，以及数据库设计的历史与现实原因。百家争鸣，本节从不同分类方式，讲解一些不同的数据库系统实现，有助于拓展我们的视野，在技术选型时可以作为参考(底层数据库系统的选型对整个系统的架构实在太重要了)。承上启下，本节是整篇文章的中间章节，前两章以兴趣点，纯理论展开，在本节中将对前两章做一个总结，有了前两章知识，我们已经可以去选择适合项目需求的数据库系统，对那些想更深入了解底层存储的同学也可以选择自己感兴趣的数据库类型和方案找到相应的实现，从而进入下一步学习。下面两章将讲解更多具体的技术点。知行合一，这一章节将讲解数据库的实现，分析一些数据库架构，分布式问题和解决方案，透析具体的数据库常见的技术点。

针对不同兴趣，大家可以按需取之，跳过不感兴趣的，看想关注的点。

一、探古溯源

疑今者察之古，不知来者视之往。——《管子》

数据库管理系统允许人员组织，存储和从计算机检索数据。在计算机的早期，使用“打孔卡”用于输入，输出和数据存储。打孔卡提供了一种快速的数据输入和检索方法。数据库在计算机的最新发展中起了非常重要的作用。第一批计算机程序是在 1950 年代初期开发的，几乎完全专注于编码语言和算法。当时，计算机基本上是大型计算器，数据（名称，电话号码）被认为是处理信息的残余物。当计算机开始商业化后，数据的重要性开始越来越被人重视。

timeline of database

题外话：穿越时间——笔者去了解一个东西，总喜欢追根溯源，从时间的起点，或从逻辑的深处开始探索。一个东西的逻辑原点往往是纯粹的简单的，之后随时间发展和广延的展开会逐渐复杂起来。所以从头开始了解一个东西，往往更容易理解。比如我们看一个系统的源码，可以从该系统的 1.0.0 版本开始，可以从这个系统最初想要解决的问题开始。

计算机数据库始于 1960 年代。此十年中，有两种流行的数据模型：称为 CODASYL 的网络模型和称为 IMS 的层次模型。SABER 系统被证明是商业上成功的一种数据库系统，该系统被 IBM 用来帮助美国航空管理其预订数据。

1970 年，大神 EF Codd 发表了一篇重要的论文：《????大型共享数据库的数据关系模型》，提出了使用关系数据库模型的建议，他的想法改变了人们对数据库的看法。在他的模型中，数据库的架构或逻辑组织与物理信息存储断开连接，这成为数据库系统的标准原理。之后 UBC 开发了 Ingres 和在 IBM 开发了 SystemR。Ingres 使用一种称为 QUEL 的查询语言，引导而诞生了 Ingres Corp，MS SQL Server，Sybase，PACE 和 Britton-Lee 之类的系统。另一方面，System R 使用 SEQUEL 查询语言，它有助于 SQL / DS，DB2，Allbase，Oracle 和 Non-Stop SQL 的开发。关系数据库管理系统（RDBMS）已经成为公认的术语。

1976 年 P. Chen 提出了一个新的数据库模型，称为 Entity-Relationship，即 ER。该模型使设计人员可以专注于数据应用程序，而不是逻辑表结构。1980 年结构化查询语言或 SQL 成为标准查询语言。

RDBM系统是存储和处理结构化数据的有效方法。然而，随着互联网的快速发展，“非结构化”数据（视频，照片，音乐等）变得更加普遍。非结构化数据既是非关系数据，又是无模式数据，而关系数据库管理系统根本就没有设计用于处理此类数据。21 世纪后，NoSql模型进入人们的视野，NoSql 的出现是对互联网以及对更快的速度和对非结构化数据的处理需求的一种回应。一般而言，由于 NoSQL 数据库的速度和灵活性，它们在某些用例中比关系数据库更可取的。NoSQL模型是非关系型的，并且采用“分布式”数据库系统。这个非关系系统速度很快，使用临时组织数据的方法，并且处理大量不同类型的数据。一般而言，NoSQL 相对于 RDBMS 系统有如下优势：

更高的可扩展性
分布式计算系统
低成本
灵活的架构
可以处理非结构化和半结构化数据
没有复杂的关系

在数据库的发展历程中，虽然只经历了短短半个世纪，却诞生了一批优秀的数据库系统，SystemR、Postgresql、Mysql、DB2、Oracle、MongoDB、HBase、Neo4j、Elasticsearch 等等，都在软件的发展中发挥了重要的。

hitory of database

二、百家争鸣

现在春天来了嘛，一百种花都让它开放，不要只让几种花开放，还有几种花不让它开放，这就叫百花齐放。—— 毛泽东

迄今为止，业界诞生的数据系统数不胜数。如果你打开????DB-Engines 网站，可以看到几百个功能定位不同的数据库系统。查看DB-Engines的分类排名，可以看出DB-Engines将如此众多的系统大致分为以下几类(????网址)：

db engines

Willian Blair 在《Database Software Market:The Long-Awaited Shake-up》一文中以以下维度为数据库系统做了一个细致的分类：关系型/非关系型、操作型/分析型。

databases

上图中的纵轴分类为 Relational Database（关系型数据库，RDBMS）和 Nonrelational Database （非关系型数据库，NoSQL），横轴的分类为 Operational（操作型，即 OLTP）和 Analytical（分析型，即 OLAP）。

非关系型的分类是一个比较笼统的划分，主要是针对传统关系型来区分的，与传统关系型系统模型不一致的都划分到了非关系型中。

非关系型（NoSQL）可以再进一步划分：Key-Value 型、列存储型、文档型、图数据库等。

文档存储：MongoDB、Elasticsearch、Amazon DocumentDB、Azure Cosmos DB 等。
Key-Value 存储：Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike、LevelDB 等。
图数据库：Neo4j 等。
时序数据库：InfluxDB、Timescale 等。
WideCloumn：DataStax、Cassandra、Apache HBase 和 Bigtable 等。

database type

关系模型

关系型模型是大多数开发人员接触最早，接触最多的数据库模型。它基于集合理论，是最经典的数据库模式。关系型数据库采用行和列的二维表来建模数据。它适合于提前知道数据模型，并且数据模型比较固定，发生变化比较小，对查询比较灵活的场景，你只需要将数据以行和列的方式存储，在查询的时候以不同的需要组合数据。关系型不适合数据层次较多，记录与记录之间关联较多的场景，这种场景往往造成查询复杂度上升，查询性能下降。

关系型数据库主要用于大多数商业数据处理，其大多数是事务处理（如 ERP 系统、银行交易、航空公司订票、销售系统、金融财务管理系统等）和批处理场景（如客户发票、工资单、报告等）。

20 世纪 70 年代至今，关系型数据库经久不衰，其简洁的数据模型和经典的 SQL 查询语句支撑了当前大部分互联网系统，在线论坛、社交网络、电子商务等等，各式各样的系统背后，都隐藏着一个强大的关系数据库。

关系型数据库用的比较多的除了 Oracle、Sql Server 等商业数据库外，就是 Mysql 了，另外本人比较喜欢和推崇是 Postgresql，被称为世界上功能最强大的开源数据库。

分析的世界

联机分析处理（Online analytical processing），简称OLAP，OLAP 是相对与传统的OLTP（联机事务处理，Online Transaction Processing）系统而言的，OLTP 是传统的关系型数据库的主要应用，侧重于基本的、日常的交互式的事务处理，例如银行交易。OLAP 是数据仓库系统的主要应用，支持复杂的分析操作，侧重分析决策支持，并且提供直观易懂的查询结果。OLAP 工具让用户能够从多个角度交互地分析多维数据。OLAP 由三个基本的分析操作组成：上卷（roll-up）、钻取（drill-down）、切片（slicing）和切块（dicing）。上卷涉及可以在一个或多个维度中累积和计算的数据的聚合。

OLAP 利于大数据量，数据更新少，经常使用大量数据做聚合统计的场景。OLTP 适合数据量小，频繁操作更新数据的场景。

OLAP 主要应用于商业智能、风控分析、智能报表等业务场景。

分析和事务是两个世界。在分析需求不大的时候，很多团队直接使用业务事务数据库做分析使用，这只能支持小数据量、分析需求变化不大，弱分析的场景。真正的数据分析场景，往往使用单独的数据仓库。在不影响业务库的情况下，实时或周期批量地从中提取数据，转换成对分析友好的数据模式，执行必要的清理和转换，然后加载到数据仓库中。将数据导入仓库的过程称为提取-转换-加载(Extract-Transform-Load, ETL)。

ETL

OLTP和OLAP没有明确的边界，它们的一些典型特性如下所示：

OLTP	OLAP
用户	操作人员,底层管理人员	决策人员,高级管理人员
功能	日常操作处理	分析决策
DB 设计	面向应用	面向主题
数据	当前的,新的,细节的,二维的,分立的	历史的,聚集的,多维集成的,统一的
存取	读写数十上百条数据	读百万级数据
读特征	基于键，返回少量数据	基于大量数据汇总
写特征	随机访问，低延迟	批量或数据流
DB 大小	100MB~~GB	100GB~~TB
时间要求	实时性	对时间的要求不严格
主要应用	数据库	数据仓库

业界有许多优秀的开源的 OLAP 系统，比如：

Druid：Metamarkets 公司开发的一个用于大数据实时处理的开源分布式系统。目前已经成为 Apache 的开源项目。????官网 ????了解
Kylin：Apache Kylin™ 是一个开源的、分布式的分析型数据仓库，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。????官网
Presto：Presto 是一个对 PB 级数据运行交互式分析的开源分布式 SQL 查询引擎。????官网
ClickHouse：ClickHouse 是由号称“俄罗斯 Google”的 Yandex 开发的一个列存储的 OLAP 系统。????官网

列式存储

传统 OLTP 数据库通常采用行式存储。以下图为例，所有的列依次排列构成一行，以行为单位存储，再配合以 B+ 树或 SS-Table 作为索引，就能快速通过主键找到相应的行数据。

row-format

行存储适用于 OLTP 场景，OLTP 的大多数操作都是以实体(Entity)为单位，即对每条记录的增删改查，因此将一行数据在物理上放在相邻的位置更利于操作，也更利于特定的优化。

在 OLAP 场景中，极少单独操作单条记录的情况。OLAP 分析往往针对大量的数据集，在大量的数据集的基础上对特定的列做分组、过滤、聚合操作。因此在物理上将每列数据放在相邻的位置。

column-format

这样如果针对某一列做分析聚合，只需要找到相应列的文件，或数据块的位置，比如，要计算上图数据的平均 Age，只需要获取 Age 列的数据集即可。但是，面向行的存储引擎仍然需要将所有行从磁盘加载到内存中、解析它们，并过滤出不符合所需条件的行。这可能需要很长的时间。

基于列模式的存储，天然就会具备以下几个优点：

自动索引
因为基于列存储，所以每一列本身就相当于索引。所以在做一些需要索引的操作时，就不需要额外的数据结构来为此列创建合适的索引。
利于数据压缩
利于压缩有两个原因。一来你会发现大部分列数据基数其实是重复的，拿上面的数据来说，因为同一个 author 会发表多篇博客，所以 author 列出现的所有值的基数肯定是小于博客数量的，因此在 author 列的存储上其实是不需要存储博客数量这么大的数据量的；二来相同的列数据类型一致，这样利于数据结构填充的优化和压缩，而且对于数字列这种数据类型可以采取更多有利的算法去压缩存储。

列式存储的概念其实很早就有，只是应时代所需，列式存储在近几年才火热起来，一时涌现了很多优秀的列式存储数据库，甚至很多之前的行存储系统，也有了列式存储的能力。

Hbase：一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的 Google 论文《Bigtable：一个结构化数据的[分布式存储系统]》。HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。
Cassandra：它最初由 Facebook 开发，用于改善电子邮件系统的搜索性能的简单格式数据，集 Google BigTable 的数据模型与 Amazon Dynamo 的完全分布式架构于一身。Facebook 于 2008 将 Cassandra 开源，此后，由于 Cassandra 良好的可扩展性其被许多知名网站所采用，成为了一种流行的分布式结构化数据存储方案。
其中上一章节提到的很多 OLAP 数据库大多数是面向列式存储的。如 Druid、ClickHouse 等。

检索不再高深

曾几何时，全文检索是一个多么高深的技术，虽然如 Google 这样的全网搜索引擎背后的搜索算法和技术依然不是轻易就可以实现的。但现在大大小小的各种 App，网站的搜索功能的背后技术基本被一个强大的开源系统轻松就可以实现了。这个系统就是 Elasticsearch，一个基于 Lucence 的分布式实时全文检索数据库。

伦敦的公寓内，Shay Banon 正在忙着寻找工作，而他的妻子正在蓝带 (Le Cordon Bleu) 烹饪学校学习厨艺。在空闲时间，他开始编写搜索引擎来帮助妻子管理越来越丰富的菜谱。

他的首个迭代版本叫做 Compass。第二个迭代版本就是 Elasticsearch（基于 Apache Lucene 开发）。他将 Elasticsearch 作为开源产品发布给公众，并创建了 #elasticsearch IRC 通道，剩下来就是静待用户出现了。

公众反响十分强烈。用户自然而然地就喜欢上了这一软件。由于使用量急速攀升，此软件开始有了自己的社区，并引起了人们的高度关注，尤其引发了 Steven Schuurman、Uri Boness 和 Simon Willnauer 的浓厚兴趣。他们四人最终共同组建了一家搜索公司。

一个程序员为帮助妻子管理菜谱开发的搜索工具最终称为一个强大的全文检索数据库。看来，面向对象依然是程序员创作的强大灵感源泉之一。

revert-index

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，称之索引。将这些索引与文档建立映射关联，通过索引检索出对应的文档数据，这种词汇到文档的映射被称之为倒排索引。先建立索引，再对索引进行搜索的过程就叫全文检索。

提到全文检索，不得不提到的一个技术就是 Lucene，Lucene 是 apache 下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。

Elastisearch 就是基于 Lucene 的一个分布式开源全文检索数据库。它提供了一个分布式多用户能力的全文搜索引擎，基于 RESTful web 接口。Elasticsearch 是用 Java 开发的，并作为 Apache 许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。许多系统的搜索功能背后，其实就是一个强大的 Elastisearch 服务，Elasticsearch 也常由于日志检索，数据分析场景。

K-V 缓存霸主

在整个计算机系统中磁盘和网络是最慢的部分，一个系统中最重要的东西就是数据，而目前系统中的数据最终都存储在磁盘上。因此当前磁盘缓慢的读写速度和人民对系统响应数据和系统高并发之间的矛盾，就是目前系统需要解决的主要矛盾。将透彻了，所有的系统优化都是在缓解这个矛盾。

为提供系统响应数据和并发能力，一个最常见的手段就是缓存。在计算机系统中，CPU，内存，磁盘，网络的访问效率差着不同的数量级，为缓解这种数量级带来的访问效率问题，最常见的手段就是缓存。CPU 和内存之间有缓存，称之为 CPU 高效缓冲；内存和磁盘之间也自带缓存。

cache

在分布式系统中，数据库访问的压力，我们常常使用分布式缓存系统来解决。

Redis 是一个高性能的 key-value 数据库。它支持存储的 value 类型相对更多，包括 string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和 hash（哈希类型）。Redis 支持缓存过期时间，原子操作，数据持久化，支持集群模式。

K-V 缓存：将数据 K-V 化并缓存在 Redis 中，从而提高数据的访问效率，减小数据库的访问压力，这种常见的系统优化策略。
分布式锁：分布式锁，就是一个全局的临界资源，通过对这个临界资源的独占达到一种全局锁的功能，任何全局共享资源都可以实现分布式锁的功能，甚至 MySql，分布式文件系统。基于 Redis 的分布式锁，是常见的一种实现。
Pub\Sub：发布订阅的管道功能本不应该是一个分布式缓存系统的功能，但 Redis 实现了这一部分功能，在一些简单的发布订阅场景下也可以很好的工作。
布隆过滤器：通过一个 bit 的 0 或 1 来表示 key 是否存在，通过 bit 集合来表示一组数据，这就是简单的布隆过滤器的实现。相对与用类似 Hash 的方式来存储 key 映射 boolean 值的方式，布隆过滤器可以节省大量的空间。Redis 就有布隆过滤器的实现。布隆过滤器常用来对大量数据做 True Or Flase 的判断，比如缓存是否存在，比如大量用户是否有权限。
HyperLogLog：HyperLogLog 是用来快速计算基数的。基数，即不重复元素的个数(类似 SQL 的 count distinct)。
工具：介绍一些好用的 Java 技术栈的相关工具。????Jetcache，阿里开源的一个基于注解的缓存框架。????Redisson，一个强大的 Redis Java 客户端工具。

小而精

通常我们使用的数据库系统大多是 Client-Server 模式的，即数据库服务作为一个常驻进程运行在 Server 端，应用程序通过 TCP/IP 协议访问数据库系统。还有一种嵌入式的数据库，可以运行在本机中，这种数据库嵌入到应用程序中，随应用程序启动，数据存储在本地磁盘中。这种数据库是轻量的，一般占用内存少，代码精简。

????SQLite：遵守 ACID，实现了大多数 SQL 标准，支持 SQL 语法。支持 JDBC。
????H2：一个 Java 编写的关系型数据库，它可以被嵌入 Java 应用程序中使用，或者作为一个单独的数据库服务器运行。Spring Boot 内置的数据库。
Berkeley DB：一个高效的嵌入式数据库和键-值数据库编程库。
????LevelDB：是 Google 开源的持久化 KV 单机数据库，具有很高的随机写，顺序读/写性能，LevelDB 应用了 LSM(Log Structured Merge) 策略。另一个 Facebook 基于 levelDB 开发的 RocksDB，也是一个高性能的 key-value 型内嵌式存储引擎。LevelDB 或 RocksDB 常常被当作存储引擎使用。比如强大的时间序列数据库 Influxdb 早期底层存储引擎就是用于的 LevelDB；RocksDB 是流式计算框架 Flink 的 Checkpoint 的底层存储引擎；著名的分布式 Actor 框架 Akka 也使用 RocksDB 作为默认的 checkpint 存储。由于其强大的顺序读写能力，也常常用来做 WAL(write-ahead-log)日志存储引擎。

这些小而精的嵌入式数据库，除了用在一些小型设备上，如手机客户端等。也常常被用于很多自研数据库系统的存储引擎。这些自研的数据库系统，以上面那些嵌入式数据库作为存储引擎，在上面实现自己特有功能，从而实现一个特殊的数据库系统，比如扩展分布式功能，基于其现实一个分布式存储系统；比如基于 LevelDB 等实现磁盘队列，和分布式队列；比如基于其存储特殊的模型的数据，如时间序列数据库；比如基于其实现本地操作日志记录和重试提交，实现最终一致性的分布式事务解决方案。

三、承上启下

前几章我们已经了解了数据库系统的发展，也从不同角度了解了数据库系统的不同分类，并且了解到了许多不同功能场景的数据库系统。为我们如何选择数据库系统已经增添了一份基础知识。我们应该如何选择一个适合的存储方案呢？

原则

选择是基于需求确定的。所以必须明确需求场景，然后按需求场景选择适合的存储方案。
没有调查就没有发言权。方案调研就是一个调查过程，需要先了解不同数据库的基本特性，才能选择合适的存储方案。

基本场景

和前章数据库系统的分类很相似。其实上面数据库系统的分类一方面就是基于不同的使用场景才设计的，从而有不同实现的数据库系统，从而有针对不同场景的特殊优化，从而逐渐形成了不同场景的特殊模型。

事务性，如 Mysql 这些是最常见的事务性系统使用的存储方案，满足 ACID，使用简单。支持千万级别数据级别的读写。分析性，适合 BI，数据报表、数据监控等数据服务系统。文档型，适合高度可变的数据模型，当你事先不知道你的数据看起来究竟像什么样子，文档型是一个不错的选择，文档型也适合点查询多余集合查询的场景。图数据库，图数据库是一种很特殊的，新兴的数据库类型，它侧重于分析解释数据之间的相互关系而不是数据值本身，它适合推荐引擎、权限访问控制和地理数据等场景。时序性，时序性数据库在数据分析，时序数据展示，监控领域使用比较多，它适合对大量时间型数据查询、过滤、组合、聚合分析等。K-V 型，缓存和固定 View 模式的数据展示，K-V 型的需要按查询组合好存储起来，这样查询时按 key 获取即可。

读写

是否需要写事务
顺序读写还是随机读写
偏点查询还是大量数据集分析查询
数据结构变化大，还是查询结构变化大

数据量

数据量，需要考虑数据的数量，也需要考虑数据数量的增长速度，这样就需要考虑数据库的量级承载能力以及水平扩展能力。

数据用途

对临时数据和重要的业务数据的存储可以采用相对侧重点不一致的方案。对数据的一致性要求的强弱也会影响数据存储系统的选型。对数据事务的要求，对数据保存时间的选择也会不一样。

可靠性

数据的可靠性即保证数据的可用的能力，可靠性与成本一般是权衡的一体两面，需要对数据可用性的要求选用不同的存储架构。

可扩展性

可扩展性表现在数据使用的可扩展和系统本身的可扩展上。

可维护性

可运维性：方便运营团队来保持系统平稳运行。
简单性：简化系统复杂性，使新工程师能够轻松理解系统。
可演化性：后续工程师能够轻松地对系统进行改进，并根据需求变化将其适配到非典型场景，也称为可延伸性、易于修改性或可塑性。

学习和了解数据底层存储，除了可以搭建良好的存储架构是提供思路上的帮助，也可以让我们学习到很多平时纯业务开发接触不多的底层技术实现。对底层技术的了解和掌握，又可以反过来让我们更加了解我们的整个业务系统，对系统的合理性优化做出重要的选择。也可以帮助我们实现自己的系统。

开源数据库系统的良好的分布式架构，优秀的网络通信，性能强劲的内存和磁盘访问优化以及更多经典的数据接口和算法都是值得我们学习和借鉴的。

四、知行合一

知是行的主意，行是知的工夫；知是行之始，行是知之成。—— 王阳明

这一章节将简单讲解一些数据库系统的常见技术点。

系统架构

Master-Slave

Master-slave 架构可以说是最常用的数据存储架构，关系型数据库如：mysql，postgreSql，oracle，Nosql 诸如：MongoDb，消息队列如：Kafka，RabbitMQ 等都使用了这种架构。

master_slave

在整个系统中，Master 承担写任务，Slave 通过复制 Master 的数据保证与 Master 数据的一致性。Master 和 Slave 都可以承担读任务。Master 架构解决了数据的高可用问题（Slave 存储了数据副本），也扩展了数据读并发能力（多 Slave 同时通过读请求）。

在 Master-Slave 架构中，单 Master 如果出现故障，就会导致这个数据库系统不可用，这时就可以采用 Master-Master 架构，系统中同时存在多个 Master 节点，但是，多个 Mater 节点并不同时提供写服务，同时只会存在一个可写的 Master，另一个 Master 作为备机存在，只有当其他 Master 不可用时才会被选举称为 Master 节点提供写服务，作为备机的 Master 是可以提供读服务的。这种架构的只解决了单 Master 节点的高可用问题，并没有解决单 Master 负载过大的问题，这里之所以只有一个 Master 提供写服务，是为了保证写数据的一致性问题。

数据一致性

我们将同一份数据在不同数据节点上的存储称之为副本。只要系统中数据存在多个副本，就会有数据一致性问题。如何保证数据多副本的一致性，一直以来都是分布式系统的最大挑战。多节点数据同步，一般采用复制方式，从节点复制主节点的数据，多节点之间相互复制等等，但无论采用哪种方式，都无法避免不一致的情况。

数据一致性可以分为最终一致性和强一致性。强一致性模型能够允许你的单服务程序移植到分布式节点集群上并且不会发生任何错误。强一致性往往通过牺牲系统可用性来达到，在写入数据时，如无法保证多副本一致，则失败。最终一致性模型中，当停止改变数值的一段不确定的时间后，所有的复制集将会最终保持一致。这表明，在这段时间之前，数据副本在某种情形下是不一致的，但数据最终会达到一致，最终一致性意味着“收敛”，即预期所有的副本最终会收敛到相同的值。

在数据收敛过程中，为保证最终数据的一致性性，还有许多问题需要解决。如系统间的时序问题，原子提交问题，共识问题。

CAP 理论

**定理：**一个分布式系统不可能同时满足 consistency、availability、partition tolerance 这三个基本需求，最多同时满足两个。

consistency 一致性：所有节点同一时刻看到相同数据
availability 可用性：节点失败不阻止影响正在运行的节点的工作
partition tolerance 分区容错：即使出现信息丢失或网络、节点失败，系统也能继续运行（通过复制）

cap

这三种性质进行俩俩组合，可以得到下面三种情况：

CA：完全严格的仲裁协议，例如 2PC（两阶段提交协议，第一阶段投票，第二阶段事物提交）
CP：不完全（多数）仲裁协议，例如 Paxos、Raft
AP：使用冲突解决的协议，例如 Dynamo、Gossip

CA 和 CP 系统设计遵循的都是强一致性理论。不同的是 CA 系统不能容忍节点发生故障。CP 系统能够容忍 2f+1 个节点中有 f 个节点发生失败。

分区

p_r_mini

上面说副本只能保证数据的可用性。为提高大量数据集的读写能力，我们可以将数据拆分成不同的分区分开处理，这种技术称之为分片。

分片，即将数据集分割成相互独立的小数据集，减少因数据集增长而带来对单个节点的压力。数据分片有以下好处：

提高性能：限制分区中数据量的大小，降低数据压力
提高可用性：数据之间相互独立，不同分区之间失败互不影响，允许失败节点的存在

分区自然也会带来一些问题，首先需要考虑的就是如何分区的问题。

基于关键字区间：将数据按关键字划分为不同区间，将相同区间的数据写入同一个节点。比如用户数据 id 分布在[1-1000000]之间，需将数据分布到 10 个节点上，可以将数据划分成十个区间：
**关键字哈希分区：**通过 Hash 算法计算分区号，将数据写入相应分区号的分区中。

数据分区带来的负载倾斜和热点问题：由于数据的不确定性，数据关键字计算出来的分区存储可能集中在某几个区间内，这样就可能导致某些节点数据明显多余其他节点，这种数据集中于某个节点的情况就是数据热点。由于数据热点的出现，整个系统的负载将倾斜到这些节点上，造成分区间的负载不均衡，这就是负载倾斜问题。

去中心化：Dynamo

Dynamo 是 Amazon 的一个分布式存储。Amazon 发表了一篇论文 ????Dynamo: Amazon’s Highly Available Key-value Store 讲解 Dynamo 架构，使得 Dynamo 称为许多数据存储系统借鉴的架构。

Dynamo 基于一些众所周知的技术实现了可扩展性和高可用性：

数据通过一致性哈希算法进行分区和复制（partitioned and replicated）
通过对象版本化（object versioning）实现一致性
副本之间的一致性由一种仲裁的技术（quorum-like technique）和一个去中心化的副本同步协议（replica synchroni protocol）来保证
基于 gossip 协议进行分布式故障检测和成员检测（membership）协议管理节点

Dynamo 是一个完全去中心化的系统。

no_master

向 Dynamo 添加或移除存储节点不需要人工 partition（调整哈希节点）或 redistribution（在节点之间重新平衡数据分布）

Dynamo 采用最终一致性方案。

生产级别的存储系统的架构是很复杂的。除了最终存储数据的组件之外，系统还要针对以下方面制定可扩展和健壮的解决方案：负载均衡、成员管理（membership）、故障检测、故障恢复、副本同步、过载处理（overload handling）、状态转移、并发和任务调度、请求 marshalling、请求路由（routing）、系统监控和告警，以及配置管理。

下表总结了 Dynamo 使用的这些技术及每项技术的好处。

table-1

Partition

技术：一致性哈希
好处：增量可扩展性

写高可用

技术：读时协调（解决冲突）的向量时钟（vector clocks with reconciliation during reads）
好处：version size 和更新频率（update rates）解耦

短时故障处理

技术：宽松的选举和 hinted handoff（移交给其他节点处理，附带提示信息）
好处：部分副本不可用时，仍然可以提供高可用性和持久性

持久（permanent）故障恢复

技术：基于 Merkle tree 的逆熵（anti-entropy）
好处：后台同步版本不一致的副本

成员管理和故障检测

技术：基于 Gossip 的成员管理协议和故障检测
好处：保持了架构的对称性，无需一个中心组件（centralized registry）来存储成员和节点状态等信息

分布式数据库 Cassandra 就是 Dynamo 的典型实现。

有主架构：Bigtable

Bigtable 是 google 开源的数据库系统。Bigtable 是典型的有主架构。

Bigtable 主要由三个组件构成：

一个客户端库，会链接到每个客户端
一个 master server
多个 tablet server

master 负责：

将 tablet 分配给 tablet server
检测 tablet server 的过期（expiration）及新加（addition）事件
平衡 tablet server 负载
垃圾回收（GC）
处理 schema 变动，例如 table 和 column family 的创建

BigTable 的 Master 只负责元数据的管理，Table Server 负载自身管理的 Table 的读写功能，客户端只想 Master 同步元数据，数据不经过 Master 节点，直接和 Table Server 通信。因此，BigTable 中 Master 节点的负载很低。

有主架构中，Master 承担的能力也会不一致，比如在下图架构中，Master 只承担 Coordinate 功能，管理元数据和 Node 节点，Client 获取 Mata Data，直接和相应的数据节点通信。

master_worker1

在下面架构中，Client 不直接和 Data Node 节点通信，而是和 Master 通信，Master 更加相关元数据将请求转发给对应的 Data Node：

master_work2

Coordinate-Worker 架构是很多分布式数据库采用的架构，有兴趣的同学可以看看笔者之前讲解的 ????《Druid 的架构设计》

索引

数据库系统的索引，就是用来提高数据检索效率的。数据库系统的数据记录存储在磁盘中，如果没有索引，要从磁盘中检索相应的记录，就需要扫描所有的数据段，这种 O(N) 的访问效率和全磁盘的扫描自然不可能在真正的数据库系统中使用。为提高数据检索能力，数据库系统引入索引技术，为磁盘上的数据记录做一个索引结构，这些索引放在内存中，或按块存储在磁盘上（但只需要少数几次磁盘读取就可以读入内存中），这样检索一个数据先从内存索引中查找到对应的 Key 或磁盘位置，然后从磁盘中读取记录。

这里索引做了两个事情：

将大量磁盘检索变成内存检索
通过特定的数据结构可以提高内存检索的效率，改变 O(N) 这种低效率的检索

HASH 索引

hash_index

HASH 即哈希表，类似 Java 的 HashMap 数据结构，Key-Value 格式。假设我们在内存内维护一个 HashMap Index，key 为数据的键，Value 是数据在磁盘的存储偏移量。

获取数据时，先从内存 Map 获取对应数据的磁盘 offset，然后读取磁盘的数据。
写数据时，先将数据追加写入磁盘，然后更新内存 HashMap Index。

Hash 索引听起来过于简单，但确实是一种可行的索引方法。Hash 索引简单高效，查询性能 O(1)，更新也高效，当时也有明显的缺点，比如：

需要将整个哈希表放入内存，这对于大数据量来说内存耗费将不可承受的。
只能进行精确查询。
不能实现范围查询。

B-Tree 索引

B-trees 索引始见于 1970 年，经受了长久的时间考验，时至今日，它仍然时几乎所有关系数据库中的标准索引实现，许多非关系型数据库也经常使用。

了解B-trees索引先从二叉搜索树开始。二叉搜索树是一种特殊的二叉树，它满足以下条件：

左子树小于父节点
右子树大于父节点

BST

上图是一个搜索二叉树，如果我要查找 208 这个 key：

先从根节点开始，即 136。比较 208 > 136，下一步应该从根节点的右子树查找
398 > 208，继续搜索 398 的左子树
250 > 208，继续搜索 250 的左子树
200 < 208，继续搜索 200 的右子树。
200 的右子树并不存在，因此数据中没有 208，查找结束

让我们再查找 40：

从根节点 136 开始，136 > 40，继续搜索左子树
80 > 40，继续搜索左子树
40 = 40，节点存在，从节点中获取数据 id，然后可以更加数据 id 查找对应的数据

在索引结构中，树的每个Node包含一个 key 值，一个数据指针(或数据 id、磁盘 offset 等)

二叉搜索树的时间复杂度是 log(N)，这是一个不错的结果。

二叉搜索树依旧只能获取特定的值，如果我需要进行范围查找，即查找两个数之间的所有数据，就需要去遍历树中的每一个节点，去判断节点是否在此范围内，这种情况下，时间复杂度又下降到了 O(N)。因此我们需要改进上面的数据结构，现代大多数数据库都才有一种改进的二叉搜索树—— B+Tree。

B+tree

B+Tree 在二叉搜索树的基础上添加如下特征：

仅仅在叶子节点存储索引信息(关联表数据的信息)
其余节点仅仅用于查找到最终的叶子节点(叶子节点包含了所有的 key)

在 B+Tree 中，每个 Key 会存在两个 Node，所有中间节点只用于辅助检索最终正确的叶子节点(叶子节点才包含关联数据的信息)。

让我们尝试从上面的 B+Tree 中搜索出[40, 100]之间的节点：

采用和二叉搜索树一样的方式，我们只需要搜索 40 这个节点(或搜索出最接近 40 的节点，当 40 的节点不存在时)
然后在叶子节点链表中往下追溯，知道超过 100

假设树中共有 N 个节点，追溯了 M 个叶子节点，那么可以得出，此次搜索的时间复杂度是：log(N) + M。相对于之前的 O(N) 的二叉搜索树有以下好处：

不需要读取整棵树，这样可以减少读取磁盘的次数(索引数据一般按页存储在磁盘上)
大多数情况下 M (约等于检索范围)会远小于整个数据量 N，因此这里的 O(M) 时间复杂度大多数情况下远小于 O(N)。

*任何事情都是双面的。*B+Tree 索引带来的检索优势，必然会有其他方面的损失。这主要体现在删除数据时。因为叶子节点类似于链表结构，删除一个节点需要从 header 开始遍历，时间复杂度是 O(N)。

B+Tree 索引具有比较好的检索性能，为了减少磁盘访问次数，大多数索引系统的 B+tree 都只有 3- 4 层，因此 B+Tree 索引能够承载的节点数是有限的。B+Tree 在更新节点是需要自排序和自平衡，这需要额外的性能消耗，B+Tree 的插入和删除时间复杂度是 O(log(N))。这就是为什么在使用数据库时不建议索引字段都添加索引，而是充分考虑具体情况，在需要的字段上添加索引，否则索引太多会影响表的insert\update\delete操作性能。

LSM

B+Tree 是基于页的索引引擎，B+Tree 的数据存储本身是无序的，其建立索引的思想是在内存中维护一个 key 与数据磁盘位置的对应关系，并保证这个内存数据结构有序。有一种基于文件的存储引擎，它将数据划分成文件段，并保证数据在磁盘文件段中有序，因此，这种存储引擎并不需要在内存中维护所有数据的顺序表，只需要在内存中维护一个稀疏的索引结构，每次从内存索引中搜索到的数据并不是具体到每条数据，而是一个文件段(或文件块)，然后将这些有序的数据读入内存，再按序获取具体的数据。（如何保证写入数据有序？）

LSM(Log-Structured Merge-Tree)，就是这样一种索引结构。LSM 的架构如所示：

lsm

SSTable： LSM 的磁盘文件，称作SSTable(Sorted String Table)。望文得意，LSM 存储在磁盘中的文件，数据也是按 Key 排序存储的，这样就可以解决上面讲到的数据量大了之后无法将数据全部索引到内存中的问题。如果磁盘文件也是有序的，那么内存索引可以采取”稀疏索引“（Sparse Index），可以每一段记录一个索引，将数据逻辑上分成多个block，稀疏索引只需要记录每个block的偏移量，每条数据通过遍历block实现。这样索引量将大大减小。

Memtable： LSM 的内存结构叫做Memtable。Memtable是一个有序结构，同样可以采用树结构，可以用跳表。LSM 写数据时，只需要写入内存中的Memtable，当Memtable到达一定量之后，会异步刷入磁盘，就是上面的SSTable。

Immutable Memtable： 在数据从内存Memtable刷入SSTable时，为避免读写锁导致的性能问题，LSM 会在内存中 copy 一份immutable Memtable表，顾名思义，这个数据结构不可改变，新写入的数据只会写入新的Memtable，immutable Memtable供刷盘线程读取，查询数据的请求也可以访问这个数据结构，这样如果数据在内存中，就不需要访问磁盘，可以提供数据查询的效率。

WAL： write ahead log，预写日志，关于 WAL，可以参考我之前的文章????《你常听说的 WAL 到底是什么》。在 LSM 中，在数据刷入磁盘前，为防止异常导致数据丢失，LSM 会先将数据写入 WAL，然后写入 SSTable，系统重启时，LSM 会从 WAL 中回溯 SSTable，当写完一个 SSTable 时，LSM 会清理掉过期的 WAL 日志，防止 WAL 过量。

LSM 如何写入数据：

写入 WAL
写入 Memtable
Memtable 达到阈值时，复制 Imutable Memtable
异步刷入磁盘

LSM 如何删除数据： 为保证顺序写磁盘，LSM 不会去直接删除数据，而是通过写一条 delete 标识来表示数据被删除，数据只有在被 Compact 时才会被真正删除。

LSM 如何读取数据： LSM 读取数据将从memtable、imutable、sstable依次读取，直到读取到数据或读完所有层次的数据结构返回无数据。所以当数据不存在时，需要依次读取各层文件。LSM 可以通过引入布隆过滤器来先判断一个数据是否存在，避免无效的扫文件。

密集索引(dense index) 和稀疏索引(spare index)：密集索引为每条数据对应一个索引记录，稀疏索引一般只索引数据块或文件，是跳跃式的。因此稀疏索引比密集索引更节省空间。

压缩

数据压缩对数据库系统中 I/O 性能的影响相当明显，它可以减少磁盘空间使用、降低带宽使用和提高吞吐量。数据库系统中的数据存储、索引存储、数据转换、数据备份和网络通信都会用到相应的压缩技术。当将数据库压缩引入实时数据库时。压缩算法必须提供高压缩比才能实现高数据存储，压缩算法必须足够快，才能在实时数据库中实现实时记录和查询功能。

压缩过程一般由两个独立的部分组成，建模和编码。建模定义输入流中不同符号的特征。模型存储有关符号在数据中出现的频率的信息，即符号概率。编码是压缩过程的第二部分，它根据模型提供的概率为不同符号创建一组代码，从而产生数据的压缩版本。将更频繁地出现的符号与较短的代码词和较长的稀有符号互换。数据的均匀性会影响大多数压缩算法的压缩比，但对压缩速度没有任何影响。因此，为了达到更好的压缩性能，压缩算法是专门为数据的每个部分设计的，因此不同的压缩算法对不同类型的，不同量级和不同组合的数据的压缩效果是不一致的。也因此大多数支持数据压缩的数据库系统都会提供多种不同的压缩算法让用户根据自身数据情况自由选择。

压缩算法可以分为以下两大类：

有损压缩：有损压缩会重构原始数据。所以读取的压缩后的数据是不完整的。这种压缩方式通常用在音频、视频等流文件的压缩中。
无损压缩：无损压缩不影响压缩数据的原始值。通常使用在文本，数字等数据的压缩中。

压缩应该考虑什么问题：

大小：压缩后的文件大小，即压缩比。当使用压缩时，本就是为了降低数据大小，所以压缩算法的压缩比是首要考虑的问题。
速度：压缩速度会影响数据的读写效率，这对实时系统来说尤为重要，速度和大小是 trade-off 的两面，必须充分考虑具体的使用场景。
**资源：**压缩节省了磁盘和宽带，但是会增加 CPU 和压缩时的内存使用。所以压缩时的资源耗损情况也需要考虑。

下面列举一些常见的压缩算法或方法(Gzip、Bzip2、LZMA、XZ、LZ4、LZO),并做相应的对比:

测试条件：

Intel Core i5 CPU 750 at 2.67GHz
8GB of DDR3 memory
tmpfs as ram disk
Linux kernel 3.3.2, gentoo amd64
CFLAGS: -pipe -O2 -g -floop-block -floop-interchange -fgraphite
bzip2-1.0.6-r3, xz-utils-5.0.3, gzip-1.4

文件压缩对比结果(原数据: 445M)：

c-c

压缩比对比：

c-r

压缩耗时对比：

各大数据库系统多多少少都会用到压缩技术来降低数据存储空间，来提高系统性能，以下列举一些数据库系统使用到的压缩技术：

Google 在 BigTable 和 MapReduce 中使用 Snappy 压缩数据和网络传输。
SQL Server 使用 XPRESS 算法压缩备份数据。
Oracle 使用自实现的 Oracle Advanced Compression 算法压缩数据。
MySQL 使用 LZ77 算法压缩 InnoDB 的表。
Kafka 同时支持 gzip 和 snappy 和 lz4 算法，并对默认的 lz4 做了特定的优化。
Druid 使用 lz4 压缩数据。

数值压缩：delta-of-delta

数值压缩经常用于压缩列式存储的数字列。前面我们讲到过，列式存储将每列的数据存储在相邻的位置。这样的存储结构利于压缩数据，下面我们讲一下在许多列式存储中使用的 Delta 数值压缩技术。

![delta of delta](https://magebyte.oss-cn-shenzhen.aliyuncs.com/databases/delta _of_delta.png)

如图所示，假设有 6 个原始数值（73、300、302、332、343、372）。在未压缩之前，每个数值占用 4 个字节，6 * 4 = 24 共占用 24 个字节。Delta 压缩算法不存储原始的数值，而是先确定一个数字（一般取第一个数值），后面的数值是相对于第一个数值的差值，如图第二行所示得到的数据集为（73、227、3、30、11、29）。因为最大的差值是 227，因此只需要一个 byte 就可以表示，因此之前需要使用 4 个字节存储的每个数值，现在只需要使用 1 个字节。为了保存对应的差值相关元描述信息，需要额外的 1 字节保存这些信息，上图还将数据分块存储，因此最终需要的字节数是 7 个。这样相对于原始的 24 字节节约了将近 3 倍的空间。

其实上图就是 Elasticsearch 底层使用 Lucence 的原理。

delta-of-delta 适用于数值类型数据的压缩，且对数据量大并且数据集中的数据压缩才有效果。如果数据集比较小，且比较稀疏，数据的最大差值已经和数据值可以表示的最大值相差不大，那么压缩的意思便存在。

读写

数据存储系统就是一个与磁盘和网络打交道的系统，所以数据存储系统在这方面的优化可谓精益求精，比如异步IO、缓冲批量读写、append写数据、按磁盘页读写数据，预读数据和磁盘内存映射技术等等。

异步

与异步 IO 对应的是同步 IO，即每进行一次 IO 操作，需要等待此次操作结束才能继续接下来的操作，这样在大量并发请求情况下，IO 的效率将会大大降低，磁盘 IO 和网络 IO 在并发量大的情况下采用异步 IO 可以明显提供效率。

Mysql 的 InnoDB 也采用 AIO 提高效率，InnoDB1.1.x 之前，AIO 的实现通过 InnoDB 存储引擎中的代码来模拟实现，从 InnoDB1.1.x 开始，提供了内核级别的 AIO 支持，称为 Native AIO。在 InnoDB 存储引擎中，read ahead 方式的读取都是通过 AIO 完成，脏页的刷新，即磁盘的写入操作则全部由 AIO 完成。

在 Kafka 中，Broker 的数据磁盘落地，都是采用的 Java NIO 的方式处理的，这是 Java 的异步 IO 的实现，Java NIO 可以提供数据写入的并发性能。

缓冲

缓冲技术是为了协调吞吐速度相差很大的设备之间数据传送而采用的技术。

buffer

在数据到达与离去速度不匹配的地方，就应该使用缓冲技术。缓冲技术好比是一个水库，如果上游来的水太多，下游来不及排走，水库就起到“缓冲”作用，先让水在水库中停一些时候，等下游能继续排水，再把水送往下游。

将缓冲和批量发送结合，可以提高数据在在网络和磁盘中的写入速率。在数据写入网络或磁盘时，先设置一个缓冲池，当数据达到一定的数量或缓冲时间超时时，在将数据批量发送出去，可以减少请求并发，也可以减少请求额外数据带来的带宽和磁盘消耗。

在 Mysql 中，Innodb 在多个地方使用缓冲来提升写入性能。比如插入缓冲，将多个插入请求合并到一个操作中，这样可以将之前的一些非顺序写入变成相对的顺序写入，以提高写入效率。另一方面也可以按磁盘物理页写入数据，这样充分利用了磁盘的写入特性。

在 Elastisearch 和 Kafka 的客户端中，都采用了缓冲批量写入的功能来减少写入并发情况。

磁盘

在磁盘的读写优化上，经常可以看到以下技术：

按磁盘页读写数据：磁盘读写的单位是页。为了减少读写数据时磁盘访问频率，数据库系统通常都按页读写数据。
预读数据：一些数据库系统认为用户访问了一部分数据，那么在它相邻的放的数据下次被访问的可能性也很大，所以会预先读取多个页的数据。
磁盘内存映射（MMP）：即盘扇区映射到进程的虚拟内存空间的过程。MMP 读写数据时跨过了页缓存，减少了数据的拷贝次数；实现了用户空间和内核空间的高效交互方式；可以缓解系统内存不足的压力。

本文对各种技术浅尝辄止，其实每一个技术点都可以深入讲解，感兴趣的同学请持续关注我们后期的文章。

你可能感兴趣的:(数据库,分布式,sharepoint,powerdesigner,大数据)

浅聊读写分离不全数据库 JAVA C#相关数据库读写分离 C#JAVA
一、前言最近工作很繁忙，同事的离职给我带来了很多的事情，投身于博客的时间比较少，另外在宿舍住可能部分的时间要随大流，鹤立鸡群有一些不好，当然这也是给自己找借口和理由，趁着周末整理下最近的感悟；另外公司用的ElasticSearch，最近我也在探索，微服务方面暂时搁浅，待到搬出宿舍的时候在开始一波666的操作；另外随着数据量增加自己还需要去接触波大数据东西，不得说真是有些挑战和机遇，看自己如何把握了
C#+SqlSugar实现主从库读写分离管理大亨大数据专题 c#数据库开发语言
在使用**SqlSugar**进行分库操作时，可以通过配置多个数据库连接，并根据业务逻辑动态切换数据库。以下是一个完整的分库示例，展示如何实现分库功能。---###**1.安装NuGet包**安装`SqlSugarCore`：```bashdotnetaddpackageSqlSugarCore```---###**2.分库场景**假设有两个数据库：-**主库**：用于写操作。-**从库**：用于
Spring Boot 示例项目：从零开始构建 Web 应用梦落青云 JAVA spring boot java
一、项目概述本文档将指导您通过一个示例项目，了解如何使用SpringBoot框架构建一个简单的Web应用程序。该项目涵盖了从数据模型定义到控制器、服务层以及数据访问层的完整开发流程，帮助您快速掌握SpringBoot的基本使用方法。二、项目结构1.项目模块本示例项目分为以下几个主要模块：数据模型模块：负责定义与数据库表对应的实体类，使用JPA注解进行映射。控制器模块：处理客户端的HTTP请求，调用
使用PGVecto.rs在Postgres中进行向量数据库操作 dgay_hua 数据库 python
使用PGVecto.rs在Postgres中进行向量数据库操作技术背景介绍向量数据库是一种用于存储和检索高维向量数据的数据库，非常适合应用于自然语言处理、推荐系统等领域。在这篇文章中，我们将介绍如何使用PGVecto.rs在Postgres中进行向量数据库操作。核心原理解析PGVecto.rs是基于Postgres的向量数据库实现，可以轻松地实现向量的存储和高效检索。它通过Postgres的扩展实
SQL注入技术详解与过滤绕过方法 Cyc1e sql 数据库 web 安全网络
SQL注入技术详解与过滤绕过方法1.什么是SQL注入？SQL注入（SQLInjection）是一种常见的Web安全漏洞，指攻击者将恶意的SQL代码插入到应用程序的输入字段中，并通过应用程序发送到数据库进行执行，进而对数据库进行未授权操作。其可能导致敏感数据泄露、篡改、删除等严重后果。1.1SQL注入的工作原理SQL注入的核心在于，攻击者通过操控输入字段，使服务器端的SQL查询语句发生意料之外的变化
电力知识图谱与大模型的结合：从构建到行业应用的深度解析 Cc不爱吃洋葱知识图谱人工智能自然语言处理大模型大语言模型 LLM 语言模型
随着大数据和人工智能技术的飞速发展，电力行业迎来了智能化转型的全新契机。电力知识图谱作为一种将数据转化为结构化知识的技术，正在赋能故障诊断、设备管理、运维优化等核心场景。而当知识图谱与大模型相结合，更能释放强大的知识推理和智能预测能力，为行业智慧化发展注入新动力。本文将从专业视角，深入探讨电力知识图谱的构建过程、大模型的融入方法，以及它们在实际应用中的落地场景。通过具体案例剖析与技术解读，帮助你了
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
数据库(sql语句) 四代目水门数据库数据库 sql
数据的操作1、插入数据，1.1单条记录插入：insertinto表名(字段1,字段2,字段3,……)values(值1,值2,值3,…);1.2批量记录插入：insertinto表名(字段1,字段2,字段3,……)values(值11,值21,值31,…),(值12,值22,值32,…),……;2、更新数据。2.1更新所有数据update表名set字段1=值1,字段2=值2,字段3=值2.2更新特
oracle 如果两条记录的id是相同的，如何删除其中一条 &loopy& oracle 数据库
在Oracle数据库中，如果两条记录的id相同且需要删除其中一条记录，可以使用以下几种方法之一。以下示例假设你有一个名为your_table的表，其中id是主键或唯一标识符字段。方法一：使用ROWID由于Oracle允许使用ROWID来唯一标识表中的每一行，你可以使用ROWID来删除特定的记录。假设你已经确定要删除哪一条记录（例如，通过其他字段的差异），你可以执行以下操作：DELETEFROMyo
Redis 主从复制的原理详解海里真的有鱼 redis 数据库缓存
引言Redis作为一种高性能的内存数据库，广泛应用于高并发、低延迟的场景中。然而，单机版的Redis存在一定的局限性，尤其是在高可用性和负载均衡方面。为了应对这些挑战，Redis提供了主从复制（Replication）机制，使得一个Redis实例（主节点）可以将数据同步到其他多个实例（从节点）。主从复制是Redis集群高可用架构的基础，它不仅提高了系统的可用性，还为读写分离、数据备份等场景提供了支
开发工具篇第二讲：git使用技巧从基础到进阶(快速入门/高阶用法/git别名/项目实战/gitLab) 程序员 jet_qi 常用开发工具 git java rebase cherry-pick
git是一个开源的分布式版本控制系统，可以有效高速地处理从很小到非常大的项目版本管理。它是LinusTorvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件，git作为版本管理工具，程序员是必须要掌握的。本文是开发工具篇第二讲：主要介绍了git的常规使用方法及在日常开发实战场景中git的应用。文章目录1、认识git2、git原理2.1、git与其他版本管理系统的主要区别2.
Git 深度解析 —— 从基础到进阶 Exhausted、 git elasticsearch 大数据搜索引擎 git
目录1.Git基础概念1.1版本控制(VersionControl)1.2分布式版本控制(DistributedVersionControl)1.3核心概念1.4Git工作流程2.Git常用命令2.1初始化仓库2.2添加文件2.3提交修改2.4查看状态2.5查看历史记录2.6切换分支2.7创建分支2.8合并分支2.9克隆仓库2.10推送修改2.11拉取更新3.Git进阶技巧3.1Git撤销操作3.
借助 Python 的 SQLAlchemy 库查询数据米竹 SQL python mysql sqlserver
SQLAlchemy库是一个非常强大又相当灵活的库，它在关系型数据库与传统编程之间建起了一座桥梁。它允许我们使用原始的SQL执行查询，同时也提供了高级的方法来查询和更新数据库。本文仅简要介绍使用原生SQL执行查询部分。使用SQLAlchemy查询MySQL的数据首先需要安装sqlalchemy库和pymysql库；使用sqlalchemy的create_engine()方法，并借助pymysql驱
python使用SQLAlchemy进行mysql的ORM操作 Lucas在澳洲 Python python mysql 开发语言 1024程序员节
SQLAlchemy是什么SQLAlchemy是一个强大的PythonORM（对象关系映射）库，用于简化与关系型数据库的交互。通过将数据库表映射为Python类，SQLAlchemy使得开发者能够通过面向对象的方式来进行数据库操作，避免了直接使用SQL语句所带来的复杂性和安全风险。1.为什么使用ORM使用ORM具有以下优势：避免SQL注入：通过使用参数化查询，ORM可以有效地防止SQL注入攻击。可
numa节点_极致性能（1）：以NUMA为起点 weixin_39609527 numa节点
(1)一个[合格的]OracleDBA在安装数据库的时候，通常都会按要求关闭NUMA(MOS：DisableNUMAAtOSLevel(DocID2193586.1))，因为启用NUMA会导致CPU彪高，性能很差(MOS：HighCPUUsagewhenNUMAenabled(DocID953733.1))。也许是这类问题太多，从Oracle11gR2开始，默认就关闭了NUMA特性，因为NUMA的
ELK安装部署同步mysql数据未发哦京东发 elk 运维
ELK安装部署指南ELK是Elasticsearch、Logstash和Kibana的简称，用于日志收集、存储、分析和可视化。1.安装ElasticsearchElasticsearch是一个分布式搜索和分析引擎。1.1下载并安装访问Elasticsearch官网下载最新版本。解压并安装：tar-xzfelasticsearch-8.10.0-linux-x86_64.tar.gzcdelasti
【Python】使用SQLAlchemy操作Mysql数据库 m0_74824044 数据库 python mysql
一、SQLAlchemy介绍SQLAlchemy是Python的SQL工具包和对象关系映射（ORM）库，它提供了全套的企业级持久性模型，用于高效、灵活且优雅地与关系型数据库进行交互。使用SQLAlchemy，你可以通过Python类来定义数据库表的结构，并通过这些类与数据库进行交互，而无需编写复杂的SQL语句。以下是SQLAlchemy的一些主要特点和功能：ORM（对象关系映射）：SQLAlche
2024最新小狐狸AI 免授权源码希希分享软希网58soho_cn 小狐狸AI 免授权源码
后台安装步骤：1、在宝塔新建个站点，php版本使用7.2、7.3或7.4，把压缩包上传到站点根目录，运行目录设置为/public2、导入数据库文件，数据库文件是/db.sql3、修改数据库连接配置，配置文件是/.env4、正式使用时，请把调试模式关闭：/.env文件第一行，true改成false5、超管后台地址：http://域名/super初始账号密码：super密码123456及时修改6、用户
SQLAlchemy中常用的查询方法[示例学习] 铁松溜达py 数据库
SQLAlchemy是一个强大的PythonORM（对象关系映射）工具，它提供了多种方法来执行数据库查询操作。以下是SQLAlchemy中常用的查询方法的总结：session.query()：使用session.query(Model)来创建一个查询对象，其中Model是你要查询的数据库模型类。filter()：在查询对象上使用filter()方法可以添加过滤条件，例如filter(Model.c
360智算中心：万卡GPU集群落地实践 ZVAyIVqt0UFji
360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程，包括算力基础设施搭建、集群优
数据库-第一范式、第二范式、第三范式、BC范式、第四范式简析 DS_Watson 数据库
在设计与操作维护数据库时，最关键的问题就是要确保数据能够正确地分布到数据库的表中。使用正确的数据结构，不仅有助于对数据库进行相应的存取操作，还可以极大地简化应用程序中的其他内容(查询、窗体、报表、代码等)，按照“数据库规范化”对表进行设计，其目的就是减少数据库中的数据冗余，以增加数据的一致性。泛化时在识别数据库中的一个数据元素、关系以及定义所需的表和各表中的项目这些初始工作之后的一个细化的过程。常
基本的SELECT语句程序员小柴 MySQL oracle 数据库 mysql
1.SQL概述SQL（StructuredQueryLanguage）是一种用于管理和操作关系数据库的编程语言。它是一种标准化的语言，用于执行各种数据库操作，包括创建、查询、插入、更新和删除数据等。SQL语言具有简单、易学、高效的特点，可以用于处理大量的数据和复杂的查询。它包含了一系列的命令和语句，可以通过这些命令和语句来操作数据库。SQL语言的主要功能包括：数据定义语言（DDL）：用于创建和管理
MICMIC-IV 个人查询策略（+官方查询语句注释）医学AppMatrix MIMIC数据库查询 sql
MICMIC-IV查询策略（实际查询SQL例子注释）说明通过注释学习MIMIC官方的查询语句，总结MIMIC数据库的结构和查询特点。内容：SQL语言和mimic-iv数据库的结构目的：通过学习mimic数据库的数据格式，方便查询mimic数据库；学习mimic数据库的组织形式，也能够建立并查询自己的数据库概念和特点：本文的许多概念和对mimic数据库的认识来源于：[1]WangS,Mcdermot
springboot学生宿舍信息的系统（11574） codercode2022 spring boot 后端 java 开发语言 spring gulp 前端框架
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
Java中的分布式（概念说明）阿乾之铭 java 分布式
1.分布式的基本概念1.1什么是分布式系统？分布式系统（DistributedSystem）：由多台服务器（或节点）协同工作，对外提供一个整体服务。不同节点之间通过网络通信来协同处理请求或共享数据，相对于「单体应用」而言，可以带来更高的吞吐量、可用性和灵活扩展能力。1.2分布式vs.单体架构单体架构所有业务模块部署在同一应用实例中，垂直扩容（升级服务器硬件）成为主要的扩展方式。优点：开发调试较简单
Redis的安装及配置尘鹄 redis学习之路 redis 数据库缓存
redis的安装及配置1.安装依赖2.下载redis官方压缩包并安装3.修改redis.conf配置文件4.编辑redis系统服务文件本文使用的系统为Rocky8.10,其操作与CentOS8和RedHat8一样,读者可根据自己的版本进行灵活修改代码Redis是一个开源的内存数据库,提供了多种不同类型得到数据结构,很多的业务场景中的问题都可以很自然地映射到这些数据结构上。除此之外，通过复制持久化和
【为什么有些公司禁止使用@Transactional声明式事务？】 @Corgi Java面试题面试题事务 Transactional
为什么有些公司禁止使用@Transactional声明式事务？1.长事务问题2.嵌套调用混乱3.可读性和维护性下降4.统一事务管理需求5.示例说明6.结论有些公司禁止使用@Transactional声明式事务，主要出于以下几个原因：1.长事务问题如果一个方法中存在较多耗时的操作，很容易引发长事务的问题。长事务会带来锁的竞争和性能的消耗，同时也会导致数据库连接池耗尽，影响程序的正常执行。例如，在事务
Centos使用Mysql SYS_MHPY Linux centos mysql linux
文章目录1连接数据库2执行SQL脚本1连接数据库mysql-uusername-p[root@localhost~]#mysql-uusername-p2执行SQL脚本source/path/to/example.sql;
数据库配置文件 SYS_MHPY 学习数据库
达梦数据库修改dm.ini中的COMPATIBLE_MODE=4,然后重启数据库vi/dm8/data/DAMENG/dm.ini人大金仓数据库修改kingbase.conf中的sql_mode=‘’,然后重启数据库vi/opt/package/Kingbase/ES/V8/data/kingbase.conf
使用 python框架FastAPI搭配Nacos 构建网关服务 xiaohu9606 python fastapi 数据库
文章目录概要整体架构流程技术细节小结概要本文将详细介绍如何使用FastAPI构建一个功能强大的网关服务，该网关服务能够处理认证、路由转发和日志记录等功能。我们将基于提供的代码文件进行分析，并对代码进行必要的优化和补充。整体架构流程数据库模型(base.py)fromtypingimportListfromsqlalchemyimportor_fromsqlalchemy.excimportSQLA
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {