Hanson,

六、数据仓库详细介绍（ETL）工具篇上

0x00 前言

在上篇，我们介绍过，ETL 的实现方式可以分为三种类型：完全依赖数据库、自研、第三方 ETL 工具。

我们需要根据实际情况去选择合适的方案。对于相对简单的 ETL 系统我们可以完全依赖数据库或者内部开发一个小型的的流程控制、调度工具去实现，但是对于大多数的数据仓库项目，从数据源到最终数据应用，至少也有大几十上百甚至几百个 ETL 过程（节点），这些过程之间的依赖关系、系统监控、出错处理以及恢复的流程处理，完全依靠 shell 或者程序开发难度极大。ETL 工具的出现通常会提供一套可视化的界面去完成集成、计算、流程依赖甚至调度，这极大的简化开发和运维。

ETL 是数据仓库的重要组成部分，但 ETL 也可以独立存在的。本篇我会集中起来给大家介绍一些常用的 ETL 工具或者类 ETL 的集成、同步、计算、流程控制工具。

如果全部写完篇幅过长可能会有近两万字了。

因此特意拆分为两到三篇：

上篇，主要介绍五种传统 ETL 工具和八种数据同步集成工具。
下篇，主要介绍两种新型 ETL 工具和大数据发展不同阶段产生的六种主要计算引擎。
篇幅不允许的话会单独分出来第三篇，介绍五种流程控制组件，最后再给大家介绍下如何快速将工具引入生产实践。

0x01 传统 ETL 工具

DataStage

IBM WebSphere DataStage（下面简称 DataStage ）是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据仓库目标数据库的集成工具，可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。其中每步都可以在图形化工具里完成，同样可以灵活地被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且 DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

Datastage 操作界面

对元数据的支持：Datastage 是自己管理 Metadata，不依赖任何数据库。
参数控制：Datastage 可以对每个 job 设定参数，并且可以 job 内部引用这个参数名。
数据质量：Datastage 有配套用的 ProfileStage 和 QualityStage 保证数据质量。
定制开发：提供抽取、转换插件的定制，Datastage 内嵌一种类 BASIC 语言，可以写一段批处理程序来增加灵活性。
修改维护：提供图形化界面。这样的好处是直观、傻瓜式的；不好的地方就是改动还是比较费事（特别是批量化的修改）。

Datastage 包含四大部件：Administrator、Manager、Designer、Director。

用 DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。
用 DataStage Designer 连接到指定的项目上进行 Job 的设计；
用 DataStage Director 负责 Job 的运行，监控等。例如设置设计好的 Job 的调度时间。
用 DataStage Manager 进行 Job 的备份等 Job 的管理工作。

Informatica

Informatica PowerCenter 用于访问和集成几乎任何业务系统、任何格式的数据，它可以按任意速度在企业内交付数据，具有高性能、高可扩展性、高可用性的特点。它提供了一个可视化的、拥有丰富转换库的设计工具，这个转换库使数据转换变成一个简单的“拖拽”过程，用户不需在组件时编写脚本语言。可以通过简单的操作，完成需求。使用 PowerCenter，转换组件能够被合并到 mapping 对象中，独立于他们的数据源和目标，有近 20 种数据转换组件和近百个函数可以调用，同时可以调用外部的过程和程序，实现复杂的转化逻辑。

Informatica 操作界面

对元数据的支持：元数据相对开放，存放在关系数据中，可以很容易被访问。
参数控制：参数放在一个参数文件中，理论上的确可以灵活控制参数，但这个灵活性需要用户自己更新文件中的参数值（例如日期更新）。另外，Powercenter 不能在 mapping 或 session 中引用参数名。
数据质量：专门有一个产品 Informatica Data Quality 来保证数据质量。
定制开发：没有内嵌类 BASIC 语言，参数值需人为更新，且不能引用参数名。
修改维护：与 Datastage 相同，Powercenter 也提供图形化界面。这样的好处是直观、傻瓜式的；不好的地方就是改动还是比较费事。

Informatica 的开发分为六个步骤：

定义源，就是定义我们源头数据在哪里。配置数据链接，比如 IP 账号密码等信息。
定义目标，就是我们准备把数据放到哪里。这个是我们事先定义的数据仓库。
创建映射，就是我们的元数据和目标数据的映射关系。
定义任务，就是我们每个表的转换过程，可以同时处理多个表。
创建工作流，将任务按照一定的顺序进行组合。
工作流调度和监控，定时、自动或者手动方式触发工作流。

有兴趣更详细了解的可以参考这篇文章：

https://blog.csdn.net/water_0815/article/details/76512470

Kettle

Pentaho Data Integration，是一款国外免费开源的、可视化的、功能强大的 ETL 工具。由于其开源、免费、跨平台、资料文档丰富等特点获得了一大批忠实粉丝。

Kettle 六大特点：

免费开源：基于 Java 免费开源软件。
易配置：可跨平台，绿色无需安装。
不同数据库：ETL 工具集，可管理不同数据库的数据。
两种脚本文件：transformation 和 job。transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。
图形界面设计：托拉拽，无需写代码。
定时功能：在 Job 下的 start 模块，有一个定时功能，可以每日，每周等方式进行定时。

Kettle 操作界面

Kettle 的执行分为两个层次：Job 和 Transformation。这两个层次的最主要的区别在于数据的传递和运行方式。

Transformation：定义对数据操作的容器，数据操作就是数据从输入到输出的一个过程，可以理解为比 Job 粒度更小一级的容器，我们将任务分解成 Job，然后需要将 Job 分解成一个或多个Transformation，每个 Transformation 只完成一部分工作。
Step：是 Transformation 内部的最小单元，每一个 Step 完成一个特定的功能。
Job：负责将 Transformation 组织在一起进而完成某一工作，通常我们需要把一个大的任务分解成几个逻辑上隔离的Job，当这几个 Job 都完成了，也就说明这项任务完成了。
Job Entry：Job Entry 是 Job 内部的执行单元，每一个 Job Entry 用于实现特定的功能，如：验证表是否存在，发送邮件等。可以通过 Job 来执行另一个 Job 或者 Transformation，也就是说 Transformation 和 Job 都可以作为Job Entry。
Hop：用于在 Transformation 中连接 Step，或者在 Job 中连接 Job Entry，是一个数据流的图形化表示。

在Kettle 中Job 的JobEntry是串行执行的，故Job中必须有一个Start的JobEntry；Transformation 中的 Step 是并行执行的。

Kettle 也提供了丰富的组件，主要分为十大类：脚本组件、映射组件、统计组件、连接组件、查询组件、流程组件、应用组件、转换组件、输出组件、输入组件。

有兴趣更详细了解的可以参考 Kettle 官方文档，很详细的：

https://www.kettle.net.cn/category/base

ODI、Data Service

ODI（Oracle Data Integrator）是 Oracle 公司提供的一种数据集成工具，能高效地实现批量数据的抽取、转换和加载。ODI 可以实现当今大多数的主流关系型数据库（Oracle、DB2、SQL Server、MySQL、SyBase）的集成。

ODI 提供了图形化客户端和 Agent（代理）运行程序。客户端软件主要用于对整个数据集成服务的设计，包括创建对数据源的连接架构、创建模型及反向表结构、创建接口、生成方案和计划等。Agent 运行程序是通过命令行方式在 ODI 服务器上启动的服务，对 Agent 下的执行计划周期性地执行。

ODI 的常见应用场景：

数据仓库：比如 ETL 阶段。
数据迁移：比如将某一源系统的数据迁移到新系统中。
数据集成：比如两个系统间高效的点到点数据传递。
数据复制：比如将一个 Instance 的数据复制另外一个 Instance 中。

SAP Data Services 软件能够提高整个企业的数据质量。利用出色的数据整合、数据质量管理和数据清理功能，你能够从企业的所有结构化和非结构化数据中挖掘价值；将数据转化为随时可用的可靠资源，从中获取业务洞察，并利用这些洞察简化流程提高效率。

传统数仓时代，DataStage 和 Informatica 占据了绝大多数市场份额，Kettle 在中小型 ETL 应用场景上也有广泛应用，ODI 和 DS 等 ETL 工具反而使用的不多。

虽然这些传统 ETL 工具曾经风靡全球，是经过生产检验的，并且产品化程度极高，但都面临着云时代的巨大冲击，以前不想拥抱不拥抱云，现状只能拥抱空气了。这些当时的巨头如今市场规模越来越小，除去非常传统老旧的项目，新的项目已经很少使用了，只有开源、云、SAAS 模式才是出路。

0x02 集成同步组件

Sqoop、DataX

Sqoop，SQL-to-Hadoop 即 “SQL到Hadoop 和 Hadoop 到 SQL ”。是 Apache 开源的一款在 Hadoop 和关系数据库服务器之间传输数据的工具。主要用于在 Hadoop 与关系型数据库之间进行数据转移，可以将一个关系型数据库（ MySQL ,Oracle 等）中的数据导入到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导出到关系型数据库中。

Sqoop 的工作机制：

Sqoop 命令的本质是转化为 MapReduce 程序。Sqoop 分为导入（import）和导出（export），策略分为 table 和 query ，模式分为增量和全量。

Sqoop 的优点：

可以高效、可控的利用资源，可以通过调整任务数来控制任务的并发度。
可以自动的完成数据映射和转换。由于导入数据库是有类型的，它可以自动根据数据库中的类型转换到 Hadoop 中，当然用户也可以自定义它们之间的映射关系
支持多种数据库，如 Mysql，Orcale 等数据库

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

开源地址：https://github.com/alibaba/DataX

数据交换通过 DataX 进行中转，任何数据源只要和 DataX 连接上即可以和已实现的任意数据源同步。

核心组件：

Reader：数据采集模块，负责从源采集数据
Writer：数据写入模块，负责写入目标库
Framework：数据传输通道，负责处理数据缓冲等

从一个 JOB 来理解 Datax 的核心模块组件：

DataX 完成单个数据同步的作业，称为 Job，Job 会负责数据清理、任务切分等工作；
任务启动后，Job 会根据不同源的切分策略，切分成多个 Task 并发执行，Task 就是执行作业的最小单元
切分完成后，根据 Scheduler 模块，将 Task 组合成 TaskGroup ，每个 group 负责一定的并发和分配 Task

DataX 优点

可靠的数据质量监控：让数据可以完整无损的传输到目的端。
丰富的数据转换功能
精准的速度控制：新版本 DataX3.0 提供了包括通道(并发)、记录流、字节流三种流控模式，可以随意控制你的作业速度，让你的作业在库可以承受的范围内达到最佳的同步速度。
强劲的同步性能：每一种读插件都有一种或多种切分策略，都能将作业合理切分成多个 Task 并行执行，单机多线程执行模型可以让 DataX 速度随并发成线性增长。
健壮的容错机制：多层次局部/全局的重试。
极简的使用体验：下载即可用、详细的日志信息。

Sqoop 和 DataX 都是非常流行的来源大数据离线同步工具，相比传统 ETL 工具易用性肯定会差很多（传统工具基本都能实现零代码开发纯图形界面操作），但由于天然具备的大数据处理能力而迅速得到普及。

DataX 面世晚了许多，所以拥有比 Sqoop 更多、更全、更强的功能，从而被广泛接受和使用。Sqoop 是 Hadoop 生态系统的重要一员问世比较早了，由于功能简单稳定成熟，甚至今年05月06日 Apache 董事会宣布终止 Apache Sqoop 项目。当然这里的中止并非不让用了，只是不在维护更新代码了，当然再次之前 Sqoop 代码已经三年没有更新了。

Flume、Canal

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

当前 Flume 有两个版本 Flume 0.9X 版本的统称 Flume-og，Flume1.X 版本的统称 Flume-ng。由于 Flume-ng 经过重大重构，与 Flume-og 有很大不同，使用时请注意区分。

提示官方这个图的 Agent4 的 Sink 画错了，不应该是 Avro Sink ，应该是 HDFS Sink 。

上图是 Flume 设置多级 Agent 连接的方式传输 Event 数据。也支持扇入和扇出的部署方式，类似于负载均衡方式或多点同时备份的方式。

Flume 工作的机制：

Flume-og 采用了多Master的方式。为了保证配置数据的一致性，Flume 引入了 ZooKeeper，用于保存配置数据，ZooKeeper 本身可保证配置数据的一致性和高可用，另外，在配置数据发生变化时，ZooKeeper 可以通知 Flume Master 节点。Flume Master 使用 gossip 协议同步数据。
Flume-ng最明显的改动就是取消了集中管理配置的 Master 和 Zookeeper，变为一个纯粹的传输工具。Flume-ng 另一个主要的不同点是读入数据和写出数据由不同的工作线程处理（称为 Runner）。在 Flume-og 中，读入线程同样做写出工作（除了故障重试）。如果写出慢的话（不是完全失败），它将阻塞 Flume 接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。

Flume 优势：

Flume可以将应用产生的数据存储到任何集中存储器中，比如 HDFS、HBase。
当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候， Flume 会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据。
提供上下文路由特征。
Flume 的管道是基于事务，保证了数据在传送和接收时的一致性。
Flume 是可靠的，容错性高的，可升级的，易管理的,并且可定制的。

Canal 是阿里巴巴旗下的一款开源项目，纯 Java 开发。基于数据库增量日志解析，提供增量数据实时订阅和消费，目前主要支持了 MySQL，也支持 mariaDB。

很多大型的互联网项目生产环境中使用，包括阿里、美团等都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。

github 地址：https://github.com/alibaba/canal

当前的 Canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x

Canal 是通过模拟成为 MySQL的 slave 的方式，监听 mysql 的 binlog 日志来获取数据，binlog 设置为 row 模式以后，不仅能获取到执行的每一个增删改的脚本，同时还能获取到修改前和修改后的数据，基于这个特性，Canal 就能高性能的获取到 MySQL 数据数据的变更。

Flume 和 Canal 都是适用于特定场景下的大数据同步组件，通常用于实时数据处理场景：

Flume 主要用于将日志文件实时同步到 Kafka 或 HDFS，供下游消费。
Cannal 主要是解析 Mysql binlog 日志，在不影响业务的前提下将数据实时同步到 Kafka。

DTS、GoldenGate

DTS（Data Transmission Service）是阿里云提供的一种数据传输服务，功能非常强大。支持 RDBMS、NoSQL、OLAP、Kafka 等各种数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建安全、可扩展、高可用的数据架构。

Oracle GoldenGate 软件提供了一个单一的平台，这个平台可以为任何企业环境实现秒一级的灾难备份。GoldenGate 是一种基于日志的结构化数据复制方式，它通过解析源数据库在线日志或归档日志获得数据的增删改变化（数据量只有日志的四分之一左右），再将这些变化应用到目标数据库，实现源数据库与目标数据库同步、双活。

DTS 和 GoldenGate 不同时期诞生两款收费的数据同步工具或服务，都能够实现异构数据间的实时同步。

ColdenGate 诞生于传统数仓时期，后来被 Oracle收购了以闭源软件工具的形式售卖，通常在关系型数据库间实现实时同步。DTS 诞生于阿里云，以一种 SAAS 服务的形式对外售卖，支持目前市面上几乎所有的数据源之间的实时同步，可以完全替代 Cannal。

ColdenGate 主要提供的是后台功能好像没有前端页面，但 DTS 跟现在大多数付费版的大数据组件一样提供一套 web 版本的操作和进度查看页面。

Maxwell、DSG

这两个数据同步工具我也没听过，只是群友们有提到过，这里列出来也给大家个参考。

Maxwell 是一个能实时读取 MySQL 二进制日志 binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。

常见应用场景： ETL、维护缓存、收集表级别的 dml 指标、增量到搜索引擎、数据分区迁移、切库 binlog 回滚方案等。

官网：http://maxwells-daemon.io

GitHub 地址：https://github.com/zendesk/maxwell

Maxwell 主要提供了下列功能：

支持 SELECT * FROM table 的方式进行全量数据初始化
支持在主库发生 failover 后，自动恢复 binlog 位置(GTID)
可以对数据进行分区，解决数据倾斜问题，发送到 kafka 的数据支持 database、table、column 等级别的数据分区
工作方式是伪装为 Slave，接收 binlog events，然后根据 schemas 信息拼装，可以接受 ddl、xid、row 等各种 event

除了Maxwell外，目前常用的MySQL Binlog解析工具主要有阿里的 Canal、mysql_streamer 。

DSG-RealSync Oracle 数据库同步复制及容灾技术。与传统的数据复制技术不同，DSG RealSync 技术是针对数据库提供了基于逻辑的交易复制方式。该方式通过直接捕获源数据库的交易，将数据库的改变逻辑复制到目标系统数据库中，实现源系统和目标系统数据的一致性。

该技术在复制上存在以下几个特点：

按需复制：查询和统计系统往往不需要所有的原始数据，因此完全可以按需要复制数据。RealSync 系统支持对指定信息的按需复制，减少存储和网络带宽的成本。
多种同步模式：实时复制、定时复制、手工复制
对生产系统的低干扰性：DSG 实时数据复制技术不需要通过任何数据库的引擎来获取变更数据，而是通过数据库自身的信息获取源系统上的改变并传送给目的系统，不会对生产系统造成性能影响。
系统异构可提供更多的优化空间：源数据库系统和目的数据库系统的可异构，主要包括索引规则和存储参数（如数据块大小、回滚段等）。因此可以在目标数据库上根据业务特点进行调整和优化，完全不受源系统的限制。
支持的多种复制策略：RealSync 可以被灵活配置，以支持各种复制策略，支持各种增值应用，如：一对一单向复制；一对多复制；多对一复制等。

有兴趣了解的可以参考这篇文章：

https://www.cnblogs.com/oracle-dsg/archive/2010/05/27/1745477.html

但说实话，大清早亡了，开源技术那么多，我们不见得非要使用这些古老的技术组件了。

你可能感兴趣的:(数据仓库,数据仓库,etl,数据库)

SpringSecurity+JWT实现认证及授权详细步骤小孙的Blog spring boot java spring 后端
表单认证流程想要实现SpringSecurity的认证授权，首先需要理解大致流程。准备工作导入maven依赖org.springframework.bootspring-boot-starter-securityio.jsonwebtokenjjwt0.9.0创建数据库表表数据如下：创建生成jwtToken的工具类importio.jsonwebtoken.Claims;importio.json
HTML、Vue和PHP文件的区别与联系生信天地 html vue.js php
一、核心区别类型性质执行环境功能特点.html静态标记语言浏览器直接解析定义页面结构和内容，无逻辑处理能力.vue前端框架组件文件浏览器/构建工具整合HTML模板+JS逻辑+CSS样式，支持动态数据绑定和组件化开发.php服务器端脚本语言文件Web服务器执行动态生成HTML内容，支持数据库操作和业务逻辑处理二、联系与协作PHP与HTMLPHP文件通过标签嵌入HTML，服务器执行PHP代码后输出纯H
【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案江中散人云原生进阶-数据库专栏云原生进阶-PaaS专栏后台开发专栏数据库云原生 gaussdb database 存储引擎
1存储引擎概览早期计算机程序通过文件系统管理数据，到了20世纪60年代这种方式就开始不能满足数据管理要求了，用户逐渐对数据并发写入的完整性、高效的检索提出更高的要求。由于机械磁盘的随机读写性能问题，从20世纪80年代开始，大多数数据库一直围绕着减少随机读写磁盘进行设计。主要思路是把对数据页面的随机写盘转化为对WAL(WriteAheadLog，预写式日志)的顺序写盘，WAL持久化完成，事务就算提交
设置GaussDB实例安全组规则如清风一般 gaussdb 安全数据库
设置GaussDB实例安全组规则操作场景安全组是一个逻辑上的分组，为同一个虚拟私有云内具有相同安全保护需求，并相互信任的弹性云服务器和GaussDB实例提供访问策略。如果账号已经申请创建时支持不指定安全组的白名单，则不需要执行本章节，而且在实例详情页也不会有内网安全组信息。为了保障数据库的安全性和稳定性，在使用GaussDB实例之前，您需要设置安全组，开通需访问数据库的IP地址和端口。内网连接Ga
什么是GaussDB 如清风一般 gaussdb
什么是GaussDB简介GaussDB是华为自主创新研发的分布式关系型数据库。该产品具备企业级复杂事务混合负载能力，同时支持分布式事务，同城跨AZ部署，数据0丢失，支持1000+的扩展能力，PB级海量存储。同时拥有云上高可用，高可靠，高安全，弹性伸缩，一键部署，快速备份恢复，监控告警等关键能力，能为企业提供功能全面，稳定可靠，扩展性强，性能优越的企业级数据库服务。应用场景交易型应用大并发、大数据量
【开源向量数据库】Milvus简介 IT古董开源数据库 milvus
Milvus是一个开源、高性能、可扩展的向量数据库，专门用于存储和检索高维向量数据。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、异常检测等AI应用场景。官网：https://milvus.io/1.Milvus的特点（1）高性能支持数十亿级向量数据，查询速度快。使用近似最近邻（ANN）索引算法，如HNSW、IVF-FLAT、IVF-PQ、SCANN等。（2）分
ry-ui.js 空想迷城 javascript
调用方式$.property.function($.属性.功能)/***通用js方法封装处理*Copyright(c)2019ruoyi*///当前table相关信息vartable={config:{},//当前实例配置options:{},//设置实例配置set:function(id){if($.common.getLength(table.config)>1){vartableId=$.c
网络安全组织架构表网络安全技术架构网络安全King web安全架构安全
web安全架构（上）开始之前这们说一下，web网站其实防御也相当重要，不管是服务器防御，后台数据防御，数据库防御都是必须滴，那我们说说常见的几种。后续再给大家分享api接口安全性设计，黑名单白名单，以及防御DDOS。XSS攻击，SQL注入，防盗链，csrf模拟请求，文件上传漏洞，忘记密码漏洞，Api接口幂等，其他问题等等，，，，，，一，什么是XSS?Xss就是javascript脚本攻击，就是在表
拷打，数据库面经！ go
数据库必会面试题1.请解释数据库中的MVCC（多版本并发控制）机制，并说明其在MySQLInnoDB中的具体实现方式？答案：MVCC是一种通过维护数据的历史版本实现高并发的技术，允许读操作不阻塞写操作，写操作不阻塞读操作。在MySQLInnoDB中，MVCC通过以下机制实现：隐藏字段：每行数据包含DB_TRX_ID（最近修改的事务ID）和DB_ROLL_PTR（回滚指针，指向UndoLog记录）。
基于FastAPI使用JWT技术实现的OAuth2用户认证接口火云牌神 fastapi AI编程实战 jwt fastapi
文章目录关于OAuth2关于JWT安装依赖准备用户数据库关于**user_dict处理用户密码和token/令牌关于hash/哈希实现登录和获取用户信息接口关于OAuth2PasswordRequestForm启动程序测试效果身份验证获取当前登录用户信息用未激活用户测试总结查看完整代码本文阐述了如何基于FastAPI框架实现OAuth2用户认证，其中使用哈希算法对密码进行了加密，使用JWT持有令牌
Pigsty：开源的PostgreSQL全栈解决方案申华昶
Pigsty：开源的PostgreSQL全栈解决方案pigstyPostgreSQLinGreatSTYle,Battery-IncludedFreeRDSAlternative!项目地址:https://gitcode.com/gh_mirrors/pi/pigsty在数据库管理的世界里，Pigsty以其独特的魅力和强大的功能，成为了开源社区中的一颗璀璨明星。本文将深入介绍Pigsty项目，分析
YashanDB共享集群数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...共享集群基于YashanDB内核持续演进，硬件上依赖共享存储实现shared-Disk的架构，同时引入了CohesiveMemory核心技术实现Shared-Cache能力，可在集群数据库多个实例之间协同数据页的读写访问以及各
mysql8.0使用PXC实现高可用（Rocky8.0环境）致奋斗的我们 openEuler Linux 云原生高级 oracle 数据库 mysql linux openEurler adb Rocky8.0
目录搭建PXC集群配置hosts解析用MySQL软件模块的命令（三台都需要）下载PXC安装包启用PXC80版本安装PXC集群初始化数据库第一个节点需要以引导模式启动：查看临时密码修改密码免密登录查询集群信息查看证书修改证书查询集群信息同步状态监控节点2,3无需修改密码节点下线搭建PXC集群PerconaXtraDBCluster(简称PXC)集群是基于Galera2.xlibrary，事务型应用下
计算机学习建议 qincjun 学习
对于现代得计算机开发者而言；最快的是要见到成效；这是一个功利性的社会；对于99%的人来说，先保证自己可以在社会上活下去才是最重要的；而不是追求梦想；一、职业Web前端：HTML、CSS、JavaScript、Vue3框架、React框架等；客户端：C#后端：(C语言、C++)或者Java数据库：MySQL之类的数据库操作；算法工程师：算法相关书籍；架构师：Linux相关；并做过前后端请一定要想好去
一文搞定postgreSQL m0_74824687 面试学习路线阿里巴巴 postgresql 数据库
一文搞定postgreSQLPostgreSQL全面指南一、什么是PostgreSQL？二、PostgreSQL的核心概念三、安装PostgreSQL1.在Linux上安装（例如Ubuntu）2.在macOS上安装（使用Homebrew）3.在Windows上安装四、基本操作1.启动和停止PostgreSQL服务2.连接到PostgreSQL3.创建数据库和用户4.基本SQL操作五、高级功能1.事
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解 m0_74824025 mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
小程序学习中遇到的一些问题 chenzhuo997
看到112，113项目基本结束，没有token重要课程（节）是61和62:如何把各种嵌套的数据分为不同的块然后注入屏幕的左右两边（样式的效果的实现），如何通过Index传值来更新所得到的不同列表然后得到详情获得具体的数据letleftMenuList=this.Cates.map(v=>v.cat_name);//构造右侧的商品数据letrightContent=this.Cates[0].chi
区块链上的“SQL” 趣链科技 SQL编译
导读《F1：ADistributedSQLDatabaseThatScales》是Google构建的用于支持广告业务的分布式关系型数据库系统。作为一个混合型数据库系统，它结合了高可用、NoSQL数据库的扩展性以及传统SQL数据库的一致性和可用性。F1数据库整体基于GoogleSpanner构建，Spanner主要为上层的F1提供了跨数据中心的数据复制功能和一致性保证。而F1通过使用结构化数据分层架
Java基于Java的酒店管理系统的设计与实现（开题+源码）笔文程序设计 java 开发语言
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景：随着科技的发展和信息化的加速，酒店管理系统已经成为酒店运营不可或缺的一部分。过去，酒店通常采用传统的手动方式来管理客户信息、客房预订和入住登记等，这种方式不仅效率低下，而且容易出错。为了提高酒店的运营效率和服务质量，我们需要设计并实现一个基于Java的酒店管理系统。意义：通过
Aerospike 小的~~ nosql Aerospike
文章来源：拉勾教育Java高薪训练营第3期Aerospike介绍Aerospike（简称AS）是一个分布式，可扩展的键值存储的NoSQL数据库。T级别大数据高并发的结构化数据存储读写操作达微妙级，99%的响应可在1毫秒内实现采用混合架构，索引存储在内存中，而数据可存储在机械硬盘(HDD)或固态硬盘(SSD)上（也可存储在内存）AS内部在访问SSD屏蔽了文件系统层级，直接访问地址，保证了数据的读取速
一个树形结构表格数据库建表语句 MA_Y_ 数据库
1.表格局部截图如下:2.建表语句如下:/*NavicatMySQLDumpSQLSourceServer:本机MySQLSourceServerType:MySQLSourceServerVersion:80031(8.0.31)SourceHost:localhost:3306SourceSchema:xc_contentTargetServerType:MySQLTargetServerVe
排序规则utf8_general_ci的作用是什么？浩哲Zhe 数据库
排序规则utf8_general_ci是指针对使用UTF-8编码存储的数据进行排序和比较的一种规则。在数据库管理系统（如MySQL）中，排序规则决定了在执行查询时如何比较和排序文本数据。具体来说，utf8_general_ci中的几个部分含义如下：UTF-8编码：UTF-8是一种变长字符编码，能够表示世界上几乎所有的字符。它被广泛用于存储和传输文本数据，支持多语言的文字处理。general：表示一
Field ‘id‘ doesn‘t have a default value MA_Y_ oracle 数据库
1.程序测试时,运行到向数据库插入数据时,报以下异常是id没有默认值;在测试单元内单独向该数据库插入数据,报同样的异常,确定了异常的定位2.项目时采用mybatisPlus操作数据库,报异常的数据库和另外一个数据库关联,主键ID和另外一个数据库相同,通过读取另外一个数据库的ID获得3.通过查找,发现是PO类的ID策略有误,采用mybatisPlus生成的po类,默认是自增长ID@ApiModelP
MYSQL——系统架构与查询、更新原理庄小焱数据库域 mysql
摘要本博文介绍mysql底层架构和SQL语句执行流程的相关原理，让大家更好的理解数据库的执行，帮助同学在后续的优化设计提供一个思路。一、Mysql系统架构图1.，mysql架构原理图MySQL可以分为Server层和存储引擎层两部分。Server层包括连接器、查询缓存、分析器、优化器、执行器等，涵盖MySQL的大多数核心服务功能ÿ
数据库系统原理——第十章数据恢复技术复习题代码欢乐豆数据库系统概述数据库
1.试述事务的概念及事务的四个特性。2.登记日志文件时为什么必须先写日志文件，后写数据库？3.A，B，C初始值为0序号日志1T1:开始2T1:写A，A=103T2:开始4T2:写B，B=95T1:写C，C=116T1:提交7T2:写C，C=138T3:开始9T3:写A，A=810T2:回滚11T3:写B，B=712T4:开始13T3:提交14T4:写C，C=12（1）如果系统故障发生在14之后，说
Linux系统之安装Mongodb数据库运维开发小白丶数据库 mongodb
1.安装包下载wgethttps://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.27.tgz2.安装和启动2.1解压tar-zxvfmongodb-linux-x86_64-rhel70-4.0.27.tgz2.2将解压后的目录移动到/usr/local目录下，并改名为mongodbmvmongodb-linux-x86_64
ORB-SLAM2源码学习：System.cc：System::System SLAM系统的构造函数 PaLu-LvL 计算机视觉 #ORB-SLAM2 c++学习计算机视觉算法 opencv
前言ORB-SLAM2源码学习：rgbd_tum.cc源文件-CSDN博客之前我们在具体的实例的代码中初始化了一个SLAM的系统，现在让我们来看看这个SLAM的构造函数具体进行了什么操作。总的来说：该函数主要干了以下事情：1.初始化一些参数（列表初始化）2.加载并检查配置文件和词汇表3.创建一些对象如关键帧数据库、地图、绘制器等。4.启动并初始化多个线程：跟踪线程、本地建图线程、回环检测线程、可视
Oracle IMP-00003: 遇到 ORACLE 错误 ORA-00942: 表或视图不存在吃饱喝足 oracle 数据库
网上很多回答都没有解决我的问题，问题出在了IMP、EXP命令的版本与Oracle数据库版本不一致上。场景如下：我需要将数据库A、用户a下所有对象导出至数据库B、用户b下数据库A和B的版本都是OracleDatabasRelease11.2.0.3.0，所以源数据库与目标数据库没有版本不一致的问题我使用EXP命令导出exporacle/oracle@**.**.**.**:1521/ORCLfile
oracle pls-00302 ora-06550,案例:Oracle报错PLS-00302 DBA在exp导出数据报错PLS-00302:component‘SET_NO_OUTLINES mus... weixin_39860919 oracle pls-00302 ora-06550
天萃荷净运维DBA在使用逻辑导出EXP导出数据时报错PLS-00302:component‘SET_NO_OUTLINES’mustbedeclared，分析原因为客户端版本问题导致今天接到测试报告，他的客户端不能导出数据库1.逻辑导出exp时报错Exportstartedon2012-1-1615:30:05D:\oracle\product\10.2.0\client_3\BIN\exp.ex
使用python开发flsak_FlaskWeb开发:基于Python的Web应用开发实战 RoseofVersailles 使用python开发flsak
本书不仅适合初级Web开发人员学习阅读，更是Python程序员用来学习高级Web开发技术的优秀参考书。•学习Flask应用的基本结构，编写示例应用；•使用必备的组件，包括模板、数据库、Web表单和电子邮件支持；•使用包和模块构建可伸缩的大型应用；•实现用户认证、角色和个人资料；•在博客网站中重用模板、分页显示列表以及使用富文本；•使用基于Flask的REST式API，在智能手机、平板电脑和其他第三
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu