Provence°_博

一文读懂数据仓库~~~

文章目录

- 1、简介
- - 1.1、背景
  - 1.2、概念
  - 1.3、传统数据库与大数据仓库
- 2、数据仓库、数据库、数据集市
- - 2.1、OLTP、OLAP
  - 2.2、数据仓库、数据库
  - 2.3、数据仓库、数据集市
- 3数仓分层架构
- - 3.1、ODS（操作型数据层）
  - 3.2、DW （数据仓库层）
  - - 3.2.1、DIM（公共维度层）
    - 3.2.2、DWD（细节数据层）
    - 3.2.3、DWB:（数据基础层），DWS（数据汇总层）数据服务层
  - 3.3、ADS（数据/应用服务层）
  - 3.4、ETL
- 4、数仓建模
- - 4.1、维度建模
  - - 4.1.1、维度分析
    - 4.1.2、事实表和维度表
    - 4.1.3、维度建模的三种模型
    - 4.1.4、缓慢渐变维（SCD）

1、简介

1.1、背景

主要为了满足两个需要，一是历史数据积存，二是企业数据分析需要

为了避免冷数据对数据库产生的影响，妨碍数据库运行，这时就需要企业定期将冷数据从业务数据库中转移，存储到专门存放历史数据的仓库中，这个仓库就称之为数据仓库。

企业统一建立一个数据仓库，使用专门的数据抽取系统，定期从业务数据库把数据抽取到数据仓库中。数据仓库可以直接开放接口，这样业务数据库和数据仓库的权限管理更具有针对性，数据仓库面向数据分析，业务数据库面向业务系统，各司其职。

1.2、概念

数据仓库是存储数据的仓库, 主要是用于存储过去既定发生的历史数据, 对这些数据进行数据分析的操作, 从而对未来提供决策支持。

数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、随时间变化（Time Variant）的数据集合，它用于支持企业或组织的决策分析处理。

特征：

面向主题的：数据集合是以主题为单位进行数据汇聚，一个主题内只存储与本主题有关系的数据。
集成的：数据来源多种多样，需要ETL操作。
相对稳定的：一般只进行写入与查询操作，不进行更新与删除。
反映历史变化：关键数据隐式或显式的基于时间变化

特点：既不生产数据, 也不消耗数据, 数据来源于各个数据源

1.3、传统数据库与大数据仓库

传统数据库：传统数据库是单个关系型数据库组成MPP（大规模并行处理）集群，说人话就是多个单机数据库集群产生。

优点：
- 由于是由关系型数据库改造，所以完全兼任原有的SQL语法
缺点：
- 扩展性有限：每一个节点都是一个数据库，涉及数据交换还需要网络IO，限制了节点上限，分库分表也有一定上限
- 热点问题：某一个数据库压力特别大，而其他很小

大数据仓库：基于分布式文件系统

优点：数据库结构化数据看为文件，自动拆分多副本存储，不用考虑精细的分库分表，解决了延展性和热点问题。
缺点：
- sql支持率问题
- 缺少事务支持，对事务支持不全 3
- 数据量较小时，计算较慢。在数据量没有达到一定规模的时候，光是任务的拆分，分配，调度，合并，整个过程就会花费大量的时间。

常见的数仓产品：

传统型数仓：

Oracle RAC
DB2
Teradata
Greenplum

分布式数仓：

hive
Spark SQL
HBase
Impala
HAWQ
TIDB

2、数据仓库、数据库、数据集市

2.1、OLTP、OLAP

操作型处理，叫联机事务处理OLTP（On-Line **Transaction**** Processing），主要目标是做数据处理，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的关系型数据库系统作为数据管理的主要手段，主要用于操作型处理。

分析型处理，叫联机分析处理OLAP（On-Line **Analytical**** Processing），主要目标是做数据分析。一般针对某些主题的历史数据进行复杂的多维分析，支持管理决策。数据仓库是OLAP系统的一个典型示例，主要用于数据分析

2.2、数据仓库、数据库

数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别。

OLTP系统的典型应用就是RDBMS,也就是我们俗称的数据库，当然这里要特别强调此数据库表示的是关系型数据库，Nosql数据库并不在讨论范围内。

OLAP系统的典型应用就是DW,也就是我们俗称的数据仓库。

因此数据仓库和数据库的区别就很好掌握了。但是有几点需要着重强调：

数据仓库不是大型的数据库，虽然数据仓库存储数据规模大。
数据仓库的出现，并不是要取代数据库。
数据库是面向事务的设计，数据仓库是面向主题设计的。
数据库一般存储业务数据，数据仓库存储的一般是历史数据。
数据库是为捕获数据而设计，数据仓库是为分析数据而设计。

2.3、数据仓库、数据集市

数据仓库是面向整个集团组织的数据，数据集市是面向单个部门使用的。可以认为数据集市是数据仓库的子集，也有人把数据集市叫做小型数据仓库。数据集市通常只涉及一个主题领域，例如市场营销或销售。因为它们较小且更具体，所以它们通常更易于管理和维护，并具有更灵活的结构。

比如上图所示：

各种操作型系统数据和包括文件在内的等其他数据作为数据源，经过ETL(抽取转换加载)填充到数据仓库中；

数据仓库中有不同主题数据，数据集市则根据部门特点面向指定主题，比如Purchasing（采购）、Sales（销售）、Inventory（库存）；

用户可以基于主题数据开展各种应用：数据分析、数据报表、数据挖掘。

3数仓分层架构

数据仓库的特点是本身不生产数据，也不最终消费数据。按照数据流入流出数仓的过程进行分层就显得水到渠成。

数据分层每个企业根据自己的业务需求可以分成不同的层次，但是最基础的分层思想，理论上数据分为三个层，操作型数据层（ODS）、数据仓库层(DW)和数据应用层(DA)。

企业在实际运用中可以基于这个基础分层之上添加新的层次，来满足不同的业务需求

为什么要分层

分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：

清晰数据结构

每一个数据分层都有它的作用域，在使用表的时候能更方便地定位和理解。
数据血缘追踪

简单来说，我们最终给业务呈现的是一个能直接使用业务表，但是它的来源有很多，如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。
减少重复开发

规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
把复杂问题简单化

将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。
屏蔽原始数据的异常

屏蔽业务的影响，不必改一次业务就需要重新接入数据

3.1、ODS（操作型数据层）

操作型数据层。也称之为源数据层、数据引入层、数据暂存层、临时缓存层

这一层不做任何的修改，目的是存储原始数据

如果一定要修改，就新增数据，然后给他更新的日期，并且将状态变为update，删除旧数据

ETL导入ODS的方法

全量和增量
增量导入：使用外连接&全覆盖的方法，把增量数据与原有的数据进行join全外连接（两表中一个有就返回），如果有新增的数据，就直接在内存中修改，然后把ODS层覆盖

3.2、DW （数据仓库层）

整个层主要是为数据分析提供服务，主要分DIM维度表，DWD（数据明细层）和DWS（数据汇总层）

3.2.1、DIM（公共维度层）

基于维度建模理念思想，建立整个企业一致性维度。

3.2.2、DWD（细节数据层）

将明细事实表的某些重要维度属性字段做适当冗余，即宽表化处理。

主要功能：数据格式规范化&维度降维

DWD（数据明细层）：主要接受ODS层的数据，由于ODS的数据是不进行修改的，所以ODS层的数据可能来源于各个系统，并且格式不统一，所以我们DWD（数据明细层）要做的就是统一格式，如清洗、标准化、异常数据清洗，对数据做统一字段编码等。

还有可能就是维度降维，比如说公司有多个分布，在北京上海等地返回用户表，这些用户表字段都一样，但是一张张独立的表，我们可以把这些表增加一个字段叫做位置，然后把这些表就可以合成同一张表

满足三范式

3.2.3、DWB:（数据基础层），DWS（数据汇总层）数据服务层

以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表，以宽表化手段物理化模型

存放客观数据,通常作为中间层
将各个表汇总成主题表，例如都是交易相关的就汇总成交易表，
不满足三范式

3.3、ADS（数据/应用服务层）

存储分析结果，为不同业务提供接口，减少数仓压力

如果直接开放前面的CMD层，这层是进行数据分析的，直接开放业务查询接口会增加负担，所以我们专门建了ADS层来存储结果，并且开放接口。

该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES/mysql等系统中供线上系统使用

3.4、ETL

数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL。但是在实际操作中将数据加载到仓库却产生了两种不同做法：ETL和ELT。

E：extract抽取，T：trasnform转换，L：load加载
抽取原始数据，然后进行转换，然后加载到目的端的过程

1. 数据抽取（Extraction）：

抽取的数据源：结构化（二维表数据）、半结构化（图片，文本，html，视频）、非结构化（json，xml）
抽取数据的方式：全量或增量（抽取全部数据，或者抽取变动数据）

结构化、半结构化、非结构化数据如何提取？

结构化数据采用JDBC、数据库日志等方式，JDBC对数据库进行直接连接

半结构化或者非结构化，可以监听文件是否发生了变动，将变动后的数据进行抽取

2. 数据转换（Transformation）

主要是数据清洗和转换两个阶段

数据清洗

对重复、二义性、不完整、违反业务或逻辑规则等问题进行统一处理

数据转换

数据标准化，字段数据类型等转换

3. 数据加载（Loading）

将处理完的数据导入到对应的目标源

常用工具

结构化ETL工具：Sqoop，Kettle，Datasatge，Informatica，Kafka
非结构化：lume，Logstash

4、数仓建模

数仓建模指的规定如何在hive中构建表, 数仓建模中主要提供两种理论来进行数仓建模操作: 三范式建模和维度建模理论

三范式建模: 主要是存在关系型数据库建模方案上, 主要规定了比如建表的每一个表都应该有一个主键, 数据要经历的避免冗余发生等等
维度建模: 主要是存在分析性数据库建模方案上, 主要一切以分析为目标, 只要是利于分析的建模, 都是OK的, 允许出现一定的冗余, 表也可以没有主键

4.1、维度建模

主要是存在分析性数据库建模方案上,以分析为目标, 只要是利于分析的建模, 都是OK的, 允许出现一定的冗余, 表也可以没有主键

4.1.1、维度分析

维度一般指的分析的角度, 看待一个问题的时候, 可以多个角度来看待, 而这些角度指的就是维度

比如: 有一份2020年订单数据, 请尝试分析

可以从时间, 地域 , 商品, 来源 , 用户…

维度的分类:

定性维度: 指的计算每天每月各个的维度 , 一般来说定性维度的字段都是放置在group by 中
定量维度: 指的统计某一个具体的维度或者某一个范围下信息, 比如说: 2020年度订单额, 统计20~30岁区间人群的人数 ,一般来说这种维度的字段都是放置在where中

维度的分层和分级: 本质上对维度进行细分的过程

比如按年统计: 按季度，按照月份，按照天，按照每个小时

比如按省份统计：按市，按县

从实际分析中, 统计的层级越多, 意味统计的越细化设置维度内容越多

维度的下钻和上卷: 以某一个维度为基准, 往细化统计的过程称为下钻, 往粗粒度称为上卷

比如: 按照天统计, 如果需要统计出小时, 指的就是下钻, 如果需要统计季度月年, 称为上卷统计

从实际分析中, 下钻和上卷, 意味统计的维度变得更多了

指标：

指标指的衡量事务发展的标准, 就是度量值

常见的度量值: count() sum() max() min() avg() 还有一些比例指标(转化率, 流失率, 同比…)

指标的分类:

绝对指标: 计算具体的值指标

count() sum() max() min() avg()
相对指标: 计算比率问题的指标
转化率, 流失率, 同比

4.1.2、事实表和维度表

维度建模的两个核心概念：事实表和维度表

事实表: 事实表一般指的就是分析主题所对应的表,每一条数据用于描述一个具体的事实信息, 这些表一般都是一坨主键(外键)和描述事实字段的聚集
- 事务事实表：保存的是最原子的数据，也称“原子事实表”或“交易事实表”。沟通中常说的事实表，大多指的是事务事实表。
- 周期快照事实表：周期快照事实表以具有规律性的、可预见的时间间隔来记录事实，时间间隔如每天、每月、每年等等。周期表由事务表加工产生
- 累计快照事实表：完全覆盖一个事务或产品的生命周期的时间跨度，它通常具有多个日期字段，用来记录整个生命周期中的关键时间点
维度表: 指的在对事实表进行统计分析的时候, 基于某一个维度, 二这个维度信息可能其他表中, 而这些表就是维度表

维度表并不一定存在, 但是维度是一定存在
- 高基数维度表: 指的表中的数据量是比较庞大的, 而且数据也在发送的变化
  
  例如: 商品表, 用户表
- 低基数维度表: 指的表中的数据量不是特别多, 一般在几十条到几千条左右,而且数据相对比较稳定
  
  例如: 日期表,配置表,区域表

4.1.3、维度建模的三种模型

第一种: 星型模型
- 特点: 只有一个事实表, 那么也就意味着只有一个分析的主题, 在事实表的周围围绕了多个维度表, 维度表与维度表之间没有任何的依赖
- 反映数仓发展初期最容易产生模型
第二种: 雪花模型
- 特点: 只有一个事实表, 那么也就意味着只有一个分析的主题, 在事实表的周围围绕了多个维度表, 维度表可以接着关联其他的维度表
- 反映数仓发展出现了畸形产生模型, 这种模型一旦大量出现, 对后期维护是非常繁琐, 同时如果依赖层次越多, SQL分析的难度也会加大
- 此种模型在实际生产中,建议尽量减少这种模型产生
第三种: 星座模型
- 特点: 有多个事实表, 那么也就意味着有了多个分析的主题, 在事实表的周围围绕了多个维度表, 多个事实表在条件符合的情况下, 可以共享维度表
- 反映数仓发展中后期最容易产生模型

对比：

对比

星型模型因为数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率比雪花型模型要高。
星型结构不用考虑很多正规化的因素，设计与实现都比较简单。
雪花型模型由于去除了冗余，有些统计就需要通过表的联接才能产生，所以效率比较低。
正规化也是一种比较复杂的过程，相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。

4.1.4、缓慢渐变维（SCD）

解决问题: 解决历史变更数据是否需要维护的情况

SCD1：直接覆盖, 不维护历史变化数据
- 主要适用于: 对错误数据处理
SCD2：不删除、不修改已存在的数据, 当数据发生变更后, 会添加一条新的版本记录的数据, 在建表的时候, 会多加两个字段(起始时间, 截止时间), 通过这两个字段来标记每条数据的起止时间 , 一般称为拉链表
- 好处: 适用于保存多个历史版本, 方便维护实现
- 弊端: 会造成数据冗余情况, 导致磁盘占用率提升
SCD3: 通过在增加列的方式来维护历史变化数据
- 好处: 减少数据的冗余, 适用于少量历史版本的记录以及磁盘空间不是特别充足情况
- 弊端: 无法记录更多的历史版本, 以及维护比较繁琐

Ubuntu18.04/Mysql 5.7 建立主备模式Mysql集群武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
一、数据库的安装详见https://www.jianshu.com/p/5073177eedf2本文实验环境为阿里云的两台ubuntu18.04服务器：masterip:172.26.138.7slaveip:172.26.0.209二、修改Master的配置(#的行是我后增加的部分)：编辑/etc/mysql/mysql.conf.d/mysqld.cnf[mysqld]user=mysqlpi
结合Groovy脚本在IDEA可以为所欲为——使用数据库表生成实体类和表结构JSON monkeyhi 工具使用数据库 intellij-idea
生成MyBatisPlus实体在IDEA编辑器，双击shift键在GeneratePOJOs.groovy文件，同级目录下新建一个文件MyBatisPluspojo.groovy，将下面的代码粘贴进去即可，有问题可以自己改，在IDEA自带数据库工具的数据库表上右键执行importcom.intellij.database.model.DasTableimportcom.intellij.datab
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质搞Java的小码农 Java技术场景题 Java 面试技术高并发微服务分布式 Redis
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质场景设定在一个位于硅谷某栋现代化办公楼的会议室里，气氛庄重而专业。面试官李工是一位经验丰富的技术总监，他身穿整洁的西装，神情严肃，手中拿着一份详尽的面试提纲。对面的求职者小兰则显得自信满满，穿着时尚，带着一点漫不经心的神情，准备接受这场“挑战”。第1轮：Java核心、基础框架与数据库问题1：Java中的ConcurrentHashMa
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
2023年JAVA面试题【Redis/Elasticsearch】 GJH-JAVA java redis elasticsearch
1.什么是Redis？Redis是一个使用C语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash（哈希类型）。Redis的数据都基于缓存的，所以很快，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis也可以实
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
《48小时极速开发：Python+MySQL 学生信息管理系统架构实战揭秘》 Cyber4K Python 项目实践及实战 python mysql 架构
Python项目实践：学生信息管理系统1.项目概述1.1项目背景开发周期：2天（需求分析0.5天+开发1天+测试0.5天）技术栈：Python3.9+MySQL+面向对象编程核心价值：实现学生信息的全生命周期管理采用分层架构设计（表示层/业务层/数据层）数据库驱动的高效数据持久化方案1.2系统架构系统架构调用CRUD操作连接池业务逻辑层命令行界面数据访问层MySQL数据库2.核心模块实现2.1数据
多线程环境下的线程安全资源与缓存池设计：ThreadSafeObject 与 CachePool 实例解析要努力啊啊啊 RAG系统开发指南 langchain pdf python
ThreadSafeObject和CachePool的作用✅ThreadSafeObject定义：一个带有锁的资源封装容器。作用：为某个对象加上线程锁（RLock），确保多线程下安全访问。支持通过withobj.acquire():的方式对资源进行锁保护。可记录加载状态，防止重复加载。典型用途：缓存中的模型、数据库连接、会话对象等资源。✅CachePool定义：一个带有线程锁和LRU管理机制的缓存
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
SQL语句全攻略：从基础到进阶的编程之旅奔跑吧邓邓子必备核心技能 sql 数据库基础语法高级应用
目录一、引言二、SQL基础语法2.1SQL语句写法顺序2.2关联查询2.3数据处理常用函数和运算符三、数据库和表的基本操作3.1创建数据库3.2使用数据库3.3创建表四、基础增删改查操作4.1插入数据（增）4.2查询数据（查）4.3更新数据（改）4.4删除数据（删）五、复杂关系操作5.1一对多关系操作5.2多对多关系操作六、SQL优化技巧6.1索引的使用6.2避免子查询6.3其他优化建议七、SQL
Mysql事务 clk6607 mysql 数据库
MySQL事务详解（超详细讲解）一、事务是什么？事务（Transaction）是数据库操作的最小执行单元。事务中包含多条SQL，这些SQL要么全部执行成功（提交COMMIT），要么在某条失败时全部撤销（回滚ROLLBACK）。✅你可以这样理解：就像Java中的try-catch-finally，只不过这里是在数据库层。二、事务的四大特性（ACID）特性含义示例A-原子性一组操作是不可分割的整体转账
Mysql存储过程 clk6607 mysql
1.什么是存储过程？存储过程是预编译好的SQL代码块，存放在数据库里。你可以带参数调用它，实现复杂的逻辑处理，比如条件判断、循环、事务等。好处是减少网络传输，多次调用时执行效率更高。2.存储过程的基本结构DELIMITER$$CREATEPROCEDUREprocedure_name(INparam1INT,OUTparam2VARCHAR(20))BEGIN--这里写过程体，比如变量声明，条件判
MySQL 视图
1.什么是MySQL视图（View）？视图，简单说就是数据库里的“虚拟表”——它本身不存数据，而是基于一条或多条查询语句动态生成的结果集。类似一个命名的SELECT查询，你可以像查询普通表一样查询视图。视图可以帮你封装复杂的SQL查询、简化开发。视图可以做权限控制，让用户只能访问数据子集。2.MySQL视图基本语法CREATEVIEW视图名ASSELECTcolumn1,column2,...FR
PyMySQL连接池去追风，去看海 Python mysql python
背景在用python写后端服务时候，需要与mysql数据库进行一些数据查询或者插入更新等操作。启动服务后接口运行一切正常，隔了第二天去看服务日志就会报错，问题如下：pymysql.err.OperationalError:(2006,"MySQLserverhasgoneaway(BrokenPipeError(32,'Brokenpipe'))")MySQL默认的wait_timeout时间28
python 数据库连接池_python数据库连接池 weixin_39532466 python 数据库连接池
一DBUtils的认识首先管理数据库连接池的包是DBUtils，为高频度并发的数据库访问提供更好的性能，可以自动管理连接对象的创建和释放，最常用的两个外部接口是PersistentDB和PooledDB，前者提供了单个线程专用的数据库连接池，后者则是进程内所有线程共享的数据库连接池。二DBUtils简介DBUtils是一套Python数据库连接池包，并允许对非线程安全的数据库接口进行线程安全包装。
Python+Pymysql+PooledDB实现数据库连接池 liuage_ python 数据库
1.引言在测试中，频繁地创建和销毁数据库连接会消耗大量的资源，并且可能导致数据库连接的泄露或者性能下降。因此，使用连接池可以有效地管理数据库连接，提高程序的性能和可靠性。2.实现MySQL连接池的类我们将使用Python的pymysql库和dbutils库中的PooledDB来实现MySQL连接池。终端输入命令安装两个库pipinstallpymysqlpipinstalldbutils以下是实现
Node.js特训专栏-实战进阶：11. Redis缓存策略与应用场景爱分享的程序员 Node.js 前端网络相关 javascript node.js 前端
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情Redis缓存策略与应用场景：从理论到实战的高性能解决方案一、Redis基础概述1.1Redis核心特性Redis作为高性能内存数据库，具备以下关键优势：1.1.1内存极速读写读写性能：基于纯内存操作，读写操作在微秒级完成，实测单节点QP
我的第一个开源项目：用Python搭建轻量级静态网页服务器—— 零基础也能实现的Web开发初体验
一、为什么选择静态服务器？极简高效：无需数据库或复杂后端逻辑，适合展示简历、作品集等静态内容学习曲线平缓：是理解HTTP协议和Web服务原理的最佳入门方式资源消耗低：单文件Python脚本即可运行，内存占用小于10MB二、完整开发流程（含代码逐行解析）第一步：创建项目结构PWS/#项目根目录├──static/#静态资源文件夹│├──index.html#主页│├──style.css#样式表│└
安装milvus数据库 weixin_44080967 milvus 数据库
#创建保存目录mkdir-pdocker_images_backupcddocker_images_backup#1.保存Milvus镜像dockersave-omilvus_latest.tarmilvusdb/milvus:latest#2.保存MinIO镜像dockersave-ominio_latest.tarminio/minio:latest#3.保存ETCD镜像dockersave-
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
Golang的多环境配置苹果醋3 面试题汇总与解析 nginx 运维 java spring boot mysql
#Golang的多环境配置背景在软件开发过程中，通常会有多个不同的环境，例如开发环境、测试环境、预发布环境和生产环境。针对不同的环境，我们可能需要配置不同的参数，如数据库连接地址、日志级别等。如何在Golang项目中高效地管理和切换这些环境配置是我们需要思考和解决的问题。环境变量一种常见的做法是使用环境变量来实现多环境配置。Golang支持从环境变量中读取配置信息，我们可以利用这一特性来实现不同环
新手如何本地构建Milvus向量数据库 BeMiracle~ milvus 数据库
简单构建一个Milvus数据库一、前言：什么是Milvus数据库二、安装Docker官方下载地址：配置Docker三、安装Milvus四、Milvus关键概念介绍1、首先创建数据库2、然后创建逻辑定义3、添加字段4、创建集合collection5、建立索引（有索引才能查询数据）6、插入更新删除数据7、查询数据(查询limit个相似向量)一、前言：什么是Milvus数据库Milvus是一款‌开源向量
Milvus数据库创建 cts618 Milvus分布式向量数据库数据库 milvus oracle
URL：https://milvus.io/docs/zh/manage_databases.mdfrompymilvusimportMilvusClient"""URL：https://milvus.io/docs/zh/manage_databases.md"""#创建数据库client=MilvusClient(uri="",token="")client.create_database(d
【数据库】-2 mysql基础语句（上）艾伦_耶格宇数据库数据库 mysql
文章目录1、SQL语句1.1SQL语句的简要介绍2、SQL语句的四种基本类型2.1DDL-数据库定义语言管理对象修改表的结构2.2DML-数据库操纵语言2.3DQL-数据库查询语言2.4DCL-数据库控制语言1、SQL语句1.1SQL语句的简要介绍SQL（StructuredQueryLanguage，结构化查询语言）是用于管理关系型数据库的标准语言，广泛应用于数据存储、查询、更新和管理等场景。它
数据库Mysql基础------第一部分数据的准备与基础命令 Judy~judy 数据库数据库 mysql
一、初识数据库一、为什么要用数据库？数据库（Database）是按照数据结构来组织、存储和管理数据的仓库数据库随时随地的存在，并且使用，简单的说，数据库就是收集数据的结构。数据涉及很多，例如一个产品属于种类，并且有自己的数据标签，这就是为什么要用关系型数据。在关系数据库，我们建模数据包括产品，品类，标签等等，所有这些都用一个表格，包含行和列，就像Excel中的电子表格。从文件中读取数据的反序列化操
2024年Python最新统信UOS_麒麟KYLINOS上安装特定版本python_统信uos安装python 2401_84558914 程序员 python linux 服务器
准备解压…/16-libidn2-dev_2.0.5.1-1+dde_amd64.deb…正在解压libidn2-dev:amd64(2.0.5.1-1+dde)…/var/cache/apt/archives/libidn2-dev_2.0.5.1-1+dde_amd64.deb正在选中未选择的软件包libp11-kit-dev:amd64。准备解压…/17-libp11-kit-dev_0.2
b树与b+树的区别 Senkorl MySQL b树数据结构 mysql
B树和B+树都是平衡树的一种，广泛应用于数据库和文件系统中。它们的主要区别在于结构和性能优化上。以下是B树和B+树的主要区别：1.结构差异B树：节点存储键和值：B树的每个节点不仅存储键，还存储与键关联的数据（值）。叶子节点和内部节点都可以存储数据。多层次的值存储：数据可能存储在内节点或叶子节点，因此查找时可能会终止于非叶节点。B+树：节点只存储键，值存储在叶子节点：B+树的内部节点只存储键，数据（
低代码数字孪生智慧钢厂组态监控界面图扑可视化三维可视化数字孪生数据大屏组态监控智慧钢厂
2024年4月，中国钢铁工业协会发布了《钢铁行业数字化转型评估报告（2023年）》（以下简称《报告》）。《报告》指出，绝大部分钢铁企业建立了数字化转型相关管理组织和团队，并加强其规划落实，系统间的综合集成能力进一步加强。在研发、制造、服务全生命周期管控以及产业链协同等方面需继续深化，这也是现阶段钢铁企业数字化转型需重点建设的内容。钢铁行业作为典型的流程制造业，通过融合先进的信息技术和大数据分析，既
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st