翻滚的大金毛

Infludb概念与架构

文章目录

SSTable
- 结构（key有序）
- 查找过程
LSM
- 组织架构：
TSM - 概念
InfluxDB概念
- Timestamp（时间戳）
- Measurement（测量）
- Fields（字段**`必须`**）
- Tags（标签**`非必须`**）
- Bucket schema（存储桶架构）
- Series（系列）
- Point（点）
- Bucket(桶）
- Organization(组织）
InfluxDb架构
- 桶、分片、测量之间的关系
- TSM
- Shard（分片）
- - 分片组
  - - influxdb实现shardgroup时，实现的一些思想：
  - 分片
  - 分片组图
  - 分片写入
  - 分片compaction（下面翻译成压缩，也可以理解为合并、压实都可以）
  - 分片压缩相关的配置设置
  - 分片删除
问题？
- - 1、TSM里存储的内容和结构？

SSTable

SSTable是一种拥有持久化，有序且不可变的的键值存储结构
它的key和value都是任意的字节数组，并且了提供了按指定key查找和指定范围的key区间迭代遍历的功能。

结构（key有序）

SSTable内部包含了一系列可配置大小的Block块，典型的大小是64KB，关于这些Block块的index存储在SSTable的尾部，用于帮助快速查找特定的Block。当一个SSTable被打开的时候，index会被加载到内存，然后根据key在内存index里面进行一个二分查找，查到该key对应的磁盘的offset之后，然后去磁盘把响应的块数据读取出来。当然如果内存足够大的话，可以直接把SSTable直接通过MMap的技术映射到内存中，从而提供更快的查找

查找过程

先取出来Index，通过key进行二分查找，找到对应的offset（偏移量），然后把磁盘里对应的Block（块数据）取出来。

LSM

一种分层，有序，面向磁盘的数据结构

组织架构：

Memory（active memtable、immutable memtable、block cache）、Disk（sstable、WAL）
active memtable：活跃的内存表
immutable memtable：不变的内存表
block cache：缓存
sstable：有序表
WAL：预写日志

有序性
虽然sstable是有序的，但同一level中不同的sstable可能会出现key重叠，这取决于compaction策略。
size-tiered compaction：同一level的sstable会出现重叠
leveled compaction：level0以上的同一level的sstable不会出现重叠
key重叠会导致读变大
写：

写active memtable、WAL；2. active memtable写满后变为immutable memtable，并flush到磁盘，成为L0 sstable 3. 每L的sstable体积达到一定数量或大小，进行compaction操作, 合并到更高L去

读取active memtable 2. 读取immutable memtable 3. 读取block cache 4. 前三步都是读内存，下面读磁盘；依次读取每层的sstable（读取sstable时使用二分查找）

如果读取一个不存在的key，开销很大，所以可以维护一个布隆过滤器。
Compaction
随着sstable的不断写入，系统打开的文件就会越来越多，并且对于同一个key积累的数据改变（更新、删除）操作也就越多。由于sstable是不可变的，为了减少文件数并及时清理无效数据，就要进行compaction操作，将多个key区间有重合的sstable进行合并。
但compaction操作非常消耗CPU和磁盘IO，所以需要调整Compaction操作的启用时间。
空间放大
指存储引擎的数据实际占用的磁盘空间比数据的真正大小偏多的情况。例如真实数据是10M，但实际存储耗费了25M，空间放大因子就是2.5
为什么？
LSM存储引擎中的数据只会增加，更改和删除操作都不是in-place的，需要等待compaction执行到对应的key才可以。所以一个key可能会对应多个value（删除标记也算一个特殊的value），而只有一个value是有效的（最新的哪个），其余的都算空间放大。
另外，在Compaction时，原始数据在执行完成之前不能删除（防止出现意外无法恢复），所以同一份被Compaction的数据最多可能膨胀为2倍，这也算空间放大。
写放大
一个数据会随着Compaction过程向更高的层重复写入，有多少层就写多少次。
读放大
读放大是指：读取一次数据会产生多次的io，即为读放大
SSL读取顺序为内存->存储0level->存储nlevel，最坏的可能要读取到n level（每一层io一次）。
另外，如果是STCS 策略（size-tiered compaction），每一层的sstable会存在key重叠，最坏的情况要遍历所有的sst才能获得结果（每一层io次数=这一层sstable的数量）

参考：
https://blog.csdn.net/u010454030/article/details/90414063
https://www.jianshu.com/p/e89cd503c9ae?utm_campaign=hugo

TSM - 概念

tag与field区别
tag: 建立索引，不必须，常用作筛选条件
field：不建立索引，必须，不推荐用作筛选条件

InfluxDB概念

InfluxDB 不是一个完整的 CRUD 数据库，而是更像一个 CR-ud，将创建和读取数据的性能优先于更新和销毁，并防止一些更新和销毁行为以使创建和读取性能更高：

要更新一个点，请插入一个具有相同测量值、标签集和时间戳的点。
您可以删除或删除一个系列，但不能基于字段值删除单个点。作为一种解决方法，您可以搜索字段值，检索时间，然后根据time字段删除。
您还不能更新或重命名标签 - 请参阅 GitHub 问题#4157了解更多信息。要修改一系列点的标记，请找到具有违规标记值的点，将值更改为所需的值，将点写回，然后删除具有旧标记值的系列。
您不能按标签键（而不是值）删除标签 - 请参阅 GitHub 问题#8604。

_time	_measurement	location	scientist	_field	_value
2019-08-18T00:00:00Z	census	klamath	anderson	bees	23
2019-08-18T00:00:00Z	census	portland	mullen	ants	30
2019-08-18T00:06:00Z	census	klamath	anderson	bees	28
2019-08-18T00:06:00Z	census	portland	mullen	ants	32

Timestamp（时间戳）

存储字段_time，
每条数据都有的列，磁盘上存储精确到纳秒。
写入数据时，需要注意时间戳的精度

Measurement（测量）

存储字段_measurement，字符串格式
充当temstamp、tags、field的容器
注：便于理解，可以认为是一个表

Fields（字段`必须`）

包括字段键_field、和字段值_value

Field Key（字段键）
表示字段名称的字符串。
上述例子中，bees和ants是字段键
Field value
表示关联字段的值
支持：string、float、integer、boolean类型
样本数据中的字段值显示指定时间的bees（蜜蜂数量）23和28，以及指定时间的ants(蚂蚁数量)30和32。
Field Set（字段集）
字段集是与时间戳关联的字段键值对的集合。样本数据包括以下字段集

census bees=23i,ants=30i 1566086400000000000
census bees=28i,ants=32i 1566086760000000000
       -----------------
           Field set

Tags（标签`非必须`）

标签包括存储为字符串和元数据的标记键和标记值。
样本数据中，列location、scientist都是标签
不建议讲包含高度可变信息（如 UUID、哈希和随机字符串）设置为标签，这样会导致high series cardinality(高系列技术)，会导致数据库内存负载大幅度增高

Tag key（标签键）
样本数据中的标签键是location和scientist
Tag value（标签值）
标签键location有两个标签值：klamath和portland。标签键scientist也有两个标签值：anderson和mullen。
Tag set（标签集）
标签键值对的集合
样本数据包括以下四个标签集

location = klamath, scientist = anderson
location = portland, scientist = anderson
location = klamath, scientist = mullen
location = portland, scientist = mullen

Bucket schema（存储桶架构）

在InfluxDB云中，具有显式模式类型的bucket需要为每个度量提供显式模式。测量值包含标签、字段和时间戳。显式模式约束可写入该度量的数据的形状。
以下是measurement census的架构

name	type	data_type
time	timestamp
location	tag	string
scientist	tag	string
ants	field	integer
bees	field	integer

Series（系列）

series key(系列键）
一个系列键是measurement(共享测量值)、tag set(标记集)和field key(字段键)的点的集合（注意，不包括字段值）
例如，示例数据包括两个唯一的序列键

_measurement	tag set	_field
census	location=klamath,scientist=anderson	bees
census	location=portland,scientist=mullen	ants

series （系列）系列键下的集合，包括时间戳、field（value）
一个序列包括给定序列键的时间戳和字段值。
从示例数据中，这里有一个系列键和相应的系列：

# series key（系列键）
census,location=klamath,scientist=anderson bees

# series （系列）
2019-08-18T00:00:00Z     23
2019-08-18T00:06:00Z     28

Point（点）

一个点包括序列键、字段值和时间戳（其实就是一个系列的全值）。
例如2019-08-18T00:00:00Z census ants 30 portland mullen

Bucket(桶）

所有 InfluxDB 数据都存储在存储桶中。
存储桶结合了数据库的概念和保留期（每个数据点保留的持续时间）。
一个桶属于一个组织。

Organization(组织）

InfluxDB组织是一组用户的工作空间。
所有仪表板、任务、存储桶和用户都属于一个组织。

系列键（series key）：measurement、tag（key和value）、field（key）相同的集合
系列（serie）：系列键下的集合，包括时间戳、field（value）
点（point）：包括序列键、field（value）、时间戳；其实就是一个系列的全值

InfluxDb架构

InfluxDB actually looks like two databases in one, a time series data store and an inverted index for the measurement, tag, and field metadata.
InfluxDB看起来是两个数据库，一个时间序列数据存储，一个倒排索引（为了measurement、tag、field的元数据）

InfluxDb存储引擎包含四个组件：WAL、CACHE、TSM、TSI
influxdb基础TSM和TSI来提取数据，先从TSI查询series，再从TSM文件读取对应的points。
TSM和TSI主要充当存储引擎，类似于Innodb和Mysql的关系。

桶、分片、测量之间的关系

一个桶有多个分片组（按照时间范围划分）
一个分片组包含多个分片（按照集群的数据节点区分，这些分片的时间范围是一样的）
一个桶会有多个测量（按照数据维度划分）
一个测量会存储在多个分片里
一个分片会包含多个测量的数据
一份分片包含多个TSM文件

TSM

TSM Files：存储TimeSeries（measurement + tags，注意没有field key）一段时间内的所有point；
问题：类似于SSTable？

Shard（分片）

influxDB将数据存储到磁盘时，将数据组织成分片。每个分片都属于一个分片组。（正常单机程序一个分片组只有一个分片。在集群中，分片组包含分布在多个数据节点上的多个分片）

shard group duration(分片组持续时间)：指定每个分片组的时间范围。
默认情况下influxDB会根据bucket（存储桶）的保留策略设置碎片组的持续时间。
|bucket retention period（存储桶保留时间） | Default shard group duration （默认分片组持续时间）|
| 两天内 | 1小时|
| 2天-6个月 | 1天|
| 六个月前 | 7天|
也就是说，桶保留时间越短，分片组的时间范围就越小。比如桶的数据只保留两天，那每个分片组就只存储1个小时的数据

分片组

分片组属于InfluxDB bucket，包含由碎片组持续时间定义的特定时间范围的时间序列数据。
当分片组持续时间为1天时，那每分片组就包含一天的数据，
shard group是从时间上，对shard做一个逻辑上的分组注意这里说的是逻辑上，shard group只是一个逻辑概念，在存储的时候，这些shard是平铺开的，并不是一个shard group的shard 存储在一起。

influxdb实现shardgroup时，实现的一些思想：

预先创建shardgroup，避免临时创建
shardgroup的时间是完全连续的，并且开始和结束时间都是shard duration的倍数。按照shard duration对齐。

分片

分片包含由分片组持续时间定义的给定时间范围的编码和压缩时间序列数据。
指定碎分组持续时间内的系列中的所有点都存储在同一个分片中。
单个分片包含磁盘上的多个series(系列)、一个或多个TSM文件，并且属于碎片组。

分片组图

下例为：bucket保留时间为4天，分片组持续时间为1天的桶数据分布
需要截图：https://docs.influxdata.com/influxdb/v2.4/reference/internals/shards/#shard-group-duration

分片写入

通常influxDB会把数据写入到最新的分片组（热分片），当分片不再被写入数据时会被压缩数据称为冷分片。
如果要回填历史数据，需要先把冷分片数据解压缩，回填结束后再重新压缩。

分片compaction（下面翻译成压缩，也可以理解为合并、压实都可以）

InfluxDB定期压缩分片内的数据来优化磁盘使用率。开启压缩功能后，每秒检查是否需要进行压缩。
分片的压缩分两种情况

压缩分片内所有TSM文件
一段时间（通过参数compact-full-write-cold-duration控制）内没有数据写入
分级别压缩
有数据写入的分片，将对分片内的TSM文件进行分级别压缩。
分为四个级别：
级别 0 (L0)：日志文件 ( LogFile) 被视为级别 0 (L0)。一旦这个文件超过一个5MB阈值，InfluxDB 就会创建一个新的活动日志文件，并且前一个文件开始压缩成一个IndexFile. 第一个索引文件位于级别 1 (L1)。
级别 1 (L1)： InfluxDB 将保存在内存缓存中的所有新写入数据刷新到磁盘到IndexFile.
级别 2 (L2)： InfluxDB 通过将包含相同系列的多个块组合成一个或多个新文件中的更少块，将多达 8 个 L1 压缩文件压缩成一个或多个 L2 文件。
级别 3 (L3)： InfluxDB 迭代 L2 压缩文件块（超过一定大小）并将包含相同系列的多个块组合成一个新文件中的一个块。
级别 4 (L4)：完全压缩InfluxDB 迭代 L3 压缩文件块，并将包含相同系列的多个块组合成一个新文件中的一个块。
分级压缩的优先级：

级别越低（文件被压缩的次数越少），压缩文件的权重越大
级别中可压缩的文件越多，压缩该级别的优先级就越高。如果每个级别的文件数量都相等就优先压缩低级别
如果较高级别有更多的压缩候选者，它可能会在较低级别之前被压缩。InfluxDB 将收集组的数量（要压缩成单个下一代文件的文件的集合）乘以每个级别的指定权重（0.4、0.3、0.2 和 0.1），以确定压缩优先级。

分片压缩相关的配置设置

以下配置设置对于负载不规则的系统特别有用，因为它们在高使用率期间限制压缩，并在负载较低期间让压缩赶上：

storage-compact-full-write-cold-duration
storage-compact-throughput-burst
storage-max-concurrent-compactions
storage-max-index-log-file-size
storage-series-file-max-concurrent-snapshot-compactions
storage-series-file-max-concurrent-snapshot-compactions

在具有稳定负载的系统中，如果压缩会干扰其他操作，通常情况下，系统的负载过小，并且配置更改不会有太大帮助。

分片删除

InfluxDB的保留强制服务会定期检查分片组是否早于其存储桶的保留期。一旦分片组的开始时间超过存储桶的保留期，InfluxDB 就会删除分片组和关联的分片和 TSM 文件。
在具有无限保留期的存储桶中，分片无限期地保留在磁盘上。

InfluxDB 只删除冷分片。如果回填数据超出存储桶的保留期，则回填数据将保留在磁盘上，直到发生以下情况：
分片返回冷状态。
保留强制服务删除分片组。

问题？

1、TSM里存储的内容和结构？

猜测：TSM里，每一个SSTable只存储一个field的value，其中，时间戳为key，field_value为value；格式如下： time1:value1;time2:value2;time3:value3

Oracle Restore Points 彦祖的小号 Oracle oracle
（一）NormalRestorePoints一般还原点只是给恢复SCN起个别名方便使用，并不会生成类似flashbacklog，存储空间基本为0，并不保证一定能把数据库恢复到此还原点，你可以在RECOVERDATABASE、FLASHBACKDATABASE以及FLASHTALBE中使用CreatinganormalrestorepointassignsarestorepointnametoanS
使用闪回数据库（FLASHBACK DATABASE）和还原点（RESTORE POINT）数语数行 Oracle备份与恢复 Oracle 数据库 database flashback 闪回数据库 restore point
这个章节讲述闪回数据库和还原点。作为数据保护策略整体的一部分，讨论配置，监控和维护这些特性。1．闪回数据库，还原点和保证还原点概述Oracle闪回数据库和还原点是相关的数据保护特性，让你可以按时间倒回数据，纠正在指定的时间窗口内任何逻辑数据损坏或用户错误导致的问题。这些特性相对于时间点恢复提供了一个更有效的替代方案，它不需要先还原数据库的备份，效果与数据库时间点恢复（DBPITR）类似。闪回数据库
Redis实战：第一章-初识Redis案例-文章投票随风而醒 MySQL/数据库 redis
redis全称REmoteDIctionaryServer，即远程字典服务，是一个由SalvatoreSanfilippo写的key-value存储系统。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值（value）可以是字符串(String),哈希(Map),
Deepoc大模型重构核工业智能基座：混合增强架构与安全增强决策技术 Deepoch 人工智能创业创新科技自动化学习
面向复杂系统的高可靠AI赋能体系构建Deepoc大模型通过多维度技术突破，显著提升核工业知识处理与决策可靠性。经核能行业验证，其生成内容可验证性提升68%，关键参数失真率99.999%）。动态可信度评估系统：基于贝叶斯神经网络实时量化模型不确定性，为关键决策提供置信度评分（如堆芯功率控制置信区间±0.05%）。二、核心突破：物理增强型智能算法创新机理与数据双驱动建模神经微分方程求解器：将中子输运方
从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
2025AI智能体平台，10个Agent智能体开发平台推荐 cczixun 人工智能智能体大数据安全
1、扣子（Coze）开发平台字节跳动推出的AI智能体开发平台，用户无需编程基础，通过拖拽和配置即可快速创建聊天机器人，并部署到豆包、飞书、抖音、微信等多个平台。平台提供超过1万+的插件，内置豆包・Functioncall32k、通义千问-Max8k等多个大模型，还具备知识库、数据库、图像流等功能。2、通义千问Agent平台阿里巴巴基于通义千问大模型打造的智能体开发框架，以强大的多模态能力和工具集成
章节十四：乱序中的“指挥家”：堆排序奥义 - (堆排序 / Heap Sort) 杨小扩常用算法详解算法
各位老铁，阿扩又来啦！前面我们聊了各种数据结构和算法，从基础的排序查找，到复杂的图算法、动态规划，再到巧妙的Trie树和布隆过滤器。今天，我们要再次回到排序算法的舞台，但这次的主角，可不是简单的“冒泡”或“选择”，而是一位在乱序中能高效组织、精准定位的“指挥家”——堆排序(HeapSort)！你可能听说过快速排序、归并排序，它们都是O(NlogN)级别的排序算法。堆排序也同样拥有这个优秀的性能，而
车载诊断架构 --- 诊断功能开发流程汽车电子实验室电子电器架构开发流程车载电子电气架构架构电子电气架构 ECU刷写与busoff原则电气电子架构开发的应对策略开发语言
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
车载软件架构---汽车电子软件 A-B分区汽车电子实验室车载电子电气架构电子电器架构开发流程汽车网络人工智能电子电器架构架构 A/B Bank AB分区
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：屏蔽力是信息过载时代一个人的特殊竞争力，任何消耗你的人和事，多看一眼都是你的不对。非必要不费力证明自己，无利益不试图说服别人，是精神上的节能减排。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。时间不知不觉中，快
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
电科金仓AI数据库一体机发布：30%性能提升+自然语言运维，重塑数据底座！ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>百万级并发处理与聊天式数据库运维，正在中国企业机房掀起静默革命。“替换数据库是一件非常困难的事。”电科金仓总裁杜胜在7月15日北京发布会现场坦言。过去20多年里，国外数据库建立的标准让应用软件与数据库深度耦合，迁移复杂度高、改造成本大、停机风险难控。随着他身后大屏幕亮起**“数据库平替用金仓”**的全新口号，电科金仓正式向这一行业痛点宣战。这场名为“融合进化智领未来”的发布会，最耀眼的明星是**
云原生周刊：K8s 中的后量子密码学 KubeSphere 云原生云原生 kubernetes 密码学
开源项目推荐KanisterKanister是一个由CNCF托管的开源框架，最初由VeeamKasten团队创建，旨在简化Kubernetes上的应用程序级别数据操作管理。它通过定义Blueprint、ActionSet和Profile等CRD（自定义资源）及其相关组件，为专家提供一种模板化的方式，将复杂的数据库或分布式系统备份／恢复逻辑封装在可重用、可共享的蓝图中。Kanister支持异步或同步
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 MySQL存储引擎选择策略） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）MySQL存储引擎选择策略深度解析一、存储引擎选择决策框架1.核心决策维度2.关键评估指标矩阵二、典型业务场景引擎选择策略1.电商系统2.内容管理系统3.金融系统三、性能与一致性权衡策略1.CAP理论应用2.读写
【RAG专题】如何选择合适的RAG架构？星际棋手人工智能
选择适合的RAG架构需结合自身业务需求、数据特点、性能要求等因素综合判断，以下是关键考量维度及对应架构选择建议：1.按数据规模与类型选择•小规模、单一类型数据（如纯文本文档库）：适合基础单阶段检索架构（检索模块+生成模块）。◦检索：用轻量级嵌入模型（如BGE-base、all-MiniLM）+简单向量数据库（如FAISS）。◦生成：搭配中小型LLM（如Llama2-7B、Mistral），无需复杂
2020-6-9晚间日记 Miss亚姐聊职业生涯成长
今天是什么日子起床：07:20就寝：23:00天气：晴心情：太阳任务清单今日完成的任务，最重要的三件事：1.组织架构调整拟定3.整理档案室+找档案4.解约函5.在职证明6.职级调整7.新建岗位+发录用8.入职办理学习·信息·阅读《跟汪涵学说话之道》阅读中～健康·饮食·锻炼早餐：燕麦片➕两片面包中餐：带饭晚餐：麦片➕酸奶工作·思考客户思维就是，怎么给对方呈现对方最容易理解，以及对方怎么最简单操作可以
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
汽车ECU控制器通信架构汽车电子实验室车载通信架构汽车架构汽车ECU控制器通信架构 web安全电子电气架构分布式
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 InnoDB 架构与核心特性） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）一、InnoDB架构概述1.内存结构2.磁盘结构二、核心特性深度解析1.事务支持(ACID)2.多版本并发控制(MVCC)3.锁机制4.缓冲池优化5.双写缓冲区(DoubleWriteBuffer)三、关键性能优
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
客流分析核心算法 trajectory_event_analyzer数据结构风吹落叶花飘荡 python 后端算法数据结构网络
客流分析核心算法trajectory_event_analyzerV4.py数据结构文章目录客流分析核心算法trajectory_event_analyzerV4.py数据结构一、算法描述1、描述2、客流分析模块trajectory_event_analyzerV4.py解析1.分层统计：2.状态一致性检查：3.区域状态统计：4、客流状态统计5.ReID集成：6.数据清理机制：二、核心模块解释1、
SFBT（焦点解决法）改变你与孩子（十四）夏日凉凉
21天是一个人的养习惯养成期，心理学家研究发现，有意识的让自己执行新的想法，只要坚持21天就会对习惯产生影响，进而形成新的行为模式。SFBT就是焦点解决法，使用焦点解决法改变你与孩子之间的关系。第十四天，目标架构，帮助孩子找到方向找到灯塔-设定目标目标犹如灯塔般重要，若是没有目标，人就如迷失方向，随意飘荡，没有方向的谈话也不容易有成效。目标是咨询对象的目标，孩子想要的目标，不是助人者父母想要的目标
第5章：数据访问层 liangxh2010 微服务后端架构
5.1SpringDataJPA使用文字讲解SpringDataJPA是SpringData项目的一部分，旨在极大地简化JPA（JavaPersistenceAPI）的使用。它通过提供基于Repository接口的编程模型，让我们无需编写任何实现代码就能完成大多数数据访问操作。核心概念：Entity：一个使用@Entity注解的普通Java对象（POJO），它映射到数据库中的一张表。Reposit
第1章：微服务架构概述 liangxh2010 架构微服务云原生
1.1传统单体架构vs微服务架构文字讲解在软件开发的早期阶段，单体架构（MonolithicArchitecture）是最主流的架构模式。在这种模式下，一个大型应用程序的所有功能模块（如用户界面、业务逻辑、数据访问层）都被打包在一个独立的单元中，通常是一个WAR或JAR文件。单体架构的优点：开发简单：所有代码都在一个项目中，易于管理和调试。部署直接：只需将单个应用包部署到服务器即可。单体架构的缺点
“AI多模态视频解析引擎：毫秒级智能解构视听内容，生成结构化语义图谱。“
产品介绍在数字化浪潮席卷全球的当下，视频数据以前所未有的速度爆发式增长，社交媒体、安防监控、交通管理等各个领域每天都在产生海量视频信息。这些视频数据如同蕴藏丰富宝藏的深海，蕴含着巨大价值，但如何高效挖掘其中关键信息，成为横亘在各行业面前的一道难题。多模态视频结构化系统，正是为解决这一痛点而生，凭借其强大的功能、前沿的技术和创新的架构，成为视频数据处理领域的革新者与引领者。一、核心功能详解（一）音频
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
Reids 子柒s redis 数据库
标题目录Redis概述Redis数据库特点Redis应用场景Redis安装RockyLinux操作系统Windows操作系统Mac操作系统Redis服务启动失败解决方案配置文件详解常见数据类型全局命令String类型字符串数值应用场景列表List基本命令应用场景Hash散列特性基本命令应用场景Set类型基本命令应用场景SortedSet类型有序集合示例基本命令应用场景数据持久化RDB数据持久化SA
推客系统”小程序全链路开发指南：从技术架构到爆发增长的核心方法论
一、行业背景与产品定位1.1社交电商的3大趋势流量去中心化：微信生态贡献超60%的社交电商GMV（2023年数据）推客经济崛起：头部平台超30%订单来自用户分享（如拼多多、京东芬香）小程序技术成熟：微信官方插件（如物流助手、分账系统）降低开发门槛1.2为什么选择小程序？天然裂变场景：微信社交关系链+即用即走体验成本优势：对比APP开发成本降低70%，迭代周期缩短50%商业化闭环：从获客→支付→售后
分销系统开发：从架构设计到核心功能实现全解析 ywyy6798 推客分销系统分销系统分销系统开发短剧分销系统聚合分销系统聚合分销系统开发系统开发
一、分销系统概述与市场价值分销系统作为现代电商生态的重要组成部分，已成为企业拓展销售渠道、实现裂变增长的关键工具。根据最新市场研究数据，2023年全球分销电商市场规模已达到1.2万亿美元，预计未来五年将保持18.7%的年复合增长率。1.1分销系统的商业价值分销系统的核心价值体现在三个维度：渠道拓展：通过多级分销网络快速覆盖目标市场成本优化：相比传统广告投放，分销模式具有更高的ROI（平均可达1:5
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多