李浩好好学习

从头开始写一个时序数据库 - Writing a Time Series Database from Scratch

从头开始写一个时序数据库

本文译自Fabian Reinartz的 Writing a Time Series Database from Scratch 。

文章目录

从头开始写一个时序数据库
1. Problems, Problems, Problem Space
- 1.1 Time series data
- 1.2 Vertical and Horzontal
- - 1.2.1 Current solution
- 1.3 Series Churn
- - 1.3.1 Current solution
- 1.4 Resource consumption
2. Starting Over
- 2.1 Macro Design
- - 2.1.1 Many Little Databases
  - 2.1.2 mmap
  - 2.1.3 Compaction
  - 2.1.4 Retention
- 2.2 Index
- - 2.2.1 Combining Labels

我一直在从事监控相关工作，特别致力于Prometheus的研究上。Prometheus是一个包含自定义时序数据库（Time Series Database）的监控系统，并且它易于与Kubernetes进行集成。

Kubernetes在很多方面都满足Prometheus的设计需求，它使得如持续集成（Continuous Deployments）、自动伸缩（Auto Scaling）以及其它在高动态环境（Highly Dynamic Environments）所需的功能特性都非常易于实现。而Prometheus本身的如查询语言（PromQL）、操作模型以及其它许多概念性的设计，也使它特别适应这种高动态环境。与此同时，Prometheus所监控的这些工作负载（Workload）现在也变得越来越动态，这给监控系统本身带来了新的压力。正是考虑到这一点，我并不打算在Prometheus已经处理的很好的问题上深究，而是旨在提高其对具备高动态或瞬时服务的环境中的性能。

Prometheus的存储层已经通过历史表现证明了自己出色的性能，单机服务器就有能力为数百万的时间序列（Time Series）提供每秒百万级的样本处理能力，并且仅占用非常少量的磁盘空间。目前的存储系统已经能为我们提供很好的服务，但我仍然设计了一个新的存储子系统，它补齐了现有存储系统的短板，并让Prometheus具备处理下一级数据规模的能力。

注意：我并没有数据库相关的背景，我所说的如果是错误的或是有误导性的，请在Freenode上的 #promethues 话题中向我提出建议。

1. Problems, Problems, Problem Space

首先，概述我们要实现的东西以及其关键性问题，对于每个问题，我们会先看一下目前Prometheus是如何处理的，有什么值得借鉴的，以及在新的设计中我们想解决什么问题。

1.1 Time series data

我们有一个持续采集数据点的系统。

identifier -> (t0, v0), (t1, v1), (t2, v2), (t3, v3), …

如上，所有数据点都是Timestamp和Value的元组。对于监控而言，Timestamp时间戳肯定是一个整数，但Value则可以是任意类型的数值。对于Counter或者Guage类型的Value，64位的浮点数都可以很好的进行表示，所以我们采用它。一组严格的按时间单调递增的数据点（Time Series Data），我们称之为时间序列（Time Series），一般序列都会有一个Identifier来引用它。此处，我们的Identifier就是指标名（Metric Name）以及一组标签（Label）。Label这个维度我们可以认为是指标的下沉的测量空间，一个指标名加上一组Label构成一个独立的时间序列，拥有自己的数据流。

如下是一个典型的序列标识符（Series Identifier）的集合，它是“请求统计”指标的一部分：

requests_total{path="/status", method="GET", instance=”10.0.0.1:80”}
requests_total{path="/status", method="POST", instance=”10.0.0.3:80”}
requests_total{path="/", method="GET", instance=”10.0.0.2:80”}

我们可以简化这个表示：指标名也可以被视为一个Label__name__。
从查询的角度来看，指标名是应该被特殊对待的，但是从存储的角度来看，未必如此。

{__name__="requests_total", path="/status", method="GET", instance=”10.0.0.1:80”}
{__name__="requests_total", path="/status", method="POST", instance=”10.0.0.3:80”}
{__name__="requests_total", path="/", method="GET", instance=”10.0.0.2:80”}

当我们进行查询时，我们希望通过Label来进行Time Series的筛选。在最简单的情况下，通过{__name__="requests_total"}可以查询到属于request_total指标的Time Series。对于所有被选中的Time Seires，我们可以获取到在特定时间窗口中的所有的数据点。
在更复杂的查询中，我们可能还希望能在一次查询中通过多个Label进行Time Series的筛选，以及除“=”之外的更复杂的条件表达式。比如，不等(method!="GET")，或正则表达式(method="PUT|POST")。

这在很大程度上决定了如何存储数据，以及如果获取数据。

1.2 Vertical and Horzontal

在简化的视图中，所有的数据点都可以分布在二维平面上。水平维度代表时间，垂直维度代表Time Series。

series
  ^   
  │   . . . . . . . . . . . . . . . . .   . . . . .   {__name__="request_total", method="GET"}
  │     . . . . . . . . . . . . . . . . . . . . . .   {__name__="request_total", method="POST"}
  │         . . . . . . .
  │       . . .     . . . . . . . . . . . . . . . .                  ... 
  │     . . . . . . . . . . . . . . . . .   . . . .   
  │     . . . . . . . . . .   . . . . . . . . . . .   {__name__="errors_total", method="POST"}
  │           . . .   . . . . . . . . .   . . . . .   {__name__="errors_total", method="GET"}
  │         . . . . . . . . .       . . . . .
  │       . . .     . . . . . . . . . . . . . . . .                  ... 
  │     . . . . . . . . . . . . . . . .   . . . . 
  v
    <-------------------- time --------------------->

Prometheus定期的从一系列的Time Series中抓取其瞬时值来得到数据点，我们从中获取这些值的实体，称为Target。因此，我们可以看到写入模式是完全垂直并且高度并发的，因为来自每个Target的样本是独立抓取的。
这里提供一些测量的规模：单实例的Prometheus从数万个Target中获取数据点，每个Target都暴露成百上千个不同的Time Series。

在每秒收集数百万个数据点的规模下，支持批量写入是一个毋容置疑的性能要求。在磁盘上分散的写入单个数据点会相当的缓慢，因此，我们想要顺序的写入更大的数据块。
对于旋转磁盘来说，这是一个不足为奇的事实，因为它的磁头需要不停的在扇区间移动。对于SSD，虽然它以致辞快速随机写入而闻名，但他们实际上不能修改单个字节，而只能以4KiB或更大的页面来写入。这意味着写入一个16字节的样本等同于写满一个4KiB的页。这种行为是所谓的写入放大（Write Amplification）的一部分，这将“有助于”你SSD的磨损（因为它不仅会变慢，而且会在几天或几周内摧毁你的硬盘）。
这个问题更深层次的信息，可以参考 Coding For SSDs series 系列资源，此处我们不深入探讨，仅关注最主要的内容：顺序/批量写入对旋转磁盘和SSD都是理想的写入模式，我们遵循这个简单的规则即可。

查询模式跟写入模式有明显的差异，我们可以查询单个Time Series的单个数据点，也可以查询10000个Time Series的单个数据点，或者单个Time Series几周内的数据点，亦或是10000个Time Series几周内的数据点。所以对于我们上面的二维数据平面来说，查询并非完全水平或垂直的，而是一个矩形的区域。
Recoding Rules 有助于减缓已知的查询问题，但对于临时查询而言，它并不是通用的方案。

现在我们知道了我们想批量的写入，但是我们得到的数据集仅仅是跨Time Series的数据点。当从某个时间窗口中查询数据点时，我们不仅很难明确知道从哪里找到这些数据点，而且我们不得不从磁盘上大量随机的地方读取这些数据点。考虑到我们提及的数百万级的样本规模，即使是在最好的SSD上，查询也将会很缓慢。而且读取也会从我们的磁盘中检索到比要求的16字节样本更多的数据，比如SSD会加载一整页，HDD则至少会读取一整个扇区。无论采取何种方式，我们都在浪费宝贵的读取吞吐量。
因此，理想情况下，同一Time Series的样本最好顺序存储，这样我们就能通过尽可能少的读操作来获取它们。最重要的是，我们仅需要知道Time Series的起始位置，我们就能访问所有的数据点。

显然，将收集到的数据写入到磁盘的理想模式，与能够显著提高查询效率的布局之间存在明显的矛盾，这也是我们TSDB要解决的一个基本问题。

1.2.1 Current solution

是时候看看Prometheus当前的存储引擎（我们称之为V2）是如何解决这个问题的。
我们为每个Time Series创建一个文件，里面包含按时间顺序排列的所有样本。由于每隔几秒就向这些文件附加单个样本的成本很高，因此我们将为每个Time Series提供1KiB的内存的Chunk，当这1KiB的内存的Chunk满了之后，再附加到单个文件中。这个方法解决了一大部分的问题，因为写入变成批量的了，并且样本也是按照顺序来读取的。此外，它还支持非常高效的压缩格式，因为同一个Time Series的相邻的样本一般差异很小。Facebook发表的关于Gorilla TSDB的论文（Gorilla: A Fast, Scalable, In-Memory Time Series Database）描述了一个Chunk-Based方法，并且介绍了一种压缩方式，可以将16字节的样本减少到平均1.37字节。V2的存储引擎支持多种压缩格式，其中就包含Gorilla的变体。

   ┌──────────┬─────────┬─────────┬─────────┬─────────┐           series A
   └──────────┴─────────┴─────────┴─────────┴─────────┘
          ┌──────────┬─────────┬─────────┬─────────┬─────────┐    series B
          └──────────┴─────────┴─────────┴─────────┴─────────┘ 
                              . . .
 ┌──────────┬─────────┬─────────┬─────────┬─────────┬─────────┐   series XYZ
 └──────────┴─────────┴─────────┴─────────┴─────────┴─────────┘ 
   chunk 1    chunk 2   chunk 3     ...

虽然Chunk-Based的方法很棒，但由于如下的原因，为每个Time Series保留一个独立的文件会带来一些问题：
实际上，我们需要比当前采集的Time Series数量多得多的文件来存储数据，在后面的序列分流（Series
Churn）的章节会有更详尽的描述。对于几百万个文件，我们迟早会耗尽文件系统上的inode。这是我们必须通过格式化磁盘来恢复的情况，这可能具有侵入性和破坏性，我们通常希望避免出现因为某个应用程序而格式化磁盘的局面。
即使是使用Chunk-Based的方法，每秒也会有数千个Chunk准备完成并准备被持久化，这仍然导致每秒进行数以千计的磁盘写入。这个问题虽然可以通过合并Chunk再批量写入来进行缓解，但这反过来会增加等待持久化的数据的内存占用。
保持所有的文件打开来保证读写是不可行的，特别是因为大约99%的数据在24小时后不会再被查询到。如果它被查询，我们必须打开多达数千个文件，查找相关数据点并将其读入内存，然后再关闭它们。这将会导致很高的查询延迟，数据块缓存的剧增会导致新的问题，这将在资源消耗（Resource Consumption）章节作进一步讨论。
最终，我们都必须删除旧的数据，并且需要从数百万个文件的头部去删除，这意味着删除动作其实是一个写入密集型操作。此外，循环浏览数百万个文件并对其进行分析可能会导致数小时的消耗，当它执行完成时，它可能又需要再重新开始了。并且，删除旧文件也会导致SSD的写入放大。
当前正在积累数据的Chunk仅存在于内存中，如果应用程序崩溃，数据就会丢失。为了避免这种情况，内存状态必须定时的同步到到磁盘上，这比我们能接受的数据丢失的时间窗口要长的多。同时，恢复检查点可能也需要几分钟时间，导致更长的重启周期。

现有设计的关键，是Chunk的概念，基于其优点，我们当然希望保留它。最近的Chunk总是保留在内存中，这通常也是好事，因为最近的数据总是最常被查询。
为每个Time Series维持一个文件的概念，是我们希望替换掉的。

1.3 Series Churn

在Prometheus的场景中，我们使用术语序列分流“Series Churn”来描述一种情况：一组Time Series变得不再活跃，即不再接收新的数据点，而取而代之的是一组新的活跃的Time Series。
例如，指定的微服务实例暴露的所有Time Series都包含了“instance”标签，用于标识其来源。如果我们对微服务执行滚动更新，并将每个实例换成新的版本，这时候就会发生序列分流。在更动态的环境中，这些时间可能每小时就会发生一次。像Kubernetes这样的集群编排系统，允许应用进行连续的自动扩展和频繁的滚动更新，每天可能创建数以万计的应用程序实例，也就导致数以万计的全新的Time Series。

series
  ^
  │   . . . . . .
  │   . . . . . .
  │   . . . . . .
  │               . . . . . . .
  │               . . . . . . .
  │               . . . . . . .
  │                             . . . . . .
  │                             . . . . . .
  │                                         . . . . .
  │                                         . . . . .
  │                                         . . . . .
  v
    <-------------------- time --------------------->

因此，即使我们这个系统的基础设施规模基本保持不变，随着时间的退役，我们数据库中的Time Seires也会线性增长。虽然Prometheus很乐意收集千万级别的Time Seires，但是如果要在10亿个Time Series中查找数据，其性能就会收到很大的影响。

1.3.1 Current solution

Prometheus当前的V2的存储引擎对当前存储的所有的Time Seires都有一个基于LevelDB的索引，它允许查询包含给定Label的Time Series，但是缺乏一种弹性的方法来从不同的Label选集中组合查询结果。
比如，查询__name__"request_total"会非常高效，但是查询instance="A" and __name__"request_total"就有了可伸缩性问题。我们稍后会重新讨论这个问题，并且审视哪些调整可以改善查询延迟。

这个问题实际上是促使我去寻找一个更好的存储引擎的初因，Prometheus需要一种改进的索引方法来快速搜索亿级的Time Series。

1.4 Resource consumption

在尝试扩展Prometheus时，资源消耗（Resource consumption）是永恒的主题之一。但真正上困扰用户的，并不是绝对的资源匮乏，事实上，根据既定的要求，Prometheus管理着令人难以置信的吞吐，真正影响用户的问题，是Prometheus在面对变化时的不可预测性与不稳定性。通过之前描述的架构，V2存储缓慢地构建大量样本数据的Chunk，这会导致内存消耗随时间不断增加。当Chunk填满时，它们被写入磁盘并可以从内存中驱逐，最终，Prometheus的内存使用量逐渐趋于稳定。这种稳定状态将一直持续，直到被监控的环境发生变化时（每次我们扩容应用程序或进行滚动更新时），序列分流都会增加内存、CPU和磁盘IO的使用。如果变化正在进行中，它最终将再次达到稳定状态，但会明显高于更静态的环境的资源消耗。这个过渡时期通常长达数小时，很难确定最大资源使用量是多少。

为每个Time Series对应一个文件存储的做法，也使得一个查询动作很容易就能崩溃Prometheus的进程。当查询的数据点未在内存中命中时，会打开相关Time Series的文件，对应的数据点将会被读入内存，如果数据量超过可用内存，则Prometheus会因为OOM-killed退出，这种方式并不优雅。
查询完成后，加载的数据就可以再次释放，但通常会被缓存多一段时间，以便为后续的查询提供更快的服务，后者显然是一件好事。

最后，我们研究了SSD写入放大的问题，以及Prometheus如何通过批量写入来缓解这个问题。尽管如此，在某些情况下仍然会出现写入放大，因为批次的量太小，没有在页边界对齐数据。对于大型的Prometheus服务器，我们可以真实的观察到其对硬件寿命的影响。对于高写入量的数据库应用而言，这可能是相当正常的，但我们还是应该留意是否可以缓解它。

2. Starting Over

到目前为止，我们知道了我们要解决的问题域、Prometheus的V2存储引擎如何解决它，以及V2的设计有何问题。从中，我们还看到了一些很棒的概念，我们希望或多或少的继承它们。相当多的V2的问题，可以通过改进和部分重构来解决，但为了让事情变得更有趣（当然，在仔细评估过我的选择后），我觉得尝试从头开始编写整个时序数据库（即，从向文件系统写入字节开始）。

对存储格式的选择，直接影响着性能和资源使用这种关键性问题。我们必须找到一组正确的算法和磁盘布局，以实现性能良好的存储层。

2.1 Macro Design

我们存储的宏观设计是什么？简而言之，在我们的数据目录上运行tree命令时，它会显示下面的所有内容。基于对此内容的直观观察，我们可以对正在发生的事情有一个很好的了解。

$ tree ./data
./data
├── b-000001
│   ├── chunks
│   │   ├── 000001
│   │   ├── 000002
│   │   └── 000003
│   ├── index
│   └── meta.json
├── b-000004
│   ├── chunks
│   │   └── 000001
│   ├── index
│   └── meta.json
├── b-000005
│   ├── chunks
│   │   └── 000001
│   ├── index
│   └── meta.json
└── b-000006
    ├── meta.json
    └── wal
        ├── 000001
        ├── 000002
        └── 000003

在顶层，我们有一系列编号的Block，前缀为b-。每个Block显然包含一个索引文件，以及一个包含更多编号文件的“chunks”目录。“chunks”目录只包含各个Time Series的原始数据点。与V2一样，这使得我们在一个时间窗口内读取Time Series时开销很小，并且也允许我们使用同样高效的压缩算法，这个概念已经被证明行之有效，因此我们将继承下去。显然，每个Time Seires不再有一个独立的文件，取而代之的是屈指可数的几个Chunk文件。
索引文件应该不足为奇，我们先假设它包含很多的黑魔法，让我们能够找到Label、他们的可能值、全部的Time Seires以及保存其数据点的Chunk。

但是为什么有几个目录包含索引和Chunks文件？为什么最后一个包含“wal”目录？如果能正确理解这两个问题，那我们90%的问题都会自然而然的有答案。

2.1.1 Many Little Databases

我们将水平维度（也就是时间维度），划分为不重叠的Block。每个Block充当一个完全独立的数据库，包含其时间窗口内的所有的Time Seires的数据。因此，它有一组自己的索引文件和Chunk文件。

t0            t1             t2             t3             now
 ┌───────────┐  ┌───────────┐  ┌───────────┐  ┌───────────┐
 │           │  │           │  │           │  │           │                 ┌────────────┐
 │           │  │           │  │           │  │  mutable  │ <─── write ──── ┤ Prometheus │
 │           │  │           │  │           │  │           │                 └────────────┘
 └───────────┘  └───────────┘  └───────────┘  └───────────┘                        ^
       └──────────────┴───────┬──────┴──────────────┘                              │
                              │                                                  query
                              │                                                    │
                            merge ─────────────────────────────────────────────────┘

每个Block都是不可变的，当然，我们必须在收集新数据的时，将新的Time Seires和样本添加到最近的Block中。对于这个Block，所有的数据都将写入内存数据库，该数据库提供与持久化的数据库相同的查找特性。内存数据库可以高效的进行更新，为了防止数据丢失，所有输入的数据都会写入临时的write ahead log，这是我们“wal”目录中的一组文件，这使得我们可以在重启Prometheus的时候从中还原我们的内存数据库。
所有的这些文件都带有自己的序列化格式，包含我们期望的所有的特性：大量的标识符、偏移量、变量和CRC32校验值。

这种布局允许我们从时间维度切入去查询时间范围内的所有的Block，每个Block查询出的部分的结果又将合并在一起，形成最终的整体的结果。

这种水平维度的切分方式带来一些很棒的能力：

在查询某个时间范围时，我们可以轻松高端忽略该范围之外的所有Block。它通过减少查询的数据集的方式来解决序列分流的问题。
当一个Block完成后，我们可以将内存数据库持久化到磁盘，通过顺序写入的方式，只需写入少数的几个较大的文件即可。我们避免了任何写入放大，并为SSD和HDD提供同样好的服务。
我们保持了V2中的良好的特性，即最近的Chunk，也就是查询的最多的Chunk，总是在内存中缓存的。
很好，我们也不再受限于固定的1KiB的大小来更好的对齐磁盘上的数据，我们可以选择对单个数据点或压缩格式而言更合理的大小。
删除数据的开销变得非常的小，我们仅仅只需要删除一个目录。请回忆一下，在旧的存储引擎中，我们必须分析和重写数亿规模的文件，这可能需要几个小时才能完成。

每个Block还包含一个meta.json文件，它保存了关于Block的人类可读的信息，以便我们了解存储状态和它包含的数据。

2.1.2 mmap

从数以百万级的小文件变为少数几个较大的文件，使得我们可以以很小的开销就保持所有文件的打开。这使得我们可以解锁对mmap的应用，这是一个系统调用，允许我们通过文件内容透明的回传虚拟内存区域。简单来讲，你可能想把它看做是swap空间，只是我们所有的数据已经在磁盘上，当把数据从内存中交换出来时，不会产生写操作。

这意味着我们可以将数据库中所有内容当做是在内存中，而不占用任何物理RAM。只有当我们访问数据库文件中的某些字节范围时，操作系统才会从磁盘延迟加载页数据。这使得我们将所有数据持久化相关的内存管理都交给了操作系统。通常而言，操作系统更有资格作出这样的决定，因为它更全面的了解整个机器和进程。查询的数据可以相当积极的缓存进内存，但内存压力会使得页被换出。如果机器拥有未被使用的内存，Prometheus将会高兴的缓存整个数据库，但是一旦其他进程需要，它就会立刻返回那些内存。

因此，查询操作不再轻易的使我们的进程OOM，因为查询的更多是持久化的数据，而不是装入内存的数据。内存缓存大小变得更自适应，仅当查询真正需要时，数据才会被加载。

据我的理解，这是当今许多数据库的工作方式，并且如果磁盘格式允许，这是一种理想的工作方式（除非有人有信心在这个过程中超越操作系统）。我们当然可以用很少的工作来得到更多的能力。

2.1.3 Compaction

存储引擎必须定期的分配新的Block，而前一个已经完成的Block，则会写入磁盘。只有在Block已经持久化完成的前提下，用于恢复内存Block的write ahead log才会被删除。
我们通常希望每个Block的区间尽量合理一点（典型的设置是两小时左右），以避免在内存中积累太多的数据。当查询多个Block时，我们必须将它们各自的结果汇总为整体的结果。这个合并的动作显然是有额外的开销的，一个为期一周的查询，不应该需要合并80多个Block。

为了实现这两点，我们引入了压缩机制。压缩的作用是将一个或多个Block写入一个更大的Block的过程。在这个过程中还可以对现有的数据进行修改，如删除已标识为删除状态的数据，或者重构我们的样本Chunk以提高查询性能。

t0             t1            t2             t3             t4             now
 +------------+  +----------+  +-----------+  +-----------+  +-----------+
 | 1          |  | 2        |  | 3         |  | 4         |  | 5 mutable |    before
 +------------+  +----------+  +-----------+  +-----------+  +-----------+
 +-----------------------------------------+  +-----------+  +-----------+
 | 1              compacted                |  | 4         |  | 5 mutable |    after (option A)
 +-----------------------------------------+  +-----------+  +-----------+
 +--------------------------+  +--------------------------+  +-----------+
 | 1       compacted        |  | 3      compacted         |  | 5 mutable |    after (option B)
 +--------------------------+  +--------------------------+  +-----------+

在这个例子中，我们有顺序的Block[1, 2, 3, 4]，Block 1、2和3可以进行合并，并形成新的Block布局[1, 4]。或者，可以将它们成对压缩为[1, 3]。压缩后，所有的Time Seires的数据依然完整存在，但整体处在更少的Block中。这显著的减少了查询时的合并成本，因为需要合并的“子结果”更少了。

2.1.4 Retention

我们看到在V2存储中删除旧数据是一个相当缓慢的过程，并且对CPU、内存和磁盘都造成影响，那以现有的设计，我们如何在Block中删除旧数据呢？非常简单，只要删除在我们配置的保留时间窗口中没有数据的Block的目录即可。在下面的示例中，Block1可以安全的删除，而Block2必须暂时保留，直到它完全的处在保留时间窗口之外（图中的retention boundary）。

|
 +------------+  +----+-----+  +-----------+  +-----------+  +-----------+
 | 1          |  | 2  |     |  | 3         |  | 4         |  | 5         |   . . .
 +------------+  +----+-----+  +-----------+  +-----------+  +-----------+
                      |
                      |
             retention boundary

随着我们不断的压缩之前的Block，那势必会出现旧Block越来越大的情况，因此，我们必须为其设置一个上限，以防止所有旧的Block被压缩为接近一整个数据库的规模，这将失去我们设计的最初优势。
碰巧的是，这也恰好限制了位于保留时间窗口边界的Block的磁盘开销。如上面示例的Block2，当我们将Block的上限大小设置为保留时间窗口总大小的10%后，则Block2的总开销也就有了10%的上限。

总结一下，保留与删除从非常昂贵到了几乎没有成本。

2.2 Index

对存储引擎改进的想法最初是想解决因序列分流带来的问题，基于Block的结构减少了服务在查询时必须考虑的Time Seires的总数。因此，假设我们的原本的索引查找的时间复杂度是O(n²)，那我们现在已经设法将n减少了很多的数量，现在的复杂度提升到了O(n²)。嗯，等等…糟糕。

快速回忆一下“Algorithms 101”课上提醒我们的，从理论上它并未带给我们任何好处，如果事情以前很糟糕，那么现在也一样。

在实践中，我们大多数的查询速度已经相当的快。然后，跨越整个时间范围的查询仍然很慢，即使他们只需要找到少数的几个Time Seires。我最初的想法是：我们需要一个更大容量的倒排索引。
倒排索引提供了基于数据内容的子集的快速查找数据项的方法，简单的说，我可以查找所有Label中包括app="nginx"的Time Seires，而无需遍历每个Time Seires并检查它是否包含该标签。

为此，每个序列都会被分配一个唯一的ID，通过该ID可以在恒定的时间内检索它（时间复杂度O(1)）。在这个例子中，ID就是我们的正向索引。

示例：如果 ID 为 10、29、9 的Time Seires包含Label app="nginx"，那么 “nginx”的倒排索引就是简单的列表 [10, 29, 9]，它就能用来快速地获取所有包含Label的序列，即使我们有200多亿个Time Series也不会影响查找速度。

简单来讲，如果n使我们的Time Seires的总数，m是查询操作的结果的大小，我们使用索引的查询的复杂度现在是O(m)。查询的规模现在是取决于m而不是n，这是一个很好的特性，因为m通常会小很多。
为简洁起见，我们假设可以在恒定时间内查找到倒排索引对应的列表。

实际上，这几乎就是V2的倒排索引，也是为百万级Time Seires提供查询服务的最低要求。敏锐的人会注意到，在最坏的情况下，一个Label会存在于所有的Time Seires中，因此，m也可能等于n。但这一点是在预料中的，如果查询全部的数据，那它自然会花费更多时间。一旦我们牵扯上更复杂的查询语句，就会有问题。

2.2.1 Combining Labels

与数百万个Time Seires相关的Label是很常见。假设我们有一个微服务“foo”，其横向扩展着数百个实例，每个实例拥有数千个Time Series，每个Time Seires都会带有Label app="foo"。当然，用户通常不会查询所有的Time Seires，而是会通过更多的Label来限制查询。例如，我想知道服务实例接收到了多少请求，那么查询语句便是__name__="requests_total" AND app="foo"。

为了找到满足两个标签选择器的所有Time Seires，我们得到每一个Label的倒排索引的列表并取其交集。结果集通常会比任何一个输入列表小一个数量级。因为每个输入列表最坏情况下的大小为 O(n)，所以如果通过嵌套循环地方式为每个列表进行暴力求解的情况下下，期时间复杂度为 O(n²)。相同的成本也适用于其他的集合操作，例如取并集（app="foo" OR app="bar"）。当在查询语句上添加更多标签选择器，时间复杂度就会指数增长到 O(n³)、O(n⁴)、O(n⁵)……O(n^k)。通过改变执行顺序，可以使用很多技巧来优化运行效率，越复杂，越是需要关于数据特征和标签之间相关性的知识。这引入了大量的复杂度，但是并没有减少算法的最坏运行时间。

如上便是 V2 存储系统使用的基本方法，幸运的是，一些很小的改动就能获得显著的提升。如果我们假设倒排索引中的 ID 都是排序好的会怎么样？

假设这个例子的列表用于我们最初的查询：

# 译者注：此处第一行的倒排索引中，原文为"[ 9999, 1000, 1001, 2000000..."，根据前后文的描述及分析，笔者认为是原作者笔误，故将9999修改为999
__name__="requests_total"   ->   [ 999, 1000, 1001, 2000000, 2000001, 2000002, 2000003 ]
     app="foo"              ->   [ 1, 3, 10, 11, 12, 100, 311, 320, 1000, 1001, 10002 ]

             intersection   =>   [ 1000, 1001 ]

它们的交集非常小，我们可以通过在每个列表的起始位置设置游标，每次从最小的游标处移动来找到交集。当二者的数字相等时，我们就添加当前值到结果集中并移动二者的游标。总体上，我们以锯齿形模式扫描两个列表，因此整体时间复杂度是 O(2n)=O(n)，因为我们总是在一个列表上移动。

两个以上的列表的不同集合操作也类似。因此k个集合操作仅仅改变了因子为O(k*n)，而不是最坏情况下查找运行时间的指数集时间复杂度 O(n^k)。

我在这里所描述的是几乎所有全文搜索引擎使用的标准搜索索引的简化版本。每个序列描述符都视作一个简短的“document”，每个Label（名称 + 固定值）作为其中的“word”。我们可以忽略搜索引擎索引中通常遇到的很多附加数据，例如单词位置和和频率。

关于改进实际运行时间的方法似乎存在无穷无尽的研究，它们通常都是对输入数据做一些假设。不出意料的是，还有大量技术来压缩倒排索引，其中各有利弊。因为我们的“document”比较小，而且“word”在所有的序列里大量重复，压缩变得几乎无关紧要。例如，一个真实的数据集约有440万个Time Series与大约12个Label，每个Label拥有少于5000个单独的Label。对于最初的存储版本，我们坚持使用基本的方法而不压缩，仅做微小的调整来跳过大范围非交叉的ID。

尽管维持排序好的ID听起来很简单，但实践过程中不是总能完成的。例如，V2存储系统为新的Time Seires赋上一个哈希值来当作ID，我们就不能轻易地排序倒排索引。

另一个艰巨的任务是当磁盘上的数据被更新或删除掉后修改其索引。通常，最简单的方法是重新计算并写入，但是要保证数据库在此期间可查询且具有一致性。V3 存储系统通过每个Block上具有的独立不可变索引来解决这一问题，该索引仅通过压缩时的重写来进行修改。只有可变块上的索引需要被更新，它完全保存在内存中。

你可能感兴趣的:(prometheus,数据库,时序数据库,database)

leetcode-sql数据库面试题冲刺（高频SQL五十题）我想吃烤肉肉 sql 测试面试数据库 leetcode sql
题目：1633.各赛事的用户注册率用户表：Users±------------±--------+|ColumnName|Type|±------------±--------+|user_id|int||user_name|varchar|±------------±--------+user_id是该表的主键(具有唯一值的列)。该表中的每行包括用户ID和用户名。注册表：Register±---
系统架构设计师——架构风格庄隐 #系统架构设计师系统架构架构系统架构设计师
概述软件体系结构风格是指在软件架构设计中，针对特定应用领域所采用的一套惯用模式，这些模式定义了系统的组织方式。以下是对软件体系结构风格的详细解析：1.体系结构风格的概念目的：简化设计过程，提高设计的重用性和可维护性。特点：每种风格都有其特定的适用范围和优势，适用于不同的应用场景和需求。2.词汇表构件：系统中的基本功能单元，如客户端、服务器、数据库等。连接件：用于构件间交互的桥梁，如管道、总线、过滤
跟着黑马学MySQL基础篇笔记(4)-多表查询小杜不吃糖 mysql 笔记
37.多表查询-多表关系介绍多表关系概述项目开发中，在进行数据库表结构设计时，会根据业务需求及业务模块之间的关系，分析并设计表结构，由于业务之间相互关联，所以各个表结构之间也存在着各种联系，基本上分为三种：一对多（多对一）多对多一对一一对多（多对一）案例：部门与员工的关系关系：一个部门对应多个员工，一个员工对应一个部门实现：在多的一方建立外键，指向一的一方的主键多对多案例：学生与课程的关系一个学生
如何在飞牛云NAS快速使用Docker打造稳定安全的本地网站并对外可见 gkfkfhk docker 安全 eureka
文章目录前言1.Docker下载源设置2.Docker下载WordPress3.Docker部署Mysql数据库4.WordPress参数设置5.飞牛云安装Cpolar工具6.固定Cpolar公网地址7.修改WordPress配置文件8.公网域名访问WordPress前言本文主要介绍如何在飞牛云NAS上利用Docker快速搭建并优化WordPress站点的技巧，并且了解了如何借助cpolar实现内
How to install phpMyAdmin on CentOS 8 / AlmaLinux 8 / RockyLinux 8 Evoxt 益沃斯 centos android linux
phpMyAdminisaweb-basedfreeandopen-sourcetoolthatiswritteninPHPtohelpuserstomanagetheirdatabaseeasily.WithphpMyAdmin,userscaneasilycreateandmanagedatabases,importandexportdataandevenexecutingSQLqueries
OnionArch：构建高效.NET Core应用的洋葱架构模板樊慈宜Diane
OnionArch：构建高效.NETCore应用的洋葱架构模板项目地址:https://gitcode.com/gh_mirrors/on/OnionArch项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了经典的洋葱架构（OnionArchitecture）。洋葱架构是一种分层架构模式，通过将核心业务逻辑与外部依赖（如数据库、UI等）分离，使得应用程序更加模块化、可维护和
K8s 集群监控：从指标采集到可视化展示的完整方案花笺墨韵 kubernetes
目录一、引言二、指标采集（一）K8s内置指标（二）Prometheus指标采集三、数据存储（一）Prometheus本地存储（二）远程存储四、可视化展示（一）Grafana基础（二）K8s相关仪表盘模板五、总结一、引言Kubernetes（K8s）集群环境复杂且动态变化，应用程序的运行状况、资源的使用情况时刻都在改变。为了保障K8s集群高效、稳定地运行，及时发现潜在问题并做出响应，一套完善的监控体
llm数据存储基础设施 galileo2016 人工智能
链接:https://i68.ltd/notes/posts/20250310-llm-db/infinity专为LLM应用程序构建的AI原生数据库，可提供对密集向量、稀疏向量、张量（多向量）和全文的快速混合搜索项目仓库:https://github.com/infiniflow/infinity关键特性令人难以置信的快在百万级矢量数据集上实现0.1毫秒查询延迟和15K+QPS在33M文档的全文搜
Windows下工作组架构和域架构 weixin_33728708 数据库系统架构
工作组架构的网络工作组架构网络也被称为对等网络（peertopeer）域架构网络工作组架构网络域架构网络网络内每台计算机地位平等，资源和管理分散在各个计算机上网络内分为域控制器和成员服务器，如果有多台域控制器，则域控制器之间地位平等每台计算机都有一个本地安全账户管理器（SecurityAccountsManager,SAM）数据库，存储本地账户域内计算机共享一个集中的目录数据库（Directory
Spring Boot应用首次请求性能优化实战：从数据库连接池到JVM调优一休哥助手 java spring boot 性能优化数据库
目录问题现象与背景分析性能瓶颈定位方法论数据库连接池深度优化SpringBean生命周期调优JVM层性能预热策略全链路监控体系建设生产环境验证方案总结与扩展思考1.问题现象与背景分析1.1典型问题场景在某互联网金融项目的SpringBoot应用上线后，运维团队发现一个关键现象：应用重启后首次访问提现接口耗时约1300ms后续请求稳定在200ms以内每日凌晨服务重启后，首笔交易超时率高达30%1.2
基于Docker及Kubernetes技术构建容器云（PaaS）平台概述_基于kubernetes iaas(1) 2401_83946044 程序员 docker kubernetes paas
|组成模块|模块说明||—|—||AppRouter[流量接入层]|接收用户请求，并转发到不同的AppRuntime。||AppRuntime[应用运行层]|应用运行环境，为各个应用提供基本的运行引擎，从而让app能够运行起来。||Services[基础服务层]|各个通用基础服务，主要是对主流的服务提供通用的接入，例如数据库等。||PlatformControl[平台控制层]|整个平台的控制中心，
软件2.0的无服务器计算架构 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《软件2.0的无服务器计算架构》关键词无服务器计算软件架构软件2.0事件驱动函数编程微服务云原生摘要本文深入探讨了软件2.0时代的无服务器计算架构。首先，我们回顾了无服务器计算的兴起背景，与传统服务器计算的区别，以及其设计理念。接着，介绍了主流的无服务器平台，并探讨了无服务器计算在软件2.0中的应用。随后，我们详细阐述了无服务器计算的核心技术，包括事件驱动架构、编写无服务器函数、无服务器数据库和无
MySQL数据库备份与恢复 Kboy01 SQL 数据库 mysql 程序人生
好的，我现在需要处理用户关于MySQL数据库备份和恢复的问题。首先，我要仔细阅读提供的搜索结果，从中提取有用的信息，并按照要求引用相应的网页编号。用户的问题是关于MySQL数据库的备份和恢复，我需要确保答案涵盖备份方法、恢复步骤以及最佳实践。根据提供的搜索结果，网页[1]、[2]、[3]、[4]、[5]、[7]、[8]、[9]、[10]都提到了相关内容，而网页[6]虽然涉及远程备份，但内容可能不够
Java全栈开发学习路线：从基础到实战，掌握前后端与数据库，成为全栈软件工程师软件职业规划 java java
1.Java基础Java语法：变量、数据类型、运算符、控制流程（if、switch、循环等）面向对象编程（OOP）：类与对象、继承、多态、封装、抽象类、接口异常处理：try-catch-finally、自定义异常集合框架：List、Set、Map、ArrayList、LinkedList、HashMap等泛型：泛型类、泛型方法、泛型接口IO流：文件读写、字节流、字符流多线程：线程创建、同步、锁、线
我与DeepSeek读《大型网站技术架构》（6）- 上诺亚凹凸曼架构
永无止境：网站的伸缩性架构伸缩性定义与实现目标网站的伸缩性指通过增减服务器数量灵活调整服务能力，而无需改变软硬件设计。核心目标是实现线性扩容，即新增服务器数量与系统处理能力成正比。两种基本伸缩设计手段（1）物理分离功能实现伸缩纵向分层：将系统按功能分层（如应用层、数据层），分离到不同服务器集群。例如：将数据库服务与应用程序服务器分离。横向分业务：将不同业务模块（如用户系统、支付系统）部署到独立的服
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
如何进行OceanBase 运维工具的部署和表性能优化？ oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
MySql数据库等级考试学习分享3（Day7） weixin_53545579 学习
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。题目以下关于MySQL的叙述中，错误的是（）。OA、MySQL为多种编程语
草根版外卖避雷计划「数据库寄生 2.0」优化方案 cainiaojunshi 预算方案智慧城市
接上回计划省钱版【打败美团和饿了吗的机会越来越大了！#外卖避雷计划#】[特殊字符][特殊字符]-CSDN博客（含三端流程图+预算穿透表+风险应对）一、策划目标（草根版核心）实现单城外卖后厨监督轻量化：✅创作端：骑手/打假人扫码接单，视频自动同步（省90%录入时间）✅服务端：AI+算法自动跑批，日省2小时人工干预（年省2.22万）✅观看端：实时暴雷指数+悬赏助力，用户信任度提升40%✅终极目标：单城
Flask-Login完整使用案例 BirdMan98 Flask Python flask oracle 数据库
下面是一个完整的Flask-Login使用案例，涵盖以下功能：用户注册用户登录访问受保护页面退出登录1.安装依赖pipinstallflaskflask-loginflask-wtfflask-sqlalchemywerkzeug2.创建Flask项目结构flask_login_demo/│──app.py#Flask入口文件│──models.py#数据库模型│──forms.py#表单│──c
flask 如何实现高并发 Msura flask python 后端开发语言
在Flask中，可以通过一些方法来实现高并发：使用Gunicorn或uWSGI作为WSGI容器，可以将Flask应用部署到多个工作进程上，实现多进程并发处理请求。使用Flask-SocketIO可以将Flask应用扩展为WebSocket应用，可以通过它实现长连接和消息推送功能，从而实现高并发。使用Flask-SQLAlchemy可以将Flask应用与数据库进行集成，可以使用数据库连接池来实现高效
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
Flask-ORM方式操作Mongodb Enougme Flask mongodb flask
前言在实际项目中,我们有时需要存储一些json类型的字符串，这种类型的数据写入到关系型数据库，会比较麻烦。一般我们将其写入到非关系型数据库中，例如MongoDB,同样我们也可以用操作关系型数据库的ORM方式操作MongoDB。1:配置文件的(settings.py)MONGODB_SETTINGS=[{'db':'api_params','host':MONGO_DB,'port':27017,"
C/C++ R-Tree原理及源代码猿来如此yyy C/C++算法详解及源码 r-tree c语言 c++开发语言算法数据结构
R树是一种用于高维空间数据的索引结构，它是由AntoninGuttman于1984年提出的。R树旨在提高对多维数据进行范围查询的性能。它被广泛应用于空间数据库中。R树的核心思想是将数据划分为不相交的矩形区域，并逐层构建一个树结构。每个非叶子节点都是一个矩形，它覆盖了它的所有子节点。每个叶子节点都是一个数据对象与其坐标范围的组合。通过这种方式，R树能够将相邻的数据对象聚集在一起，从而减少对数据的搜索
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
如何提高Flask的高并发性能 BirdMan98 Flask Python flask python 后端
提高Flask的并发性能可以从多个方面入手，主要包括服务器优化、数据库优化、代码优化和使用异步技术。下面详细介绍几种方法：1.使用高性能WSGI服务器Flask自带的开发服务器（flaskrun）不适用于生产环境。建议使用高性能WSGI服务器来运行Flask：推荐的WSGI服务器Gunicorn（推荐）：适用于LinuxWaitress：适用于WindowsuWSGI：适用于Linux，性能更强，
Redis 源码分析-内部数据结构 robj 笨手笨脚の #Redis redis 数据结构数据库 redisObject 44字节 embStr raw
Redis源码分析-内部数据结构robjRedis中，一个database内的这个映射关系是用一个dict来维护的（ht[0]）。dict的key固定用一种数据结构来表达就够了，即动态字符串sds。而value则比较复杂，为了在同一个dict内能够存储不同类型的value，这就需要一个通用的数据结构，这个通用的数据结构就是robj（全名redisObject）。#defineLRU_BITS24/
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
Android第二次面试总结（项目拷打实战）每次的天空 android
MVVM+Jetpack组件落地采用ViewModel+LiveData实现数据驱动开发，将UI逻辑与业务逻辑解耦，通过LiveData的生命周期感知能力避免内存泄漏。使用WorkManager替代传统Service处理后台任务（如数据同步），结合Room数据库实现任务持久化，确保应用被杀后仍能恢复任务。性能优化实战集成Glide加载国风插画，结合自定义三级缓存策略（内存LRU+磁盘缓存+本地资源
Python通过SSH隧道访问数据库 Java菜鸟在北京 python sshtunnel paramiko SSH隧道访问数据库
本文介绍通过sshtunnel类库建立SSH隧道，使用paramiko通过SSH来访问数据库。实现了两种建立SSH方式：公私钥验证、密码验证。公私钥可读本地，也可读取AwsS3上的私钥文件。本质上就是在本机建立SSH隧道，然后将访问DB转发到本地SSH内去访问数据库。简单易懂，上代码：fromsshtunnelimportSSHTunnelForwarderfromsqlalchemyimport
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源