千淘万漉

时序数据库技术体系 – Druid 多维查询之Bitmap索引

转载自

http://hbasefly.com/2018/06/19/timeseries-database-8/

时序数据库从抽象语义上来说总体可以概括为两个方面的基本需求，一个方面是存储层面的基本需求：包括LSM写入模型保证写入性能、数据分级存储（最近2小时的数据存储在内存中，最近一天的数据存储在SSD中，一天以后的数据存储在HDD中）保证查询性能以及存储成本、数据按时间分区保证时间线查询性能。另一方面是查询层面的基本需求：包括基本的按时间线进行多个维度的原始数据查询、按时间线在多个维度进行聚合后的数据统计查询需求以及TopN需求等。

可见，多维条件查询通常是时序数据库的一个硬需求，其性能好坏也是评价一个时序数据库是否优秀的一个重要指标。调研了市场上大多时序数据库（InfluxDB、Druid、OpenTSDB、HiTSDB等），基本上都支持多维查询，只有极个别的暂时支持的并不完美。通常来说，支持多维查询的手段无非两种：Bitmap Index以及Inverted Index，也称为位图索引和倒排索引。

接下来笔者会重点介绍使用Bitmap索引来加快多维条件查询的基本原理以及工程实践，最后也会对倒排索引进行一个简单的介绍。其实这两种索引无论在原理上还是在工程实践上都极其相似，只是在几个小的细节问题上有所不同，在文章最后笔者也会进行详细的说明。

Bitmap索引到底是个神马

Bitmap称为位图，对此不了解的童鞋可以自行Google。在此我们举个简单的例子来演示如何使用Bitmap Index来加速数据库的多维查询性能。下图是一张典型的时序数据表：

Timestamp	Page	Username	Gender	City	Added	Removed
2011-01-01T01:00:00Z	Justin Bieber	Boxer	Male	San Francisco	1800	25
2011-01-01T01:00:00Z	Justin Bieber	Reach	Female	Taiyuan	2912	42
2011-01-01T02:00:00Z	Ke$ha	Helz	Female	Calgary	1953	17
2011-01-01T02:00:00Z	Ke$ha	Xeno	Male	Taiyuan	3194	170

图中Timestamp列是时序列，Page、Username、Gender和City这几个列是维度列，Added以及Removed两列是数值列。基于这样的原始表，可以构造一个典型的多维查询如下：

select Added from datasource where Gender = ‘Female’ and City = ‘Taiyuan’

查询中使用两个维度条件进行过滤，分别是Gender以及City列。很显然，如果不使用任何技术手段的话，在原始表上根据如上两个维度的过滤条件进行查询需要遍历整个原始表，并对相应维度列进行过滤，这个代价很显然是非常可观的。那能不能有一种方法可以直接根据维度的过滤条件得到待查找目标行，比如上述示例中能不能根据Gender = ‘Female’ and City = ‘Taiyuan’这两个过滤条件直接定位到待查找目标行就是第二行，其他行都不满足条件，这样的话只需要查找第二行的Added列返回给用户即可，不再需要野蛮的全表扫描并一条一条数据进行对比。这就是Bitmap索引（倒排索引）的使命！

使用Bitmap索引的基本原理是将这两列上的数值映射到bitmap上，再采用intersection表示来实现and、or等这种查询谓词。在上述示例中，将Gender以及City两列映射成bitmap如下图所示：

原始表中，Gender列中有两个值：Male和Female，因此需要设置两个对应的bitmap，Male分配一个，Female分配一个，两个bitmap的大小对应原始表的数据行数，原始数据有4行，bitmap的大小就是4。再看原始表的Gender列，行1和行4是Male，行2和行3是Female。因此将Male对应的bitmap中坐标为1和4的值置为1，其他两位置为0。Female对应的bitmap中坐标为2和3的值置为1，其他两位置为0。

这样的bitmap表示什么意思呢？以Male对应的bitmap来说，下标是1和4的值为1就表示原始表中这一列的第一行和第4行的值为Male。同理，Female对应的bitmap中下标是2和3对应的值为1表示原始表中这一列的第2行和第3行的值为Female。同样的道理，City列可以表示为上图右侧3个bitmap。

可见，每个维度列有多少种取值（Cardinality），这个维度列就会有多少个Bitmap。每个Bitmap表示对应取值在原始表中哪些行出现过。

这样表示完成之后，再来看看查询语句：where Gender = ‘Female’ and City = ‘Taiyuan’，就可以使用对应bitmap表示为如下形式：

分别拿出Gender = ‘Female’ and City = ‘Taiyuan’对应的bitmap，执行and操作实际上对应位图的与运算，最终得到一个结果位图，结果位图中只有下标2的值置为1，说明原始表中满足查询条件的行只有第二行。接下来的工作就是怎么查询第二行的Added数值，这里就不再赘述。

很多讲解位图索引的博客对位图索引的介绍大多到此为止，仅仅介绍位图索引的工作原理。本文在介绍位图索引工作原理的基础上还会进一步深入介绍在真实的工程实践中整个位图索引工作体系。本文以Druid系统的目标，对Druid中位图索引的工作原理深入分析。主要包括如下几个部分：

之前在一个开源项目中实现过一个倒排索引功能，其实与Bitmap索引实现原理基本一致。因为在之前并没有接触过倒排索引相关的实践知识，因此头脑中也没有非常完整的勾勒出这个功能的核心体系，在实现的时候才发现这样那样的问题，虽说最后也实现了功能，现在想来整个系统的模块化设计并不是非常考究。经过倒排索引项目的洗礼，再结合这段时间对Druid中Bitmap索引实现的研究，才将Bitmap索引这样一个大功能分解成上图中的五个小功能，每个小功能都是一个独立模块，笔者认为任何对Bitmap索引的工程实现都可以参考这五个模块进行设计思考。接下来就以Druid中Bitmap索引的实现分别就这五个小功能的细节问题进行深入分析。

Bitmap索引如何在内存中构建？

Druid数据实时写入节点采用LSM结构保证数据的写入性能。数据先写入内存，每隔10min（可配）会将内存中的数据persist到本地硬盘形成文件，然后会有一个线程再每隔1h（可配）将本地硬盘的多个文件合并成一个segment。

Bitmap索引构建时机

这里实际上会碰到第一个需要权衡的问题：Bitmap索引是应该在数据写入的同时实时构建呢，还是应该在数据从内存persist到硬盘的时候批量构建。很显然，实时构建会对数据写入吞吐量造成一定影响，实际测试下来发现写入性能会下降5%到15%，而且表维度越多，性能下降越明显。而另一方面，如果是批量构建，那么内存中的数据实际上是没有索引的，这部分数据的检索方式必然与已经持久化到硬盘文件数据的检索方式完全不同：内存中的数据检索不走索引直接查数据，文件中的数据检索需要先走索引再查数据，在实际查询实现中需要分别处理。

Druid中Bitmap的构建时机采用的后者，即在数据从内存persist到硬盘的时候批量构建。本人实现倒排索引时采用的是前者，主要考虑的问题是希望无论数据是在内存还是在硬盘，都能够采用统一的检索方式，即都先根据索引查询行号，再根据行号查具体数据。这样将内存检索和硬盘检索统一处理的好处是在代码实现上更加方便，更加简洁。当然，会牺牲一部分写入性能。

维度列构建维度字典

为维度列构建维度字典是Druid中非常重要的一个步骤。维度列中的值通常都可枚举，比如上文示例中维度列Gender只有两个可选值：Mela和Female，City列同样取值可枚举。因此有必要为每个维度列构建字典，将维度值（大多数为String）映射为Int值，大规模减少数据量。维度字典最核心的是两个Map映射：valueToId和idToValue，以City列为例，该列有三个值，构建出的字典就是 valueToId : , , ，idToValue是map反过来。可以看出来，构建字典就是为维度列的取值赋一个自增的Int值。

同理，可以分别为Page列、UserName列和Gender列构建相应的维度字典，构建完成之后，原始表中第三行的所有维度列就不再是Page:Ke$ha, UserName:Helz, Gender:Female, City:Calgary，而是[1, 2, 1, 2]。

构建Bitmap索引

上文说到Druid中Bitmap索引是在内存数据异步persist到硬盘文件的时候构建的，那接下来就需要看看表中一行记录过来之后如何分别为每个维度列构建Bitmap索引。

在介绍具体的构建流程之前，需要先说明一个关键的点：每个维度列实际上都会维护一个Bitmap数组：MutableBitmap[]，数组大小为每个维度列的可取值多少（Cardinality），比如Gender列只有Male和Female两个取值，Bitmap数组大小就为2。数组的第一个值为Male对应的位图数据，数组的第二个值为Female对应的位图数据。这里就有一个问题，为什么说数组的第一个值是Male对应的位图数据，而不是第二个值呢？这就是用到了上文中提到的维度字典，Male对应的维度字典值为0，就对应数组下标为0；Female对应的维度字典值为1，对应数据下标就为1。

下面以其中一行数据为例介绍构建Bitmap索引的过程：

1. 首先会为每一行生成一个自增的rowNum

2. 遍历所有维度列，分别为每个维度列构建相应的Bitmap数组

针对某个纬度列的value值，首先在维度字典中根据value找到对应的id，这个id即是Bitmap数组的下标，根据这个下标找到该value对应的位图数据，即MutableBitmap[id]
定位到位图数据之后，再将该位图下标为rowNum的bit位置为1

为了更加具体地理解整个Bitmap索引构建的过程，我们以上文中Gender维度列为例模拟构建的过程：

1. Gender维度列会维护了一个位图数组MutableBitmap[] bitmaps，里面有两个位图元素，下标为0的是Male对应的bitmap，下标为1的是Female对应的bitmap。初始时这两个bitmap中都没有任何数字。

2. 遍历第一行（rowNum = 0），值为Male，根据维度字典找到对应的id位0，即Male对应的位图数据为bitmaps[0]，将bitmaps[0]下标0（rowNum为0）的bit位置为1，得到：

3. 遍历第二行（rowNum = 1），值为Female，根据维度字典找到对应的id位1，即Male对应的位图数据为bitmaps[1]，将bitmaps[1]下标1（rowNum为1）的bit位置为1，得到：

4. 遍历第三行（rowNum = 2），值为Female，根据维度字典找到对应的id位1，即Male对应的位图数据为bitmaps[1]，将bitmaps[1]下标2（rowNum为2）的bit位置为1，得到：

5. 遍历第一行（rowNum = 3），值为Male，根据维度字典找到对应的id位0，即Male对应的位图数据为bitmaps[0]，将bitmaps[0]下标3（rowNum为3）的bit位置为1，得到：

这样，就可以得到Gender维度列的Bitmap索引。当然，遍历一行数据时，同时会为所有其他维度列构建Bitmap索引，上述过程仅以Gender维度列作为示例，其他维度列同理可得。

Bitmap索引如何进行压缩处理？

Bitmap索引为什么需要压缩？

还是以Gender列为例，上文我们知道这个维度列只有两个取值：Male和Female，因此无论对于Male对应的位图数据，还是Female对应的位图数据，都会存在大量的连续的0或者连续的1，非常适合压缩编码，减小存储空间。

Bitmap索引如何进行压缩？

针对Bitmap的压缩有非常多的算法，大家可以自行Google。根据压缩效率、解码效率以及intersection等计算效率等指标的权衡，特别推荐使用RoaringBitmap压缩算法。有兴趣的同学可以自行Google。

Bitmap索引如何持久化存储？

Druid中原始数据每隔一段时间就会落盘一次，随着原始数据的落盘，原始数据中维度列对应的Bitmap索引也需要执行持久化存储。在实际实现中，Druid首先将维度字典持久化到文件，再将原始数据（维度列都使用维度字典编码处理）持久化到文件，最后再将维度列对应的Bitmap索引持久化到文件。

对于Druid系统来说，这里需要关注两点：

1. Druid系统是列式存储系统，同一个segment中所有列的数据都会分别独立存储在一起形成多个列文件，比如City列的数据会存储在一起形成文件，Added列的数据会存储在一起形成文件。其他列同理。

2. Druid系统中的文件分为两种，一种是定长文件格式，一种是非定长文件格式。定长文件针对于列数值是定长的，比如某些数值列是Double的，有些数据列是Long类型，再比如维度列经过编码之后所有维度列都是Int类型，时间列是Long类型。这些定长文件格式很简单，直接存储数值即可。而非定长文件通常主要针对列数值不是定长的，比如维度字典文件中需要存储维度值，这些维度值通常是字符串，并不定长；比如Bitmap索引的存储文件中需要存储Bitmap位图数据，这些值也不是定长的。下文主要介绍Bitmap索引的存储，所以重点介绍非定长文件格式。

Druid中非定长数值存储的文件格式如下图所示：

可以看出，Druid系统中使用了3个文件来存储非定长数据：meta文件，header文件以及value文件，其中meta文件主要存储一些元数据信息，比如存储数值个数、存储数值总大小等；value文件存储实际的数值，一个数值一个数值写进去，在实际数据之前有一个int值表示该数值的大小；header文件实际上是value文件中每个数值在value文件的偏移量，文件中每个值都是一个int。

维度字典文件存储

纬度列数据字典在数据写入的时候就会构建，并一直保存在内存。Druid会在persist的时候将其持久化形成维度字典文件，每个维度列的字典会单独形成一个文件，比如Gender维度列的数据字典会形成一个文件，City维度列的数据字典会形成另一个文件。下图是City维度列形成的维度列字典文件格式（没有列出meta文件）：

City维度列的数据字典一共有3个值：Calgary、San Francisco和Taiyuan，持久化到文件后就是上图格式，需要特别注意的是：数据字典的值是按照字典序由小到大排列之后存入文件的。比如上图中Calgary、San Francisco和Taiyuan就是按照由小到大排序后存储的。

这个点是工程实践中非常重要的一个技术点。上文中我们说数据字典在构建的时候其实并没有强调排序，而是按照维度列进来系统的顺序构建字典的，比如San Francisco先进入系统，在第一行，所以San Francisco对应的编码值就为0，Taiyuan是第二行，所以Taiyuan对应的编码值为1，同理，Calgary编码值为2。而且，Bitmap索引构建也是依赖于非排序的维度字典。如果此时在持久化的时候要将维度字典进行排序，那意味着Bitmap位图数据在Bitmap数组MutableBitmap[]中的位置也需要相应的变化，保持一致。

为什么需要排序？如果不排序直接存储行不行？

解答这个问题之前先看看维度字典文件，可以得到文件中只存储了维度列的值，并没有存储对应的编码值，那编码值哪去了？实际上编码值隐含在维度列值的下标，比如Calgary是第一个值，那对应的编码值就是0，Taiyuan是第三个值，对应的编码值就是2。基于这样的事实，如果不排序，你来告诉我如果说我想查Taiyuan对应的编码值，如何查？那就蒙圈了，需要一个一个遍历的查，如果某个维度Cardinality很大的话，不就跪了。而反过来，如果排序的话，就可以通过二分查找来查，下文会举例介绍。

Bitmap索引文件存储

Bitmap索引文件和维度字典文件是一一对应的，每个维度列的Bitmap索引会单独形成一个文件，比如Gender维度列的Bitmap索引会形成一个文件，City维度列的Bitmap索引会形成一个文件。下图是City维度列形成的Bitmap索引文件：

注意，Bitmap索引文件中Bitmap位图数据的存储顺序必须和维度字典中对应值的存储顺序一致。比如维度字典中Calgary存储在文件中第一的位置，对应的Bitmap位图就必须存储在相应第一的位置。

查询时如何根据Bitmap索引构建Cursor体系？

以查询语句select Added from datasource where Gender = ‘Female’ and City = ‘Taiyuan’为例，看看如何实现将where Gender = ‘Female’ and City = ’Taiyuan’这么一个多维度过滤条件转化成如下Bitmap与运算的结果：

这样一个过程实际上可以分为两步：

1. 如何根据Gender = ‘Female’找到对应的位图数据？同理，如何根据City = ’Taiyuan’找到对应的位图数据？

2. 如何根据and操作符实现位图与操作？

根据and操作符实现位图与操作是比较简单的，现在很多Bitmap实现包中都有类似的功能，在此不再赘述。因此构建Cursor体系实际上就简化为根据维度过滤条件查找对应的位图数据这样一个问题。为了更加具体，我们以City = ’Taiyuan’为例定位对应的位图数据。整个过程分为如下几个部分：

1. 在City列对应的维度字典文件中查找’Taiyuan’值在文件中的下标

因为文件中维度值是由小到大排序的，所以查找的战术思想是二分查找。首先将查找指针移动到header文件的中心，中心下标curIndex = (minIndex,maxIndex)>>>1，header文件的中心值为offset_SanFrancisco，这个offset实际上指向了value文件中的San Francisco（这里忽略了一些细节），这个值与我们要找的值Taiyuan相比较，很显然前者小于后者，因此继续往后找。经过多次的查找，最终定位到Taiyuan对应的下标是2（从0开始哦）。

2. 在City列对应的Bitmap索引文件中查找下标为2的Bitmap位图数据，如下图所示，首先在header文件中找到下标为2的offset为offset_ty_bm，再根据偏移值在value文件中定位出Taiyuan对应的bitmap位图数据。（忽略具体的查找细节）

经过这两步的执行就可以根据City = ’Taiyuan’得到对应的bitmap位图数据，同理，根据Gender = ‘Female’可以得到对应的bitmap位图数据，两者使用与运算就可以得到一个最终的Bitmap位图索引，这个位图索引我们称为Cursor。

如何根据Cursor体系快速查找对应行数据？

Cursor结构体构建出来之后，如果根据这个结构快速的查找对应的行数据呢？这个过程也可以分为两步：

1. 根据上文介绍知道Cursor结构体实际上就是一个bitmap，bitmap中置为1的下标表示该行数据符合过滤条件。因此需要顺序遍历这个bitmap的所有位，如果目标位为1，表示该目标位下标对应的行满足过滤条件，需要将该行的对应数据找出来返回给用户。否则不满足过滤条件，直接跳过。

2. 假如bitmap中下标为的位置值为1，表示第二行满足过滤条件，因此需要查找第二行Added列的值。实现起来很简单，因为该列的所有值都存储在一个文件中，而且每个值都定长（都是Int），因此可以很快的在文件中加载出startOffset为Ints.Bytes，endOffset为2*Ints.Bytes的值，即为Added的值。

其他需要考虑的问题

讲到这里，笔者基本上已经将Bitmap索引的工程实践需要考量的技术点都做了介绍，但还有几个点需要考虑：

1. Bitmap索引目前仅支持写入，不支持更新。如果需要支持更新，需要做另外的考虑。

2. Bitmap索引文件需要在segment合并的时候也执行合并，合并的过程实际上也是一行一行的读出来，然后再根据上述过程生成一个新的Bitmap索引文件。

Inverted Index（倒排索引）工程实践

笔者之前在一个开源项目中实现了倒排索引功能，现在看来，基本实现思路和上述过程基本一致，核心不同点在于：倒排索引中每个维度列取值不再对应bitmap，而是对应一个列表。举个栗子，Bitmap索引体系中，Gender维度列中Male对应一个bitmap是[1,0,0,1]。换成倒排索引，Gender维度列中Male对应的不再是bitmap，而是一个List : [0,2]，分别表示第1行和第三行。

除此之外，还有一些实现细节有些许不同：

1. Bitmap压缩性能通常没有倒排索引中List压缩效果好，前者会存在较大的存储空间开销。

2. Bitmap使用intersection实现and、or等操作的性能要好于倒排索引的List结构，后者需要从小到大遍历查找

3. 使用Bitmap构建的Cursor加速原始数据查找，需要遍历bitmap来找哪一行满足条件，只有bit位是1的才满足条件；而倒排索引构建的Cursor不需要查找，List中的数值就直接对应行号。

在常见的时序数据库中，InfluxDB和HiTSDB都使用了倒排索引来加速多维度查询，倒排索引会首先在内存中构建并持久化到文件（或HBase），在使用时再将索引加载到内存。

文章总结

这是很早之前花时间将之前研究的Bitmap索引知识整理了出来，拿出来和大家分享。本文从理论和工程实践两个方面对Bitmap索引的工作原理进行了深入的介绍，笔者认为文章的核心在于如何在工程实践中将Bitmap索引这么一个大命题分解成五个子命题，每个子命题中我们又应该重点关注哪些技术点。不得不说，要讲清楚Bitmap索引的工程实践确实有一定难度，文中或多或少会有一些难于理解的地方甚至纰漏。还忘各位看官担待指正！

Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
云计算、边缘计算与雾计算白小白呀笔记大数据
云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
AI与SDN结合：智能网络的未来之路不想加班的码小牛人工智能网络 ai
一、引言“网络正在从‘被动响应’走向‘主动思考’。”随着云计算、5G和物联网的爆发式增长，传统网络架构面临灵活性不足、运维成本高等挑战。SDN（软件定义网络）通过控制与转发分离革新了网络管理方式，而AI的引入让SDN从“自动化”迈向“智能化”。二、AI+SDN的技术背景1.1为什么需要AI赋能SDN？传统SDN痛点AI的解决能力流量策略依赖人工规则动态学习流量模式，实时优化策略故障定位耗时（如网络
SDN技术解码：架构革新与数字化转型实践指南 ——从控制平面到AI融合的网络进化论不想加班的码小牛架构平面人工智能网络协议
一、引言：SDN如何重塑网络价值体系？在数字化浪潮下，传统网络架构的僵化性已成为制约业务创新的瓶颈。SDN（软件定义网络）通过解耦控制与转发平面，将网络从“黑盒设备”转变为“可编程服务”，为云计算、物联网等领域提供动态、智能的网络底座。例如，某金融企业通过SDN实现跨地域数据中心流量智能调度，业务故障恢复时间缩短至分钟级。二、SDN核心架构与技术原理1.三层架构：控制-转发-应用的协同生态•控制层
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
数据处理的革命性引擎绿算技术 DPU架构介绍硬件工程科技缓存
随着数据量的爆炸式增长和计算需求的多样化，传统的CPU和GPU已经无法完全满足现代数据中心和高性能计算的需求。在这样的背景下，DPU（DataProcessingUnit，数据处理单元）应运而生。DPU是一种专为数据处理和网络加速设计的处理器，正在成为数据中心和云计算架构中的重要组成部分。接下来，由绿算技术与大家一起学习DPU有哪些功能、技术、原理等等内容。DPU的功能：数据处理的“全能选手”DP
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
Alibaba Cloud Linux V3 新版发布，以安全为基石，为阿里云ECS九代实例注入 AI 新动力操作系统
在当今快速发展的云计算时代，企业和开发者们不断寻求更高效、更安全的解决方案来支持其业务的增长和创新。操作系统作为连接硬件与软件应用的桥梁，在云端环境中扮演着重要的角色，不仅管理着底层资源，还为上层应用提供了稳定可靠的执行环境。随着技术的进步，用户对性能、稳定性和安全性的要求也在不断提高。阿里云作为头部云服务商，也在不断提升用户体验。最近，官方团队推出了AlibabaCloudLinuxV3011版
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
向量库集成指南三月七꧁ ꧂ langchain+llm 集成学习自然语言处理语言模型机器学习人工智能 gpt llama
文章目录向量库集成指南Chroma集成Pinecone集成MiLvus集成向量库集成指南向量库是一种索引和存储向量嵌入以实现高效管理和快速检索的数据库。与单独的向量索引不同，像Pinecone这样的向量数据库提供了额外的功能，例如，索引管理、数据管理、元数据存储和过滤，以及水平扩展。特别是在处理大数据和复杂查询时，向量库在多种应用场景中发挥着关键作用。其中，语义文本搜索是一个典型的应用，用
PHP语言的学习路线 AI向前看包罗万象 golang 开发语言后端
PHP语言的学习路线PHP（HypertextPreprocessor）是一种广泛使用的开源服务器端脚本语言，尤其适用于Web开发。由于其易学易用、功能强大，PHP成为了许多动态网站和Web应用程序开发的首选语言。随着Web3.0和云计算的兴起，掌握PHP语言将为你的职业发展和技术提升提供重要助力。本文将为你提供一条系统化的PHP学习路线，帮助你从零基础逐步成为PHP开发高手。第一部分：基础知识1
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1