Google Dremel 原理 – 如何能3秒分析1PB

来源：颜开的博客

简介

Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎，获得了很大的成功。最近Apache计划推出Dremel的开源实现Drill，将Dremel的技术又推到了浪尖上。

Google Dremel设计

根据Google公开的论文《 Dremel: Interactive Analysis of WebScaleDatasets》可以看到Dremel的设计原理。还有一些测试报告。论文写于2006年，公开于2010年，Google在处理大数据方面，果真有得天独厚的优势。下面的内容，很大部分来自这篇论文。

随着Hadoop的流行，大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据“玩转”的交互式系统。如此，就可以非常方便快捷的浏览数据，建立分析模型。Dremel系统有下面几个主要的特点：

1, Dremel 是一个大规模系统。在一个PB级别的数据集上面，将任务缩短到秒级，无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下，那么在1S内处理1TB数据，意味着至少需要有1万个磁盘的并发读! Google一向是用廉价机器办大事的好手。但是机器越多，出问题概率越大，如此大的集群规模，需要有足够的容错考虑，保证整个分析的速度不被集群中的个别慢(坏)节点影响。

2, Dremel 是MR 交互式查询能力不足的补充。和MapReduce一样，Dremel也需要和数据运行在一起，将计算移动到数据上面。所以它需要GFS这样的文件系统作为存储层。在设计之初，Dremel并非是MapReduce的替代品，它只是可以执行非常快的分析，在使用的时候，常常用它来处理MapReduce的结果集或者用来建立分析原型。

3, Dremel 的数据模型是嵌套(nested) 的。互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型，这个数据模型至关重要。Dremel支持一个嵌套(nested)的数据模型，类似于Json。而传统的关系模型，由于不可避免的有大量的Join操作，在处理如此大规模的数据的时候，往往是有心无力的。

4, Dremel 中的数据是用列式存储的。使用列式存储，分析的时候，可以只扫描需要的那部分数据的时候，减少CPU和磁盘的访问量。同时列式存储是压缩友好的，使用压缩，可以综合CPU和磁盘，发挥最大的效能。对于关系型数据，如果使用列式存储，我们都很有经验。但是对于嵌套(nested)的结构，Dremel也可以用列存储，非常值得我们学习。

5, Dremel 结合了Web 搜索 和并行DBMS 的技术。首先，他借鉴了Web搜索中的“查询树”的概念，将一个相对巨大复杂的查询，分割成较小较简单的查询。大事化小，小事化了，能并发的在大量节点上跑。其次，和并行DBMS类似，Dremel可以提供了一个SQL-like的接口，就像Hive和Pig那样。

Google Dremel应用场景
设想一个使用场景。我们的美女数据分析师，她有一个新的想法要验证。要验证她的想法，需要在一个上亿条数据上面，跑一个查询，看看结果和她的想法是不是一样，她可不希望等太长时间，最好几秒钟结果就出来。当然她的想法不一定完善，还需要不断调整语句。然后她验证了想法，发现了数据中的价值。最后，她可以将这个语句完善成一个长期运行的任务。

对于Google,数据一开始是放在GFS上的。可以通过MapReduce将数据导入到Dremel中去，在这些MapReduce中还可以做一些处理。然后分析师使用Dremel，轻松愉悦的分析数据，建立模型。最后可以编制成一个长期运行的MapReduce任务。

这种处理方式，让笔者联想到Greenplum的 Chorus. Chorus也可以为分析师提供快速的数据查询，不过解决方案是通过预处理，导入部分数据，减少数据集的大小。用的是三十六计，走为上计，避开的瞬时分析大数据的难题。Chorus最近即将开源，可以关注下。

还有一点特别的就是按列存储的嵌套数据格式。如图所示，在按记录存储的模式中，一个记录的多列是连续的写在一起的。在按列存储中，可以将数据按列分开。也就是说，可以仅仅扫描A.B.C而不去读A.E或者A.B.C。难点在于，我们如何能同时高效地扫描若干列，并做一些分析。

Google Dremel数据模型

在Google, 用Protocol Buffer常常作为序列化的方案。其数据模型可以用数学方法严格的表示如下：

t=dom|<A1:t[∗|?],…,An:t[∗|?]>

其中t可以是一个基本类型或者组合类型。其中基本类型可以是integer,float和string。组合类型可以是若干个基本类型拼凑。星号(*)指的是任何类型都可以重复，就是数组一样。问号(?)指的是任意类型都是可以是可选的。简单来说，除了没有Map外，和一个Json几乎没有区别。

下图是例子，Schema定义了一个组合类型Document.有一个必选列DocId，可选列Links，还有一个数组列Name。可以用Name.Language.Code来表示Code列。

这种数据格式是语言无关，平台无关的。可以使用Java来写MR程序来生成这个格式，然后用C++来读取。在这种列式存储中，能够快速通用处理也是非常的重要的。

上图，是一个示例数据的抽象的模型；下图是这份数据在Dremel实际的存储的格式。

如果是关系型数据，而不是嵌套的结构。存储的时候，我们可以将每一列的值直接排列下来，不用引入其他的概念，也不会丢失数据。对于嵌套的结构，我们还需要两个变量R (Repetition Level) ,D (Definition Level) 才能存储其完整的信息。

Repetition Level是记录该列的值是在哪一个级别上重复的。举个例子说明：对于Name.Language.Code 我们一共有三条非Null的记录。

1, 第一个是”en-us”，出现在第一个Name的第一个Lanuage的第一个Code里面。在此之前，这三个元素是没有重复过的，都是第一个。所以其R为0。

2, 第二个是”en”，出现在下一个Lanuage里面。也就是说Lanague是重复的元素。Name.Language.Code中Lanague排第二个，所以其R为2.

3,第三个是”en-gb”，出现在下一个Name中，Name是重复元素，排第一个，所以其R为1。

我们可以想象，将所有的没有值的列，设值为NULL。如果是数组列，我们也想象有一个NULL值。有了Repetition Level，我们就可以很好的用列表示嵌套的结构了。但是还有一点不足。就是还需要表示一个数组是不是我们想象出来的。

Definition Level 是定义的深度，用来记录该列是否是”想象”出来的。所以对于非NULL的记录，是没有意义的，其值必然为相同。同样举个例子。例如Name.Language.Country,

· 第一个”us”是在R1里面，其中Name,Language,Country是有定义的。所以D为3。

· 第二个”NULL”也是在R1的里面，其中Name,Language是有定义的,其他是想象的。所以D为2。

· 第三个”NULL”还是在R1的里面，其中Name是有定义的,其他是想象的。所以D为1。

· 第四个”gb”是在R1里面，其中Name,Language,Country是有定义的。所以D为3。

就是这样，如果路径中有required，可以将其减去，因为required必然会define，记录其数量没有意义。

理解了如何存储这种嵌套结构。写没有难度。读的时候，我们只读其中部分字段，来构建部分的数据模型。例如，只读取DocID和Name.Language.Country。我们可以同时扫描两个字段，先扫描DocID。记录下第一个，然后发现下一个DocID的R是0；于是该读Name.Language.Country，如果下一个R是1或者2就继续读，如果是0就开始读下一个DocID。

下图展示了一个更为复杂的读取的状态机示例。在读取过程中使用了Definition Level来快速Jump,提升性能。

到此为止，我们已经知道了Dremel的数据结构。就像其他数据分析系统一样，数据结构确定下来，功能就决定了一大半。对于Dremel的数据查询，必然是“全表扫描”，但由于其巧妙的列存储设计，良好的数据模型设计可以回避掉大部分Join需求和扫描最少的列。

Google Dremel查询方式

Dremel可以使用一种SQL-like的语法查询嵌套数据。由于Dremel的数据是只读的，并且会密集的发起多次类似的请求。所以可以保留上次请求的信息，还优化下次请求的explain过程。那又是如何explain的呢？

这是一个树状架构。当Client发其一个请求，根节点受到请求，根据metadata，将其分解到枝叶，直到到位于数据上面的叶子Server。他们扫描处理数据，又不断汇总到根节点。

举个例子：对于请求：

SELECT A, COUNT(B) FROM T GROUP BY A

根节点收到请求，会根据数据的分区请求，将请求变成可以拆分的样子。原来的请求会变为：

SELECT A, SUM(c) FROM (R1 UNION ALL ... Rn) GROUP BY A

R1,…RN是T的分区计算出的结果集。越大的表有越多的分区，越多的分区可以越好的支持并发。

然后再将请求切分，发送到每个分区的叶子Server上面去,对于每个Server

 Ri = SELECT A, COUNT(B) AS c FROM Ti GROUP BY A

结构集一定会比原始数据小很多，处理起来也更快。根服务器可以很快的将数据汇总。具体的聚合方式，可以使用现有的并行数据库技术。

Dremel是一个多用户的系统。切割分配任务的时候，还需要考虑用户优先级和负载均衡。对于大型系统，还需要考虑容错，如果一个叶子Server出现故障或变慢，不能让整个查询也受到明显影响。

通常情况下，每个计算节点，执行多个任务。例如，技巧中有3000个叶子Server，每个Server使用8个线程，有可以有24000个计算单元。如果一张表可以划分为100000个区，就意味着大约每个计算单元需要计算5个区。这执行的过程中，如果某一个计算单元太忙，就会另外启一个来计算。这个过程是动态分配的。

对于GFS这样的存储，一份数据一般有3份拷贝，计算单元很容易就能分配到数据所在的节点上，典型的情况可以到达95%的命中率。

Dremel还有一个配置，就是在执行查询的时候，可以指定扫描部分分区，比如可以扫描30%的分区，在使用的时候，相当于随机抽样，加快查询。

Google Dremel测试实验

实验的数据源如下表示。大部分数据复制了3次，也有一个两次。每个表会有若干分区，每个分区的大小在100K到800K之间。如果压缩率是25%，并且计入复制3份的事实的话。T1的大小已经达到PB级别。这么小且巨量的分区，对于GFS的要求很高，现在的Hdfs稳定版恐怕受不了。接下来的测试会逐步揭示其是如何超过MR，并对性能作出分析。

表名	记录数	大小( 已压缩)	列数	数据中心	复制数量
T1	85 billion	87 TB	270	A	3×
T2	24 billion	13 TB	530	A	3×
T3	4 billion	70 TB	1200	A	3×
T4	1+ trillion	105 TB	50	B	2×
T5	1+ trillion	20 TB	30	B	3×

列存测试

首先，我们测试看看列存的效果。对于T1表，1GB的数据大约有300K行，使用列存的话压缩后大约在375MB。这台机器磁盘的吞吐在70MB/s左右。这1GB的数据，就是我们的现在的测试数据源，测试环境是单机。

见上图。

· 曲线A，是用列存读取数据并解压的耗时。

· 曲线B是一条一条记录挨个读的时间。

· 曲线C是在B的基础上，加上了反序列化的时间。

· 曲线d，是按行存读并解压的耗时。

· 曲线e加上了反序列化的时间。因为列很多，反序列化耗时超过了读并解压的50%。

从图上可以看出。如果需要读的列很少的话，列存的优势就会特别的明显。对于列的增加，产生的耗时也几乎是线性的。而一条一条该个读和反序列化的开销是很大的，几乎都在原来基础上增加了一倍。而按行读，列数的增加没有影响，因为一次性读了全部列。

Dremel和MapReduce的对比测试

MR和Dremel最大的区别在于行存和列存。如果不能击败MapReduce，Remel就没有意义了。使用最常见的WordCount测试，计算这个数据中Word的个数。

Q1: SELECT SUM(CountWords(txtField)) / COUNT(*) FROM T1

上图是测试的结果。使用了两个MR任务。这两个任务和Dremel一样都运行在3000个节点上面。如果使用列存，Dremel的按列读的MR只需要读0.5TB的数据，而按行存需要读87TB。 MR提供了一个方便有效的途经来讲按行数据转换成按列的数据。Dremel可以方便的导入MapReduce的处理结果。

树状计算Server测试

接下来我们要对比在T2表示使用两个不同的Group BY查询。T2表有24 billion 行的记录。每个记录有一个 item列表，每一item有一个amount 字段。总共有40 billion个item.amount。这两个Query分别是。

Q2: SELECT country, SUM(item.amount) FROM T2 GROUP BY country

Q3: SELECT domain, SUM(item.amount) FROM T2 WHERE domain CONTAINS ’.net’ GROUP BY domain

Q2需要扫描60GB的压缩数据，Q3需要扫描180GB，同时还要过滤一个条件。

上图是这两个Query在不同的server拓扑下的性能。每个测试都是有2900个叶子Server。在2级拓扑中，根server直接和叶子Server通信。在3级拓扑中，各个级别的比例是1:100:2900，增加了100个中间Server。在4级拓扑中，比例为1:10:100:2900.

Q2可以在3级拓扑下3秒内执行完毕，但是为他提供更高的拓扑级别，对性能提升没有裨益。相比之下，为Q3提供更高的拓扑级别，性能可以有效提升。这个测试体现了树状拓扑对性能提升的作用。

每个分区的执行情况

对于刚刚的两个查询，具体的每个分区的执行情况是这样的。

可以看到99%的分区都在1s内完成了。Dremel会自动调度，使用新的Server计算拖后腿的任务。

记录内聚合

由于Demel支持List的数据类型，有的时候，我们需要计算每个记录里面的各个List的聚合。如

Q4 : SELECT COUNT(c1 > c2) FROM

(SELECT SUM(a.b.c.d) WITHIN RECORD AS c1,

SUM(a.b.p.q.r) WITHIN RECORD AS c2

FROM T3)

我们需要count所有sum(a.b.c.d)比sum(a.b.p.q.r)，执行这条语句实际只需要扫描13GB的数据，耗时15s，而整张表有70TB。如果没有这样的嵌套数据结构，这样的查询会很复杂。

扩展性测试

Dremel有良好的扩展性，可以通过增加机器来缩短查询的时间。并且可以处理数以万亿计的记录。

对于查询：

Q5: SELECT TOP(aid, 20), COUNT(*) FROM T4 WHERE bid = fvalue1g AND cid = fvalue2g

使用不同的叶子Server数目来进行测试。

可以发现CPU的耗时总数是基本不变的，在30万秒左右。但是随着节点数的增加，执行时间也会相应缩短。几乎呈线性递减。如果我们使用通过CPU时间计费的“云计算”机器，每个租户的查询都可以很快，成本也会非常低廉。

容错测试

一个大团队里面，总有几个拖油瓶。对于有万亿条记录的T5，我们执行下面的语句。

Q6: SELECT COUNT(DISTINCT a) FROM T5

值得注意的是T5的数据只有两份拷贝，所以有更高的概率出现坏节点和拖油瓶。这个查询需要扫描大约1TB的压缩数据，使用2500个节点。

可以看到99%的分区都在5S内完成的。不幸的是，有一些分区需要较长的时间来处理。尽管通过动态调度可以加快一些，但在如此大规模的计算上面，很难完全不出问题。如果不在意太精确的结果，完全可以小小减少覆盖的比例，大大提升相应速度。

Google Dremel 的影响

Google Dremel的能在如此短的时间内处理这么大的数据，的确是十分惊艳的。有个伯克利分校的教授Armando Fox说过一句话“如果你曾事先告诉我Dremel声称其将可做些什么，那么我不会相信你能开发出这种工具”。这么给力的技术，必然对业界造成巨大的影响。第一个被波及到的必然是Hadoop。

Dremel与Hadoop

Dremel的公开论文里面已经说的很明白，Dremel不是用来替代MapReduce，而是和其更好的结合。Hadoop的Hive，Pig无法提供及时的查询，而Dremel的快速查询技术可以给Hadoop提供有力的补充。同时Dremel可以用来分析MapReduce的结果集，只需要将MapReduce的OutputFormat修改为Dremel的格式，就可以几乎不引入额外开销，将数据导入Dremel。使用Dremel来开发数据分析模型，MapReduce来执行数据分析模型。

Hadoop的Hive,Pig现在也有了列存的模式，架构上和Dremel也接近。但是无论存储结构还是计算方式都没有Dremel精致。对Hadoop实时性的改进也一直是个热点话题。要想在Hadoop中山寨一个Dremel，并且相对现有解决方案有突破，笔者觉得Hadoop自身需要一些改进。一个是HDFS需要对并发细碎的数据读性能有大的改进，HDFS需要更加的低延迟。再者是Hadoop需要不仅仅支持MapReduce这一种计算框架。其他部分,Hadoop都有对应的开源组件，万事俱备只欠东风。

Dremel的开源实现

Dremel现在还没有一个可以运行的开源实现，不过我们看到很多努力。一个是Apache的Drill，一个是OpenDremel/Dazo。

OpenDremel/Dazo

OpenDremel是一个开源项目，最近改名为Dazo。可以在GoogleCode上找到 http://code.google.com/p/dremel/。目前还没有发布。作者声称他已经完成了一个通用执行引擎和OpenStack Swift的集成。笔者感觉其越走越歪，离Dremel越来越远了。

Apache Drill

Drill 是Hadoop的赞助商之一MapR发起的。Drill作为一个Dremel的山寨项目，有和Dremel相似的架构和能力。他们希望Drill最终会想Hive,Pig一样成为Hadoop上的重要组成部分。为Hadoop提供快速查询的能力。和Dremel有一点不同，在数据模型上，开源的项目需要支持更标准的数据结构。比如CSV和JSON。同时Drill还有更大的灵活性，支持多重查询语言，多种接口。

现在Drill的目标是完成初始的需求，架构。完成一个初始的实现。这个实现包括一个执行引擎和DrQL。DrQL是一个基于列的格式，类似于Dremel。目前，Drill已经完成的需求和架构设计。总共分为了四个组件

· Query language:类似Google BigQuery的查询语言，支持嵌套模型，名为DrQL.

· Low-lantency distribute execution engine:执行引擎，可以支持大规模扩展和容错。可以运行在上万台机器上计算数以PB的数据。

· Nested data format:嵌套数据模型，和Dremel类似。也支持CSV,JSON,YAML类似的模型。这样执行引擎就可以支持更多的数据类型。

· Scalable data source: 支持多种数据源，现阶段以Hadoop为数据源。

目前这四个组件在分别积极的推进，Drill也非常希望有社区其他公司来加入。Drill希望加入到Hadoop生态系统中去。

最后的话

本文介绍了Google Dremel的使用场景，设计实现，测试实验，和对开源世界的影响。相信不久的将来，Dremel的技术会得到广泛的应用。

数据科学家：21世纪最性感的职业
Hadoop：你不得不了解的大数据工具
圆桌论坛：如何应对海量数据的挑战
谢超：大数据下的数据分析平台架构
大数据技术综述

全面掌握3GPP协议：从3G到5G的标准指南凌莫凡
本文还有配套的精品资源，点击获取简介：3GPP协议是移动通信技术发展的基石，为3G和4G网络提供技术规范，并为5GNR奠定了基础。协议族包括无线接入网络、核心网、服务和应用等，确保设备和网络间的互操作性。本导读详细解析了3GPP的各个系列标准，覆盖了LTE、E-UTRA、移动通信网络架构、安全性、测试和测量、用户平面功能、5GNR等关键领域。学习本导读，初学者可以全面了解3GPP协议在移动通信网络
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
web服务器之云主机、物理机租用、服务器托管的区别 wayuncn 服务器租用托管云服务器服务器运维
云主机、物理机租用和服务器托管是三种不同的Web服务器部署方式，它们各有特点，适用于不同需求的用户。以下是这三种服务的区别：云主机（CloudHosting）：资源分配：基于虚拟化技术，多个用户共享物理服务器的资源，但每个用户的环境是隔离的。灵活性与扩展性：用户可以根据需要快速调整资源（CPU、内存、存储等），具有较高的弹性和按需付费的特点。管理维护：通常由云服务提供商负责硬件维护和部分软件环境的
USB服务器在证券公司虚拟化进程中的应用分析复园电子 USB Server 服务器运维开发语言 java 人工智能大数据网络
在证券公司全面拥抱虚拟化、云化的技术浪潮中，一个看似微小却至关重要的环节曾长期阻碍进程：分散在各业务环节的银行前置机U盾、各种系统认证Ukey等物理USB安全设备的管理难题。这些承载着资金划拨、交易认证核心权限的“小钥匙”，在传统模式下存在诸多痛点：1、管理分散，监管困难：U盾/Ukey物理分散在交易员、清算员、运维人员手中，使用记录难以实时监控和追溯，存在操作风险和内部安全隐患。2、虚拟化环境“
[架构之美]Spring Boot 3.5.3新特性解析及JDK21集成曼岛_ 成长之路架构 springboot3.5.3
[架构之美]SpringBoot3.5.3新特性解析及JDK21集成SpringBoot3.5.3作为关键补丁版本，不仅修复了此前版本中的棘手回归问题，更深度整合JDK21特性，为高并发与云原生应用带来突破性提升。本文将深入解析其核心技术亮点及实战应用。一、关键修复与版本背景1.1紧急修复回归问题问题定位：3.5.1版本中因Tomcat升级（10.1.42）引入的multipart/form-da
ART（Automatic Reasoning and Tool-use）：自动推理与工具使用的革命性突破
引言在人工智能快速发展的今天，大语言模型（LLM）的能力边界正在不断被重新定义。ART（AutomaticReasoningandTool-use）技术作为一项革命性的突破，为AI系统提供了自动推理并使用外部工具的能力，这标志着我们正在迈向更加智能和实用的AI时代。什么是ART技术？ART是AutomaticReasoningandTool-use的缩写，它是一种让AI系统能够自动进行推理并调用外
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
ARM技术深度解析：从架构到SoC设计的实战指南三更寒天
本文还有配套的精品资源，点击获取简介：《ARM架构参考手册》和《ARM系统级芯片架构》是深入理解ARM技术的两本权威书籍。ARM架构是全球微处理器技术的主流，在嵌入式系统和移动设备中占据统治地位。这两本书为读者提供了深入的ARM架构和系统级芯片设计知识，从基础的ARM指令集到处理器模式、寄存器组织、异常和中断处理、寻址模式以及协处理器接口，再到SoC设计基础、系统总线协议、内存管理、电源管理、外设
绕过SQL注入监测的技术
绕过SQL注入监测的技术SQL注入监测通常通过WAF(Web应用防火墙)、IDS/IPS或应用层检测机制实现：1.编码混淆技术十六进制编码：SELECT*FROMusersWHEREid=0x31OR1=1URL编码：id=1%20OR%201%3D1Unicode编码：id=1+OR+1=1→id=1+%u004F%u0052+%u0031%u003D%u00312.注释混淆内联注释（MySQL
2025系统架构师---管道/过滤器架构风格喜欢猪猪 java 开发语言
引言在分布式系统与数据密集型应用主导技术演进的今天，‌管道/过滤器架构风格‌（PipesandFiltersArchitectureStyle）凭借其‌数据流驱动‌、‌组件解耦‌与‌并行处理能力‌，成为处理复杂数据转换任务的核心范式。从Unix命令行工具到实时金融交易引擎，从图像处理流水线到物联网边缘计算，管道/过滤器架构通过将系统拆分为独立处理单元（过滤器）与数据传递通道（管道），实现了功能模块
容器技术分享倬宁 docker 容器 kubernetes
一、开篇词容器技术由来已久，却直到几十年后因dotCloud公司（后更名为Docker）于Docker项目中发明的“容器镜像”技术创造性的解决了应用打包的难题才焕发出新的生命力并以“应用容器”的面目风靡与世，也催生出或改变了一大批诸如容器编排、服务网络和云原生等技术，深刻的影响了云计算领域的技术方向。二、容器容器（container）：实际上是一种沙盒技术，能够像一个集装箱一样，把你的应用“装”起
Electron 快速上手 AAA小土豆 electron arcgis javascript
技术栈Web技术包括HTML、CSS、JavaScript和WebAssembly。它们是现代互联网的基石。这些技术已成为构建用户界面的最佳选择——无论是对于消费者应用程序还是关键业务型应用程序。这不仅适用于需要在浏览器中运行的应用程序，也适用于那些无法通过浏览器访问的桌面应用程序。我们在此大胆断言，这不仅适用于需要在多个操作系统上运行的跨平台应用程序，而且适用于所有类型的应用程序。Electro
Random Erasing：计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命星光银河深度学习-代表性技术主题 /概念层面计算机视觉学习人工智能 cnn 神经网络深度学习
当ImageNet冠军模型在真实世界的遮挡面前崩溃时（识别准确率骤降38%），中科院自动化研究所2017年提出的RandomErasing技术以一纸惊艳了学界。这种在图像中随机挖洞的简单操作，让ResNet-50在Partial-iNaturalist数据集上抗遮挡能力提升4.2倍，错误率降低59%，揭示了模型鲁棒性的深层密码。️遮挡困境：视觉模型的阿喀琉斯之踵图像识别鲁棒性演化史时代技术Imag
什么是神经网络架构搜索（NAS, Neural Architecture Search），如何写对应的python程序代码呢小桥流水---人工智能算法深度学习 Python程序代码神经网络架构 python
一、什么是神经网络架构搜索（NAS,NeuralArchitectureSearch）神经网络架构搜索（NAS,NeuralArchitectureSearch）是一种用于自动化设计神经网络架构的技术。传统的神经网络模型架构设计通常依赖于专家经验和大量试错，而NAS通过算法自动搜索网络架构，以发现最适合特定任务的神经网络设计。NAS可以极大地减少人工调参的时间和精力，并且在某些情况下能够找到比手工
架构师必须掌握的画图工具draw.io、文本绘图（PlantUML）（架构图、UML图、流程图、时序图）
架构师必须掌握的画图工具，时序图、架构图、各种UML图轻松掌握架构师必须掌握的画图工具draw.io、文本绘图（PlantUML）（架构图、UML图、流程图、时序图）背景：hi，大家好，今天，我将为大家解锁两种强大易用的画图工具，助你在架构设计之路上乘风破浪、披荆斩棘。首先是draw.io，这款在线绘图工具以其丰富的预设模板和强大的定制能力深受广大技术人群喜爱，无论是绘制复杂的系统架构图还是精巧的
深度解析生成式 AI：从技术原理到实战应用 LNL13 人工智能
一、生成式AI：重构数字内容生产范式（一）技术定义与核心价值生成式人工智能（GenerativeAI）是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系，其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式AI（如图像分类）不同，生成式AI实现了从"识别"到"创造"的跨越，典型应用包括：文本领域：ChatGPT对话系统、小说自动生成图像领域：MidJourney艺术创
HarmonyOS开发：使用语音识别的步骤演示
引言在当下的生活与工作场景中，语音识别技术早已渗透到方方面面——从手机上的语音助手快速拨打电话、发送消息，到智能音箱根据语音指令播放音乐、查询天气，再到办公场景里通过语音转文字功能高效记录会议纪要，其应用的广泛性不言而喻。而HarmonyOS在语音识别领域展现出了强大的技术实力，为用户带来了全方位的支持。它不仅能够精准识别普通话，满足大多数用户的日常需求，还兼容多种方言以及外语，极大地拓宽了使用范
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
软件开发工程师使用 DeepSeek 的实用指南
在软件开发领域，效率与创新是推动项目成功的核心动力。DeepSeek作为一款具备深度代码理解能力的AI工具，能为开发工程师提供全流程技术支持，显著提升研发效能与交付质量。以下从实际应用场景出发，详细说明如何将DeepSeek深度融入开发工作流。一、代码编写与优化1.智能代码生成编码环节中，DeepSeek可基于精确需求描述生成高质量代码片段，大幅减少重复劳动。例如：基础功能：输入"Java实现两个
Java在AI与量子计算时代的新突破：2025年技术前瞻与实践指南〃冷·夏ぐ java 人工智能量子计算
在2025年的技术浪潮中，Java作为一门历经近30年发展的编程语言，不仅没有显出疲态，反而在AI、量子计算、云原生等前沿领域展现出惊人的适应力和创新力。本文将深入探讨Java在2025年的最新技术趋势，包括Java24的重大更新、AI与量子计算支持、性能优化策略以及现代Java开发的最佳实践，帮助开发者掌握这些变革性技术，提升技术竞争力。Java24重磅发布：AI与量子计算时代的语言革新2025
Python缓存技术，装x新高度。 dianyin7770 python 爬虫
一段非常简单代码普通调用方式defconsole1(a,b):print("进入函数")return(a,b)print(console1(3,'a'))print(console1(2,'b'))print(console1(3.0,'a'))很简单的一段代码，传入两个参数。然后打印输出。输出结果进入函数(3,'a')进入函数(2,'b')进入函数(3.0,'a')使用某个装饰器后接下来我们引入
零基础也能轻松搞定！这几款免费网页抓取工具让你爱上数据提取
网页抓取工具推荐：从新手到专家的选择指南作为技术新手，当我面临从网页中提取信息的挑战时，发现市面上有众多网页抓取工具可供选择。经过实际使用和比较，以下是我总结的几款实用工具推荐：1.超级抓取神器这款工具界面直观，操作简单，非常适合初学者。只需输入目标网页和需要提取的内容，点击启动按钮即可自动完成采集。支持将结果导出为Excel或CSV格式，方便后续处理。2.一键抓该软件提供多种数据提取方式，包括关
软件架构的发展历程——从早期的单体架构到如今的云原生与智能架构
软件架构的发展历程是技术演进与业务需求相互驱动的结果，从早期的单体架构到如今的云原生与智能架构，每一步都在突破系统的可扩展性、灵活性和效率边界。以下是其核心发展脉络及未来趋势的全景解析：一、发展历程：从单体到智能的技术跃迁1.单体架构（1960s-1990s）特点：所有功能模块（UI、业务逻辑、数据访问）集中在一个代码库，依赖单一数据库，部署为单个进程。代表技术：COBOL大型主机系统、早期C/S
Java实现局域网TCP/Sockets多人聊天室项目十二月极光
本文还有配套的精品资源，点击获取简介：本项目是一个基于Java的局域网多用户聊天应用，使用TCP协议和Socket编程，以及多线程技术来保障聊天室的并发连接和高效稳定运行。该项目涉及Java网络编程基础、TCP协议细节、Socket编程实践以及多线程编程技能，包括关键类解析和实现。开发者可通过此项目深入理解Java网络通信和并发处理。1.Java网络编程基础知识1.1网络编程的意义和应用场景网络编
使用Visual C++ 6.0的MFC开发多线程聊天程序
本文还有配套的精品资源，点击获取简介：本项目使用经典的开发环境VisualC++6.0结合MFC库编写了一个聊天室程序。MFC提供了一种结构化和面向对象的方法来开发Windows应用程序。程序主要使用了多线程技术来同时处理消息的接收和发送。涉及到的技术要点包括MFC基础类使用、多线程编程、网络通信、消息队列与同步机制、用户界面设计、事件处理、错误处理、代码组织以及测试与调试。这个项目不仅帮助理解M
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
前端领域HTML的表单美化技巧前端视界前端 html ai
前端领域HTML的表单美化技巧关键词：HTML表单、CSS美化、用户体验、交互设计、响应式布局、表单验证、前端框架摘要：本文将深入探讨HTML表单的美化技巧，从基础CSS样式到高级交互效果，全面解析如何提升表单的视觉吸引力和用户体验。我们将通过详细的代码示例、设计原则和实战案例，帮助开发者掌握表单美化的核心技能，包括响应式设计、动画效果、自定义组件等前沿技术。1.背景介绍1.1目的和范围本文旨在为
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

Google Dremel 原理 – 如何能3秒分析1PB

相关文章

你可能感兴趣的:(hadoop,大数据,IT技术,Dremel)