百度智能云技术站

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

1. 写在前面

我们身处一个大数据时代，企业的数据量爆炸式增长。如何应对海量数据存储和处理的挑战，建设好数据平台，对一个企业来说是很关键的问题。从数据仓库、数据湖，到现在的湖仓一体，业界建设数据平台的新方法和新技术层出不穷。

理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理，可以帮助企业更好地建设数据平台。这也是百度智能云推出数据湖系列内容的初衷。

本系列文章将包含几个部分：

本篇将作为数据湖整个系列的开篇，为大家介绍数据平台技术的历史和发展过程中遇到的一些关键技术问题。

后续内容将分为两大主题，从存储和计算的两个角度出发介绍数据平台中的核心技术原理和最佳实践，以及百度智能云对这些问题的思考。

2. 数据的价值

"Data is the new oil." — Clive Humby, 2006

Clive Humby在 2006 年说出这句 “数据是新的石油” 后，迅速成为大家的共识。这哥们一生的轨迹是大数据时代最好的注脚，他最早是一位数学家，后来和妻子联合创建了一家数据公司，再后来成立了专注于数据领域的投资基金。说这句话的时候，Clive Humby 正在向资本市场卖力地推销他和妻子创建的公司。资本市场喜欢这样简单有力的金句，他的公司在 5 年后卖出了好价钱。

对于数据的所有者、数据行业的从业者而言，这句话只说出了一半真相。Michael Palmer 对这句话进行了补充：

"Data is just like crude. It's valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analysed for it to have value." — Michael Palmer

简单来讲，就是 “数据需要提炼才能释放真正的价值”。

对于一个企业来说，最容易理解和最容易做的是 “大数据” 3 个字的 “大” 字，在意识到经营各个环节的数据中可能蕴含着营收、用户数增长的奥秘之后，往往积累了大量的原始数据。这些原始数据就是原油，尽管珍贵，但包含了很多的噪音、杂质，甚至错误，不同数据间的内在关系也不是显而易见的。这距离需要挖掘的奥秘还有很长的路。要洞悉这些奥秘就需要继续 “提炼”，就是使用恰当的方法对原始数据进行整理、提纯、组合、分析，去芜存菁、抽丝剥茧，揭示数据中真正有价值的部分，最终转化为业务增长的驱动力。

支撑这一 “提炼” 全流程的基础设施就是一个企业的数据平台。数据平台之于数据，就好比炼油厂之于原油。

随着企业数据量的爆炸式增长，以及越来越多的企业上云，数据平台面临的数据存储、数据处理的挑战越来越大，采用什么样的技术来构建和迭代这个平台一直是业界研究的热点，新技术和新思路不断涌现。这些技术归纳下来以数据仓库 (Data Warehouse) 和数据湖 (Data Lake) 为两类典型的路线。近年来这两个路线在演进过程中边界日趋模糊，逐渐走向融合，开始形成所谓的现代数据架构 (Modern Data Architecture)，又称湖仓一体 (Data Lakehouse)。

3. 数据平台的组成

在讨论具体的技术问题之前，我们先看下业界的数据平台长什么样：

数据平台 = 存储系统 + 计算引擎 + 接口

这几部分的作用可以概括如下。

3.1 数据存储

数据存储解决将原料存进来的问题，具有时间跨度长、来源分散、集中存储的特点。

“时间跨度长”的意思是数据存储应尽可能地保存全历史数据。历史数据对企业的重要性，在于 “以史明鉴”，从一个更长的时间维度去观察数据的趋势、健康度等信息。
“来源分散”是因为数据的源头通常是各类业务系统，可能是 MySQL、Oracle 这样的关系型数据库中的数据，也可能业务系统记录的日志。企业还可能购买或采集第三方的数据集作为内部数据的补充。数据平台需要有能力导入不同源头的数据，至于导入后以什么样的格式存储，不同的技术方案有各自的要求。
“集中存储”是为了建立 single source of truth，无论数据的源头在哪里，纳入数据平台之后，数据平台就是唯一的可信来源。这里更多的是指逻辑上的集中存储，在物理上还存在分散的可能性，例如一个企业采用了多云架构，将数据分散存储在不同的云厂商，数据平台对数据使用方屏蔽了数据的实际位置。集中存储同时还意味着更精细的管控，防止数据使用权限扩大到不必要的范围。

3.2 计算引擎

计算引擎的目标是从数据存储中提炼有效信息。遗憾的是，目前业界并不存在一个大一统的计算引擎，根据模型、实效性、数据量的要求，往往采用不同的解决方案。典型的，对于深度学习任务使用 TensorFlow、PyTorch、PaddlePaddle 等框架，数据挖掘等离线计算采用 Hadoop MapReduce、Spark 等引擎，商业智能分析使用 Apache Doris 等 MPP 数据仓库。

不同的计算引擎对数据存储的格式的要求也不尽相同：

一部分计算引擎支持的接口比较开放和底层，对数据格式的要求很宽松。例如 Hadoop MapReduce、Spark 可以直接读取 HDFS 中的文件，这些数据是什么样的格式，引擎本身并不关心，业务自己决定如何解释和适用数据。当然，有一些格式（如 Apache Parquet 等）应用比较广泛，在底层接口之上，引擎可以选择封装出对特定格式的处理逻辑，减少业务的重复开发成本。
另外一部分计算引擎较为封闭，只能支持有限的数据格式，甚至不暴露内部的数据格式，所有的外部数据处理前都必须经过导入的步骤。例如，Apache Doris 的数据如何存储是系统自己决定，好处是可以让存储和计算配合更紧密，性能更好。

计算引擎在计算过程中生产的一些有价值的数据，一般也会存回数据存储中，以方便其他业务使用。

3.3 接口

接口决定了数据平台的用户如何使用计算引擎。最为流行的是 SQL 语言接口。一些计算引擎还提供了封装层次不一的编程接口。对于一个企业来说，提供的接口种类越少越通用，对用户来说越友好。

4. 数据平台的两种路线：数据仓库和数据湖

4.1 数据仓库

数据仓库出现的时间要远比数据湖要早。最初的场景是商业智能 (Business Intelligence)，简单说就是企业的管理层希望有一个方便看各类经营数据的仪表盘，展示一些统计、趋势数据，数据来源是 ERP、CRM、业务数据库等。为了把这个需求做得好用，最佳的方法是将企业内部各个数据源的数据统一收集到单个站点上归档，并维护历史数据，让相关的查询需求在这一个站点解决。这个统一的站点就是数据仓库。

主流的数据仓库实现基于“联机分析处理 (Online Analytical Processing, OLAP)”技术。在数据仓库诞生之前，业务已经广泛在使用 MySQL、Orcale 等关系型数据库，这类数据库基于“在线交易处理 (On-Line Transactional Processing, OLTP)”技术。OLTP 数据库中的数据有固定的格式，组织清晰，支持的 SQL 查询语言好用易懂。同时，其自身又是数据仓库最重要的数据来源之一。因此，直接使用 OLTP 数据库来建设数据仓库是一个很自然的想法。但很快，大家就发现数据仓库有自己的业务特点，基于 OLTP 遇到了瓶颈，OLAP 获得独立发展的契机：

一方面，OLTP 数据库的数据存储方式是面向行的 (row-oriented)，一个行的数据存储在一起，读取的时候哪怕只需要几个字段，都需要把整行数据都读取出来再提取需要的字段。数据仓库表的字段通常比较多，这就导致了读取效率不高。面向列的 (column-oriented) 的数据存储方式，将不同的列或列族分开存储，在读取的时候就可以只读取需要的部分，这种方式能够有效减少读取的数据量，对数据仓库的场景更为友好。
另一方面，传统 OLTP 数据库依赖单机硬件配置的 scale-up 来提升处理能力，上限较低。而数据仓库场景一次查询读取的数据量非常大，在相同字段上反复调用同样的读取逻辑，很适合做单机、多机的并行处理优化，利用集群的 scale-out 处理能力来缩短查询的时间。这就是 MPP (Massively Parallel Processor) 计算引擎的核心思想。

因此，现代数据仓库架构的特点是分布式、列式存储、MPP 计算引擎。用户发起计算任务后，数据仓库的MPP 计算引擎将计算进行分拆，每个节点负责处理一部分，节点间并行计算，最终汇总结果输出给用户。

数据仓库是典型的 “Schema-on-Write” 模式，要求存储的数据在写入的时候处理成预先定义的格式，即schema。这就好比数据仓库的管理员提前确定了一个包装盒的样式，所有的货物 (数据) 必须用包装盒装好，整整齐齐才能进入仓库。

数据源的原始数据往往和定义好的 schema 存在差异，因此导入的数据需要经过 ETL 过程，ETL 是抽取(Extract)、转换 (Transform)、加载 (Load) 这三个步骤的缩写。Extract 阶段从原始数据源读取进行数据清理(data cleansing) 纠正其中存在的错误、重复。然后进入 Transform 阶段，做必要的处理将数据转化成指定的schema。最后，数据入库 Load 到数据仓库中。

4.2 数据湖

内蒙古自治区白云鄂博矿，全球唯一一个同时包含 17 种稀土元素的矿。在长达 60 多年的时间里，这个矿一直被当成铁矿开采，后来随着稀土战略价值的提升，以及开采技术的进步，才转型为中国最大的稀土矿藏。

讲这个故事是想说明原始数据的重要性，原始数据就像白云鄂博矿，除了已经被发现的铁，还可能蕴藏着储量丰富的稀土。数据仓库的 “Schema-on-Write” 模式要求我们在处理数据之前就确切的知道我们挖的是什么，当时间流逝，历史数据只剩下数据仓库中保存的那些时，我们可能连丢弃掉了哪些稀土都不会知道。

更好更多地保留原始数据，避免丢失重要的未知信息，这是数据湖概念的初衷。数据湖提倡所有的数据，不管是数据库的结构化数据，还是视频、图片、日志这类非结构化的数据，都以它们原始的格式存储到一个统一的存储底座中。各个数据源，仿佛一条条河流，汇聚到这个统一的 “湖” 中融为一体，所有的数据使用方由这个“湖” 统一供水。

由于缺乏明确的结构信息，数据湖使用 “Schema-on-Read” 模式，用户在读取数据后再将其转化为对应的结构进行处理。和数据仓库的 “Schema-on-Write” 相比，对数据的处理流程变成了 ELT，即 Transform 阶段在Load 之后发生。

“Schema-on-Read”由于结构非常松散，对计算引擎的约束较少，业界事实上根据不同的场景发展出多种计算引擎。

传统的数据湖，是大数据体系的等价词，主要经历了 “存算一体” 和 “存算分离” 两个阶段：

阶段 1：存算一体数据湖

这一阶段企业基于 Hadoop 生态开展数据湖，使用 HDFS 作为数据存储，使用Hadoop MapReduce、Spark 等计算引擎，计算和存储资源在同一批机器上，扩容集群会同时扩容算力和容量。云计算发展起来之后，这套架构被从线下 IDC 机房原封不动地搬到云上。

阶段 2：存算分离数据湖

在经历一段时间的实践之后，存算一体架构遭遇到了瓶颈，主要体现在几个方面：

计算和存储无法分开扩容，而现实中大部分用户对这两种资源的需求不是匹配的，存算一体架构必然会导致其中一种资源的浪费。
存储容量和文件数量爆炸式增长之后，HDFS 的 NameNode 单点架构遇到了元数据性能的瓶颈，企业通过升级 NameNode 节点配置、多套 HDFS 集群或 HDFS Federation 来缓解该问题，但未能根本解决此问题，给数据平台运维人员带来极大的负担。
存储成本也是存算一体架构的一个痛点。HDFS 的 3 副本机制并不适合存储较冷的数据，比纠删码机制的成本要高出至少一倍。在云上还面临副本放大的问题，云厂商提供的云磁盘本身就有副本机制，使用云磁盘搭建 HDFS 的实际副本数更高，可能高达 9 副本。

人们在解决这些问题的过程中注意到云厂商的对象存储服务。这种服务提供了一个性能和容量近乎无限扩展、成本低廉、serverless 的存储系统。除了在部分文件系统接口 POSIX 兼容性方面 (如原子 rename、边写边读等) 存在不足，这个服务解决了上述的痛点问题，是 HDFS 的一个合适替代品。实际上，下一代 HDFS 系统OZone 系统也借鉴了对象存储的思路来解决上述问题。

以对象存储为基础的数据湖诞生了“存算分离“架构。存算分离的特点是计算资源和存储资源独立扩展。

存算分离架构中的存储是云厂商提供的对象存储服务。和自建 HDFS、OZone 相比，云厂商最大的一个优势来自规模。云厂商需要足够大的集群来存储海量的用户数据，数据量越大，集群的规模就越大，节点、设备就越多，能够提供的整体性能就越高。对于单个用户来说，就能“借用”到比同等规模自建 HDFS 更高的性能。足够大的存储资源池，是存算分离架构能够工作的前提和底气。

在对象存储解决了扩展性、性能、成本的基础上，serverless 的产品形态让存算分离数据湖的计算引擎很容易独立伸缩其算力，甚至可以做到需要计算的时候才去分配计算资源，计算完成就立刻销毁资源，仅为使用的资源付费，在成本和效率方面做到最优。这一点是存算分离架构和云计算之前的时代是不可能做到的。

对于云厂商来说，这种架构的转变让对象存储服务一下子成为舞台的焦点，让云厂商甜蜜的同时也考验着他们的技术实力，吹过的牛逼必须不打折扣地一一兑现。这里的主要挑战包括：

规模。一个客户数 PB 几十 PB，很多客户共享资源池，累加起来让对象存储的容量轻松达到 EB 级，相应的元数据规模达到万亿级。单个集群服务好 EB 级的容量、万亿级的元数据，需要非常优秀硬核的架构设计，系统的每个部分都不存在扩展性的短板。
稳定性。支持 EB 级的容量、万亿级的元数据，每个集群的机器数量达到数万甚至数十万台，庞大的机器基数下，硬件故障、软件故障是家常便饭。降低甚至消除这些不可控因素的影响，提供稳定的延时和吞吐水平、较低的长尾，拼的是高质量的工程实现和运维能力。
兼容性。尽管对象存储作为数据湖存储已经成为一个共识，但大数据体系内的软件，无论是因为历史包袱的原因，还是因为确实无法改造，在一些场景下依然会依赖 HDFS 特有的一些能力。例如，Spark 依赖 rename 提交任务，利用了 HDFS rename 操作较快的执行速度和原子性保证，但在对象存储的鼻祖 AWS S3 里，rename 不被支持，只能粗糙的通过“拷贝 + 删除”模拟，执行速度很慢且没有原子性保证。如果各家云厂商对象存储的普遍水平是在 70% 的场景下取代 HDFS，那剩下的 30% 的部分就看厂商如何进一步去解决兼容性差的部分，从而让存算分离架构执行得更彻底。

4.3 数据仓库 VS 数据湖

数据仓库和数据湖套用前文的公式归纳为：

数据仓库 = 结构化数据存储系统 + 内置计算引擎 + SQL 接口

数据湖 = 原始数据存储系统 + 多种计算引擎 + 包含 SQL 在内的多种接口

数据仓库和数据湖就好比是手机届的 iOS 和 Andriod：

数据仓库好比 iOS，是一个相对封闭的体系，数据流入流出、使用场景约束较多，但胜在简单易用，封闭的体系控制力更强，较容易做存储格式、计算并行等性能上的优化，在一些要求极致性能的查询场景仍占据着主导地位。
数据湖好比 Android，强调开放性，几乎把选择的权利都下放给用户了，可以选择的手机厂商 (计算引擎) 也很多，但用好它需要用户一定的专业能力，用不好会有副作用，很容易导致 “数据沼泽 (Data Swamp)”。

5. 现代数据平台：湖仓一体

5.1 数据湖面临的困境

数据湖将 “存储什么数据、如何使用数据” 的决定权还给了用户，约束非常宽松。但用户如果在数据入湖的时候没有做好数据的管理工作，有用无用、高质量低质量的数据被一股脑丢进来了，使用的时候很容易找不到需要的数据。长期下来，数据湖变成了一个巨大的垃圾场，规范的叫法是 “数据沼泽”。

为了避免数据湖最后变成数据沼泽，需要解决几个重要的问题：

问题 1：数据质量问题

仅靠 “Schema-on-Read” 在计算时直接处理原始格式的数据，过滤掉其中的无用信息，这个工作每次计算都需要重复做，既降低了计算的速度又既浪费了算力。

一个可行的方式，是在数据湖借鉴数据仓库的做法，通过一轮或多轮 ETL 对原始数据进行一些前置处理，将数据转化成对计算引擎更友好、数据质量更高的数据。原始数据不删除，而 ETL 产生的数据同样存储在数据湖中，这样既保留了原始数据，又保证了计算的效率。

问题 2：元数据 (metadata) 管理问题

元数据是描述数据的数据，它对数据的重要性在于它负责回答那几个重要的哲学问题 “我是谁？我在哪里？我从哪里来？”。数据的格式信息 (例如一个数据库表文件的字段定义) 、数据的位置信息 (例如数据存储在哪个路径)、数据的血缘关系 (例如数据是从哪些上游数据处理得到的) 等等都需要依赖元数据来解释。

为数据湖建立完善的元数据可以帮助用户更好地使用数据。一般元数据分为两部分，都很重要。一个是集中的数据目录 (Data Catalog) 服务，一般这类服务具备一些自动分析和模糊搜索的能力，用于管理和发现数据湖中都有哪些数据。另外就是数据自己内置的元数据，这些元数据可以保证即使数据挪了位置也能准确的解释数据。打个比方，数据目录好比图书馆里的书架，通过对书籍分门别类整理归档，能够快速地定位书籍所在的位置；数据内置的元数据好比一本书的目录部分，通过目录可以快速了解这本书大概包含哪些内容，都位于哪一页；当一本书从一个书架挪动到另外一个书架上，改变的只是书的位置，书的目录没有变化。

元数据管理还需要解决数据权限的问题。数据湖底层依赖的存储系统，无论是HDFS，还是对象存储，提供的数据权限是以目录和文件为单位的，粒度和上层业务的需求并不一致。举个例子，一个图片识别 AI 任务的数据集有很多的小文件，这些小文件的应当被视作一个整体，不存在“一个用户有权限访问其中部分文件，没权限访问另外一部分文件”的现象。另外一个例子是，一个文件存储了业务订单的数据，对于销售人员、公司高管，能够查看的数据范围是不一样的。这些都要求更精细的权限控制。

问题 3：数据版本问题

数据入湖通常不是一锤子买卖，导入一次从此就不更新了。例如，从线上用户订单数据库采集数据到数据湖用于后续分析，需要源源不断的同步新的订单。解决多次导入问题最简单的方法就是每次都全量导入一遍，但这种方式显然过于粗糙，会增加资源消耗，数据导入的耗时也较高。

因此，支持对数据增量更新是数据湖的一个重要能力。这其中存在一些棘手的难题，包括：1) 正在更新的时候如何处理读请求；2) 更新操作中断后如何恢复；3)如何识别不完整的更新操作；4) 数据被一次错误的操作污染之后如何复原。后面的这些棘手问题在数据库和数据仓库中的答案是 ACID。数据湖领域近年来出现的表格格式 (Table Format)，如 Apache Iceberg、Apache Hudi、Delta Lake 致力于为对象存储补齐这些能力，已经成为数据湖的重要组成部分。

问题 4：数据流通问题

现实场景复杂多变，对数据处理的实时性、准确性要求不尽相同，业界也因此发展出来诸多的计算引擎。如果这些计算引擎各讲各话，只认自己定义的存储格式时，那么同样的一份数据在被不同计算引擎处理时，需要反复的做 Schema-on-Read 或者 ETL，白白浪费大量的资源。这显然不合理。

不需要经过翻译，大家都能讲普通话是最理想的。在大数据的发展过程中，逐渐形成了一些常用的数据格式(Apache Parquet、Apache ORC 等) 和表格格式(Apache Iceberg、Apache Hudi、Delta Lake 等)，这些技术逐渐被越来越多的计算引擎支持，某种意义上充当了数据湖领域普通话的作用，改善了数据流通问题。

5.2 湖和仓融合的趋势

数据湖在迭代过程中，和数据仓库的界限越来越模糊，逐渐呈现出融合的趋势：

在解决数据沼泽的过程之中，为了让一个很宽松的生态变得更好用，业界的实践实际上就是对数据湖的使用做了很多的约束。有意思的是，这些约束和原来数据仓库做的很多事情是很类似的，例如ETL、ACID、权限控制等。这使得数据湖呈现出数据仓库的一些特征。
业界在尝试了一圈非 SQL 的各种编程接口和交互方式之后，发现很多的场景下，SQL 依然是最佳的选择。数据仓库这些年也越来越开放，对数据湖常用的一些数据格式、表格格式的支持越来越好，除了内置 ETL 的支持，也可以直接把它们当做外部源来处理。这些趋势表明，数据仓库作为一种重要的计算引擎，可以生长在数据湖之上。
数据仓库同样面临存算一体的局限性，也在向存算分离架构迭代。一些系统采用了冷热分离的设计，热数据保存本地节点高速介质上，冷数据下沉到数据湖中，在性能和成本之间取得平衡。另外一些更彻底的云原生数仓系统，全量数据都在数据湖中，通过本地节点的缓存来弥补数据湖速度的问题，这种设计可以简化数据仓库的架构，让数据仓库不需要再关注数据可靠性问题，同时可以让多个只读集群共享同一份数据。
数据仓库领域发展的一些重要技术和方法，也可以被数据湖之上的大数据计算引擎借鉴，反之亦然。例如在 ClickHouse 等数据仓库中成熟应用的计算引擎加速技术，如向量化计算 (vectorization)、LLVM JIT，被借鉴来实现 Spark 的 Native 引擎，和原有的 JVM 引擎相比，Native 引擎的硬件资源利用率更高，计算速度更快。

除了数据仓库、大数据外，企业内还存在其它重要的计算类型，最常见的就是AI、HPC 等高性能计算。数据湖的性能优势的体现是吞吐高，元数据性能和延时一般，而高性能计算对元数据性能、延时有比较苛刻的要求。因此，企业还需要在数据湖外为这类业务额外维护一套或多套高速文件存储系统 (Lustre、BeeGFS 等)。本质上看，高性能计算使用的框架也是某种计算引擎，数据的来源和产出也是企业数字资产的一部分，如何将这部分业务纳入到数据湖体系中是一个重要的问题。这个问题的答案和数据仓库存算分离是类似的，解决思路也是相通的，同样是两个路线：

冷热分离设计。高速文件存储系统将数据湖作为冷数据层。
基于数据湖设计云原生的文件系统。这类文件系统虽然提供文件系统接口，但实际上是一个缓存加速系统，采用的是“缓存层 + 数据湖”的架构。缓存层在计算节点或靠近计算节点的硬件上按需维护热数据的缓存。数据湖存储全量数据，保证数据的可靠性。一旦缓存系统中数据淘汰或丢失，仍然可以从数据湖重新加载数据。

湖仓一体这个说法最早是 Databricks 提出的，在业界尚有分歧，其它一些竞争公司会尽力避免使用这个术语，AWS 采用的是现代数据架构 (Modern Data Architecture) 的说法。但不管怎么命名，湖仓一体都代表着数据湖的下一阶段的形态，其本质是企业的终极一站式数据平台。

这个数据平台首先是一个 all-in-one 的存储基础设施，满足了企业所有的数据存储需求，不光能满足低成本的存储需求，也能满足高性能的需求。其次，数据平台超越了数据仓库、大数据的范畴，之上运行着数据仓库、大数据、AI、HPC 等各种各样的计算引擎，这些不同的计算引擎都能消费和产出互相能理解的数据结构，数据在业务之间的流转无障碍。

5.3 湖仓一体架构

根据前面的讨论，我们可以使用数据平台公式对湖仓一体进行简单的归纳：

湖仓一体 = 配备元数据层和加速层的对象存储 + 数据仓库、大数据、AI、HPC 等各个领域的计算引擎 + 包含SQL 在内的多种接口

存储系统部分，对象存储已经成为事实上的数据湖标准存储，其生态繁荣程度远超其它种类的云存储产品。对于对象存储无法很好解决的存储问题，需要搭配合适的元数据层和加速层。

针对数据沼泽问题，元数据层建立必要的数据质量、元数据管理、版本管理、数据流通机制，让企业内部各业务能便捷地使用高质量的数据。
针对一些对元数据、延时有更高要求的业务，如数据仓库、AI、HPC 等，加速层作为对象存储的补充，一般采用高速文件系统或者缓存系统，部署上离计算节点较近，元数据和数据可在加速层和数据湖之间自动流转。为了简化使用，加速层还会搭配上层的作业调度系统，来让数据流转工作更加智能和简单。例如，通过作业调度系统提前预热数据，在数据预热到缓存之后，作业调度系统才开始分配计算资源执行计算，由此可以享受到比数据湖更快的访问速度。

计算引擎部分，存在数据仓库、大数据、AI、HPC 等各类引擎。数据流转是最基本的问题。此外，还有一个重要的问题是这些计算引擎本身的调度和管理问题。从资源的角度看，这些计算引擎主要消耗 CPU、GPU 等种类的计算资源，具备资源共享的基础，提高资源的整体利用率对用户来说意味着节省成本。解决这个问题有两个手段。

一个手段是，对于特定的计算引擎，使用云厂商的托管或 serverless 的服务代替自建，云厂商的服务内置弹性收缩能力，按需付费，可以让相关的资源利用率控制在合适的范围内，规避了资源共享的问题。
另外一个手段是，用户自己运维的计算引擎使用统一的调度和资源管理平台来分配资源，这方面 Kubenetes 是最流行的选择，如果某种计算引擎还未支持在其上部署，只是时间问题。云厂商通常也会提供优化的Kubenetes 的版本或服务供用户选择。

接口部分，其实取决于具体的计算引擎，能用 SQL 表示的场景 SQL 是最好的选择，其它场景需要用户熟悉引擎的编程接口。

6. 总结

企业数据量爆炸式增长，业务场景日趋复杂，推动着数据平台技术不断变革。数据仓库、数据湖，这两种数据平台的技术路线在过去的实践中充分展现了各自的优点和缺陷，近年来开始融合，取长补短，向所谓的湖仓一体或现代数据架构迭代。

不断地涌现的新技术、新方法，是无数从业者集体智慧的结晶，而开放的基调则是促成这一切的催化剂。这一领域的开放体现在很多方面：

数据是开放的。计算引擎越来越开放，普遍支持一些标准的数据格式，数据流通越来越容易，业务按需选择最合适的引擎处理计算任务。
技术是开放的。湖仓一体技术架构中的绝大部分重要技术，都以开源项目的形式存在着，没有任何一家企业可以垄断知识产权。厂商发行版和开源版本之间可以相互替代，选择权在用户。技术的开放也促进了跨领域的技术融合，不同的领域之间互相借鉴方法和技术，扬长补短，起到 1 + 1 > 2 的效果。
基础设施是开放的。在湖仓一体解决方案中，云厂商扮演着重要的角色，提供了对象存储、托管大数据服务等基础设施。这些基础设施兼容行业标准，也存在开源替代，客户很容易搭建混合云、多云架构，更好地利用云的弹性。

在这开放的基调下，整个行业，无论是用户还是平台，都对数据平台有自己的思考和看法。我们也希望借此表达我们的一些观点，一方面是希望能给业界提供一些浅薄的见解，另一方面未来回看时对自己而言也是雪泥鸿爪。

接下来本系列的文章，将围绕存储和计算的两大主题，介绍数据平台中的核心技术原理和最佳实践，以及百度智能云对这些问题的思考。帮助读者能对数据湖形成系统性认识，在做数据平台建设时更有思路。

你可能感兴趣的:(百度沧海·存储,数据湖,百度,对象存储)

Jenkins Pipeline(二) tomorrow.hello Maven jenkins 运维
1.Pipeline变量在Jenkins管道（Pipeline）中，变量是一种非常有用的功能，它们可以帮助你在构建过程中存储和传递数据。Jenkins管道支持多种方式来定义和使用变量，包括环境变量、脚本变量以及全局变量。1.2脚本变量在pipeline脚本中，你可以使用Groovy脚本来定义和操作变量。pipeline{agentanystages{stage('Example'){steps{s
初识.git文件泄露 wyjcxyyy git
.git文件泄露当在一个空目录执行gitinit时，Git会创建一个.git目录。这个目录包含所有的Git存储和操作的对象。如果想备份或复制一个版本库，只需把这个目录拷贝至另一处就可以了这是一种常见的安全漏洞，指的是网站的.git目录被意外暴露在公网上，导致攻击者可以通过访问.git目录获取网站的源代码、版本历史、配置文件等敏感信息。这种漏洞通常是由于服务器配置不当或开发人员的疏忽导致的。如何检测
firecrawl本地docker部署（WSL虚拟机Ubuntu24）
firecrawl本地docker部署下载源码github下载地址部署按照firecrawl目录下SELF_HOST.md文档进行操作即可。本次生成的镜像在后面提供了百度网盘下载。创建.env文件将firecrawl\apps\api.env.example文件拷贝到firecrawl目录下(和docker-compose.yaml同一目录下)，修改文件名为.env#=====RequiredEN
【Java源码阅读系列44】深度解读Java NIO ByteBuffer 源码 ·云扬· 源码阅读系列之Java java nio 开发语言
JavaNIO（NewInput/Output）中的ByteBuffer是Buffer抽象类的具体子类，专门用于处理字节数据的高效读写。作为NIO的核心组件，ByteBuffer支持堆内存（Heap）和直接内存（Direct）两种存储方式，广泛应用于网络通信、文件IO等场景。本文将结合源码，深入解析ByteBuffer的核心机制、关键方法及设计模式的应用。一、ByteBuffer的核心特性与存储方
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
Rust BSS段原理与实践解析萧曵丶 Rust rust 开发语言后端内存模型
在Rust中，BSS段（BlockStartedbySymbol）是程序内存布局的关键部分，专门用于存储未初始化或零初始化的全局/静态变量。以下是从原理到实践的深入解析：一、BSS的核心特性零初始化BSS段中的所有变量在程序加载时自动初始化为0（或对应类型的零值：0、null、false等）。staticmutCOUNTER:usize=0;//实际存储在BSS段磁盘空间优化BSS段在可执行文件中
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
C语言指针进阶完全指南：从多级指针到函数指针的深度探索给老吕螺丝 #C语言 c语言开发语言
掌握指针基础后，你将开启C语言真正的力量之门。本文通过实战代码示例和内存布局图解，带你系统攻克指针进阶技术。一、指针核心回顾与进阶重点核心概念：指针本质：存储内存地址的变量间接访问：通过地址操作数据指针大小：64位系统固定8字节（与类型无关）进阶重点：多级指针：处理复杂间接关系动态内存管理：精准控制内存生命周期函数指针：实现代码抽象与回调复杂结构：构建链表等动态数据结构二、多级指针：指针的指针内存
穿透硅层：模电数电如何重塑你的编程基因还债大湿兄模电数电
“不理解电子运动的程序员，永远在数字世界的表层流浪。”——吉恩·阿姆达尔（IBM360系统架构师）一、晶体管级视角：代码的物理载体1.CPU指令执行的硬件真相关键模电参数：阈值电压Vth：决定晶体管开关的电压临界点（典型值0.7V）跨导gm：栅压控制电流的能力（单位mS）米勒电容Cgd：限制开关速度的核心因素2.存储器操作的电子原理DRAM存储单元刷新过程：//硬件级刷新伪代码voiddram_r
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
如何设计可扩展的后端系统架构？破碎的天堂鸟学习教程系统架构
设计可扩展的后端系统架构需综合考虑核心原则、架构模式、扩展策略、数据存储、容错机制及监控体系。以下是基于行业实践的详细指南：一、可扩展架构的核心原则无状态性（Statelessness）服务不保存客户端状态，请求可被任意实例处理，便于水平扩展。实现：通过负载均衡器（如Nginx、HAProxy）分发请求至多个无状态实例。松散耦合（LooseCoupling）模块间通过API或消息队列通信，减少依赖
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
李彦宏的求真务实：AI领域的生死局，信心从何而来？
文|大力财经据自媒体『划重点』独家报道，李彦宏在季度高管会上，来了一场《求真务实》的内部演讲，还把原文向全员公开，这实在可罕。“不是所有的game百度都能去玩、都能赢，所以要搞清楚该干什么、不该干什么。”李彦宏这话，算是把“求真务实”给点透了。他还直接开炮：“百度为什么打不赢仗？为什么起大早赶晚集？因为我们不聚焦。”他要求百度高管得敢于批评和自我批评，要开诚布公，知道自己几斤几两，还得能指出队友的
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
为什么真正理解 HashMap 的使用场景，能让你代码效率翻倍？(不止于原理！)
你是否曾写过这样的代码：为了找一个用户信息，遍历了整个用户列表？或者在需要快速存取配置项时，却纠结于该用List还是Properties？如果你还在为“如何高效存储和查找键值对”而烦恼，那么HashMap就是那把被你忽视的瑞士军刀。但仅仅知道HashMap的原理是远远不够的，选错场景，它甚至会成为内存泄漏的元凶。一、痛点直击：为什么你需要HashMap？不仅仅是“快”想象一下这些让你抓狂的场景：用
Java HashMap扩容=灾难？看Redis如何用渐进式方案征服亿级Key 今天你慧了码码码码码码码码码码 Redis 数据库 redis java
某电商平台在进行大促压测时，一个存储3000万用户资料的Hash表触发扩容，导致Redis实例完全阻塞12秒，所有请求超时。切换到渐进式扩容方案后，同样规模扩容仅造成0.3毫秒的请求延迟波动。这个案例揭示了哈希表扩容机制对高并发系统的致命影响。一、Redis哈希表vsJavaHashMap：架构本质差异1.底层结构对比特性Redis哈希表JavaHashMap存储结构拉链法（链表解决冲突）链表+红
js实现百度地图的自定义marker与css3动画的交互沈大大520 css3动画扩展自定义百度地图maker js css3 javascript 前端 html5
使用过百度地图，业务需求需要对某些特定标记物进行高亮和动画标记，因此采用css3对百度地图的marker组件进行动态效果的调试，一：调用百度地图的apiDocument.map{width:100%;height:100%;background:#d5e6f5;position:absolute;float:left;}二：初始化百度地图创建实例varmap=newBMapGL.Map("map"
H5页面点击调起腾讯/百度/高德地图APP
注意：在手机端测试时发现了一个问题，用百度浏览器只能调用百度地图app的，对腾讯/高德地图是无效的，于是我用qq浏览器测试，结果发现qq浏览器是都可以调起的。一：腾讯地图（api文档）window.open(`http://apis.map.qq.com/uri/v1/marker?marker=coord:${this.latitude},${this.longitude};addr:${thi
批量百度移动下拉词和相关搜索词挖掘
打开百度移动网页，会发现我们输入的关键词，然后会出现下拉词已经进入搜索页后会出现相关搜索词，这两部分的关键词也是非常有用的。下面就简单的介绍一下打开百度移动首页，输入关键词后，会自动出来下拉词，这部分下拉词就是需要获取的，打开f12调试工具，可以很简单的看到这是异步加载的关键词，拿到请求地址，在代码进行请求代入参数，就会获得同样的关键词结果了。这部分下拉词抓取还是比较简单的。第二部分是相关词的抓取
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
百度搜索下拉框,下拉菜单怎么做?如何刷? mt_187 日常记录技术收藏 html5
搜索下拉菜单反馈性关键词是用户在搜索时与搜索引擎的第一步互动，在互动过程中，搜索引擎的反馈关键词不断调整来满足用户的个性需求。搜索下拉框存在的下拉词，每天的点击浏览量都很高，这意味着很多企业都在抢这个位置，在网民搜索自己的行业主关键词时，下拉中的词条是行业关键词和自己品牌词或其他营销类词的整体呈现。搜索下拉框菜单怎么做?如何刷?在本篇文章中您将会了解到以下信息。第一部分搜索下拉框菜单原理第二部分怎
为什么MySQL怕排序，Redis ZSet却秒杀？跳表+亿级数据的架构暴力美学
某证券交易所实时股价排序系统突发故障：处理10万支股票的排序请求从毫秒级飙升到12秒。事后发现ZSet元素数量突破阈值后，底层结构未能从listpack切换到跳表，导致性能断崖式下跌。这个千万级损失的案例揭示了ZSet底层实现的关键性。一、ZSet双引擎架构：自适应存储的艺术1.小数据高效存储：listpack（Redis7.0+）//listpack内存结构示例[总字节数][元素数量][元素1]
上位机软件开发深圳市由你创科技上位机开发 c语言
上位机软件开发是指开发用于与下位机（如单片机、PLC、传感器、嵌入式设备等）进行通信、数据交互及控制的计算机端软件。这类软件通常需要实现数据采集、实时监控、参数配置、数据分析及可视化等功能。以下是开发上位机软件的关键步骤和技术要点：一、开发流程需求分析明确功能需求：数据采集频率、通信协议、界面交互、数据存储方式等。确定硬件接口：串口（RS232/RS485）、USB、TCP/IP、CAN总线、Mo
408考研逐题详解：2010年第22题——显存带宽 CS创新实验室考研复习408 考研计算机考研 408 真题解析
2010年第22题假定一台计算机的显示存储器用DRAM芯片实现，若要求显示分辨率为1600×1200，颜色深度为24位，帧频为85Hz，显存总带宽的50%用来刷新屏幕，则需要的显存总带宽至少约为（）A.245Mbps\qquadB.979Mbps\qquadC.1958Mbps\qquadD.7834Mbps解析本题主要考查显存总带宽的计算方法，涉及计算机显示系统的基本参数，包括分辨率、颜色深度、
使用STM32CubeMX在嵌入式系统中实现通过FMC读写SDRAM 程序员杨弋嵌入式开发 stm32 嵌入式硬件单片机嵌入式
嵌入式系统中的存储器是非常重要的组成部分，为了满足大容量和高速度要求，SDRAM（SynchronousDynamicRandomAccessMemory）是常用的选择之一。本文将介绍如何使用STM32CubeMX配置硬件FMC（FlexibleMemoryController）以实现在STM32微控制器上读写SDRAM。1、STM32CubeMX配置FMC和SDRAM首先，我们需要打开STM32
基于STM32单片机的考勤打卡系统
文章目录一、系统概述二、项目内容和功能介绍三、效果图四、资料获取一、系统概述基于STM32单片机的考勤打卡系统介绍一、系统概述基于STM32单片机的考勤打卡系统是一种集数据采集、身份识别、记录存储与远程管理于一体的智能化考勤解决方案。该系统以STM32微控制器为核心，通过非接触式识别技术（如RFID、指纹、人脸识别）或传统输入方式（如按键、密码）快速采集员工考勤信息，结合实时时钟模块（RTC）记录
关于java项目中maven的理解
我的理解：maven是java项目的依赖管理工具，通过pom.xml文件配置要下载的依赖，settings.xml配置maven下载的镜像没有就默认在maven中央仓库下载依赖，本地仓库是存储下载好的依赖ai:1.功能定位局限Maven不只是依赖管理工具，更是项目构建管理工具。除依赖管理，还能实现编译（如mvncompile编译源码）、测试（mvntest执行单元测试）、打包（mvnpackage
idea 报 Empty git --version output 赵八斤开发工具 intellij-idea git java
报错如下：我的地址也是bin下git.exe一直用的好好得，突然报这个错。有问题找百度最后我看有说使用cmd下的可以就试了一下完成，也不知道原因是啥路径不是git根目录下的git-bash.exe，如果你是git-base.exe，修改成bin下面的git.exe,如果bin下面的git.exe仍然报错，可以用cmd目录下的git.exe
共享内存的创建和使用 Ring__Rain C++c++
以下是对ShareMemoryPubManager::CreateShm函数的详细解读，结合代码逻辑和Windows共享内存机制分析：1.函数功能概述该函数用于创建并映射一个共享内存区域，将其封装到自定义结构体SwathShareMemory中，并存储到成员变量m_shmQueue中。核心步骤包括：构造共享内存名称：基于shm_prefix和shm_id生成唯一标识。创建文件映射对象：调用Crea
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后