产品经理自我修养

详解数据仓库数据湖及湖仓一体

比别人更快接收好文章

随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。

但是数据仓库和数据湖的区别到底是什么，是技术路线之争？是数据管理方式之争？二者是水火不容还是其实可以和谐共存，甚至互为补充？

本文作者来自阿里巴巴计算平台部门，深度参与阿里巴巴大数据/数据中台领域建设，将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析，来阐述两者融合演进的新方向——湖仓一体，并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

01 大数据领域发展20年的变与不变

1.1 概述

大数据领域从本世纪初发展到现在，已经历20年。从宏观层面观察其中的发展规律，可以高度概括成如下五个方面：

1. 数据保持高速增长- 从5V核心要素看，大数据领域保持高速增长。阿里巴巴经济体，作为一个重度使用并着力发展大数据领域的公司，过去5年数据规模保持高速增长（年化60%-80%），增速在可见的未来继续保持。对于新兴企业，大数据领域增长超过年200%。

2. 大数据作为新的生产要素，得到广泛认可- 大数据领域价值定位的迁移，从“探索”到“普惠”，成为各个企业/政府的核心部门，并承担关键任务。还是以阿里巴巴为例，30%的员工直接提交大数据作业。随大数据普惠进入生产环境，可靠性、安全性、管控能力、易用性等企业级产品力增强。

3. 数据管理能力成为新的关注点- 数仓（中台）能力流行起来，如何用好数据成为企业的核心竞争力。

4. 引擎技术进入收敛期 - 随着Spark（通用计算）、Flink（流计算）、Hbase（KV）、Presto（交互分析）、ElasticSearch（搜索）、Kafka（数据总线）自从2010-2015年逐步占领开源生态，最近5年新引擎开源越来越少，但各引擎技术开始向纵深发展（更好的性能、生产级别的稳定性等）。

5. 平台技术演进出两个趋势，数据湖 VS 数据仓库- 两者均关注数据存储和管理（平台技术），但方向不同。

1.2 从大数据技术发展看湖和仓

首先，数据仓库的概念出现的要比数据湖早的多，可以追溯到数据库为王的上世纪 90 年代。因此，我们有必要从历史的脉络来梳理这些名词出现的大概时间、来由以及更重要的背后原因。大体上，计算机科学领域的数据处理技术的发展，主要分为四个阶段：

1. 阶段一：数据库时代。数据库最早诞生于 20 世纪的 60 年代，今天人们所熟知的关系型数据库则出现在 20 世纪 70 年代，并在后续的 30 年左右时间里大放异彩，诞生了很多优秀的关系型数据库，如 Oracle、SQL Server、MySQL、PostgresSQL 等，成为当时主流计算机系统不可或缺的组成部分。到 20 世纪 90 年代，数据仓库的概念诞生。

此时的数据仓库概念更多表达的是如何管理企业中多个数据库实例的方法论，但受限于单机数据库的处理能力以及多机数据库（分库分表）长期以来的高昂价格，此时的数据仓库距离普通企业和用户都还很遥远。人们甚至还在争论数据仓库（统一集中管理）和数据集市（按部门、领域的集中管理）哪个更具可行性。

2. 阶段二：大数据技术的「探索期」。时间进入到 2000 年附近，随着互联网的爆发，动辄几十亿、上百亿的页面以及海量的用户点击行为，开启了全球的数据量急剧增加的新时代。

传统的数据库方案再也无力以可接受的成本提供计算力，巨大的数据处理需求开始寻找突破口，大数据时代开始萌芽。2003、2004、2006 年 Google 先后 3 篇经典论文（GFS、MapReduce、BigTable）奠基了这个大数据时代的基本技术框架，即分布式存储、分布式调度以及分布式计算模型。

随后，几乎是在同一时期，诞生了包括 Google，微软 Cosmos 以及开源 Hadoop 为代表的优秀分布式技术体系，当然，这其中也包括阿里巴巴的飞天系统。此时人们兴奋于追求数据的处理规模，即『大』数据，没有闲暇争论是数据仓库还是数据湖。

3. 阶段三：大数据技术的「发展期」。来到 21 世纪的第二个 10 年，随着越来越多的资源投入到大数据计算领域，大数据技术进入一个蓬勃发展的阶段，整体开始从能用转向好用。

代替昂贵的手写 MapReduce 作业的，则是如雨后春笋般出现的各种以 SQL 为表达的计算引擎。这些计算引擎针对不同的场景进行针对性优化，但都采用门槛极低的 SQL 语言，极大降低了大数据技术的使用成本，数据库时代人们梦想的大一统的数据仓库终于成为现实，各种数据库时代的方法论开始抬头。这个时期技术路线开始出现细分。

云厂商主推的如 AWS Redshift、Google BigQuery、Snowflake，包括 MaxCompute 这样的集成系统称为大数据时代的数据仓库。而以开源 Hadoop 体系为代表的的开放式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎（Hive、Presto、Spark、Flink 等）协同工作的模式，则形成了数据湖的雏形。

4. 阶段四：大数据技术「普及期」。当前，大数据技术早已不是什么火箭科技，而已经渗透到各行各业，大数据的普及期已经到来。市场对大数据产品的要求，除了规模、性能、简单易用，提出了成本、安全、稳定性等更加全面的企业级生产的要求。

开源 Hadoop 线，引擎、元数据、存储等基础部件的迭代更替进入相对稳态，大众对开源大数据技术的认知达到空前的水平。一方面，开放架构的便利带来了不错的市场份额，另一方面开放架构的松散则使开源方案在企业级能力构建上遇到瓶颈，尤其是数据安全、身份权限强管控、数据治理等方面，协同效率较差（如 Ranger 作为权限管控组件、Atlas 作为数据治理组件，跟今天的主流引擎竟然还无法做到全覆盖）。同时引擎自身的发展也对已有的开放架构提出了更多挑战，Delta Lake、Hudi 这样自闭环设计的出现使得一套存储、一套元数据、多种引擎协作的基础出现了某种程度的裂痕。
真正将数据湖概念推而广之的是AWS。AWS 构筑了一套以 S3 为中心化存储、Glue 为元数据服务，E-MapReduce、Athena 为引擎的开放协作式的产品解决方案。它的开放性和和开源体系类似，并在2019年推出Lake Formation 解决产品间的安全授信问题。虽然这套架构在企业级能力上和相对成熟的云数据仓库产品相去甚远，但对于开源技术体系的用户来说，架构相近理解容易，还是很有吸引力。AWS 之后，各个云厂商也纷纷跟进数据湖的概念，并在自己的云服务上提供类似的产品解决方案。
云厂商主推的数据仓库类产品则发展良好，数仓核心能力方面持续增强。性能、成本方面极大提升（MaxCompute 完成了核心引擎的全面升级和性能跳跃式发展，连续三年刷新 TPCx-BigBench 世界记录），数据管理能力空前增强（数据中台建模理论、智能数仓），企业级安全能力大为繁荣（同时支持基于 ACL 和基于规则等多种授权模型，列级别细粒度授权，可信计算，存储加密，数据脱敏等），在联邦计算方面也普遍做了增强，一定程度上开始将非数仓自身存储的数据纳入管理，和数据湖的边界日益模糊。

综上所述，数据仓库是个诞生于数据库时代的概念，在大数据时代随云厂商的各种数仓服务落地开花，目前通常指代云厂商提供的基于大数据技术的一体化服务。而数据湖则脱胎于大数据时代开源技术体系的开放设计，经过 AWS 整合宣传，通常是由一系列云产品或开源组件共同构成大数据解决方案。

02 什么是数据湖

近几年数据湖的概念非常火热，但是数据湖的定义并不统一，我们先看下数据湖的相关定义。

Wikipedia对数据湖的定义：

数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV，日志，XML, JSON)，非结构化数据 (电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。储存数据湖的方式包括 Apache Hadoop分布式文件系统， Azure 数据湖或亚马逊云 Lake Formation云存储服务，以及诸如 Alluxio 虚拟数据湖之类的解决方案。数据沼泽是一个劣化的数据湖，用户无法访问，或是没什么价值。

AWS的定义相对简洁：

数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

Azure等其他云厂商也有各自的定义，本文不再赘述。

但无论数据湖的定义如何不同，数据湖的本质其实都包含如下四部分：

1. 统一的存储系统

2. 存储原始数据

3. 丰富的计算模型/范式

4. 数据湖与上云无关

从上述四个标准判断，开源大数据的Hadoop HDFS存储系统就是一个标准的数据湖架构，具备统一的原始数据存储架构。而近期被广泛谈到的数据湖，其实是一个狭义的概念，特指“基于云上托管存储系统的数据湖系统，架构上采用存储计算分离的体系”。例如基于AWS S3系统或者阿里云OSS系统构建的数据湖。

下图是数据湖技术架构的演进过程，整体上可分为三个阶段：

1. 阶段一：自建开源Hadoop数据湖架构，原始数据统一存放在HDFS系统上，引擎以Hadoop和Spark开源生态为主，存储和计算一体。缺点是需要企业自己运维和管理整套集群，成本高且集群稳定性差。

2. 阶段二：云上托管Hadoop数据湖架构（即EMR开源数据湖），底层物理服务器和开源软件版本由云厂商提供和管理，数据仍统一存放在HDFS系统上，引擎以Hadoop和Spark开源生态为主。

这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性，使企业的整体运维成本有所下降，但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理，即应用层的运维工作。同时因为存储和计算耦合在一起，稳定性不是最优，两种资源无法独立扩展，使用成本也不是最优。

3. 阶段三：云上数据湖架构，即云上纯托管的存储系统逐步取代HDFS，成为数据湖的存储基础设施，并且引擎丰富度也不断扩展。除了Hadoop和Spark的生态引擎之外，各云厂商还发展出面向数据湖的引擎产品。

如分析类的数据湖引擎有AWS Athena和华为DLI，AI类的有AWS Sagemaker。这个架构仍然保持了一个存储和多个引擎的特性，所以统一元数据服务至关重要，如AWS推出了Glue，阿里云EMR近期也即将发布数据湖统一元数据服务。该架构相对于原生HDFS的数据湖架构的优势在于：

帮助用户摆脱原生HDFS系统运维困难的问题。HDFS系统运维有两个困难：1）存储系统相比计算引擎更高的稳定性要求和更高的运维风险 2）与计算混布在一起，带来的扩展弹性问题。存储计算分离架构帮助用户解耦存储，并交由云厂商统一运维管理，解决了稳定性和运维问题。
分离后的存储系统可以独立扩展，不再需要与计算耦合，可降低整体成本
当用户采用数据湖架构之后，客观上也帮助客户完成了存储统一化（解决多个HDFS数据孤岛的问题）

下图是阿里云EMR数据湖架构图，它是基于开源生态的大数据平台，既支持HDFS的开源数据湖，也支持OSS的云上数据湖。

图4. 阿里云EMR数据湖架构

企业使用数据湖技术构建大数据平台，主要包括数据接入、数据存储、计算和分析、数据管理、权限控制等，下图是Gartner定义的一个参考架构。当前数据湖的技术因其架构的灵活性和开放性，在性能效率、安全控制以及数据治理上并不十分成熟，在面向企业级生产要求时还存在很大挑战（在第四章会有详细的阐述）。

03 数据仓库的诞生，以及和数据中台的关系

数据仓库的概念最早来源于数据库领域，主要处理面向数据的复杂查询和分析场景。随大数据技术发展，大量借鉴数据库的技术，例如SQL语言、查询优化器等，形成了大数据的数据仓库，因其强大的分析能力，成为主流。

近几年，数据仓库和云原生技术相结合，又演生出了云数据仓库，解决了企业部署数据仓库的资源供给问题。云数据仓库作为大数据的高阶（企业级）平台能力，因其开箱即用、无限扩展、简易运维等能力，越来越受到人们的瞩目。

Wikipedia对数据仓库的定义：

在计算机领域，数据仓库（英语：data warehouse，也称为企业数据仓库）是用于报告和数据分析的系统，被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起，用于为整个企业的员工创建分析报告。

比较学术的解释是，数据仓库由数据仓库之父W.H.Inmon于1990年提出，主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量数据，透过数据仓库理论所特有的数据存储架构，作一有系统的分析整理，以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)之进行，并进而支持如决策支持系统(DSS)、主管信息系统(EIS)之创建，帮助决策者能快速有效的自大量数据中，分析出有价值的信息，以利决策拟定及快速回应外在环境变动，帮助建构商业智能(BI)。

数据仓库的本质包含如下三部分：

1. 内置的存储系统，数据通过抽象的方式提供（例如采用Table或者View），不暴露文件系统。

2. 数据需要清洗和转化，通常采用ETL/ELT方式

3. 强调建模和数据管理，供商业智能决策

从上述的标准判断，无论传统数据仓库（如Teradata）还是新兴的云数据仓库系统（AWS Redshift、Google BigQuery、阿里云MaxCompute）均体现了数仓的设计本质，它们均没有对外暴露文件系统，而是提供了数据进出的服务接口。

比如，Teradata提供了CLI数据导入工具，Redshift提供Copy命令从S3或者EMR上导入数据，BigQuery提供Data Transfer服务，MaxCompute提供Tunnel服务以及MMA搬站工具供数据上传和下载。这个设计可以带来多个优势：

1. 引擎深度理解数据，存储和计算可做深度优化

2. 数据全生命周期管理，完善的血缘体系

3. 细粒度的数据管理和治理

4. 完善的元数据管理能力，易于构建企业级数据中台

正因为如此，阿里巴巴飞天大数据平台建设之初，在选型的时候就采用了数据仓库的架构，即MaxCompute大数据平台。MaxCompute（原ODPS)，既是阿里巴巴经济体的大数据平台，又是阿里云上的一种安全可靠、高效能、低成本、从GB到EB级别按需弹性伸缩的在线大数据计算服务（图6.是MaxCompute产品架构，具体详情请点击阿里云MaxCompute官网地址）。

作为SaaS模式的企业级云数仓，MaxCompute广泛应用在阿里巴巴经济体、以及阿里云上互联网、新金融、新零售、数字政府等数千家客户。

图6. MaxCompute云数仓产品架构

得益于MaxCompute数据仓库的架构，阿里巴巴上层逐步构建了“数据安全体系”、“数据质量”、“数据治理”、“数据标签”等管理能力，并最终形成了阿里巴巴的大数据中台。可以说，作为最早数据中台概念的提出者，阿里巴巴的数据中台得益于数据仓库的架构。

04 数据湖 VS 数据仓库

综上，数据仓库和数据湖，是大数据架构的两种设计取向。两者在设计的根本分歧点是对包括存储系统访问、权限管理、建模要求等方面的把控。

数据湖优先的设计，通过开放底层文件存储，给数据入湖带来了最大的灵活性。进入数据湖的数据可以是结构化的，也可以是半结构化的，甚至可以是完全非结构化的原始日志。另外，开放存储给上层的引擎也带来了更多的灵活度，各种引擎可以根据自己针对的场景随意读写数据湖中存储的数据，而只需要遵循相当宽松的兼容性约定（这样的松散约定当然会有隐患，后文会提到）。

但同时，文件系统直接访问使得很多更高阶的功能很难实现，例如，细粒度（小于文件粒度）的权限管理、统一化的文件管理和读写接口升级也十分困难（需要完成每一个访问文件的引擎升级，才算升级完毕）。

而数据仓库优先的设计，更加关注的是数据使用效率、大规模下的数据管理、安全/合规这样的企业级成长性需求。数据经过统一但开放的服务接口进入数据仓库，数据通常预先定义 schema，用户通过数据服务接口或者计算引擎访问分布式存储系统中的文件。

数据仓库优先的设计通过抽象数据访问接口/权限管理/数据本身，来换取更高的性能（无论是存储还是计算）、闭环的安全体系、数据治理的能力等，这些能力对于企业长远的大数据使用都至关重要，我们称之为成长性。

灵活性和成长性，对于处于不同时期的企业来说，重要性不同。

1. 当企业处于初创阶段，数据从产生到消费还需要一个创新探索的阶段才能逐渐沉淀下来，那么用于支撑这类业务的大数据系统，灵活性就更加重要，数据湖的架构更适用。

2. 当企业逐渐成熟起来，已经沉淀为一系列数据处理流程，问题开始转化为数据规模不断增长，处理数据的成本不断增加，参与数据流程的人员、部门不断增多，那么用于支撑这类业务的大数据系统，成长性的好坏就决定了业务能够发展多远。数据仓库的架构更适用。

本文有观察到，相当一部分企业（尤其是新兴的互联网行业）从零开始架构的大数据技术栈，正是伴随开源 Hadoop 体系的流行，经历了这样一个从探索创新到成熟建模的过程。在这个过程中，因为数据湖架构太过灵活而缺少对数据监管、控制和必要的治理手段，导致运维成本不断增加、数据治理效率降低，企业落入了『数据沼泽』的境地，即数据湖中汇聚了太多的数据，反而很难高效率的提炼真正有价值的那部分。

最后只有迁移到数据仓库优先设计的大数据平台，才解决了业务成长到一定规模后所出现的运维、成本、数据治理等问题。还是举阿里巴巴的例子，阿里巴巴成功的数据中台战略，正是在 2015 年前后阿里巴巴全集团完成 MaxCompute（数据仓库）对多个 Hadoop（数据湖）的完全替换（登月项目）才逐步形成的。

05 下一代演进方向：湖仓一体

经过对数据湖和数据仓库的深入阐述和比较，本文认为数据湖和数据仓库作为大数据系统的两条不同演进路线，有各自特有的优势和局限性。

数据湖和数据仓库一个面向初创用户友好，一个成长性更佳。对企业来说，数据湖和数据仓库是否必须是一个二选一的选择题？是否能有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性，将二者有效结合起来为用户实现更低的总体拥有成本？

将数仓和数据湖融合在一起也是业界近年的趋势，多个产品和项目都做过对应的尝试：

1. 数仓支持数据湖访问

2017年Redshift推出Redshift Spectrum，支持Redsift数仓用户访问S3数据湖的数据。
2018年阿里云MaxCompute推出外表能力，支持访问包括OSS/OTS/RDS数据库在内的多种外部存储。

但是无论是 Redshift Spectrum 还是 MaxCompute 的外部表，仍旧需要用户在数仓中通过创建外部表来将数据湖的开放存储路径纳入数仓的概念体系——由于一个单纯的开放式存储并不能自描述其数据本身的变化，因此为这些数据创建外部表、添加分区（本质上是为数据湖中的数据建立 schema）无法完全自动化（需要人工或者定期触发 Alter table add partition 或 msck）。这对于低频临时查询尚能接受，对于生产使用来说，未免有些复杂。

2. 数据湖支持数仓能力

2011年，Hadoop开源体系公司Hortonworks开始了Apache Atlas和Ranger两个开源项目的开发，分别对应数据血缘追踪和数据权限安全两个数仓核心能力。但两个项目发展并不算顺利，直到 2017 年才完成孵化，时至今日，在社区和工业界的部署都还远远不够活跃。核心原因数据湖与生俱来的灵活性。例如Ranger作为数据权限安全统一管理的组件，天然要求所有引擎均适配它才能保证没有安全漏洞，但对于数据湖中强调灵活的引擎，尤其是新引擎来说，会优先实现功能、场景，而不是把对接Ranger作为第一优先级的目标，使得Ranger在数据湖上的位置一直很尴尬。
2018年，Nexflix开源了内部增强版本的元数据服务系统Iceberg，提供包括MVCC（多版本并发控制）在内的增强数仓能力，但因为开源HMS已经成为事实标准，开源版本的Iceberg作为插件方式兼容并配合HMS，数仓管理能力大打折扣。
2018-2019年，Uber和Databricks相继推出了Apache Hudi和DeltaLake，推出增量文件格式用以支持Update/Insert、事务等数据仓库功能。新功能带来文件格式以及组织形式的改变，打破了数据湖原有多套引擎之间关于共用存储的简单约定。为此，Hudi为了维持兼容性，不得不发明了诸如 Copy-On-Write、Merge-On-Read 两种表，Snapshot Query、Incremental Query、Read Optimized Query 三种查询类型，并给出了一个支持矩阵（如图10），极大提升了使用的复杂度。

而DeltaLake则选择了保证以Spark为主要支持引擎的体验，相对牺牲对其他主流引擎的兼容性。这对其他引擎访问数据湖中的Delta数据造成了诸多的限制和使用不便。例如Presto要使用DeltaLake表，需要先用Spark创建manifest文件，再根据manifest创建外部表，同时还要注意manifest文件的更新问题；而Hive要使用DeltaLake表限制更多，不仅会造成元数据层面的混乱，甚至不能写表。

上述在数据湖架构上建立数仓的若干尝试并不成功，这表明数仓和数据湖有本质的区别，在数据湖体系上很难建成完善的数仓。数据湖与数据仓库两者很难直接合并成一套系统，因此作者团队，开始基于融合两者的思路进行探索。

所以我们提出下一代的大数据技术演进方向：湖仓一体，即打通数据仓库和数据湖两套体系，让数据和计算在湖和仓之间自由流动，从而构建一个完整的有机的大数据技术生态体系。

我们认为，构建湖仓一体需要解决三个关键问题：

1. 湖和仓的数据/元数据无缝打通，且不需要用户人工干预

2. 湖和仓有统一的开发体验，存储在不同系统的数据，可以通过一个统一的开发/管理平台操作

3. 数据湖与数据仓库的数据，系统负责自动caching/moving，系统可以根据自动的规则决定哪些数据放在数仓，哪些保留在数据湖，进而形成一体化

我们将在下一章详细介绍阿里云湖仓一体方案如何解决这三个问题。

06 阿里云湖仓一体方案

6.1 整体架构

阿里云MaxCompute在原有的数据仓库架构上，融合了开源数据湖和云上数据湖，最终实现了湖仓一体化的整体架构（图11）。

在该架构中，尽管底层多套存储系统并存，但通过统一的存储访问层和统一的元数据管理，向上层引擎提供一体的封装接口，用户可以联合查询数据仓库和数据湖中的表。整体架构还具备统一的数据安全、管理和治理等中台能力。

针对第五章提出的湖仓一体的三个关键问题，MaxCompute实现了以下4个关键技术点。

1. 快速接入

MaxCompute全新自创PrivateAccess网络连通技术，在遵循云虚拟网络安全标准的前提下，实现多租户模式下特定用户作业定向与IDC/ECS/EMR Hadoop集群网络整体打通能力，具有低延迟、高独享带宽的特点。
经过快速简单的开通、安全配置步骤即可将数据湖和购买的 MaxCompute数仓相连通。

2. 统一数据/元数据管理

MaxCompute实现湖仓一体化的元数据管理，通过DB元数据一键映射技术，实现数据湖和MaxCompute数仓的元数据无缝打通。MaxCompute通过向用户开放创建external project的形式，将数据湖HiveMetaStore中的整个database直接映射为MaxCompute的project，对Hive Database的改动会实时反应在这个project中，并可以在MaxCompute侧随时通过这个project进行访问、计算其中的数据。与此同时，阿里云EMR数据湖解决方案也将推出Data Lake Formation，MaxCompute湖仓一体方案也会支持对该数据湖中的统一元数据服务的一键映射能力。MaxCompute侧对external project的各种操作，也会实时反应在Hive侧，真正实现数据仓库和数据湖之间的无缝联动，完全不需要类似联邦查询方案里的元数据人工干预步骤。
MaxCompute实现湖仓一体化的存储访问层，不仅支持内置优化的存储系统，也无缝的支持外部存储系统。既支持HDFS数据湖，也支持OSS云存储数据湖，可读写各种开源文件格式。

3. 统一开发体验

数据湖里的Hive DataBase映射为MaxCompute external project，和普通project别无二致，同样享受MaxCompute数仓里的数据开发、追踪和管理功能。基于DataWorks强大的数据开发/管理/治理能力，提供统一的湖仓开发体验，降低两套系统的管理成本。
MaxCompute高度兼容Hive/Spark，支持一套任务可以在湖仓两套体系中灵活无缝的运行。
同时，MaxCompute也提供高效的数据通道接口，可以让数据湖中的Hadoop生态引擎直接访问，提升了数仓的开放性。

4. 自动数仓

湖仓一体需要用户根据自身资产使用情况将数据在湖和仓之间进行合理的分层和存储，以最大化湖和仓的优势。MaxCompute开发了一套智能cache技术，根据对历史任务的分析来识别数据冷热度，从而自动利用闲时带宽将数据湖中的热数据以高效文件格式cache在数据仓库中，进一步加速数据仓库的后续数据加工流程。不仅解决了湖仓之间的带宽瓶颈问题，也达到了无须用户参与即可实现数据分层管理/治理以及性能加速的目的。

6.2 构建湖仓一体化的数据中台

基于MaxCompute湖仓一体技术，DataWorks可以进一步对湖仓两套系统进行封装，屏蔽湖和仓异构集群信息，构建一体化的大数据中台，实现一套数据、一套任务在湖和仓之上无缝调度和管理。

企业可以使用湖仓一体化的数据中台能力，优化数据管理架构，充分融合数据湖和数据仓库各自优势。使用数据湖做集中式的原始数据存储，发挥数据湖的灵活和开放优势。

又通过湖仓一体技术将面向生产的高频数据和任务，无缝调度到数据仓库中，以得到更好的性能和成本，以及后续一系列面向生产的数据治理和优化，最终让企业在成本和效率之间找到最佳平衡。

总体来说，MaxCompute湖仓一体为企业提供了一种更灵活更高效更经济的数据平台解决方案，既适用于全新构建大数据平台的企业，也适合已有大数据平台的企业进行架构升级，可以保护现有投资和实现资产利旧。

6.3 典型客户案例：新浪微博应用「湖仓一体」构建混合云AI计算中台

案例背景

微博机器学习平台团队，主要做社交媒体领域里的推荐主要做社交媒体领域里的推荐/排序、文本/图像分类、反垃圾/反作弊等技术。

技术架构上主要围绕开源Hadoop数据湖解决方案，一份HDFS存储+多种计算引擎（hive、spark、flink），以满足以AI为主的多计算场景需求。但微博作为国内Top的社交媒体应用，当前的业务体量和复杂性已然进入到开源“无人区”，开源数据湖方案在性能和成本方面都无法满足微博的要求。

微博借助阿里巴巴强大的飞天大数据和AI平台能力（MaxC+PAI+DW ），解决了超大规模下的特征工程、模型训练以及矩阵计算的性能瓶颈问题，进而形成了阿里巴巴MaxCompute平台（数仓）+ 开源平台（数据湖）共存的格局。

核心痛点

微博希望借助这两套异构的大数据平台，既保持面向AI的各类数据和计算的灵活性，又解决超大规模下的计算和算法的性能/成本问题。但因为这两套大数据平台在集群层面完全是割裂的，数据和计算无法在两个平台里自由流动，无形之中增加了大量的数据移动和计算开发等成本，进而制约了业务的发展。

主要的痛点是：1）安排专人专项负责训练数据同步，工作量巨大 2）训练数据体量大，导致耗时多，无法满足实时训练的要求 3）新写SQL数据处理query，无法复用Hive SQL原有query。

解决方案

为了解决上述的痛点问题，阿里云产品团队和微博机器学习平台团队联合共建湖仓一体新技术，打通了阿里巴巴MaxCompute云数仓和EMR Hadoop数据湖，构建了一个跨湖和仓的AI计算中台。

MaxCompute产品全面升级网络基础设施，打通用户VPC私域，且依托Hive数据库一键映射和强大完善的SQL/PAI引擎能力，将MaxCompute云数仓和EMR Hadoop数据湖技术体系无缝对接，实现湖和的仓统一且智能化管理和调度。

案例价值

不仅融合了数据湖和数据仓库的优势，在灵活性和效率上找到最佳平衡，还快速构建了一套统一的AI计算中台，极大提升该机器学习平台团队的业务支撑能力。无须进行数据搬迁和作业迁移，即可将一套作业无缝灵活调度在MaxCompute集群和EMR集群中。
SQL数据处理任务被广泛运行到MaxCompute集群，性能有明显提升。基于阿里巴巴PAI丰富且强大的算法能力，封装出多种贴近业务场景的算法服务，满足更多的业务需求。
MaxCompute云原生的弹性资源和EMR集群资源形成互补，两套体系之间进行资源的削峰填谷，不仅减少作业排队，且降低整体成本。

07 总结

数据湖和数据仓库，是在今天大数据技术条件下构建分布式系统的两种数据架构设计取向，要看平衡的方向是更偏向灵活性还是成本、性能、安全、治理等企业级特性。

但是数据湖和数据仓库的边界正在慢慢模糊，数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强。在这样的背景之下，MaxCompute 率先提出湖仓一体，为业界和用户展现了一种数据湖和数据仓湖互相补充，协同工作的架构。

这样的架构同时为用户提供了数据湖的灵活性和数据仓库的诸多企业级特性，将用户使用大数据的总体拥有成本进一步降低，我们认为是下一代大数据平台的演进方向。

你可能感兴趣的:(大数据)

大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发