云祁

从数仓到数据中台，且看马蜂窝数仓研发总监谈技术选型最优解

写在前面：我是「云祁」，一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁，或雨于渊 ] ，甚是喜欢。

写博客一方面是对自己学习的一点点总结及记录，另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/数仓开发 感兴趣，可以关注我的动态 https://blog.csdn.net/BeiisBei ，让我们一起挖掘数据的价值~

每天都要进步一点点，生命不是要超越别人，而是要超越自己！ (ง •_•)ง

文章目录

一、前言
二、大数据演进，从数据仓库到数据中台

2.1 第一阶段
2.2 第二阶段
2.3 第三阶段
2.4 当前阶段

三、数据中台架构与技术选型

3.1 数据中台架构核心组成
3.2 数据中台技术选型参考

四、数据研发实践

4.1 数据处理架构
4.2 数仓分层与主题分类
4.3 数据研发流程
4.4 数据生命周期管理
4.5 数据质量管理
4.6 数据应用架构
4.7 数据ROI评估

五、数据研发趋势&关注点
六、Q&A

一、前言

本文根据马蜂窝数仓研发总监颜博老师在线上分享演讲内容整理而成。

分享的内容主要包含以下几点：

回顾大数据在国内的发展，从传统数仓到当前数据中台的演进过程；
个人认为数据中台的核心组成，以及一些技术选型参考；
数据研发是数据中台很重要的一环，分享马蜂窝在数据研发方面的实践，主要是数据仓库架构与研发方面。

二、大数据演进，从数据仓库到数据中台

2.1 第一阶段

21世纪的第一个10年，企业级数据仓库（EDW）从萌芽到蓬勃发展，“IOT”( IBM、Oracle、Teradata)占领了大部分市场，提供数据仓库建设从硬件、软件到实施的整体方案。

这个时代的数据仓库实施不仅需要购买大（中、小）型机，配套商用的关系型数据库（Oracle、DB2、SQL Server）以及一些ETL/OLAP套件，实施成本相对高昂，数据仓库建设主要集中在金融、电信、大型零售与制造等行业。

数据仓库的应用主要通过为企业提供报表、分析等数据，辅助企业的经营决策。像电信行业的经营分析系统、银行的风控管理等，都是这个期间比较典型的应用。

2.2 第二阶段

2010-2015年，大数据平台阶段，移动互联网的飞速发展带动Bigdata(大数据)的发展。其中Hadoop生态技术开始逐步在国内大范围使用，企业只要基于Hadoop分布式的计算框架，使用相对廉价的PC服务器就能搭建起大数据集群。

数据湖的概念也是这个阶段诞生（主要是为降低传统数仓较为复杂的中间建模过程，通过接入业务系统的原始数据，包括结构化、非结构数据，借助Hadoop生态强大计算引擎，将数据直接服务于应用）。这个阶段不只是金融、电信这些行业，国内主流互联网企业也纷纷搭建起大数据平台。

大数据应用更为丰富，不仅限于决策分析，基于APP/门户站点的搜索推荐、以及通过A/B Test来对产品进行升级迭代等是这个阶段常规的应用点，用户画像在这个阶段也得到重视，主要应用于企业的营销、运营等场景。

2.3 第三阶段

就是我们现在所处的阶段，数据中台以及云上大数据阶段，通过前10多年不断的技术积累，大数据在方法和组织的变革上也有了新的沉淀，主要体现在几个方面：

1）数据统一化

其核心思想是数据流转的所有环节进行统一化，如从采集到存储到加工等过程，在这些过程中通过建立统一的公共数据模型体系、统一的指标与标签体系，提高数据的标准性、易用性，让数据本身更好地连通，提升使用效率。

2）工具组件化

数据在采集、计算、存储、应用过程中涉及多业务线条，多场景，将这些场景与工具（采集工具、管道工具、计算&调度工具、数据服务工具，数据管理工具、可视化工具等）进行沉淀，研发出通用、高效的组件化工具，避免重复开发，降低研发成本。

3）应用服务化

之前大数据应用的数据调用比较混杂，有些直接访问数仓数据表，有些调用临时接口等。通过数据中台应用服务化建设，提供标准的应用服务，以数据可视化产品、数据API工具等服务，支撑应用的灵活调用。

4）组织清晰化

数据中台团队专注于数据内容&数据平台开发，提供各种基于数据的能力模块，而其他部门人员如业务产品、运营、分析等角色，只需要借助工具/产品有效地使用数据，发挥其价值，无需关注数据加工的过程，做到各尽其职，充分发挥各自专长，同样也能达到降本提效目的。大数据团队内部本身组织和职责也倾于清晰化，比如按照职责分为平台（工具）研发、数据研发、数据产品、数据分析等不同组织。

2.4 当前阶段

数据应用到各个角落，除了之前可以支撑的决策分析以外，大数据与线上事务系统（OLTP）的联动场景非常多，比如我们在电商平台查询个人所有历史订单，再比如一些刷单、反作弊的实时拦截，以及一些实时推荐等，这些都是通过将数据的运算交给数据中台部门处理，前台部门直接通过API进行结果调用。数据中台的集中化建设也更好地支撑起创新业务，比如通过大数据+分析建立起商业化数据变现产品，进行数据售卖，把数据变成新的业务。

大家知道共享复用是中台建设中很关键的一个词，这也是为什么我们很多数据中台下面会包括共享数据组，公共数据组等。实际上共享复用并不是大数据发展的一个新词，在早期数据仓库（建立公共数据模型）、大数据平台（研发一些组件化工具）的建设中，也是满足共享复用的。

如上提到，数据中台本身是组织，方法的升级与变革，更多是利用技术的进步更好地支持这些升级变革，如果你当前的建设还是数据平台+数仓（数据湖等）但是已经具备这些方法和特性，我个人认为也是合理的。

数据中台的建设也需要相应的成本与门槛，例如集群搭建、工具建设等。云计算的发展可以快速提供数据中台建设的能力，例如企业无需自己搭建机房，使用云计算的弹性计算存储能力以及丰富的工具，可以支撑数据中台的快速搭建。

关于数据中台的合理性也一直颇有争议，大型（集团型）公司有相互独立的子公司，数据之间不需要太多连接与共享，分别构建自己子数据中台也是合理的架构，集团层面可以利用数据子中台进行数据上报解决集团层面数据大盘、统计、分析、财务等诉求。再比如一些小型公司是否需要在一开始就按照数据中台的架构进行建设，也是存有一些争议。

数据中台是2015年阿里提出来的双中台的概念其中的一个重要组成，阿里作为先驱者，提供了数据中台架构、以及非常多的建设思路供大家参考。从目前的建设效果来看，很多公司在数据中台建设中有不错的成效（尤其是大中型公司），数据中台整体思路得到了验证。但是数据中台本身还算一个新鲜事务，这个新鲜事务目前还没有标准答案，只有参考答案。

三、数据中台架构与技术选型

3.1 数据中台架构核心组成

我认为的数据中台核心架构包括四大组成部分，具体是：

底座是数据基础平台，包括数据采集平台&计算平台&存储平台，这些可以自建也可以使用云计算服务；
中间部分两大块是中台的公共数据区，公共数据区包括数据仓库(数据湖) ，主要负责公共数据模型研发，还包括统一指标（标签）平台，负责把模型组织成可以对外服务的数据，例如数据指标、数据标签；
上层是数据应用服务层，主要将公共数据区的数据对外包装并提供服务，包括数据接口平台、多维查询平台，数据可视化平台、数据分析平台等。
另外，数据研发平台和数据管理平台贯穿始终，其中：

1）数据开发平台

包括数据开发的各类工具组合，例如：数据管道工具（比如数据接入、数据导出）、模型设计工具、脚本开发工具、数据调度工具等。

2）数据管理平台

包括统一元数据管理、数据质量管理、数据生命周期管理。针对数据全链路的数据管理，保证数据中台可以监控数据链路中的数据流向、数据使用效果、数据生命周期，以衡量数据的价值与成本。、

以上是数据中台的核心部分，数据中台的组成也可以更加丰富，比如包括：数据资产平台、算法平台等等。

在数据中台的建设中一定不要忽视的是与业务的衔接，因为数据来源于业务并最终应用于业务，在数据中台的建设中需要有一系列的流程制度明确与业务的充分衔接，以保障数据源&数据产出的质量。

3.2 数据中台技术选型参考

在搭建数据中台方面，基于开源技术的选型，尤其是Hadoop生态圈有非常多的选择，从数据整体流向来看各大层级的选型。

数据抽取层：sqoop和flume是两大主流工具，其中sqoop作为结构化数据（关系型数据库）离线抽取，flume作为非结构化日志接入；
数据存储层：Hadoop文件系统Hdfs大家都比较了解，而kafka作为流式数据总线应用也非常广泛；
计算与调度层，包括：
- 离线计算：离线计算主要是hive，spark，也有部分选用tez
- 实时计算：前些年storm，spark比较流行，最近几年大家纷纷往Flink转型
数据调度：除了像Airflow Azkaban Oozie等，易观开源的Dolphin-scheduler也非常活跃
数据引擎层：也就是我们常说的OLAP层，我们看到这一层里的选择非常多，就不一一列举了，（业务需求带动技术进步的典型，选择丰富主要是可以适配不同的数据应用场景）。从概念上讲分为ROLAP、MOLAP以及两者混搭。MOLAP提前做一些预计算，以生成Cube的方式，达到空间换取查询效率；而ROLAP是即查即用，效率完全取决于查询引擎的性能，我个人认为从将来看，ROLAP的趋势会更加明显，因为没有中间的数据链路。但目前看来，没有一个统一的引擎足以支撑各类数据场景（这或许是将来的机会~）；
数据可视化层：比较主流的有Metabase、Superset、Redash，也可以选择阿里、百度的一些开源控件。

在开源技术的选择里，我们看到各层里都有越来越多国内开源的工具（也充分体现了我们在大数据技术领域的进步）。除了以上列举的这些，整个Hadoop生态圈的技术选择非常多，可以结合自己的实际场景选择自己的架构，在选型层面可以参照的一些原则，比如：

是否有鲜活的成功案例，优先找自己类似业务场景；
接口的开放性，与其他组件的兼容性；
社区活跃性度&发展趋势。

当然，数据中台的选型不只是开源技术，开源本身也不是完美的，例如维护开发成本较高，升级迭代不好把控，通过开源技术去建立数据中台还是有一定研发门槛。

所以也有很多商业化的套件、以及基于云的数据组件可以选择，包括数据采集、处理、分析、数据可视化全过程，国内外有很多厂商都提供了丰富的选择。尤其在大数据可视化这块，国内有许多非常专业的商业套件。

四、数据研发实践

4.1 数据处理架构

下面是一个简单的数据处理架构演进过程：

最早数据仓库的计算只支持批处理，通常是按天定时处理数据，在后期逐步进化到准实时，本质上还是批处理，只是处理频度上得有提升，到小时级，或者15分钟这种。

随着技术不断进步，后期演化出一条新的流处理链路，这个链路和之前的批处理分别处理，然后在服务层面利用大数据的计算能力进行合并，向外提供离线+实时数据服务，这也是著名的lambda架构。

最近几年随着Flink等技术的发展，有一个趋势是流批一体化，在接入层统一采用流式接入，计算层采用统一套框架支持实时计算+离线计算，批处理仅仅作为流处理的一个特殊场景进行支持。整体上可以做到流处理、批处理的自由切换。

流计算和批处理在需求场景上有一些本质区别，前者主要用于支持线上业务场景（比如互联网的推荐、搜索、风控等），而批处理更多是支持离线统计分析。

日出而作，日落而息，大家针对大数据的统计分析习惯不会发生根本性变化，最简单的T+1批处理方式也还是数据应用必不可少的环节。在使用同一套架构上，由于数据源变化&维度变化的多样性，批处理往往面临一些复杂场景，这是采用同一套框架上的一些难点，充分支持好批处理也是将来流批一体框架的发展方向。

4.2 数仓分层与主题分类

1、数仓分层

与传统ETL不同的，我们采用的是ELT的数据架构，较为适合在互联网，总体分为业务数据层、公共数据层、应用数据层三大层次。

① 业务数据层（ODS层）

原始数据经过缓冲层（STG）的加载，会进入数仓的业务数据层，这一层采用范式建模，基本保持与数据源完全一致的结构，对于变化的数据，使用数据拉链加工与存储。

这一层选用范式建模，是指保持源系统（例如关系数据库）的范式结构，好处主要是：

一次性接入数据源结构，针对需求的变动不用频繁去与数据源对接；
便于业务研发更好地理解数据，同时是也是公司的原始数据资产。

针对变化数据采用数据拉链的好处：

保留历史数据的同时，尽可能少占用存储空间，长期来看，拉链存储比起每天全量保留历史节约大概90%空间；
快速、高效地获取历史任意一天业务系统的快照数据。

② 公共数据层（包括公共明细层DWD，公共汇总层DWS）

公共数据层是数据仓库的核心层，是整个数仓中使用率最高的，这一层主要采用的维度建模思路进行设计，类型包括事务事实、周期快照、累积快照。同时为了方便下游对数据的使用，我们会设计一系列的宽表模型，将不同业务过程中的事实进行统一整合，包括纵向整合&横向整合；对于商品、用户主数据类可能分散在不同的源系统中采用纵向整合；横向整合主要包括交易、内容等行为数据不同业务过程的整合，比如：用户（用户信息、注册信息）购买（下单、支付、结算、覆约、完成）商品（商品信息，商家信息，等），我们会把订单流转业务过程整合放到一张明细表里，同时会研发一些基于用户、或者商品视角的轻度汇总宽表。

宽表非常便于理解和易用，下游应用调用也方便。我们之前也做过一些统计，在调用分布来看，宽表的使用占到70%以上。

虽然宽表的使用在数仓建模中非常普遍，但是也有一些缺陷：

数据冗余较多，在存储、计算、调用较为占资源，建议尽量还是按场景去使用；
宽表整合的信息较多，数据权限不好控制。建议可以根据需求，在有限范围内开放整体宽表权限，或者通过视图或者子表的方式建立不同权限的数据范围，适应不同组织的需求；
宽表通常依赖比较多，会影响数据的产出的时效。

③ 应用数据层（DWA层）

顾名思义，就是偏向应用的数据加工，也可以叫集市层，这一层的设计可以相对灵活，贴近应用即可，总体设计思想仍然可以按维度建模思想为主。

2、主题分类

数仓架构的数据分类两个视角，包括主题视角与业务视角。

① 数据主题视角

最重要的一个视角，也就是咱们经常提到的数仓主题，主题是将企业的业务进行宏观数据抽象，是数据仓库里数据的主要组织形式，划分方法如下：

参照波特价值链，分析企业本身经营的业务（基本活动、支持型活动），分别对应哪些数据；
参照业界通用模型，例如像IBM、TD等针对大型行业（如电信、金融、零售）有一些数据主题的通用划分方法；
对企业的内部数据（线上数据模块、数据字典）进行摸底，确认对应到哪些主题。

划分结果会按照三个层级：主题域–>主题–>子主题。

第一级是主题域，针对相对稳定的主题进行合并，归拢到主题域，利于数据的理解与建立全局的数据资产目录；
第二级是主题；
第三级是子主题，主要针对有些主题下分类较多，比如供应链主题下会包含采购、仓储、配送等子主题。

数据主题划分建议完全互斥，不建议重复。

② 数据业务视角

数据业务域是根据企业经营的具体业务，结合企业的组织架构进行划分，层次和分类可以相对灵活，子分类可以允许重复，因为两条不同的业务域可能经营相同的业务，例如电商、内容下都有会员这个业务。

上图是一个比较典型的内容+电商的数据主题与业务分类。

以上一横一纵两个视角，将数据进行更好的归类，在数据模型设计中会打上相应分类标签，从而让数据研发&数据使用人员统一认知。以上两种分类方式主要应用于核心的公共数据层。

业务数据层、应用数据层并不需要遵循以上分类规则，比如业务数据层（ODS层）是按照数据源进行分类，应用数据层（DWA）是根据具体的应用进行分类。

4.3 数据研发流程

除了合理的架构之外，数据研发的流程也很重要，总体流程如下：

包括需求分析/数据调研、数据模型设计、数据开发&测试、上线发布等流程。

在之前数据中台的核心架构提到不闭门造车，数据研发需要与业务部门充分衔接，比如在数据调研中要与业务研发同学进行线上数据&结构访谈；在数据开发中，与分析&业务同学共同确认标准口径；在数据研发完成后对数据使用方进行数据发布与培训。

以上流程中，除了需求调研，其他部分我们都进行了线上化，包括数据的模型设计，早期我们会手写mapping文档，后期我们逐步把mapping文档进行了线上化，整体的数据模型设计通过模型设计工具完成，包括从概念模型、逻辑模型到物理模型的设计。模型设计完成后，可以一键生成数据知识文档。

4.4 数据生命周期管理

数据研发完成，还需要关注数据生命周期，一方面数据量的飞速增长不仅仅需要占用大量存储，比如像自建机房，会涉及扩充机柜、机房，往往会面临一些瓶颈；另外一方面，大量的数据会降低数据的计算效率，所以从数据的生成开始，我们就需要考虑生命周期，并且结合数据的使用情况制定数据归档、数据销毁等管理策略。

针对数据已经占用了大量存储资源，可以采取一系列措施进行成本控制，例如：

降存量：通过数据压缩技术、降副本等方式，以及在数据模型更合理的设计，将存量数据存储降低；
控增量：根据数据重要性，可恢复性等考量角度，确认数据的保留周期，并根据周期自动归档或删除；
摊成本：可以通过一些算法，比如数据调用分布、需求来源等，把成本分摊到相应业务部门，让相关业务部门关注到成本。

数据安全也是数据生命周期管理重的一个重要课题，比如针对用户敏感信息，需要在接入时考虑如何加密。一种做法是通过一个独立的物理集群对敏感数据进行隔离与强管控；数据使用中，也需要将数据划分不同的安全或敏感等级（例如有些财务数据的非常敏感，需要谨慎对外开放），根据不同的等级设定不同的访问审批机制。另外，在数据归档、销毁也需要制定好配套的安全管理措施，避免安全风险。

4.5 数据质量管理

数据质量管理主要包括3个角度：准确性、及时性、一致性。

管理的环节包括：事前、事中、事后、以及事故管理。

针对数据运维的告警发送，传统的方式主要是短信、邮件、电话；随着移动办公工具功能逐步的强大，可以将运维告警以数据接口的方式与这些工具进行对接，将告警发送到企业内部的即时通讯工具。

4.6 数据应用架构

数据研发最终还是需要赋能到业务&应用，一个合理的数据应用架构是非常关键的，这张图是一个应用架构的简图参考：

从数据的流向上分：

数据仓库（或者数据湖）：负责原始数据的计算，主要将数据落地到HDFS；
数据引擎层：数据加工完成之后，会将数据推送到不同的引擎中，这一层之前提到选择非常多，可以根据自己的场景选择一个混搭组合，比如我们目前选择的有Presto，Kylin，Druid，Mysql；
数据服务层：通过统一化的SQL调用服务，屏蔽底层不同的数据引擎，为上层统一查询提供标准接口；
指标平台：指标平台是一个非常关键的产品，定位于衔接数据研发与数据应用，包括指标的标准定义、逻辑、计算方式、分类等各项内容。指标分类上我们分为标准指标(指标口径经过审核过)、以及非标准指标；
多维查询：这是我们的一个即席查询工具，查询的数据主要来源指标平台，可以选定不同的指标维度组合进行结果呈现，用户可以一次性查询得到结果，也可以将查询结果配置成可视化的报表进行固化。

中间是统一元数据管理：对整个架构中可以对外提供服务的元数据进行统一管理（包括数仓的元数据、查询引擎的元数据、指标元数据等），以及监控这些元数据的调用情况。

最右侧是权限管理：权限管理关乎到数据安全，在设计上需要考虑周全，比如针对表级、指标级、维度级别都可以进行控制；同时产品层面也需要灵活配置权限审批级别与人员。

在面向用户使用层面，我们主要开放的是多维查询&可视化，用户通过多维去查询各类指标&维度数据，得到数据结果列表，再选择可视化配置面板，完成各类图表、表格的自主配置，并发布到个人看板或者业务大盘目录里。也可以将配置的数据看板进行灵活组合，定制成一个小型的数据产品。

4.7 数据ROI评估

在数据研发中，也要考量数据的ROI，下面是一个简单的ROI模型：

根据活跃度（调用次数等）、覆盖度（通过血缘关系找出依赖数量），以及贡献度（依赖数据的重要等级）来确认数据的价值。同时会评估数据的成本指数（例如计算成本、存储成本等）。

通过以上两者相除，综合得到数据的ROI，针对ROI可以将数据分为不同等级，并相应进行数据治理。比如针对价值低，成本高的数据，可以考虑下线等。

五、数据研发趋势&关注点

提效：目前借助工具的研发可以把绝大部分数据研发工作线上化，将来借助AI等能力，实现数据处理中包括开发、运维的自动化，提升处理效率；
灵活：流批一体化，包括流处理与批处理自由切换，之前已经提到过，个人认为也是一个发展的趋势；
降本：数据研发链路的成本控制，在数据建设的早期通常不太引起关注，随着数据量不断的积累，往往存储、计算成本成为瓶颈。针对数据建设成本需提前考虑；
算力：我们看到Google，IBM和阿里都在研究量子计算，将来的数据中间层（比如数仓的公共模型）是否可以考虑虚拟化（比如只保留规则&数据结构），具体数据内容在应用发起时，即调即用，更多时候可以不需要占用存储资源。算力的不断提升，有可能会颠覆一些传统数据建设的思路。

六、Q&A

Q1：请问贵公司如何压缩数据？又如何删除副本呢？

A：我们主要使用parquet +snappy压缩；另外，如果发现压缩率较低，可以通过排序来调整数据分布，降副本可以了解下EC纠删码技术。

Q2：对于批处理效率低的问题该怎么处理？

A：具体可以看什么原因导致，如果是整体效率低，可以看资源利用是否集中，如果集中，可以考虑任务分等级错峰进行队列隔离等；如果是个别任务问题，那就要考虑逻辑和加工链路是否有问题，比如说可以全量改增量处理，逻辑参数优化；如果倾斜导致可以针对具体倾斜原因采取不同的优化方式。

Q3：请问基于Hadoop生态组件构建DW存在哪些不足？与MPP比较？

A：如果之前一直是按照传统商业套件进行建设，可能在数据不能直接update这个点上不习惯。另外大部分技术都是经历反复演进才达到稳定的，所以最好能选用成熟组件。与MPP比较，MPP横向扩充到一定规模可能会有瓶颈，而Hadoop集群可以灵活扩充节点来增加算力，比如现在国内单集群几千台、上万台的场景都有。

Q4：数据中台建设团队的KPI怎么评定？

A：需求响应效率、前台数据调用效率、数据覆盖度、数据准确性、及时性、用户满意度、成本控制效果等。

Q5：您对HATP在行业应用趋势和方向如何看？

A：HATP我个人没有研究；如果HATP能解跨不同环境之间的数据连通性，应该可以替代一些当前大数据的应用场景。

Q6: 对于搭建数据中台的生态工具，有什么建议吗？

A：文中有一些常规的选型（主要调研了当前一些主流工具），基本上都是经过了验证过，更多还是找适合自己场景的工具。

Q7：请问现在对提效方面有什么好的开源的线上工具吗？

A：建模、开发中的一些提效小工具成本不高可以考虑自研，但是复杂一些例如任务调度完全可以找到成熟的开源工具。

Q8：范式建模层，是否会形成统一数据模型，即one model？

A：不会，范式主要应用在业务数据层，原则上我们不对外提供这一层的服务，主要用于加工DW层。

Q9：业务数据层，如果设计成拉链表，抽取数据是肯定是做更新插入操作，增量和存量数据做比对，很耗性能，特别是存量数据是海量的情况下，请问下如何处理此类问题？

A：大表拉链效率慢优化可以考虑减少计算数据量，例如把稳态数据进行归档，不参与计算。或者可以尝试通过冷热数据分离，再视图合并。

Q10：请问mapping是建模管理的？是否用用ERWIN或者PD工具吧？

A：以前我们是通过excel模版建模并生成mapping文档，现在只是把这个模版搬到线上，这个小工具可以连通到建表，并且发布到数据知识系统。我们没有使用ERWIN或者PD，模型之间的关系会辅助用一些思维导图软件。

Q11：为什么要基于Hive建数仓？它不支持索引、更新、事务。

A：Hive 搭建数仓当前来看处理效率、稳定性都是经过验证过的。更新可以通过高效的insert over write来解决。

Q12：数据湖是什么技术？跟数仓的关系是啥？

A：跟数仓是两个独立的概念，通过直接接入源系统的原始数据（包括结构化、非结构化），利用大数据强大的计算能力，直接将数据服务于应用。主要为缩短传统数仓的中间建模与处理（ETL）过程，目前有看到一些云+数据湖的方案。

Q13：业务元数据、技术元数据在中台中如何统一对应管理？

A：通过统一元数据管理工具例如指标元数据管理工具、数据表元数据管理工具，可以将业务元数据对应到技术元数据，建议可以在工具中设置一些强规范，来保证统一对应。

Q14：使用kylin做olap很不灵活，贵公司是使用kylin吗?您认为kylin主要是用于什么场景？

A：是的，大部分场景使用的是kylin，kylin主要使用用业务形态相对稳定、计算的维度指标矩阵相对固定、原始数据量较大且有去重类指标计算的情况。通过一些模型设计和技术手段可以相对降低kylin灵活性差的问题，比如：模型设计的抽象化、底层使用视图、使用Hybrids进行桥接等。

Q15：贵司数据治理工具用的哪个？

A：目前没有专门的工具，从一开始保持数据的规范化建设、合理的架构，可以降低治理的工作；如果要治理可以考虑通过全链条元数据管理过程配合数据治理。

Q16：所讲的体系如何保障数据业务化的、端到端的实时应用？

A：我们目前的场景还不多，可以了解其他互联网场景丰富一些方案。如果是支撑端到端的实时应用，要保证稳定性需要在服务层有多种调用方案，例如针对同一个应用，可以有常规API调用以及降级API。

你可能感兴趣的:(#,----,数据中台,数据仓库,大数据)

【面试宝典】10道数据仓库高频题整理(附答案背诵版) 想念@思恋面试宝典数据仓库面试数据仓库职场和发展
1.简述数据仓库架构？数据仓库架构是数据仓库系统的基础结构，它定义了数据从来源到最终用户如何流动和转换的过程。数据仓库架构通常包括以下几个主要部分：数据源:数据源可以是各种类型的系统，如关系数据库、文件系统或在线事务处理系统。这些源头包含了企业运营中产生的原始数据。数据抽取、转换和加载（ETL）:这是数据仓库的核心部分。数据从原始数据源抽取出来，经过清洗（去除不一致性和错误）、转换（转换为适合分析
数据仓库基础常见面试题兔子宇航员0301 数据开发小白成长笔记数据仓库 spark 大数据
1.数据仓库是什么‌数据仓库（DataWarehouse）是一个面向主题的、集成的、非易失的、随时间变化的数据集合，用于支持企业的管理决策‌。它不同于传统的操作型数据库，后者主要用于处理日常业务交易和实时查询，而数据仓库则侧重于对历史数据的整合、分析和挖掘2.数据仓库和数据库有什么区别数据来源和处理方式不同：数据库通常用于存储、管理和查询交易数据，而数据仓库则是用于处理分析性查询的数据。数据仓库通
2024年大数据最全数据仓库｜数据库面试题总结_面试题数据仓库 2301_82243558 程序员大数据数据仓库数据库
这里值得注意的是不要想着为每个字段建立索引，因为优先使用索引的优势就在于其体积小。索引有哪几种类型？主键索引:数据列不允许重复，不允许为NULL，一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NULL值，一个表允许多个列创建唯一索引。可以通过ALTERTABLEtable_nameADDUNIQUE(column);创建唯一索引可以通过ALTERTABLEtable_nameADDUNI
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
Apache Doris主要应用场景和一些实际案例临水逸 apache
ApacheDoris是一个现代化的分布式分析型数据库，具备高性能、实时性和高并发性等特点，被广泛应用于多种场景。以下是Doris的主要应用场景和一些实际案例。应用场景1.实时数据分析数据流处理：Doris可以实时ingest（引入）和分析数据流，适用于监控系统、实时用户行为分析等场景。实时仪表盘：Doris适用于构建实时可视化仪表盘，为运营和业务决策提供实时数据支持。2.数据仓库OLAP（在线分
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
云起无垠入选中国信息通信研究院2024年度首期“磐安”优秀案例人工智能
近日，中国信通院举办的深度观察报告会系列论坛在北京顺利召开。在数字生态治理分论坛上，2024年度首期“磐安”优秀案例——AI+数字安全应用优秀案例遴选结果正式公布，云起无垠凭借其在生成式AI网络安全攻防对抗垂直领域扎实的研究及应用成果，成功入选该年度首期“磐安”优秀案例。当下，数字化浪潮席卷全球，信息技术广泛渗透各个产业。云计算、大数据、人工智能、物联网等前沿技术深度融合，传统制造业生产线、现代服
东华发思特&巨杉数据库：打造智慧城市分布式大数据联合解决方案巨杉数据库SequoiaDB SequoiaDB巨杉数据库巨杉数据库 sequoiadb 东华发思特联合解决方案
合作伙伴公司简介东华发思特为东华软件旗下控股子公司，是一家通过高新技术企业认定的技术企业，拥有CMMI3、ISO27001、ISO9000、ISO20000等高级行业资质认证。公司组建了一批视野开拓、经验丰富的管理和研发团队，如今已打造了一系列新型智慧城市产品体系，以HarryData大数据中台和BobbyLink物联网中台为核心，以数字政府、数字文旅、数字乡村、城市精细化管理平台等为产业互联网助
数据治理组织架构产品经理自我修养大数据
企业数据治理体系除了在技术方面的实施架构，还需要管理方面的组织架构支撑。一般在数据治理建设初期，集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。4.2.1组织架构1）决策层提供数据标准管理的决策职能，通俗理解即拍板定方案。2）管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【数据治理】数据治理框架概述野老杂谈数据治理数据治理框架 DAMA-DMBOK COBIT 企业数据治理数据管理
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
软考信安26~大数据安全需求分析与安全保护工程 jnprlxc 软考~信息安全工程师需求分析安全运维笔记
1、大数据安全威胁与需求分析1.1、大数据相关概念发展大数据是指非传统的数据处理工具的数据集，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征。大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据。1.2、大数据安全威胁分析（1）“数据集“安全边界日渐模糊，安全保护难度提升（2）敏感数据泄露安全风险增大（3）数据失真与大数据污染安全风险（4）大数据处理平台业务连续性与拒
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
Python多进程 multiprocessing 培之编程语言 python 机器学习开发语言
在大数据时代，Python已经成为最受追捧的语言。在本文中，让我们专注于Python的一个特定方面，它使其成为最强大的编程语言之一——Multi-Processing。在阅读本文之前，我建议您阅读我之前关于Python中的线程的文章，因为它可以为当前文章提供更好的上下文。多进程是什么？假设你是一名小学生，你的作业是让1200对数字相乘，这让你感到麻木。假设您能够在3秒内将一对数字相乘。那么总共需要
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
物联网导论复习材料物腐虫生物联网学习
简答题Q1：物联网的概述，特点，模型，应用，重点是应用层，云计算，数据集成。物联网的概述物联网（IoT，InternetofThings）是指通过各种传感器、设备和网络技术，将物理世界中的物体连接到互联网，实现数据的采集、传输、处理和应用的智能化系统。物联网的特点全面感知：通过传感器实时采集数据。可靠传输：通过互联网和无线网络传输数据。智能处理：利用云计算和大数据技术对数据进行分析和处理，实现智能
GBase 数据库在大数据环境下的应用与优势 big crab 数据库大数据
引言随着大数据技术的发展，传统数据库面临着越来越多的挑战。尤其是在处理海量数据时，如何在保证高性能的同时，确保系统的可扩展性、容错性和高可用性，成为许多企业关心的问题。GBase数据库系列，特别是GBase8a、GBase8s和GBase8c，提供了一种新型的解决方案，它们能够在大数据环境下提供卓越的性能和可靠性。本文将深入探讨GBase数据库在大数据环境中的应用及其优势。一、GBase数据库系列
GBase 数据库的性能调优与故障排查 big crab 数据库
一、引言在现代企业的数据驱动运营中，数据库的性能是核心问题之一。GBase数据库作为高性能、高可用的数据库解决方案，被广泛应用于大数据、高并发的场景中。为了最大化GBase数据库的性能，了解如何调优数据库的配置、查询执行计划和硬件资源使用至关重要。本文将深入探讨GBase数据库的性能调优策略、常见故障排查方法，并结合SQL示例和调优技巧，帮助开发者和数据库管理员提升GBase数据库的整体效率。二、
GBase数据库在大数据环境下的存储和查询优化策略 big crab 数据库大数据
一、引言随着大数据时代的到来，数据量的激增给数据库管理和查询性能带来了巨大的挑战。尤其是对于关系型数据库，如何在海量数据的存储和查询中保持高效的性能，已经成为企业IT架构设计中的关键问题。GBase数据库，作为一款高性能的关系型数据库，凭借其强大的数据处理能力和高可用性，在大数据领域得到了广泛应用。本文将深入探讨GBase数据库在大数据环境下的存储与查询优化策略，结合GBase8a、GBase8s
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
360智算中心万卡GPU集群架构分析科技互联人生科技数码人工智能硬件架构系统架构人工智能
360智算中心：万卡GPU集群落地实践 360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨3
金融行业数据安全指南，大数据时代不容忽视的底线！后端
金融数据：数字时代的“新石油”在大数据时代，金融行业正经历着一场深刻的变革。随着信息技术的飞速发展，金融数据量呈爆炸式增长，这些数据涵盖了客户信息、交易记录、市场行情等各个方面，成为了金融机构的关键资产，也被称为数字时代的“新石油”。以银行业为例，一家中等规模的商业银行每天产生的交易数据就可达数百万条，内容包括客户的存取款、转账汇款、消费支付等。这些数据不仅记录了客户的资金流动情况，还反映了客户的
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那