wx5e2559231090a

百分点大数据技术团队：乘风破浪海外数据中台项目实践

编者按

踏上一带一路的新丝路，北京百分点信息科技有限公司从2016年开拓海外业务，以大数据技术为基础，结合中国先进的数据治国理念，用数据智能推动社会进步。三年时间，百分点海外团队在非洲某国实施大数据项目并取得阶段性验收，在提升客户数据治理能力的同时，结合百分点国内大数据项目优秀实践，积累了一套大数据项目实施的5大体系+20道工序的理论方法。

一、项目思路

在国内，大数据应用已经深入各个行业，不管是业务人员或是技术人员，对于大数据的技术优势以及在业务中发挥的重要作用都非常了解。同时，各个行业发展迅猛，行业业务专家层出不穷。在项目中，客户方有业务专家和技术专家把关业务痛点、业务需求，与承建方的业务、技术专家一同参与系统建设，保证系统的顺利落地。

但在较为落后的第三世界国家，对于业务的了解处在蒙昧阶段，很难有比较清晰明确的业务需求，同时对于基本的IT技术掌握程度较低，大数据更是闻所未闻，对于中方提供的技术方案，很难理解其中的优势以及能够带来的价值。

所以在项目建设过程中，我们需要将国内先进的管理思路传导给客户，简明扼要地展示技术优势，同时配合成熟的系统建设方法，主导从需求到系统运营的系统全周期建设，建立高效运行并且能持续运营的系统，利用数据智能帮助客户提升业务和管理能力。

总结来说，如何快速确定底层数据情况，帮助系统设计人员确定系统功能边界，如何高效地进行数据接入，如何设计合理的数据模型支持上层应用，如何保证数据安全，如何持续运营以发挥数据价值，都是数据中台建设的重中之重。

二、项目实施

整体方案

整个项目依照百分点数据项目建设流程进行，主要包括：数据接入、数据治理、数据开发、数据资产和数据服务5大体系和20道工序，保证从数据接入到数据服务的完整流程落地。

需求调研

在系统建设初期的需求调研阶段，数仓工程师需要承担的任务，主要有业务系统调研和业务数据分析，基于业务确定系统应用需求范围之后，设计数据需求。

2.1 业务系统调研

在业务系统调研过程中，由于客户技术能力所限，很难将系统的业务流程和数据解释清楚，所以我们主要采用调研问卷、E-R图和数据字典等方式进行系统分析。

（1）调研问卷
调研问卷主要帮助我们了解系统概况，主要包括：

是否有电子化系统

系统是B/S还是C/S架构

业务系统主要功能

与中心机房的网络情况

系统数据的存储方式

增、全量数据量

是否有备份库

可以用何种方式提供数据

有了以上信息，我们能够对所需接入数据有个基本的了解，判断数据接入可行性以及所需的软硬件条件。

（2） E-R图
E-R图主要帮助我们在客户技术人员无法说明系统业务逻辑的情况下，了解系统的业务流程，通过表与表之间的主外键关系，结合对国内相关业务的了解，推测业务数据流向，从而作为之后模型设计的输入。

（3）数据字典
数据字典是业务调研过程中最重要的资料，有了数据字典之后，我们才能进行下一步的业务数据分析工作。在收集数据字典的过程中，我们会尽量与客户的测试环境进行比对，确保拿到的数据字典是最新版本，避免因为版本更新问题，影响系统功能设计和数据接入流程的开发。

2.2 业务数据分析

业务数据分析主要包含两个部分：

（1）数据项分析
数据项分析基于客户提供的数据字典，对业务核心属性进行确认，确保上层业务功能有相应的数据可以支撑

（2）数据质量分析
数据质量分析，基于客户提供的测试或脱敏数据，对关键属性进行空值、规则等判断，确保数据本身具有实际的业务意义，以便之后的业务分析。

2.3 数据需求设计

对于整体系统的功能，我们从系统的两端入手：首先参考国内优秀的建设方案和思路，基于当地实际业务情况，规划系统可能的整体功能；同时调研可接入系统的业务数据和业务流程，对整体功能进行裁剪和补充，形成符合当地的需求蓝图。
确定系统功能之后，我们将系统功能对应的数据应用需求分为以下几类：
（1）报表展现类

主要以维度和指标为主，利用报表或者大屏做业务指标分析或宏观态势监控。
（2）人物事件分析类

主要以“对象-关系”方式进行实体、事件、文档及相互关系、以及时间、空间的分析。
（3）数据比对类

主要以多数据集比对为主，发现不同数据集之间的相互匹配的数据。
（4）网络信息分析类

主要以互联网爬取信息为主，通过文本分析服务，发现热点事件，热点话题，热点人物等信息。
（5）数据共享类

主要以各部门之间数据交换共享为主，保证数据共享过程中的稳定和安全。
按照以上不同的数据应用需求，结合百分点自有的产品以及使用的大数据开源组件，我们构建了数据中台的5大信息库：
（1）专题业务库（MySQL）

以基于维度的指标汇总，按照不同业务专题构建的分析库，方便高分大屏和CBI（百分点智能BI）系统进行报表展示。
（2）动态本体库（ES+Neo4j）

利用百分点 DEEP FINDER产品，构建知识图谱，以API方式为上层应用提供对象-关系分析，从繁杂的图谱中发现类似的行为模式以及关键信息。
（3）比对资源库（PostgreSQL）

利用比对分析系统，构建常用的基础比对资源数据，与各个部门提供的数据进行可视化比对，发现匹配的对象，进行进一步分析。
（4）网络信息库（ES）

网络爬取的数据，通过流式数据处理，导入以ES为存储的网络信息库，利用规则、文本分析，情感分析等分析方法，发现热点事件、热点话题和信息传播关键节点，进行后续处理。
（5）共享资源库（MySQL）

利用百分点数据共享交换平台，构建数据资源，对外提供安全、清晰的数据资源目录，同时提供文件、数据库、API等多种对接方式进行内外部数据交换。

项目设计

3.1 框架思路

完成了信息库的设计，下一步就是建模、数据集成处理、调度以及监控，上述任务均在大数据平台（BD-OS）中完成。BD-OS作为基于大数据开源组件的一站式数据处理平台，提供了数据接入、数据建模、ETL开发、流式开发、数据调度、数据监控、数据治理等模块，满足数据处理全链路的所需功能。

我们采用了流批一体的经典Lambda架构，分别处理实时接入的网络数据和批量接入的业务数据；同时，我们采用分层设计，将数据仓库层分为：STG层、ODS层和DW层，保证每一层清晰的数据处理逻辑。整体数据流图如下：

部分整体分为三层：
（1）数据源层
按数据来源分：包括爬虫抓取的网络数据，内网环境业务系统数据，以及外网环境业务系统数据。
按数据格式：分为数据库和文件。
按数据传输频率：分为流式和批量（T+1）传输。
（2）数据接入层
流式数据的接入：我们主要利用Kafka作为存储媒介，通过Spark Streaming进行数据处理，流式作业可以以jar包的形式通过BD-OS上传服务器，从而实时监控进程的执行情况。
批量数据接入：对于内网数据，我们直接使用BD-OS的数据导入功能进行接入；对于外网数据，考虑到系统数据交换的功能以及对外数据链路的安全性，我们使用数据共享交换平台进行数据的导入。
多媒体数据接入：对于视频或图片等多媒体数据，我们使用OSS（对象存储）来进行管理。对象存储中包含两种存储组件：Hbase和Ceph。根据两者存储特性的不同，我们首先判断多媒体文件的大小，对于1M内的小文件，存入Hbase；超过1M的大文件，存储至Ceph，对外通过统一的API进行访问，通过文件的key来调用，提升多媒体文件的存储和读取效率。
（3）数据层
STG：用来接收文件形式的源头数据并临时存放。该部分的数据文件，除了业务系统批量导出的数据，还包含流式处理中需要进行批量统计的数据。

ODS：以Hive表形式来存放源头数据。ODS作为数据中台主体部分的最底层，存储包含存放在STG层（临时数据存放层）的文件数据，以及通过sqoop同步数据库数据。当数据入表之后，数仓工程师就可以方便地使用SQL进行数据处理，降低门槛。

DW：根据不同的数据应用，我们采用了不同的建模方式，在DW层中建立了三类模型，数据均存储在Hive中。选择Hive的原因，一是方便传统数仓工程师使用SQL和UDF进行数据处理；二是批量数据处理要求的时效性不高但数据量大，Hive的特性可以满足需求。

DW-CSM：标准化模型，采用范式建模，将底层数据按照参与人、地址、事件、物品、组织、关系六大主题域进行整合。这样做的好处，一是将繁杂的源头系统的数据做拆分组合，使得业务逻辑更加清晰；二是在拆分组合的过程中，进行标准化处理，保证数据中台内部码值和规则的统一，对外提供统一的数据标准；三是上层的动态本体，同样是对象-关系的模式，底层数据拆分之后，可以方便地集成至本体中，无需在导入本体过程中做额外的处理。在底层业务系统数量多，业务繁杂，同时需要不断集成新系统的情况下，范式建模能够帮助数据人员理清业务关系，统一数据标准，经过不断地业务沉淀，最终可以建立行业模型。在这个部分，我们将网络爬取数据单独存放在ES中，方便之后的网络信息库应用，这部分数据直接一一映射，不做其他的处理。
DW-CDM：维度模型，采用维度建模，按照上层的分析统计需求，建立维度表和事实表。为了提升查询效率，我们使用标准的星型模型，同时由于Hive表关联效率较低，我们在生成事实表时，对性别，年龄段等枚举值维度做了退化处理，即用码值名称代替code存储在事实表中，避免在数据处理过程中需要关联过多维度表导致处理效率低下，影响用户体验。该部分模型主要支持多维分析和大屏的数据应用。
DW-CBM：业务资源模型，采用宽表建模，将关键信息进行整理合并，形成属性信息完整的宽表，方便之后的数据比对和内外部数据共享。宽表的优点是查询效率极高，一次查询无需关联；缺点是灵活性很差，不适应频繁的表结构变更，对于比对和数据共享需求来说，所需的主要信息变化很小，使用宽表，能够大大提升比对和数据共享的效率。
另外，为了服务上层应用，我们单独搭建了本体模型。
Ontology：本体模型，采用本体建模方式，构建对象-关系的本体模型，来反映真实世界。对象信息主要存储在ES中，而关系信息主要存放于Neo4j。这样既能支持全文检索来发现对象的关键信息，又可以通过图的挖掘发现相同的行为模式，其中对象又可以分为：实体，事件，文档。
实体：业务主体：包括人，车，物理地点等等。
事件：由业务主体实施的行为，基于事件可以进行时间和空间的分析。
文档：文本类信息，单独将文档拆分出来的原因，是文档会有特殊的处理方式，比如文本分析，话题抽象，情感分析等等。
3.2 设计思路

3.2.1 批量部分

（1）数据接入

数据接入的两种方案概述：

目前海外项目中批量数据接入主要有两种方案。一种是使用BD-OS自带的数据导入功能，一种是使用数据共享平台。这两种方案均有各自的优缺点，可以根据不同的业务场景按需采用。
BD-OS自带的数据导入功能，实际上是集成了Hadoop生态的Sqoop组件。这种方式的优点在于Sqoop是将导入命令翻译成为MapReduce程序，与Hive集成较好，对导入到指定的分区表具有较好的支持。缺点只支持导入Hive或者是HDFS文件，并且由于与BD-OS绑定，通常会部署在内网中。对于生产环境都会进行内外网隔离，导致使用此方案时无法接入外网数据数据。

数据共享平台核心功能有两点，一点是资源共享，主要在于提供数据服务（通常是API），另外一点就是数据交换，本部分内容重点讨论数据交换这点。数据共享平台的数据交换功能实际上是集成了阿里的开源离线数据同步工具DataX，它的优势在于支持的数据源丰富多样，比如某个项目中不需要数据接入到Hive，而是直接接入到Phoenix，就可以使用数据共享交换系统的数据交换功能。另外相对于上一种方案，它相对比较轻量级，不需要部署整个大数据平台BD-OS，因此通常也用于在生产环境上部署到DMZ网络区域中，用于接入外网数据。它的缺点就是在于目前DataX对于Hive分区表支持不太完善，仅仅支持一次导入到一个分区表。

两种方案详细介绍：

我们先看一下BD-OS导入功能的界面：

由上述选项可以看出BD-OS的导入功能支持增量、全量导入，支持编写查询SQL，可以选择是否覆盖，另外对于导入的队列、每次读取数据条数等等有较为细节的控制。
再看一下数据共享交换的界面：

可以看出与BD-OS导入功能对比，数据交换功能对于数据读取条数等资源占用控制相关没有提供更为细节的控制。但是也提供了SQL支持，字段映射设置、增量\全量同步、是否覆盖、另外还提供了前置后置脚本功能。
数据交换功能还提供了API用于其他ETL工具集成，调用API可以获取到任务的执行状态。
总结：

在数据导入的增量\全量，是否覆盖、支持SQL等常用的需求点上，BD-OS的数据导入功能和数据共享平台交换功能都提供了对应的支持，这两种方案主要的区别还是在于体量级别以及其他的细节需求点上，实际项目中按需分别采用或者两者都使用均可。
（2）数据治理

数据治理部分，主要包括：元数据管理、数据标准管理、数据质量稽核评估。
a. 元数据管理

随着被接入系统的数据越来越多，相应的元数据也愈加丰富多样，因此对于元数据的管理尤为重要。我们通过BD-OS来进行元数据的自动整合和管理，主要从表，脚本和工作流等方面进行元数据管理。

b. 数据标准管理

为提升数据开发的效率，规范整体的开发流程，基于数据中台开发规范，我们通过BD-OS来定义一套标准体系，包括命名标准，数据元标准，编码标准和字段标准。在进行后续模型开发时，可以直接引用对应的数据标准。

c. 数据质量稽核评估

数据接入之后，数据质量是非常重要的指标，数据质量的好坏，直接影响数据后续使用的效果和产生的价值。针对关键信息，我们会确认数据的格式之后准确性，然后将具体的检查点配置在BD-OS中。
数据规则校验

数据格式校验

通过BD-OS的数据质量稽核功能，我们针对关键表配置了数据质量稽核任务，通过稽核任务监控，我们可以清晰的看到每个稽核规则执行的结果。

同时，对于每张表，我们可以配置字段级的校验任务，根据结果得到数据质量分数。

（3）数据建模

应用BD-OS模型开发模块，开发可以通过可视化配置的方式进行层级/主题域划分，按照分层对逻辑模型配置逻辑表和表字段，生成对应的物理模型并进行物理表管理；也可以直接在数据库中创建物理表后，通过逆向工程生成对应的逻辑模型。海外项目中将模型分层划分为STG、ODS和DW层，实现对数据的标准化处理和规范化管理，满足应用端对数据的业务需求。

（4）数据开发

STG

STG层主要临时存储源系统数据文件，一般通过两种方式同步文件，一种是共享交换平台的周期性任务同步数据文件，另一种是流式数据处理后的结构化数据文件。海外项目中通常将两种方式的数据文件存放在HDFS系统中，以便BD-OS文件加载至Hive数据表中。
ODS

ODS层会对各业务系统数据进行汇聚，保留业务系统全量的原始数据，并作为数据仓库建设的数据源，以便数据仓库中查询到所有业务数据，为后面的DW层数据建设做准备。海外项目中，以Hive表形式存储ODS层数据，其包括STG层文件数据和BD-OS数据接入的源系统数据，并添加一些标识性的属性字段，如系统名称、数据插入时间等；并且按照源数据表业务逻辑和数据量大小采取增量或者全量的数据抽取方式。
DW

DW层的目标是建设一套覆盖全系统、全历史的业务数据体系，可以利用这套数据体系还原和查看系统任意时刻的业务运转状态。应用BD-OS的ETL开发功能，将ODS层的数据按照数据仓库模型，结构化的存储起来，为上层分析应用提供易理解、易使用、易扩展的结构化数据。在海外项目中，一般按照上层应用的不同业务需求，采用不同的建模方式。
DW-CSM：作为数据中台建模中的数据底座，采用范式建模的方式，对项目中全系统数据进行整合，将各个系统中的数据以整个项目角度按照主题进行相似性组合和合并，并进行一致性处理。海外项目中，按照项目需求和源系统数据业务流程，将业务数据拆分为参与人、地址、事件、物品、组织、关系六大主题域，同时也满足上层的动态本体模型构建。项目开发中，应用BD-OS数据工厂下的数据开发模块，通过编写hive sql脚本抽取ODS层数据，并在抽取过程中对数据清洗加工，具体有如下几种操作：
（1）数据质量检查：数据质量检查会过滤掉垃圾数据和不规范数据，确保数据质量足够好，能够帮助业务人员理解真实的业务情况。
垃圾数据删除：测试数据和虚拟用户等数据，需要在系统中删除，以免对业务数据产生影响。
错误数据删除：由于系统错误而产生的错误数据需要删除，例如错误的用户状态，或错误的金额等等。该部分需要源头系统确认。
重复数据删除：对于源头系统已确认的重复数据，或者是在ETL过程中产生的重复数据，需要删除以消除对真实业务数据的影响。
（2）数据转换：来自不同源头系统的数据，需要经过一系列转化，使数据业务含义统一。
编码转换：来自于不同源头系统的编码，对于相同的业务含义，会有不同的编码定义，例如从A系统的数据，用0，1，2定义性别，从B系统来的数据，用M，F，Others定义性别，需要对这些编码进行转换，使得对相同的业务含义，有相同的编码与之对应。
按照应用需求的数据类型转换：按照上层应用对数据的特殊要求，对ODS层数据进行处理，例如经纬度类型转换，ODS层的地理经度和纬度字段，处理为可写入ES geo_point类型的数据格式。
（3）元数据字段添加：在上层应用动态本体建模中，需要知道每条数据的实体标识、事件时间，所以需要在每个DW表中添加实体名称，事件时间等字段。
DW-CDM：该层用于支持多维分析和大屏的数据应用，因此需要满足用户如何更快速进行需求分析，且需要良好的查询响应性能，故从分析决策的需求出发构建维度模型。海外项目中，一般采用星型模型构建事实表和维度表的关联关系。大致分为以下步骤：
选取业务流程，按照系统数据和相关业务选择对应的分析决策需要的业务过程；
定义业务粒度，按照分析需要细分的程度选择对应的粒度；
选取相关维度，按照定义的业务粒度，设计维度表，包括维度属性；
选择事实，按照分析需求确定需要计算的指标。
项目实施中，采用星型模型对各个维度做大量的预处理，如按照维度进行预先的排序、分类和统计，能够极大地提升数据仓库的处理能力；同时维度建模围绕业务模型，可以直观地展现业务流程，方便用户快速开发指标和自定义创建指标，以支持多维分析的业务需求。另一方面，为了满足大屏需求，基于维度建模指标表和维度表，结合大屏指标具体业务需求，设计开发满足大屏指标展示的结果表，并通过BD-OS数据导出功能将结果表数据导出至Mysql数据表，大屏应用通过API读取Mysql结果表数据后不再需要任何处理直接展示，提高大屏指标展示体验效果。
DW-CBM：该层用于支持数据比对和数据共享的应用需求，为满足应用端快速查询和查询的易操作性。海外项目中，一般采用宽表模型设计构建业务分析相关的大宽表，通常在BD-OS中基于DW-CSM层数据将业务实体相关的维度、描述信息、指标等关联后存储在一张表中，例如把人员的基本信息、编号、出生日期、新进人员标识、特殊人员标识、相关案件数量等信息合成一张表存储，再将Hive中宽表数据同步至ES中。应用端可按照业务需求在ES中任意查询对应的数据信息，并且不需要进行表数据关联，提高查询效率。

Ontology
本体库采用本体建模方式，与数据仓库建模不同，数据仓库建模主要考虑的是数据的存储方式和应用端使用的便捷程度，同时考虑存储；而本体的建模，主要考虑创建的模型是否能够表达真实世界的情况，例如在数据仓库范式建模中，是站在项目全系统面向主题的抽象，而本体模型是按照对象和关系表达真实世界。项目中，基于DW-CSM层各主题数据进行抽象分类，按照业务需求端的对象和关系进行数据映射。例如在DW-CSM层，参与人主题下有人员、新进人员、特殊人员三张独立的表，每张表中会以编号作为人员标识，但是在本体模型中，会将三张表数据按照编号融合为一条数据，即人员实体的对象数据。应用端按照本体模型的设计查询和扩展对象和关系数据展现业务场景。
（5）数据应用
基于上述模型，我们就可以灵活地支持设计好的数据应用需求：
DW-CSM：经过人地事物组织关系的标准化拆分后，为网络信息库提供账号和帖子数据，为动态本体库提供对象和关系数据；
DW-CBM：经过基于业务数据整合之后，为共享资源库提供业务数据，为比对资源库提供常用基础数据；
DW-CDM：生成维度表和事实表之后，为专题业务库提供维度和指标数据。
特别地，由于当地IT技术落后，各个部门之间的信息通路不畅，数据共享开始作为客户重点建设内容。我们依托百分点数据共享交换平台，管理、审计、订阅数据资源，对外提供安全高效的数据共享交换服务。

3.2.2 流式部分

（1）数据接入

流式数据以Kafka为存储媒介，通过数据处理引擎持续不断地消费，进行实时的指标统计和数据存储。数据接入方案主要有两种：
利用大数据操作系统（BD-OS）的数据接入功能，实时的将数据从Kafka接入到HDFS，也可以直接接入Hive表中。

通过Spark Streaming实时消费Kafka中的数据，进行数据加工处理后写入动态本体和ElasticSearch中，方便上层应用进行数据的分析和全文检索。

（2）数据处理
流式数据大部分是网络社交媒体数据和行为事件类数据，比较突出的特征是数据量大，其次单条消息的业务价值有限，实时性要求不高。因此采用了具有微批处理功能的Spark Streaming，可以提升整体吞吐量，并且每批次的数据量可控。
这类数据的清洗加工工作直接在流里完成，主要功能有静态维度表关联，数据打标和保证数据完整消费等。
静态数据关联：数据流通过在启动时初始化静态维度表，将数据缓存到内存中，当有数据流过时，进行数据关联操作。
数据打标：在流中为数据打上时间标识，通过事件发生时间，数据接入时间，数据处理时间和数据写入时间等标识整条数据的完整生命周期和事件路径。
保证数据的完整消费：在数据处理完成后手动提交offset，做到数据最少一次消费。在数据处理过程中，梳理完整的数据异常管理机制，将错误数据输出到Kafka中存储。对数据格式正常，但因网络波动等原因导致未写入最终存储的数据实施数据回写，保证数据完整消费。
实时流程序的运行依托于大数据操作系统（BD-OS），通过平台来进行整个任务的调度和监控。将相关jar包和配置文件传到平台上，之后在流任务开发模块中进行启动的具体参数配置和外部文件依赖等操作。

（3）数据应用

流式数据最终写入动态本体和ElasticSearch，分别进行数据分析统计和内容全文检索。将行为事件类数据写入动态本体，通过知识图谱构建实体和实体，实体和事件之间的关系，方便业务系统扩线分析。网络社交媒体相关的内容数据，采用ElasticSearch存储，支持模糊搜索和关键词精确匹配，便于分析；相关内容文件存储在OSS（对象存储服务）中，可根据数据ID标识获取具体的文件，图片和视频支持直接在前端展示。

系统运营

对于数据项目，系统上线，只是万里长征第一步，接下来需要通过系统运营，让系统持续发挥作用，同时收集更多的数据提升系统价值。
4.1 数据接入跟踪

针对每个单位的每个系统，我们跟踪每一个细节业务数据在系统落地的情况，从数据接入的各个环节，到数据处理到达的各个层级，都有非常准确的状态标示。通过状态的跟踪，我们可以清楚地了解到每个部分数据接入情况，以及是否还有有价值但未接入的数据可以持续接入分析。

4.2 数据使用跟踪

对于每一类数据，我们会按月统计使用情况，从而判断数据热度。对于热度较高的数据，保证数据服务的稳定和高效；对于热度较低的数据，必要时将资源下架，以节省系统资源。

（1）内部数据服务使用统计

（2）外部数据服务使用统计

4.3 系统维护

由于客户现场IT支持能力缺失，我们配置的很多自动化告警措施无法正常运行，为了保证系统的稳定运行，现场运维人员制定了系统的巡检表格，每天由专人来进行系统巡检，发现问题之后，根据故障处理流程，通知客户，处理故障，排查原因，从根本上解决问题，并持续监控一段时间，最终产出事故报告，形成问题处理的闭环。

数据运营是系统是否能够顺利落地并持续产生价值的非常重要的工作。同时，利用已有数据不断地产生价值，可以推动未接入数据部门参与到数据平台建设中，集成更多的数据，从而使数据发挥更大的价值，产生良性循环。

结语

海外数据中台项目，历经三年的卧薪尝胆，砥砺前行，系统逐步落地运行，开花结果。在项目实施过程中，我们积累了很多实施经验：

专业、耐心地引导：要发挥专业优势，从业务场景上给客户引导，耐心地了解客户真正的痛点，有的放矢地设计出真正能发挥价值的系统。
近距离感受炮火：不能因为上万公里的距离使需求的传递打折、失真，要站在客户的身边，与客户一起分析需求，明确客户的当务之急。
充分估计困难：疫情下诸多因素使得海外项目面临重重风险，在项目实施过程中，需要充分识别风险，并按照周、月、里程碑等粒度来监控，确保项目顺利进行。
高效远程协作：为了提升远程协作效率，需要做好设计文档的维护，研发需求、任务和缺陷的管理，同时进行实时地远程视频沟通，保证信息准确、及时的传递。
多走一步：海外项目人员需要不断扩展自己的职责范围，多走一步，有计划有条理地互相补位，缓解人员轮换的压力，在艰难环境下实现节本增效。

最后，在项目执行过程中，我们不断地总结沉淀，积累经验教训和实施的最佳实践。我们按照地区进行解决方案、交付工艺和技术栈的沉淀，然后与其他地区进行交流互补，互相促进提升，使得交付的质量和效率不断提升，形成一套标准的项目实施套路，让后续的新项目有章可循。该数据项目实施的方法论，在系统落地、成本节约、团队协作、流程优化、以及持续运营方面，都取得了很好的效果，有很高的参考价值。

你可能感兴趣的:(数据中台)

如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
数据中台-建设思路：从理论到实践，打造企业数据驱动引擎赛博不良人大数据数据仓库
数据中台-建设思路：从理论到实践，打造企业数据驱动引擎摘要：在数字化时代，数据已成为企业的核心资产。如何有效地管理和利用数据，是企业数字化转型的关键。数据中台作为一种新型的数据管理架构，应运而生。本文将从数据中台的建设方向、目标、策略、步骤、成熟度评估、应用场景等方面，为企业构建数据中台提供全面的指导。关键词：数据中台，数字化转型，数据管理，数据分析，业务中台一、引言随着企业数字化转型的不断深入，
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案数字化建设方案数字化转型数据治理主数据数据仓库大数据
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案项目背景和目标项目背景项目目标建设原则与策略数据中台架构设计整体架构设计思路数据采集层数据存储层数据计算层数据服务层数据中枢功能实现数据治理功能数据资产管理功能数据安全管控功能数据服务总线功能数据湖存储与计算方案数据湖存储架构设计数据湖计算框架选择数据湖应用场景分析数据湖安全与合规性
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
详解神策数据银行对公业务数字化运营解决方案汪功校大数据
4.0时代，数字银行的转变主要体现在系统支持、数据管理、客户感知三个维度，希望通过改善业务体系、整合业务数据，从而为客户提供更好的服务。当前，多数银行已经拥有了较好的数据基础，但却并没有形成数据全生命周期的闭环，导致价值化数据占比较低，无法作为关键生产要素为企业注入新动能。在此背景下，数据全生命周期的闭环体系成为银行数字化运营的引擎，发挥数据中台和业务中台相辅相成、相互支撑的作用，构建以客户数据为
CDC 数据实时同步入湖的技术、架构和方案汇总 Laurence　 CDC数据入湖方案 •合集大数据专题 CDC 实时同步数据湖方案架构技术
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。近期，对“实时摄取CDC数据同步到数据湖”这一技术主题作了一系列深入的研究和验证，目
数据中台：企业数字化转型的核心驱动力我就是全世界 AI 大数据
一、数据中台的定义与核心思想1.1数据中台的概念与愿景数据中台，作为企业数字化转型的核心驱动力，其概念源于对传统数据管理模式的深刻反思与创新。数据中台不仅仅是一个技术平台，更是一种全新的数据管理理念和战略布局。它旨在通过整合、治理、服务和创新，将企业的数据资源转化为有价值的数据资产，从而支持企业的业务创新和持续发展。数据中台的愿景是构建一个统一、共享、高效的数据服务平台，使得企业内部各个业务部门能
医疗数字化转型数据中台架构方案（一）智汇优库数字化转型产业数字化数字化建设大数据人工智能产业数字化政务数字化建设
为推进医疗数字化转型，我们提出构建数据中台架构方案：通过集成医院内外多个数据源，利用大数据、人工智能等技术对数据进行清洗、整合、标准化处理，形成高质量的数据资产；再基于云原生技术构建湖仓一体化大数据平台，实现数据的统一存储、管理和应用，为临床决策、运营管理提供智能数据支持，助力医院提升服务质量、效率和运营水平。
异构数据源间数据同步及迁移神器dbSwitch免费推荐！！开源数据中台数据库数据仓库数据库开发
图1.开源多组件数据中台架构图书接上回，下面分析数据采集层中DBswitch异构数据同步工具的使用及安装： 3.DBswitch异构数据同步工具DBswitch是一种异构数据同步工具，它能够将不同类型的数据进行转换，从而实现数据同步。DBswitch的开发目的是为了解决不同数据库之间的数据同步问题，以及不同数据格式之间的转换问题。首先，DBswitch支持多种数据库类型，包括MySQL、O
六、SpringCloud Alibaba + Spring Boot + mybatis +数据中台+多租户saas+前后端分离之Spring Cloud Alibaba基于Nacos分布式配置中心不会写代码的女程序猿分布式 spring boot spring cloud
1.前言在上一篇文章，我们实现了基于nacos做分布式配置中心，实施的存储、更新我们的配置文件数据，在使用以往的一些配置中心时，服务重启或者注册中心重启后，配置文件数据将会丢失，这种情况是因为将数据储存在JVM的内存当中，当JVM不再提供运行时，数据也会相应的丢失，一些开源框架默认将数据存储在JVM内存中的还挺多的，那么nacos又是存储在哪里呢？架构技术选型核心框架SpringBootSOASp
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
数字（智）化采购系统优点_亮点_应用场景 xinyuan_123456 软件工程云原生微服务
郑州信源数字化采购系统研发商，系统融合云原生、微服务、大数据、人工智能、物联网等先进技术，构建业务中台、数据中台、AI中台三大核心基座，以采购为切入点，结合供应链管理理念，为招采供应链提供交易、监管、数据、服务、运营为一体的全流程数智化解决方案。数字化采购系统优点1、提高效率：系统通过自动化和标准化的流程，显著提高了采购效率，缩短了采购周期。2、降低成本：系统减少了纸质文档的使用和人工操作的时间消
让数据用起来：数据中台建设的评估与选择（第4章）小阳阳兄读书笔记产品经理数据分析大数据
4.1企业数据应用的成熟度评估企业数据应用能力成熟度可以总结为4个阶段：第一个阶段：统计分析。只有业务系统的数据库，以手工报表为主。第二个阶段：决策支持。开始构建企业级数据仓库，使用BI工具、大屏等。第三个阶段：数据驱动。加强业务与数据融合，利用大数据、机器学习、深度学习等技术进行精准营销、信用风险控制等。第四个阶段：运营优化。开始建设数据中台，快速生产定制化数据服务。企业数据应用能力成熟度可以从
透彻理解实时数仓的支撑技术：Upsert Kafka 和 Flink 动态表（Dynamic Table）　Laurence 大数据专题 upsert-kafka flink 动态表原理解释更新
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。动态表本质上是一条流（stream），upsert-kafka映射的数据表底层存储的
Flink Catalog 解读与同步 Hudi 表元数据的最佳实践　Laurence 大数据专题 flink catalog hudi metastore hive 共用表元数据
博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea
数据仓库、大数据平台、数据中台的区别 000X000 数据中台
问题导读：1、如何理解数据中台？2、数据仓库、大数据平台、数据中台都是什么？3、大数据平台硬件架构如何设计？4、数据仓库、大数据平台、数据中台架构如何理解？一、层出不穷的新名词现在各种新名词层出不穷：顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数
我该建数仓、大数据平台还是数据中台？看完脑子终于清醒了 zl1zl2zl3 大数据中台大数据中台
一、层出不穷的新名词现在各种新名词层出不穷：顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等。总之是你方唱罢他登场，各种概念满天飞…在比拼新经济的过程中，其实比拼的是流量也就是用
【30秒看懂大数据】数据中台风姑娘数据说生活中的数据学大数据大数据
知幽科技是一家专注企业数字/智化，围绕数据价值应用的一站式数智化解决方案的咨询公司，也包括了为企业提供定制化数据培训，力求做企业最好的数智化决策伙伴。点击上方「蓝字」关注我们30秒看懂大数据专栏让您在有限的碎片化时间，快速看懂最火热的大数据简单说：描述性分析中台是相对于前台和后台而言，数据中台就是对于数据进行加工、整理、分析、应用的一个中间平台，较于数据中台而言，后台指系统数据后台，前台针对业务应
大厂的供应链采购系统设计后端
关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网0前言公司发展面临商业环境变化，如流量模式、竞争
基于 Webpack5 Module Federation 的业务解耦实践
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：贝儿前言本文中会提到很多目前数栈中使用的特定名词，统一做下解释描述dt-common：每个子产品都会引入的公共包(类似NPM包)AppMenus：在子产品中快速进入到其他子产品的导航栏，统一维护在dt-common中，子产品从dt-common中引入Portal：
中金易云：为出版社找到下一本《解忧杂货店》猫耳呀
摘要：以供给侧结构性改革的角度来看，出版社即是最直接的供给侧，出版高质量、畅销度高的图书，建立出产高质量图书及图书IP的体系，即是提高供给体系质量。中金易云出版发行大数据平台正是以数字化转型为核心思路，以大数据中台与智能算法为基础的出版业供给侧结构性改革的成果。2016年，全国出版、印刷和发行服务实现营业收入23595.8亿元，较2015年增长9.0%，利润总额1792.0亿元，增长7.8%，在图
一份简单的产品经理转正工作总结一个数据人的自留地
是新朋友吗？记得先点蓝字关注我哦～关注微信公众号：一个数据人的自留地1、回复“数据中台”，获取2、回复“数据产品”，获取3、回复“商业分析”，获取4、回复“交个朋友”，进入引言今天下大雨，小诺打着伞去公司上班，路上他小心翼翼的避开水坑，心想自己可是个产品经理，避坑这不是职业技能吗？他继续往前走。突然，前面有个小子一脚踩进了水坑，鞋湿了一半。小诺一看，这不大拿吗。于是叫了声“大拿”，说“兄弟今天又踩
供应链领域数据中台架构建设（上） JavaEdge. 架构
点击下方“JavaEdge”，选择“设为星标”第一时间关注技术干货！关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都国企技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化；活动&优惠券等营销中台建设；交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可
字节跳动官方出品AI，白嫖使用GPT4！ JavaEdge. java
关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网1简介字节跳动在海外推出的AI聊天机器人和应用程
大厂的供应链域数据中台设计后端
关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网1前言受限于对业务掌握度及对应数据特性的了解，大
深入浅出 testing-library 前端单元测试单测
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：佳岚Themoreyourtestsresemblethewayyoursoftwareisused,themoreconfidencetheycangiveyou.您的测试越接近软件的使用方式，它们就越能给您带来信心。什么是testing-library?在了解
基于 Webpack5 Module Federation 的业务解耦实践
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：贝儿前言本文中会提到很多目前数栈中使用的特定名词，统一做下解释描述dt-common：每个子产品都会引入的公共包(类似NPM包)AppMenus：在子产品中快速进入到其他子产品的导航栏，统一维护在dt-common中，子产品从dt-common中引入Portal：
供应链域数据中台设计后端
关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网1前言受限于对业务掌握度及对应数据特性的了解，大
大厂的供应链域数据中台设计后端
关注我，紧跟本系列专栏文章，咱们下篇再续！作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。参考：编程严选网1前言受限于对业务掌握度及对应数据特性的了解，大
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

百分点大数据技术团队：乘风破浪 海外数据中台项目实践

一、项目思路

二、项目实施

结语

你可能感兴趣的:(数据中台)

百分点大数据技术团队：乘风破浪海外数据中台项目实践