wxl_winston

Apache Atlas产品调研

元数据产品调研

思考可以构成一座桥，让我们通向新知识。—— 普朗克

一、什么是元数据

元数据是关于数据的数据，是为了描述数据的相关信息而存在的数据。
元数据是用数据管理数据，是快速查找数据、精确定位数据、准确理解数据和有效使用数据的关键。元数据管理还须符合数据标准、较高的数据质量、数据安全、数据共享、合理顺滑管理流程。在存储、计算和人力成本合理可控、可管理的前提下，使数据价值得到最大发挥，是数据全生命周期管理重要组成部分，是提升数据价值发挥的前提，是数据治理的基石。
除此以外，在数据仓库体系中，元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息，记录了统计数据从产生到展示的全部过程。可以说，有了元数据，开发人员便可以方便的找到统计数据背后的计算逻辑与过程，用于指导开发工作并追踪数据问题，可以极大的提升工作的效率。

企业业务多样、产品纷繁复杂，在各类系统和应用中形成了大量的数据。有了元数据，我们就可以了解企业拥有什么数据，数据表示什么、数据来自何处、它如何在系统中流转等等，进行元数据管理、构建元数据应用，如业务术语、数据标准、数据字典、数据资产目录、数据血缘分析、数据地图等。

二、元数据的分类

元数据按照其描述对象的不同可以大致分为两大类，分别是“技术元数据”和“业务元数据”。

技术元数据

技术元数据主要是描述系统中技术领域的相关概念信息，包括数据结构、数据处理方面的特征描述，以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。主要有以下几类类型，如图所示：

业务元数据

业务元数据主要用来描述记录在系统中业务的相关概念等信息，包括业务术语、信息分类、指标定义、业务规则等内容。它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。这类元数据主要的使用者是业务人员和公司决策人员，主要有以下几种类型，如图所示：

三、为什么要调研元数据产品

数据仓库的元数据，是对数据仓库所有环节（数据源、集成同步、存储、计算、数据管理、数据应用等等）沉淀下来的数据的描述性信息和过程日志信息，我们梳理数据资产、查找和使用数据、评估数据质量、了解数仓健康状况、成本治理等等都会首先从数仓元数据入手。

帮助快速理解数仓系统

数据仓库对于公司来说有着重要的价值，其开发时间冗长，中间不可避免的会产生人员流动，如果没有元数据，就只能靠文档来了解数仓系统，但是文档毕竟是人工维护的，其实时性、准确性、全面性等都得不到很好的保障，所以对于人员流动带来的熟悉成本就非常高，新来的员工无法快速了解数仓系统，也无法尽快进入到实际开发当中；此外，数据仓库做为整个部门、公司的分析数据出口，并不仅仅服务于数据开发人员，集团高管、业务人员、运营人员、数据分析师、运维人员等都可能使用到数据仓库的数据，如果有清楚的元数据来说明数仓系统，例如数仓里有哪些项目、有多少张表、这些表是如何分层的、存储的数据有多大、哪些流程占用的存储最多、占用存储的趋势、如何找到所需要的数据、数据何时产出、哪些表被使用的次数最多、跑完一个流程所用的时间变化等信息，就会让使用者快速了解数仓的全貌。

自动化监控告警

我们根据对元数据的分析，可以自动化地获取数据源元数据、数仓运行状况、ETL 运行日志、评估模型和 ETL 代码的规范度、识别源数据变更、监控存储和计算资源的负载等等，以便第一时间发现问题、触发告警、解决问题。

高效精准沟通

一方面，数据使用者不可能像数据仓库系统管理员或开发人员那样熟悉数据库技术，因此迫切需要有一个“翻译”，能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射，因而可以把数据以使用者需要的方式“翻译”出来，从而帮助用户理解和使用数据。可以根据业务元数据，确认彼此沟通的指标、维度含义。从而在根源上避免交流的歧义，进而提高沟通效率。

另一方面，元数据中的管理元数据会记录不同用户、角色、部门的数据权限。如果有数据需要进行通知，则可以快速查询系统进行群发邮件等方式进行沟通，从而避免了造成沟通环节的缺人和多人情况发生。

快速分析变更影响

在开发中，我们经常会遇到以下问题：如果要改动某个表或 ETL任务会对哪些业务造成影响？如果要调整某个任务流的调度时间又会造成怎样的影响？如果没有元数据，那我们可能需要遍历所有的脚本和数据才能得到想要的答案，而如果有成熟的元数据管理，那我们就可以快速评估影响，判断当前更改是否合理，节省大量时间、规避不必要的风险。

进行血缘分析

向上、向下表级、字段级别的追溯数据，能清晰展现数据加工处理逻辑脉络，快速定位数据异常字段影响范围，准确圈定最小范围数据回溯，降低了理解数据和解决数据问题的成本。在元数据管理系统成型后，我们便可以通过血缘分析来对数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。

快速定位问题

依托于数据血缘，在发生问题时，可以快速排查上游依赖任务，找到问题根源、评估当前问题对下游任务的影响、快速找到对应开发人员，使排查问题的时间大幅缩减。

数据安全审计

数据安全审计是出于数据安全、隐私、或者法律政策考虑，在数仓中什么数据应该存，或者怎么存都会有一定的要求或者标准，有了元数据就可以找到不符合安全标准的数据，进行监管。例如手机号、家庭住址、用户登录密码、身份证号等敏感信息，在数仓中都不应当以明文形式出现

为未来做好准备

大数据、人工智能、数据湖、数据中台、商业智能等企业的战略级应用系统能够依赖良好的元数据管理而发挥出其应有的效果。

四、业界的元数据产品对比

Apache Atlas

开源地址：https://github.com/apache/atlas 1.5K star

Atlas最早由大数据平台三驾马车（Cloudera,Hortonworks,MapR）之一HortonWorks公司开发，用来管理Hadoop项目里面的元数据，进而设计为数据治理的框架，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。后来开源出来给Apache社区进行孵化，得到Aetna，Merck，Target，SAS，IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点，国内大部分厂家选择使用Atlas或对其进行二次开发。

Atlas的优点：

大厂开源，深度集成Hadoop生态中的Hive，支持表级、字段级血缘
与HDP原生集成，支持对接Ranger实现行列级数据权限管控
强大的元数据模型，支持元数据定制及扩展
扩展性好，国内有大量平台基于Atlas定制修改为商用产品

Atlas的不足：

产品功能更聚焦于解决技术人员的问题，而非业务人员
官方没有对Spark的支持
依赖组件较多，安装部署较为复杂

Netflix Metacat

Metacat架构

Netflix公司的数据存储在Amazon S3、Druid、Elasticsearch、Redshift、Snowflake和 MySql 中。并且需要使用Spark、Presto、Pig和Hive消费、处理和生成数据集。因为数据源的多样性，为了确保数据平台能够横跨这些数据集成为一个“单一”的数据仓库，应用而生了Metacat。Metacat是一种元数据服务，方便发现、处理和管理数据。Metacat支持Hive，Teradata，Redshift，S3，Cassandra和RDS的集成。

Metacat的优点：

Metacat 的设计非常巧妙，它并没有单独再保存一份元数据，而是采取直连数据源拉的方式，一方面它不存在保存两份元数据一致性的问题，另一方面，这种架构设计很轻量化，每个数据源只要实现一个连接实现类即可，扩展成本很低，我把这种设计叫做集成型设计。这种设计方式对于希望构建元数据中心的企业，是非常有借鉴意义的。

Metacat的不足：

缺少完整的文档。尽管Netflix在其博客中发布了一些关于Metacat的文章，但这些文章并不足以提供完整的文档。这可能会使新用户或开发人员难以理解Metacat的工作原理和使用方法。
依赖于Netflix的生态系统。Metacat是Netflix公司内部使用的系统，它在Netflix的生态系统中与其他工具和技术密切相关。这意味着如果其他组织想要使用Metacat，他们可能需要调整他们的技术栈以适应Netflix的生态系统。
需要专业知识。Metacat是一个复杂的系统，需要对数据管理和元数据管理有深入的了解。这可能使得初学者或非专业人士难以理解它的工作原理。
缺少某些功能。虽然Metacat具有许多有用的功能，但它可能缺少一些其他元数据管理系统具有的功能。例如，它可能缺乏与Hadoop和Spark等大数据处理框架的直接集成，也没有数据血缘的支持。

Linkedin Datahub

开源地址：https://github.com/datahub-project/datahub 7.2K star

DataHub是由Linkedin开源的，为了解决多种多样数据生态系统的元数据管理问题，它提供元数据检索、数据发现、数据监测和数据监管能力，帮助解决数据管理的复杂性。

DataHub基于Apache License 2开源，采用基于推送的数据收集架构，能够持续收集变化的元数据。当前版本已经集成了大部分流行数据生态系统接入能力，包括但不限于：Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。

Datahub的优点：

名门开源，与Kafka同家庭。社区活跃，发展势头迅猛，版本更新迭代迅速。
底层架构灵活先进，为扩展集成而生，支持推送和拉取模式，详见：https://datahubproject.io/docs/architecture/architecture/
UI界面简单易用，技术人员及业务人员友好
接口丰富，功能全面

Datahub的不足：

前端界面不支持国际化，界面的构建和使用逻辑不够中国化
较多功能在建设中，例如Hive列级血缘
部分功能性能还需要优化，例如SQL Profile
中文资料不多，中文交流社群也不多
缺少对数据安全的支持：Linkedin Datahub虽然提供了基于OAuth2的身份验证和访问控制机制，但是对于数据安全方面的支持还不够完善。

WeWork Marquez

开源地址：https://github.com/MarquezProject/marquez 1.3K star Marquez的优点：

界面美观，操作细节设计比较棒
部署简单，代码简洁
依靠底层OpenLineage协议，结构较好

Marquez的不足：

主要聚焦数据资产/血缘的可视化，数据资产管理的一些功能，需要较多开发工作
社区支持不足：WeWork Marquez 是一个相对新的开源项目，社区支持相对不足，可能会影响用户的使用和开发体验
功能相对单一：WeWork Marquez 的主要功能是元数据管理，对于其他数据管理领域的需求，比如数据质量控制、数据集成等，可能并不能提供完整的解决方案
技术门槛较高：WeWork Marquez 使用的技术栈较为复杂，需要用户具备一定的技术知识和能力才能使用和定制

Lyft Amundsen

开源地址：https://github.com/amundsen-io/amundsen 3.8K star

Amundsen 是来自Lyft 开源的元数据管理、数据发现平台，功能点很全，有一个比较全的前端、后端以及数据处理框架

Amundsen的优点：

Lyft大厂开源，版本更新较多
定位清晰明确，与Datahub类似，致力于成为现代数据栈中的数据目录产品
支持对接较多的数据平台与工具

Amundsen的不足：

中规中矩的UI界面，操作便捷性不足
中文文档不多
血缘、标签、术语等功能方面不够便捷

五、选择Atlas的理由

产品名称	所属公司	开源时间	是否有UI界面	是否支持数据血缘	社区建设情况	是否对外暴露接口	支持数据源	特色
Atlas	Apache	2013.06	是	列级	社区活跃，文档多	REST API, Kafka	HBase, Hive, Sqoop, Kafka, Falcon, Storm	深度集成Hadoop生态中的Hive，支持表级、字段级血缘
Metacat	Netflix	2018.06	否	否	没有官方文档	REST, Thrift	Hive, RDS, Teradata, Redshift, S3, Cassandra	直接从所支持的数据源中获取各自的元数据，无需拉取
Datahub	Linkedin	2020.06	是	表级	中文资料不多，中文交流社群也不多	REST API	Hive, Kafka, RDBMS	UI界面简单易用，对技术及业务人员友好
Marquez	WeWork	2018.10	是	表级	没有官方文档	REST API	S3, Kafka	主要聚焦于数据资产/血缘的可视化
Amundsen	Lyft	2019.10	是	否	中文文档不多	--	Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc.	支持对接较多的数据平台与工具

支持与多种数据源整合

目前，支持的数据源有Hive、Sqoop、Falcon、Storm、Kafka和Hbase。

支持字段级数据血缘

Atlas深度集成了Hadoop生态中的Hive，支持表级、字段级血缘，目前调研的几款产品中只有Atlas的数据血缘达到了字段级别。

对权限有很好的控制

Atlas中的元数据的准确性和安全性由Apache Ranger来保证，Ranger能够在运行时阻止那些不具备权限的数据访问请求。另外Atlas允许管理员自定义元数据的安全驱动策略来对大数据进行高效的治理，当元数据库中的元数据发生改变时，Atlas会以发送事件的方式通知Ranger。

允许元数据交换

允许从当前的组件导入已存在的元数据或模型到Atlas中，也允许导出元数据到下游系统中。

支持全文搜索

采用Solr实现索引，进一步支持全文搜索这一特性，可以快速与准确地定位相关数据及审计事件。

支持商业业务分类自定义

从各类元数据源中导入Atlas的元数据以最原始的形式存储在元数据库中，这些元数据还保留了许多技术特征。为了加强挖掘与治理大数据的能力，Atlas提供了一个商业业务分类接口，允许用户对其商业领域内的各种术语建立一个具有层次结构的术语集合，并将它们整合成能够被Atlas管理的元数据实体。商业业务分类这一应用，目前是作为Atlas管理界面的一部分而存在的，它通过REST API来与Atlas 集成。

丰富的接口支持

所有功能通过API向用户提供，也可以通过Kafka消息系统进行集成。

优秀的UI支持

通过Web服务将数据血统生命周期以可视化的方式展现给客户，它允许管理员与数据科学家发现元数据信息和添加元数据注解。在诸多主要的功能中，Atlas提供了搜索接口与类SQL语言，这些特性在Atlas的架构中扮演着十分重要的角色，它们能够被用于查询Atlas中的元数据类型和对象。

集中审计

对于每一个访问数据的应用以及交互过程，Atlas会抓取其安全访问信息；对于每一个执行的操作活动及其具体步骤，Atlas能够将这些操作信息抓取下来。

良好的可扩展性

Atlas扩展新的大数据组件时，只需要将组件的HOOK按照kafka的规范添加到系统中即可，这样Atlas就可以对这一新的组件进行管理。

社区活跃，文档丰富

Atlas从2013年就被开源出来，被全球各大公司广泛使用，所以积累了丰富的文档和使用案例，在遇到问题时，也可以方便地找到解决办法。

六、Atlas介绍

简介

在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。

大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。

Atlas官网地址：https://atlas.apache.org/

Atlas是Hadoop的数据治理和元数据框架。

Atlas是一组可扩展的核心基础治理服务，使企业能够有效、便捷地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。

Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。

如果想要对这些数据做好管理，光用文字、文档是不够的，必须用图。Atlas也是把元数据变成图的工具。

安装部署

可参考文档：https://blog.csdn.net/weixin_49539577/article/details/129236448

底层架构

Atlas架构图如下：

Core层

Atlas核心包含以下组件：

类型(Type)系统: Atlas允许用户为他们想要管理的元数据对象定义模型。该模型由称为“类型”的定义组成。称为“实体”的“类型”实例表示受管理的实际元数据对象。Type System是一个允许用户定义和管理类型和实体的组件。开箱即用的Atlas管理的所有元数据对象（例如Hive表）都使用类型建模并表示为实体。要在Atlas中存储新类型的元数据，需要了解类型系统组件的概念。
图形引擎: Atlas在内部使用Graph模型持久保存它管理的元数据对象。这种方法提供了很大的灵活性，可以有效地处理元数据对象之间的丰富关系。图形引擎组件负责在Atlas类型系统的类型和实体之间进行转换，以及底层图形持久性模型。除了管理图形对象之外，图形引擎还为元数据对象创建适当的索引，以便可以有效地搜索它们。Atlas使用JanusGraph存储元数据对象。
采集/导出：Ingest 组件允许将元数据添加到Atlas。类似地，Export 组件暴露由 Atlas 检测到的元数据更改，以作为事件引发，消费者可以使用这些更改事件来实时响应元数据更改。

Integration层

在Atlas中，用户可以使用以下的两种方式管理元数据：

API: Atlas的所有功能都通过REST API向最终用户暴露，该API允许创建，更新和删除类型和实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
Messaging: 除了API之外，用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。这对于将元数据对象传递到Atlas以及使用Atlas使用可以构建应用程序的元数据更改事件都很有用。如果希望使用与Atlas更松散耦合的集成来实现更好的可伸缩性，可靠性等，则消息传递接口特别有用.Atlas使用Apache Kafka作为通知服务器，用于钩子和元数据通知事件的下游消费者之间的通信。事件由钩子和Atlas写入不同的Kafka主题。

Metadata sources层

Atlas支持开箱即用的多种元数据源集成。未来还将增加更多集成。目前，Atlas支持从以下来源提取和管理元数据：

HBase
Hive
Sqoop
Storm
Kafka

集成意味着两件事：Atlas定义的元数据模型用于表示这些组件的对象。Atlas提供了从这些组件中摄取元数据对象的组件（在某些情况下实时或以批处理模式）。

Applications层

Atlas管理的元数据被各种应用程序使用，以满足许多治理需求。

Atlas Admin UI: 该组件是一个基于Web的应用程序，允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似SQL的查询语言，可用于查询Atlas管理的元数据类型和对象。Admin UI使用Atlas的REST API来构建其功能。
Ranger Tag Based Policies:Apache Ranger是Hadoop生态系统的高级安全管理解决方案，可与各种Hadoop组件进行广泛集成。通过与Atlas集成，Ranger允许安全管理员定义元数据驱动的安全策略以实现有效的治理。Ranger是Atlas通知元数据更改事件的使用者。

前台界面展示：

登录界面

Atlas的页面功能非常的丰富，可以进行元数据的管理及数据血缘的展示。

主界面

Search界面（全局搜索）

基本搜索

基本搜索允许您使用实体的类型名称，关联的分类/标记进行查询，并且支持对实体属性以及分类/标记属性进行过滤。

可以使用 AND/OR 条件对多个属性进行基于属性的过滤。

支持的过滤运算符

LT（符号：<, lt）适用于数字、日期属性
GT（符号：>、gt）适用于数字、日期属性
LTE（符号：<=, lte）适用于数字、日期属性
GTE（符号：>=，gte）适用于数字、日期属性
EQ（符号：eq、=）适用于数字、日期、字符串属性
NEQ（符号：neq、!=）适用于数字、日期、字符串属性
LIKE（符号：like、LIKE）与字符串属性一起使用
STARTS_WITH（符号：startsWith、STARTSWITH）与字符串属性一起使用
ENDS_WITH（符号：endsWith、ENDSWITH）与字符串属性一起使用
CONTAINS (symbols: contains, CONTAINS) 使用 String 属性

高级搜索

Atlas 中的高级搜索也称为基于 DSL 的搜索。

领域特定搜索 (DSL) 是一种结构简单的语言，该语法模拟了关系数据库流行的结构化查询语言 (SQL)。

具体语法请参考Github上的Atlas DSL Grammer （Antlr G4格式）。

例：要检索名称可以是 time_dim 或 customer_dim 的 Table 类型的实体：

from Table where name = 'time_dim' or name = 'customer_dim'

Classification界面（分类管理）

分类传播使与实体相关联的分类能够自动与该实体的其他相关实体相关联。这在处理数据集从其他数据集派生数据的场景时非常有用。

为实体添加分类

将分类“PII”添加到“hdfs_path”实体后，该分类将传播到沿袭路径中的所有受影响实体，包括“员工”表、视图“us_employees”和“uk_employees” - 如下所示。

更新与实体关联的分类

与实体关联的分类的任何更新也将在分类传播到的所有实体中看到。

简单的说，此功能可以监控数据到底流向了哪里。

Glossary界面（词汇管理）

词汇表，也称术语表，为业务用户提供适当的词汇表，它允许术语（词）相互关联并分类，以便在不同的上下文中理解它们。然后可以将这些术语映射到数据库、表、列等资产。这有助于抽象与存储库相关的技术术语，并允许用户发现/使用他们更熟悉的词汇表中的数据。

通过单击词汇表 UI 中的术语名称，可以查看术语的各种详细信息。详细信息页面下的每个选项卡提供该术语的不同详细信息。

当切换开关在类别上时，面板将列出所有词汇表以及类别层次结构。这是此视图下可能的交互的列表。

如果一个术语具有分类，则该实体已被分配继承相同的分类。

通过术语表的功能，让数据资产与业务系统建立了联系。

Classification和Glossary的区别

Atlas的classification是指对内容进行分类，以便读者可以根据主题、类别或其他特定条件来查找信息。Apache Atlas的classification可以根据具体需求进行自定义，但一般来说，以下一些分类可以比较合适：

数据类型：可以根据数据类型进行分类，如文本、图像、视频等。
安全级别：可以根据数据的安全级别进行分类，如公开、内部、机密等。
业务领域：可以根据数据所属的业务领域进行分类，如销售、市场、人力资源等。
数据来源：可以根据数据的来源进行分类，如外部数据、内部数据等。
数据格式：可以根据数据的格式进行分类，如CSV、JSON、XML等。
数据质量：可以根据数据的质量进行分类，如高质量、中等质量、低质量等。
数据生命周期阶段：可以根据数据所处的生命周期阶段进行分类，如采集、清洗、分析、应用等。
数据所有者：可以根据数据的所有者进行分类，如部门、个人等。

而glossary是指为了帮助读者理解专业术语而制作的词汇表。它包括对特定术语的定义、解释或翻译，以及与该术语相关的其他信息。比如以下就是一些电商行业的一些术语：

PV： pv的全称是Page View，译为页面浏览量或点击量，通常是衡量一个网站的指标。
UV： uv的全称是Unique Visitor，译为独立访问用户数，访问网站的一台电脑客户端为一个访客
GMV： gmv的全称是Gross Merchandise Volume，即商品交易总额，是成交总额(一定时间段内)的意思。多用于电商行业
DAU： dau的全称是Daily Active User，译为日活跃用户数量，常用于反映网站、APP应用、互联网应用或网络游戏的运营情况
MAU： mau的全称是Monthly Active Users，译为月活跃用户人数
CVR： cvr的全称是Conversion Rate，译为转化率，是指在一个统计周期内，完成转化行为的次数占推广信息总点击次数的比率
CTR： ctr全称为Click Through Rate，译为点击率或点曝比，互联网广告常用的术语，指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率
QPS： qps全称是Queries Per Second，译为每秒查询数，每秒能够响应的查询次数

用户也可以将术语关联到具体的atlas实体上。

因此，Atlas的classification和glossary是两个不同的概念，其目的和内容也不同。

Apache Atlas中的Business Metadata和Glossary的区别:

Business Metadata是描述业务数据的元数据，描述数据的业务含义、数据所有者、敏感度级别等信息。而Glossary则是一个术语表，定义了一组业务术语及其含义，帮助用户理解数据的业务含义。 2. Business Metadata是与实际数据相关的元数据，通常是根据数据模型或架构来定义的。而Glossary则是独立于实际数据的元数据，通常是由业务用户定义的。 3. Business Metadata可以直接应用于数据资产，帮助用户理解数据的业务含义和价值。而Glossary通常用于构建业务词汇表，提供一致的术语定义和理解。 4. Business Metadata可以帮助用户发现数据质量问题，理解数据的来源和使用方式。而Glossary则可以帮助用户识别数据资产中使用的术语和定义，确保数据在整个企业中的一致性。

说明：本文部分图片及文字摘自【大数据流动】等其他资料，如有侵权，请联系我，我会第一时间处理，感谢

你可能感兴趣的:(数据仓库)

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
浅谈数据管理架构 Data Fabric（数据编织）及其关键特征、落地应用 Aloudata Data Fabric 多源异构数据集成数据管理
伴随着企业从数字化转型迈向更先进的数智化运营新阶段，对看数、用数的依赖越来越强，但数据的海量增长给数据管理带来一系列难题，如数据类型和加工链路日益复杂，数据存储和计算引擎更加分散，数据需求响应与数据质量、数据安全风险难以兼顾，数据流通过程中的合规性冲突，以及混合多云环境下的“数据孤岛”等。简言之，进入数智化时代，企业数据管理正变得异常复杂和艰难，传统的数据管理架构往往依赖于单一、物理集中的数据仓库
数据仓库实时计算_如果您的云数据仓库没有分开存储和计算，为什么您会浪费金钱... weixin_26631359 python java 大数据算法 leetcode
数据仓库实时计算Notsolongago,establishinganenterprisedatawarehouseinvolvedaprojectthatwouldtakemonthsorevenyears.Thesedays,withcloudcomputing,youcaneasilyregisterforaSaaSorPaaSofferingprovidedbyoneofthecloudv
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
数据仓库之星型模型 james二次元数据仓库大数据数据仓库
星型模型（StarSchema）是一种常见的数据仓库建模技术，专门用于支持高效的查询和数据分析。它以其简单直观的结构得名，中心是一个事实表（FactTable），周围是多个维度表（DimensionTables），整体结构看起来像一颗星。星型模型的组成部分事实表（FactTable）定义：存储与业务过程相关的数值型度量数据（Measures），如销售额、数量等。特征：主键：由多个外键组成，这些外键
深入浅出地讲解数据仓库建设中的业务建模方法论，包括实体联系视图模式、维度建模、星型模型、雪花模型、主题建模等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介数据分析师经历了从小处收集数据到中大型互联网公司的数据，面对海量数据和种类繁多的数据源头，如何快速准确地进行分析、建模、报表，成为众多数据分析师的共同心愿。而数据建模则是数据分析师的基础功课之一。数据建模作为数据分析师的一项关键技能和素质要求，其目标是将分析获得的数据转化成有意义的信息，并最终呈现给用户，能够帮助企业实现科学管理、优化决策、提升效益和服务能力。随
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
解锁 AnalyticDB for PostgreSQL 的潜力：从数据仓库到矢量数据库 aehrutktrjk 数据库 postgresql 数据仓库 python
引言在大数据时代，快速分析大量数据已成为企业竞争的关键。AnalyticDBforPostgreSQL是阿里云提供的一个强大的并行处理数据仓库服务，适用于在线分析海量数据。本文将探讨其基本功能及在矢量数据库中的应用，包括如何与Langchain进行集成。主要内容AnalyticDBforPostgreSQL的核心功能大规模并行处理(MPP)：允许高效地处理和分析大量数据。兼容性：支持ANSISQL
针对数据仓库方向的大数据算法工程师面试经验总结巴基海贼王数据仓库大数据算法
⚙️一、技术核心考察点数据建模能力星型vs雪花模型：面试官常要求对比两种模型。星型模型（事实表+冗余维度表）查询性能高但存储冗余；雪花模型（规范化维度表）减少冗余但增加JOIN复杂度。需结合场景选择，如实时分析首选星型。建模实战题：例如设计电商销售数仓，需明确事实表（订单流水）、维度表（商品、用户、时间），并解释粒度选择（如订单级）。ETL流程与优化增量抽取方案：面试高频题。需掌握基于时间戳、CD
解锁阿里云AnalyticDB：数据仓库的革新利器云资源服务商阿里云云计算数据库服务器
AnalyticDB：云数据仓库新势力在数字化浪潮中，数据已成为企业的核心资产，而云数据仓库作为数据管理与分析的关键基础设施，正扮演着愈发重要的角色。阿里云AnalyticDB作为云数据仓库领域的佼佼者，以其卓越的性能、创新的架构和丰富的功能，为企业提供了强大的数据处理与分析能力，助力企业在数据驱动的时代中脱颖而出。AnalyticDB是阿里云自主研发的云原生数据仓库，采用存储计算分离+多副本架构
【面试系列】云计算工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试云计算职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什么是云计算？2.
使用Airbyte连接Shopify进行数据集成实践 2301_80727036 语言模型 elasticsearch jenkins
在当今的数据驱动时代，数据集成平台如Airbyte变得尤为重要。它不仅可以让从API、数据库和文件到仓库或数据湖的ELT流程变得高效，还提供了丰富的连接器，支持各种数据源的集成。尽管Airbyte的Shopify连接器已经不再推荐使用，但它的使用方法仍然能为我们揭示一些重要的实践技巧。技术背景介绍Airbyte是一个开源的数据集成平台，专注于从各种数据源将数据提取、加载到目标数据仓库或者数据湖中。
Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！墨瑾轩 Java乐园 java 数据仓库开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、你的EDW在“数据沼泽”里？是时候请个“数据炼金术士”了！“数据散落在10个系统里，生成月报要熬3个通宵？”——别慌！今天我们就用JDBC+ApacheSpark+Thymeleaf三剑客，教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”！从“数
Vue2中Vuex的五种核心状态管理详解：从State到Modules 上单带刀不带妹 Vue 前端 javascript 开发语言 vue vue.js
目录一、为什么需要Vuex？二、Vuex核心概念图解编辑三、五种核心状态详解1.State：数据仓库2.Getters：计算属性3.Mutations：同步修改器4.Actions：异步操作5.Modules：模块化四、各概念关系总结五、最佳实践技巧结语一、为什么需要Vuex？当组件层级变深、兄弟组件需要共享数据时，传统的props/$emit和事件总线会变得难以维护。Vuex通过集中式存储管理应
十、HQL：排序、联合与 CTE 高级查询 IvanCodes Hive教程 hive 大数据
作者：IvanCodes日期：2025年5月15日专栏：Hive教程ApacheHive作为大数据领域主流的数据仓库解决方案，其查询语言HQL(HiveQueryLanguage)是数据分析师和工程师日常工作的核心。除了基础的SELECT-FROM-WHERE，HQL还提供了强大的排序、数据合并以及组织复杂查询的机制。本文将深入探讨HQL中的排序操作(SORTBY,ORDERBY,CLUSTERB
数据仓库面试题合集⑥ 晴天彩虹雨数据仓库面试解析集锦数据仓库大数据 clickhouse kafka
实时指标体系设计+Flink优化实战：面试高频问题+项目答题模板面试中不仅会问“你做过实时处理吗？”，更会追问：“实时指标体系是怎么搭建的？”、“你们的Flink稳定性怎么保证？”本篇聚焦实时指标体系设计与Flink优化场景，帮你答出架构设计力，也答出调优实战感。①面试核心问题导读“你们实时指标是怎么设计的？”“怎么处理指标的去重、延迟和聚合问题？”“你们的Flink作业怎么做资源优化？”“有没有
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

Apache Atlas产品调研

一、什么是元数据

二、元数据的分类

技术元数据

业务元数据

三、为什么要调研元数据产品

帮助快速理解数仓系统

自动化监控告警

高效精准沟通

快速分析变更影响

进行血缘分析

快速定位问题

数据安全审计

为未来做好准备

四、业界的元数据产品对比

Apache Atlas

Netflix Metacat

Linkedin Datahub

WeWork Marquez

Lyft Amundsen

五、选择Atlas的理由

支持与多种数据源整合

支持字段级数据血缘

对权限有很好的控制

允许元数据交换

支持全文搜索

支持商业业务分类自定义

丰富的接口支持

优秀的UI支持

集中审计

良好的可扩展性

社区活跃，文档丰富