m0_37607242

大数据技术原理与应用（第九章数据仓库HIVE）

9.1 数据仓库的概念

传统数据仓库面临的挑战

9.2 HIVE简介

Hive适用于数据仓库的特点

采用批处理方式处理海量数据

提供适合数据仓库操作的工具

Hadoop生态系统中Hive与其他部分的关系

Hive依赖于HDFS存储数据

Hive依赖于MapReduce处理数据

Pig可以作为Hive的部分替代工具

HBase提供数据的实时访问

Hive与传统数据库的对比分析

Hive在企业大数据分析平台中的应用

Hive系统架构

Hive组成模块

Hive对外用户访问接口模块

驱动模块（Driver）

元数据存储模块（Metastore）

Hive HA基本原理

9.3 SQL语句转换成MapReduce作业的基本原理

join的实现原理

group by的实现原理

Hive查询的具体执行过程

9.4 Impla

Imapa系统架构

Impalad

State Store

CLI

Impla查询执行过程

Impla与Hive的比较

Impla与Hive的不同点

Impala与Hive的相同点

9.1 数据仓库的概念

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支撑管理决策。企业基于数据仓库的分析结果来做出相关的经营决策。

数据仓库和传统数据库相比有个本质的区别：相对稳定。数据仓库当中的数据不会频繁发生变化或者根本不发生变化，数据源当中的数据抽取、转换、加载到数据仓库中后大多数情况下不会发生变更。数据仓库中存储了大量的历史数据。而传统数据库只能保留某一个时刻的状态信息。

传统数据仓库面临的挑战

数据仓库底层借助传统的关系型数据库进行存储。无法满足快速增长的海量数据存储需求；无法有效处理不同类型的数据（只能支持结构化数据）；计算和处理能力不足（无法水平拓展，纵向扩展有限）。

9.2 HIVE简介

Hive是一个构建于Hadoop顶层的数据仓库工具。

传统的数据仓库既是数据存储产品也是数据处理分析产品，能同时支持数据的存储和处理分析；但Hive本身不存储和处理数据，某种程度上可以看作是用户编程接口。

依赖分布式文件系统HDFS存储数据；

依赖分布式并行计算模型MapReduce处理数据；

定义了简单的类SQL 查询语言——HiveQL；

用户可以通过编写的HiveQL语句运行MapReduce任务；

是一个可以提供有效、合理、直观组织和使用数据的模型。

Hive适用于数据仓库的特点

采用批处理方式处理海量数据

Hive需要把HiveQL语句转换成MapReduce任务进行运行；数据仓库存储的是静态数据，对静态数据的分析适合采用批处理方式，不需要快速响应给出结果，而且数据本身也不会频繁变化。

提供适合数据仓库操作的工具

Hive本身提供了一系列对数据进行提取、转化、加载（ETL）的工具，可以存储、查询和分析存储在Hadoop中的大规模数据；非常适合数据仓库应用程序维护海量数据、对数据进行挖掘、形成意见和报告等。

Hadoop生态系统中Hive与其他部分的关系

Hive依赖于HDFS存储数据

HDFS作为高可靠性的底层存储，用来存储海量数据。

Hive依赖于MapReduce处理数据

MapReduce对这些海量数据进行处理，实现高性能计算，用HiveQL语句编写的处理逻辑最终均要转化为MapReduce任务来运行。

Pig可以作为Hive的部分替代工具

Pig是一种数据流式语言处理框架，适合用于Hadoop和MapReduce平台查询半结构化数据集。常用于ETL过程的一部分，即将外部数据装载到Hadoop集群中，然后转换为用户期待的数据格式。

Pig与Hive应用场景的区别：Pig属于轻量级分析工具，适合做实时交互式分析，主要用于数据仓库的ETL环节；Hive主要用于数据仓库海量数据的批处理分析。

HBase提供数据的实时访问

HBase一个面向列、分布式、可伸缩的数据库，它可以提供数据的实时访问功能，而Hive只能处理静态数据，主要是BI报表数据，所以HBase与Hive的功能是互补的，它实现了Hive不能提供功能。

Hive与传统数据库的对比分析

Hive在很多方面和传统的关系数据库类似，但是它的底层依赖的是HDFS和MapReduce，所以在很多方面又有别于传统数据库。

Hive与传统数据库的区别主要体现在以下几个方面：

（1）数据插入：在传统数据库中同时支持导入单条数据和批量数据，而Hive中仅支持批量导入数据，因为Hive主要用来支持大规模数据集上的数据仓库应用程序的运行，常见操作是全表扫描，所以单条插入功能对Hive并不实用。

（2）数据更新：更新是传统数据库中很重要的特性，Hive不支持数据更新。Hive是一个数据仓库工具，而数据仓库中存放的是静态数据，所以Hive不支持对数据进行更新。

（3）索引：索引也是传统数据库中很重要的特性，Hive在hive 0.7版本后已经可以支持索引了。但Hive不像传统的关系型数据库那样有键的概念，它只提供有限的索引功能，使用户可以在某些列上创建索引来加速一些查询操作，Hive中给一个表创建的索引数据被保存在另外的表中。

（4）分区：传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性，可管理性和提高数据库效率。Hive也支持分区功能，Hive表组织成分区的形式，根据分区列的值对表进行粗略的划分，使用分区可以加快数据的查询速度。

（5）执行延迟：因为Hive构建于HDFS与MapReduce上，所以对比传统数据库来说Hive的延迟比较高，传统的SQL语句的延迟少于一秒，而HiveQL语句的延迟会达到分钟级。

（6）扩展性：传统关系数据库很难横向扩展，纵向扩展的空间也很有限。相反Hive的开发环境是基于集群的，所以具有较好的可扩展性。

Hive在企业大数据分析平台中的应用

Hive在Facebook公司的应用

随着Facebook网站使用量的增加，原有的基于Oracle关系型数据仓库已经无法满足激增的业务需求，Facebook公司开发构建在Hadoop集群上的数据仓库Hive，此时的数据处理过程描述如下：

1. Web服务器及内部服务（如搜索后台）产生日志数据；

2. Scribe服务器把几百个到上千个日志数据集存放在几个到几十个Filers（网络文件服务器）上；

3. 网络文件服务器上的大部分日志文件被复制存放在HDFS系统中。并且维度数据也会每天从内部的MySQL数据库上复制到这个HDFS系统中；

4. Hive为HDFS收集所有数据创建一个数据仓库，用户可以通过编写HiveQL语言创建各种概要信息和报表以及数据执行的历史分析，同时内部的MySQL数据库也可以从中获取处理后的数据；

5. 把需要实时联机访问的数据存放在Oracle RAC上。

Hive系统架构

Hive组成模块

Hive对外用户访问接口模块

CLI、HWI、JDBC、ODBC、Thrift Server等。

CLI：Hive自带的一个命令行界面；

HWI（Hive Web Interface）：Hive的一个简单网页界面；

JDBC、ODBC：开放数据库连接接口，支持很多应用开发。

Thrift Server：基于Thrift架构开发的接口，允许外界通过该接口实现对Hive数据仓库的RPC调用。

驱动模块（Driver）

包括编译器、优化器、执行器等。负责将HiveQL语句转换成一系列MapReduce作业。所有命令和查询都会进入到驱动模块，通过该模块对输入进行解析编译，对需求的计算进行优化，然后按照指定的步骤进行执行。

元数据存储模块（Metastore）

是一个独立的关系型数据库。通常是与MySQL数据库连接后创建的一个MySQL实例，也可以是 Hive自带的derby数据库实例。元数据存储模块中主要保存表模式和其他系统元数据，如表的名称、表的列及其属性、表的分区及其属性、表的属性、表中数据所在位置信息等。

Hive HA基本原理

Hive High Availability（高可用性Hive解决方案）

在Hadoop集群上构建的数据仓库将若干个Hive实例纳入一个资源池，由HAProxy提供一个接口，对Hive实例行访问，然后HAProxy依次询问Hive实例是否可用，执行逻辑可用性测试，如果通过逻辑可用性测试，则将外部请求转发给该Hive实例；如果测试失败，则将Hive实例加入黑名单，询问下一个Hive实例。每间隔一定的周期，HA Proxy会重新对列入黑名单的实例进行统一处理。由Hive处理后得到的各种数据信息，或存放在MySQL数据库中，或直接以报表的形式展现。

9.3 SQL语句转换成MapReduce作业的基本原理

join的实现原理

1）编写一个Map处理逻辑；

2）Map处理逻辑输入关系数据库的表；

3）输入的每行记录通过Map对它进行转换成键值对的形式，表user中记录(uid,name)映射为键值对(uid，<1,name>)，表order中记录(uid, orderid)映射为键值对(uid，<2,orderid>)。

4）在Shuffle、Sort阶段， (uid，<1,name>)和(uid，<2,orderid>)按键uid的值进行哈希，然后传送给对应的Reduce机器执行，并在该机器上按表的标记位对这些键值对进行排序按照键值对的key发送给不同的Reduce处理；

5）在Reduce阶段，对同一台Reduce机器上的键值对，根据表标记位对来自不同表的数据进行笛卡尔积连接操作，以生成最终的连接结果。

group by的实现原理

1）在Map阶段，表score中记录(rank,level)映射为键值对(，count(rank，level))，score表的第一片段中有两条记录(A,1)，(A,1)转换为(，2)，score表的第二片段中有一条记录(A,1)，(A,1)转换为(，1)；

2）在Shuffle、Sort阶段， (，count(rank，level))按键的值进行哈希，然后传送给对应的Reduce机器执行，并在该机器上按的值对这些键值对进行排序，(，2)和(，1)传送到同一台Reduce机器上，按到达顺序排序，(，1)传送到另一台Reduce机器上；

3）在Reduce阶段，对Reduce机器上的这些键值对，把具有相同键的所有count(rank，level)值进行累加生成最终结果。 (，2)+(，1)变为(A，1，3)，(，1)变为(B，2，1)。

当用户向Hive输入一段命令或查询时，Hive需要与Hadoop交互工作来完成该操作。

首先驱动模块接收该命令或查询编译器；对该命令或查询进行编译解析；由优化器对该命令或查询进行优化计算；最后由执行器执行该命令或查询。

执行器通常的任务是启动一个或多个MapReduce任务，有时也不需要启动MapReduce任务，像执行包含*的操作（如select * from 表）时。

Hive查询的具体执行过程

首先用户通过命令行CLI或其他Hive访问工具，向Hive输入一段命令或查询。

1）由Hive驱动模块中的编译器——Antlr语言识别工具，对用户输入的SQL语言进行词法和语法解析，将SQL语句转化为抽象语法树（AST Tree）的形式。

2）对该抽象语法树进行遍历，进一步转化成QueryBlock查询单元。因为抽象语法树的结构仍很复杂，不方便直接翻译为MapReduce算法程序，所以Hive把抽象语法树进一步转化为QueryBlock，其中QueryBlock是一条最基本的SQL语法组成单元，包括输入源、计算过程和输出三部分。

3）再对QueryBlock进行遍历，生成执行操作树（OperatorTree。其中，OperatorTree由很多逻辑操作符组成，如TableScanOperator，SelectOperator，FilterOperator，JoinOperator，GroupByOperator，ReduceSinkOperator等。这些逻辑操作符可以在Map阶段和Reduce阶段完成某一特定操作。

4）通过Hive驱动模块中的逻辑优化器对OperatorTree进行优化。变换OperatorTree的形式，来合并多余的操作符，以减少MapReduce任务数量以及Shuffle阶段的数据量。

5）对优化后的OperatorTree进行遍历，根据OperatorTree中的逻辑操作符生成需要执行的MapReduce任务。

6）启动Hive驱动模块中的物理优化器，对生成MapReduce任务进行优化，生成最终的MapReduce任务执行计划。

7）最后，由Hive驱动模块中的执行器，对最终的MapReduce任务进行执行。

说明：当启动MapReduce程序时，Hive本身是不会生成MapReduce算法程序的。需要通过一个表示“job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块。Hive通过和JobTracker通信来初始化MapReduce任务，不必直接部署在JobTracker所在的管理节点上执行。通常在大型集群上，有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节点上的JobTracker通信，来执行任务。数据文件通常存储在HDFS上，HDFS由NameNode节点管理。

除了用CLI和HWI工具来访问Hive外，还可以采用以下几种典型外部访问工具：

1、Karmasphere是由Karmasphere公司发布的一个商业产品。可以直接访问Hadoop里面结构化和非结构化的数据，可以运用SQL及其他语言，可以用于Ad Hoc查询和进一步的分析；还为开发人员提供了一种图形化环境，可以在里面开发自定义算法，为应用程序和可重复的生产流程创建实用的数据集。

2、Hue是由Cloudera公司提供的一个开源项目。是运营和开发Hadoop应用的图形化用户界面； Hue程序被整合到一个类似桌面的环境，以web程序的形式发布，对于单独的用户来说不需要额外的安装。

3、Qubole公司提供了“Hive即服务”的方式。托管在AWS平台，这样用户在分析存储在亚马逊S3云中的数据集时，就无需了解Hadoop系统管理；提供的Hadoop服务能够根据用户的工作负载动态调整服务器资源配置，实现随需计算。

9.4 Impla

Impala是由Cloudera公司开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据。Impala最开始是参照Dremel系统进行设计的，Impala的目的不在于替换现有的 MapReduce工具，而是提供一个统一的平台用于实时查询。

Impla的运行需要依赖于Hive的元数据，与Hive类似，Impala也可以直接与HDFS和HBase进行交互。 Hive底层执行使用的是MapReduce，所以主要用于处理长时间运行的批处理任务，例如批量提取、转化、加载类型的任务。Impala通过与商用并行关系数据库中类似的分布式查询引擎，可以直接从HDFS或者HBase中用SQL语句查询数据，从而大大降低了延迟（与Hive相比），主要用于实时查询。 Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口。

Imapa系统架构

Impala主要由Impalad（负责具体的相关查询任务），State Store（负责元数据管理和状态信息维护）和CLI（用户访问接口）三部分组成。

Impalad

Impalad是Impala驻留在不同数据节点上的一个进程（计算向数据靠拢）。负责协调客户端提交的查询的执行，给其他impalad分配任务以及收集其他impalad的执行结果进行汇总；执行其他impalad给其分配的任务，主要就是对本地HDFS和HBase里的部分数据进行操作。

包含三个模块：Query Planner（查询计划器）；Query Coordinator（查询协调器）；Query Exec Engine（查询执行引擎），与HDFS的数据节点（HDFS DN）运行在同一节点上完全分布运行在 MPP（大规模并行处理系统）架构。

State Store

每个查询提交给系统后，State Store会创建一个statestored进程，跟踪集群中的Impalad的健康状态及位置信息用于查询调度；创建多个线程来处理Impalad的注册订阅和与各类Impalad保持心跳连接当State Store离线后，Impalad一旦发现State Store处于离线时，就会进入recovery 模式，并进行反复注册；当State Store重新加入集群后，自动恢复正常，更新缓存数据。

CLI

给用户提供查询使用的命令行工具；提供Hue、JDBC及ODBC的使用接口。

Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口，这样做的主要原因是在使用同一公司Hadoop产品时，批处理和实时查询的平台是统一的；

Impala中表的元数据存储采用的是Hive的元数据存储方式；State Store负责收集分布在集群中各个impalad进程的资源信息，用于查询的调度；

HDFS名称节点（HDFS NN）记录了每个文件中各个块所在的数据节点的位置信息。

Impla查询执行过程

当用户提交查询前，Impala先创建一个负责协调客户端提交的查询的Impalad进程，该进程会向Impala State Store提交注册订阅信息，State Store会创建一个statestored进程，statestored进程通过创建多个线程来处理Impalad的注册订阅信息。

1）用户通过CLI客户端提交一个查询到impalad进程，Impalad的Query Planner对SQL语句进行解析，生成解析树；然后，Planner把这个查询的解析树变成若干分片PlanFragment（一个大的查询拆分成若干子查询分发到不同节点上执行），发送到Query Coordinator（协调不同的节点查询不同分片汇总结果）。其中，PlanFragment由PlanNode组成的，能被分发到单独的节点上原子执行，每个PlanNode表示一个关系操作和对其执行优化需要的信息。

2）Coordinator通过从HDFS的名称节点中获取数据地址，从MySQL元数据库中获取元数据，以得到存储这个查询相关数据的所有数据节点。

3）Coordinator初始化相应impalad上的任务执行，即把查询任务分配给所有存储这个查询相关数据的数据节点。

4）Query Executor通过流式交换中间输出，并由Query Coordinator 汇聚来自各个impalad的结果。

5）Coordinator把汇总后的结果返回给CLI客户端。

Impla与Hive的比较

Impla与Hive的不同点

1）Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询。

2）Hive依赖于MapReduce计算框架，执行计划组合成管道型的MapReduce任务模式进行执行，Impala把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询。

3）Hive在执行过程中，如果内存放不下所有数据，则会使用外存，以保证查询能顺序执行完成，而Impala在遇到内存放不下数据时，不会利用外存，所以Impala目前处理查询时会受到一定的限制。

Impala与Hive的相同点

1）Hive与Impala使用相同的存储数据池都支持把数据存储于HDFS和HBase中，其中HDFS支持存储TEXT、RCFILE、PARQUET、AVRO、ETC格式数据，HBase存储表中记录。

2）Hive与Impala使用相同的元数据。

3）Hive与Impala中对SQL的解释处理比较相似，都是通过词法分析生成执行计划。

Impala的目的不在于替换现有的MapReduce，弥补Hive做实时分析时延迟大的不足，把Hive与Impala组合使用效果最佳。先使用Hive进行数据转换处理，之后再使用Impala在Hive处理后的结果数据集上进行快速的数据分析。

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

大数据技术原理与应用（第九章 数据仓库HIVE）

9.1 数据仓库的概念

传统数据仓库面临的挑战

9.2 HIVE简介

Hive适用于数据仓库的特点

采用批处理方式处理海量数据

提供适合数据仓库操作的工具

Hadoop生态系统中Hive与其他部分的关系

Hive依赖于HDFS存储数据

Hive依赖于MapReduce处理数据

Pig可以作为Hive的部分替代工具

HBase提供数据的实时访问

Hive与传统数据库的对比分析

Hive在企业大数据分析平台中的应用

Hive系统架构

Hive组成模块

Hive对外用户访问接口模块

驱动模块（Driver）

元数据存储模块（Metastore）

Hive HA基本原理

9.3 SQL语句转换成MapReduce作业的基本原理

join的实现原理

group by的实现原理

Hive查询的具体执行过程

9.4 Impla

Imapa系统架构

Impalad

State Store

CLI

Impla查询执行过程

Impla与Hive的比较

Impla与Hive的不同点

Impala与Hive的相同点

你可能感兴趣的:(hive,大数据,数据仓库)

大数据技术原理与应用（第九章数据仓库HIVE）