conggova

看懂Hive的执行计划

官方文档
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain

关于Hive执行计划简述

一般执行计划有两个部分：
stage dependencies 各个stage之间的依赖性
stage plan 各个stage的执行计划

一个stage并不一定是一个MR，有可能是Fetch Operator，也有可能是Move Operator。

一个MR的执行计划分为两个部分：
Map Operator Tree MAP端的执行计划
Reduce Operator Tree Reduce端的执行计划

一些常见的Operator：
TableScan 读取数据，常见的属性 alias

Select Operator 选取操作
Group By Operator 分组聚合，常见的属性 aggregations、mode ，当没有keys属性时只有一个分组。
Reduce Output Operator 输出结果给Reduce , 常见的属性 sort order
Fetch Operator 客户端获取数据，常见属性 limit

常见的属性的取值及含义：
aggregations 用在Group By Operator中
count()计数

mode 用在Group By Operator中
hash 待定
mergepartial 合并部分聚合结果
final

sort order 用于Reduce Output Operator中
+ 正序排序
不排序
++按两列正序排序，如果有两列
+- 正反排序，如果有两列
-反向排序
如此类推

下面是一些典型的操作的执行计划

先看一个简单的执行计划

hive> explain select count(*) from t_data1 ;

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1
#说明stage之间的依赖性

STAGE PLANS:  #各个stage的执行计划
  Stage: Stage-1
    Map Reduce  #这个stage是一个MR
      Map Operator Tree:  #Map阶段的操作树
          TableScan  #扫描表，获取数据
            alias: t_data1  扫描的表别名
            Statistics: Num rows: 1 Data size: 43835224 Basic stats: COMPLETE Column stats: COMPLETE
            Select Operator  #选取操作
              Statistics: Num rows: 1 Data size: 43835224 Basic stats: COMPLETE Column stats: COMPLETE
              Group By Operator   #分组聚合操作，不指定Key，只有一个分组
                aggregations: count()  聚合操作
                mode: hash    模式？    
                outputColumnNames: _col0  输出列名
                Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
                Reduce Output Operator   #输出结果给Reduce
                  sort order:         #不排序
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
                  value expressions: _col0 (type: bigint)   #value表达式
      Reduce Operator Tree:   #Reduce的操作树
        Group By Operator    #分组聚合操作
          aggregations: count(VALUE._col0)   聚合操作
          mode: mergepartial      合并各个map所贡献的各部分
          outputColumnNames: _col0
          Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
          File Output Operator   #文件输出操作
            compressed: false    不压缩
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
            table:
                input format: org.apache.hadoop.mapred.TextInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0   #依赖于Stage1的stage0
    Fetch Operator  #获取数据操作
      limit: -1     #不限定
      Processor Tree:  
        ListSink

这是一个简单的count(*)的执行计划

再来看一个count(distinct)的执行计划

hive> explain select count(distinct sid) from t_data1 ;

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: t_data1
            Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: sid (type: bigint)  #选取SID
              outputColumnNames: sid
              Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
              Group By Operator   #分组聚合操作
                aggregations: count(DISTINCT sid)  #聚合算子
                keys: sid (type: bigint)   #分组键
                mode: hash
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator  #输出到Reduce
                  key expressions: _col0 (type: bigint)  #键表达式
                  sort order: +     #正向排序
                  Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
      Reduce Operator Tree:  
        Group By Operator   #分组聚合操作
          aggregations: count(DISTINCT KEY._col0:0._col0)
          mode: mergepartial   #合并各个部分聚合结果
          outputColumnNames: _col0
          Statistics: Num rows: 1 Data size: 16 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 1 Data size: 16 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.TextInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

分组聚合的例子

explain select applove_date , count(*) from t_data1 group by applove_date ;

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: t_data1
            Statistics: Num rows: 1095880 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: applove_date (type: timestamp)
              outputColumnNames: applove_date
              Statistics: Num rows: 1095880 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
              Group By Operator
                aggregations: count()
                keys: applove_date (type: timestamp)   #聚合键（分区键）
                mode: hash
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1095880 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  key expressions: _col0 (type: timestamp)
                  sort order: +
                  Map-reduce partition columns: _col0 (type: timestamp)
                  Statistics: Num rows: 1095880 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col1 (type: bigint)
      Reduce Operator Tree:
        Group By Operator
          aggregations: count(VALUE._col0)
          keys: KEY._col0 (type: timestamp)  #聚合键
          mode: mergepartial
          outputColumnNames: _col0, _col1
          Statistics: Num rows: 547940 Data size: 21917612 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 547940 Data size: 21917612 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.TextInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

一个开窗函数的例子

hive> explain select sid , rn from (select sid , row_number()over(order by sid ) rn from t_data1 ) t1  where rn < 10 ;
OK
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: t_data1
            Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Reduce Output Operator
              key expressions: 0 (type: int), sid (type: bigint)
              sort order: ++
              Map-reduce partition columns: 0 (type: int)
              Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
      Reduce Operator Tree:
        Select Operator
          expressions: KEY.reducesinkkey1 (type: bigint)
          outputColumnNames: _col0
          Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
          PTF Operator
            Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (_wcol0 < 10) (type: boolean)
              Statistics: Num rows: 1826467 Data size: 14611736 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: _col0 (type: bigint), _wcol0 (type: int)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 1826467 Data size: 14611736 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: false
                  Statistics: Num rows: 1826467 Data size: 14611736 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.TextInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

另一个TOP操作

hive> explain select sid from t_data1 order by sid limit 10 ;
OK
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: t_data1
            Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: sid (type: bigint)
              outputColumnNames: _col0
              Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: _col0 (type: bigint)
                sort order: +
                Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
                TopN Hash Memory Usage: 0.1
      Reduce Operator Tree:
        Select Operator
          expressions: KEY.reducesinkkey0 (type: bigint)
          outputColumnNames: _col0
          Statistics: Num rows: 5479403 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
          Limit
            Number of rows: 10
            Statistics: Num rows: 10 Data size: 80 Basic stats: COMPLETE Column stats: NONE
            File Output Operator
              compressed: false
              Statistics: Num rows: 10 Data size: 80 Basic stats: COMPLETE Column stats: NONE
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: 10
      Processor Tree:
        ListSink

连接操作，注意where条件

hive> explain select a.sid , b.b_name from t_bin a join t_data1 b on(a.sid = b.sid ) where a.sid < 10000 ;
OK
STAGE DEPENDENCIES:
  Stage-5 is a root stage , consists of Stage-1
  Stage-1
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-5
    Conditional Operator

  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: a
            Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (sid < 10000) (type: boolean)
              Statistics: Num rows: 1415706 Data size: 11325648 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: sid (type: bigint)
                sort order: +
                Map-reduce partition columns: sid (type: bigint)
                Statistics: Num rows: 1415706 Data size: 11325648 Basic stats: COMPLETE Column stats: NONE
          TableScan
            alias: b
            Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (sid < 10000) (type: boolean)
              Statistics: Num rows: 135293 Data size: 14611669 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: sid (type: bigint)
                sort order: +
                Map-reduce partition columns: sid (type: bigint)
                Statistics: Num rows: 135293 Data size: 14611669 Basic stats: COMPLETE Column stats: NONE
                value expressions: b_name (type: string)
      Reduce Operator Tree:
        Join Operator
          condition map:
               Inner Join 0 to 1
          keys:
            0 sid (type: bigint)
            1 sid (type: bigint)
          outputColumnNames: _col0, _col32
          Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
          Select Operator
            expressions: _col0 (type: bigint), _col32 (type: string)
            outputColumnNames: _col0, _col1
            Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
            File Output Operator
              compressed: false
              Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

注意on条件（与上面的做对比，并没有区别，说明了hive的谓词前推）

hive> explain select a.sid , b.b_name from t_bin a join t_data1 b on(a.sid = b.sid and a.sid < 10000) ;
OK
STAGE DEPENDENCIES:
  Stage-5 is a root stage , consists of Stage-1
  Stage-1
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-5
    Conditional Operator

  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: a
            Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (sid < 10000) (type: boolean)
              Statistics: Num rows: 1415706 Data size: 11325648 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: sid (type: bigint)
                sort order: +
                Map-reduce partition columns: sid (type: bigint)
                Statistics: Num rows: 1415706 Data size: 11325648 Basic stats: COMPLETE Column stats: NONE
          TableScan
            alias: b
            Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (sid < 10000) (type: boolean)
              Statistics: Num rows: 135293 Data size: 14611669 Basic stats: COMPLETE Column stats: NONE
              Reduce Output Operator
                key expressions: sid (type: bigint)
                sort order: +
                Map-reduce partition columns: sid (type: bigint)
                Statistics: Num rows: 135293 Data size: 14611669 Basic stats: COMPLETE Column stats: NONE
                value expressions: b_name (type: string)
      Reduce Operator Tree:
        Join Operator
          condition map:
               Inner Join 0 to 1
          keys:
            0 sid (type: bigint)
            1 sid (type: bigint)
          outputColumnNames: _col0, _col32
          Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
          Select Operator
            expressions: _col0 (type: bigint), _col32 (type: string)
            outputColumnNames: _col0, _col1
            Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
            File Output Operator
              compressed: false
              Statistics: Num rows: 1557276 Data size: 12458213 Basic stats: COMPLETE Column stats: NONE
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

全外连接

hive> explain select a.sid , b.b_name from t_bin a full outer join t_data1 b on(a.sid = b.sid and a.sid < 10000) ;
OK
STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: a
            Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
            Reduce Output Operator
              key expressions: sid (type: bigint)
              sort order: +
              Map-reduce partition columns: sid (type: bigint)
              Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
          TableScan
            alias: b
            Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Reduce Output Operator
              key expressions: sid (type: bigint)
              sort order: +
              Map-reduce partition columns: sid (type: bigint)
              Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
              value expressions: b_name (type: string)
      Reduce Operator Tree:
        Join Operator
          condition map:
               Outer Join 0 to 1
          filter predicates:
            0 {(KEY.reducesinkkey0 < 10000)}
            1 
          keys:
            0 sid (type: bigint)
            1 sid (type: bigint)
          outputColumnNames: _col0, _col32
          Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
          Select Operator
            expressions: _col0 (type: bigint), _col32 (type: string)
            outputColumnNames: _col0, _col1
            Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
            File Output Operator
              compressed: false
              Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

左外连接

hive> explain select a.sid , b.b_name from t_bin a left outer join t_data1 b on(a.sid = b.sid) ;
OK
STAGE DEPENDENCIES:
  Stage-4 is a root stage , consists of Stage-1
  Stage-1
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-4
    Conditional Operator

  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: a
            Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
            Reduce Output Operator
              key expressions: sid (type: bigint)
              sort order: +
              Map-reduce partition columns: sid (type: bigint)
              Statistics: Num rows: 4247118 Data size: 33976944 Basic stats: COMPLETE Column stats: NONE
          TableScan
            alias: b
            Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
            Reduce Output Operator
              key expressions: sid (type: bigint)
              sort order: +
              Map-reduce partition columns: sid (type: bigint)
              Statistics: Num rows: 405881 Data size: 43835224 Basic stats: COMPLETE Column stats: NONE
              value expressions: b_name (type: string)
      Reduce Operator Tree:
        Join Operator
          condition map:
               Left Outer Join0 to 1
          keys:
            0 sid (type: bigint)
            1 sid (type: bigint)
          outputColumnNames: _col0, _col32
          Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
          Select Operator
            expressions: _col0 (type: bigint), _col32 (type: string)
            outputColumnNames: _col0, _col1
            Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
            File Output Operator
              compressed: false
              Statistics: Num rows: 4671829 Data size: 37374639 Basic stats: COMPLETE Column stats: NONE
              table:
                  input format: org.apache.hadoop.mapred.TextInputFormat
                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
Hadoop 中的大数据技术：调优篇（3）大数据深度洞察大数据 hadoop 分布式
HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失，如何恢复NameNode？故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/name/*问题解决从Se
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
大数据技术之HBase API(3) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBaseAPI环境准备创建连接单线程创建连接多线程创建连接DDLDMLHBaseAPI环境准备新建项目后，在pom.xml中添加如下依赖：org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06注意：javax.el包虽然会报错不存在，但这仅是一个测试用的依赖，不会影响实际使用。
大数据技术之HBase整合 Phoenix(6) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBase整合PhoenixPhoenix简介Phoenix定义为什么使用PhoenixPhoenix快速入门安装1）官网地址2）Phoenix部署PhoenixShell操作Table表的映射数字类型说明PhoenixJDBC操作Phoenix二级索引二级索引配置文件全局索引（globalindex）包含索引（coveredindex）本地索引（localindex）HBase整合Phoen
大数据技术之Zookeeper概述（1）大数据深度洞察 Zookeeper 大数据 zookeeper 分布式云原生
目录Zookeeper入门概述Zookeeper的主要特点包括：Zookeeper的应用场景：Zookeeper的基本概念：架构：Zookeeper工作机制Zookeeper数据结构Znode（ZookeeperNode）Znode的类型Znode路径Znode属性Watcher监听器使用示例总结Zookeeper入门概述Zookeeper是一个分布式的、开放源码的协调服务，用于大型应用中管理和协
综合治税的发展前景 alankuo 人工智能人工智能
综合治税的发展前景较为广阔，主要体现在以下几个方面：-技术应用持续深化：-大数据与人工智能助力精准治税：随着大数据技术的不断发展，税务部门能够整合来自多部门、多渠道的海量数据，包括企业的财务数据、交易数据、银行流水等，通过对这些数据的深度分析和挖掘，可以精准识别税收风险点和潜在的偷逃税行为。例如，利用大数据分析企业的销售数据与申报纳税数据的匹配度，发现异常及时预警和查处。人工智能技术则可以辅助税务
Kylin的工作原理及使用分享操作指南 vvvae1234 kylin
ApacheKylin是一个分布式的分析引擎，专为大数据环境中的快速分析和查询而设计。它通过构建OLAP（联机分析处理）立方体，使得对海量数据的实时分析成为可能，极大地提升了数据查询的效率。本文将详细介绍Kylin的工作原理，结合实际操作案例，分享如何有效使用Kylin进行大数据分析。1.Kylin概述Kylin是一个开源项目，支持SQL查询，兼容与Hive和MapReduce等大数据技术的集成。
《未来二十年，AI、区块链、云与大数据技术引领全球变革》久绊A 文献/论文人工智能区块链云计算大数据
摘要在未来二十年，全球社会与经济将深刻受到人工智能（AI）、区块链（Blockchain）、云计算（Cloud）和大数据（Data）四大核心技术的驱动。这些技术不仅从宏观上重塑产业结构，更在微观层面显著提升生活品质与效率。本文通过详尽的案例分析，结合国内外最新研究成果，深入剖析这四大技术如何在教育、智能家居、农业、金融等多个关键领域产生深远影响。关键字人工智能（AI）、区块链（Blockchain
向量数据库 Faiss 的搭建与使用 eqa11 数据库
向量数据库Faiss的搭建与使用一、引言在人工智能和大数据技术飞速发展的今天，向量数据库作为处理高维数据检索的关键技术，越来越受到重视。Faiss，作为由MetaAI（原FacebookAIResearch）开源的高效相似性搜索库，以其卓越的性能和灵活性，成为众多技术选型中的佼佼者。本文将深入探讨Faiss的搭建和使用，旨在为读者提供一个全面而详细的指南。二、Faiss简介与环境搭建1、Faiss
知识分享系列三：大数据技术（上） jinruimeng 知识分享大数据
本文系统地介绍了大数据技术的相关知识，由于篇幅比较长，分为上下两部分，其中上半部分先介绍基本概念、核心领域，下半部分介绍主要技术、平台架构，以及相关企业案例。目录一、基本概念1.1从数据资源到大数据1.2从大数据到数据要素二、核心领域2.1概述2.2数据存储与计算2.2.1发展历程2.2.2发展特点2.2.2.1云化改造全面加速2.2.2.2融合一体化持续加深2.2.2.3安全能力快速补强2.2.
Distrii办伴：空间+科技+服务解决企业办公全生命周期需求娱扒小公主
ToC市场风口之后，ToB的春天眼看来临。在消费级市场，中国BAT力抗欧美的谷歌、脸书、亚马逊。然而拥有相当体量企业市场的中国，却没有一个知名的企业服务巨头。随着人工智能、大数据技术的应用场景逐步扩大，更丰富、更落地的企业服务场景将在不远的未来不断涌现。作为一家自创立之初就专注于提供智慧办公解决方案的科技公司，Distrii办伴始终坚持以科技为内核，为企业带来更便捷高效的服务。三年来，办伴率旗下三
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
Spring Boot实战：使用Spring Cloud Stream处理实时交易数据潘多编程 spring boot 后端 java
随着金融市场的快速发展以及大数据技术的广泛应用，实时处理交易数据变得越来越重要。SpringBoot和SpringCloudStream为开发者提供了一个强大的工具组合来构建这样的系统。本文将介绍如何使用这些工具来创建一个能够接收、处理并转发实时交易数据的应用程序。1.引言在金融市场中，交易数据通常需要快速地被采集、处理和分析。例如，股票价格的变动、订单的执行情况等都需要及时地被记录下来，并且根据
大数据技术之Zookeeper安装（2）大数据深度洞察 Zookeeper 大数据 hadoop zookeeper
目录下载地址本地模式安装1）安装前准备2）配置修改3）操作Zookeeper配置参数解读Zookeeper集群操作集群规划解压安装配置服务器编号配置zoo.cfg文件集群操作Zookeeper集群启动停止脚本创建脚本增加脚本执行权限Zookeeper集群启动脚本Zookeeper集群停止脚本Zookeeper选举机制（面试重点）首次启动选举非首次启动选举关键术语解释下载地址官网首页：ApacheZ
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，