青云游子

Hive SQL血缘解析

Druid可以直接获得所有的列
http://t.csdn.cn/mO4TX
利用Hive提供的LineageLogger与Execution Hooks机制做血缘
https://blog.csdn.net/qq_44831907/article/details/123033137
Apache Calcite
gudusoft 解析方案商业
https://blog.csdn.net/qq_31557939/article/details/126277212
6.github开源项目：
https://github.com/Shkin1/hathor
https://github.com/sqlparser/sqlflow_public

===========================
一、数仓经常会碰到的几类问题：
1、两个数据报表进行对比，结果差异很大，需要人工核对分析指标的维度信息，比如从头分析数据指标从哪里来，处理条件是什么，最后才能分析出问题原因。
2、基础数据表因某种原因需要修改字段，需要评估其对数仓的影响，费时费力，然后在做方案。

二、问题分析：
数据源长途跋涉，经过大量的处理和组件来传递，呈现在业务用户面前，对数据进行回溯其实很难。元数据回溯在有效决策、策略制定、差异分析等过程中很重要。这两类问题都属于数据血缘分析问题，第一类叫做数据回溯、第二类叫做影响分析，是数据回溯的逆向。

三、解决方法：
自己实现了一套基于hive数仓的数据血缘分析工具，来完成各个数据表、字段之间的关系梳理，进而解决上面两个问题。

工具主要目标：解析计算脚本中的HQL语句，分析得到输入输出表、输入输出字段和相应的处理条件，进行分析展现。
实现思路：对AST深度优先遍历，遇到操作的token则判断当前的操作，遇到子句则压栈当前处理，处理子句。子句处理完，栈弹出。处理字句的过程中，遇到子查询就保存当前子查询的信息，判断与其父查询的关系，最终形成树形结构；遇到字段或者条件处理则记录当前的字段和条件信息、组成Block，嵌套调用。
关键点解析：
1、遇到TOK_TAB或TOK_TABREF则判断出当前操作的表
2、压栈判断是否是join，判断join条件
3、定义数据结构Block,遇到在where\select\join时获得其下相应的字段和条件，组成Block
4、定义数据结构ColLine,遇到TOK_SUBQUERY保存当前的子查询信息，供父查询使用
5、定义数据结构ColLine,遇到TOK_UNION结束时，合并并截断当前的列信息
6、遇到select　或者未明确指出的字段，查询元数据进行辅助分析
7、解析结果进行相关校验
————————————————
版权声明：本文为CSDN博主「thomas0yang」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/thomas0yang/article/details/49449723

==================================
HiveSqlBloodFigure
如果你喜欢这个项目，那就点击一下右上方的【Star】以及【Fork】，支持一下我，让我有动力持续更新！
项目介绍
在数据仓库建设中，经常会使用到数据血缘追中方面的功能，本项目实现了对hql集合进行静态分析，获取hql对应的血缘图（表血缘 + 字段血缘）

项目升级内容
删除hive-exec与hadoop-common的maven依赖，使得项目更加的轻量级。
重构项目代码，优化解析，修复无字段血缘时，不能获取表血缘的BUG。
规范化接口输入输出，血缘图均为自定义实体，方便进行JSON序列化。
新增接口层，方便Spring的注入，同时也提供静态方式调用。
下个版本升级内容
引入JDBC获取元数据信息，使血缘图更加丰富，同时可以解决Sql中有select * 的问题。

测试用例
请关注test下的HiveBloodEngineTest与HiveSqlBloodFactoryTest。

接口地址
接口类：HiveBloodEngine，实现类：HiveBloodEngineImpl。（spring接入）
工具类：HiveSqlBloodFactory。（静态调用）
使用说明
运行：

结果：
表血缘：

字段血缘：

1 研究背景
随着企业信息化和业务的发展，数据资产日益庞大，数据仓库构建越来越复杂，在数仓构建的过程中，常遇到数据溯源困难，数据模型修改导致业务分析困难等难题，此类问题主要是由于数据血缘分析不足造成的，只有强化血缘关系，才能帮助企业更好的发挥数据价值。

SQL血缘关系是数据仓库模型构建的核心依赖。通过对SQL语句进行梳理与解析，得到各个业务层表之间依赖关系和属性依赖关系，并进行可视化展示，形成数据表和属性血缘层次关系图，充分展示了原始字段数据与数据模型的映射关系。拥有良好的SQL血缘关系系统，不仅有利于数据分析师对业务场景的梳理，还极大帮助对其数仓分层的构建，同时对企业数据质量控制方面起到很好的朔源作用，对构造数据链路图，监控数据变化起到很好的辅助作用。

市场存在一系列血缘关系解析工具，如Druids，但由于只支持对mysql语句的解析，且解析力度不够，不支持复杂的sql逻辑等问题，导致无法在企业中得到广泛使用。同样的hive自身的血缘解析往往在sql执行之后，才可得到解析结果，如果sql执行比较耗时，导致血缘关系无法快速展现，同时造成没有办法提前进行元数据安全和权限认证等问题，在企业真实应用中有一定的限制。

本文结合公司自身业务，研究Hive血缘关系解析源码，并进行优化，首先简化SQL语句剪枝和对包含CTE别名数据表的识别与剔除，降低SQL解析的复杂性，提高血缘解析性能；其次，提供元数据信息服务模块，既保证元信息的完整性，又提供安全的数据表权限认证，维护数据表的操作权限，保证操作的安全性；然后,将postExecuteHook前置，即在SQL执行物理优化前即可获得SQL 的血缘关系，极大提高了获取SQL血缘关系的效率，后续将对这些优化策略进行逐一展开。
————————————————
版权声明：本文为CSDN博主「搜狐技术产品小编2023」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/SOHU_TECH/article/details/110605919

2 相关技术介绍
2.1 SQL血缘关系介绍

在数据仓库构建的过程中，SQL血缘关系体现了各个数据表以及相关属性的依赖关系。SQL血缘关系即是对业务流程涉及到的模型表进行梳理，它包含了集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系，其指向数据的上游来源，向上游追根溯源。通过简单的SQL语句展现各个表之间的数据关系。
————————————————
版权声明：本文为CSDN博主「搜狐技术产品小编2023」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/SOHU_TECH/article/details/110605919

Apache Atlas
Apache Calcite(可以用)
Trino
ANTLR(可以用)
Antlr4(可以用)
Hive ASTNode(可以用)
Druid
hive hook(需要执行SQL)

https://github.com/webgjc/sql-parser/blob/master/src/main/java/cn/ganjiacheng/hive/HiveSqlFieldLineageParser.java

http://ganjiacheng.cn/article/2020/article_14_%E5%9F%BA%E4%BA%8Eantlr4%E5%AE%9E%E7%8E%B0HQL%E7%9A%84%E8%A7%A3%E6%9E%90-%E8%A1%A8%E8%A1%80%E7%BC%98%E5%92%8C%E5%AD%97%E6%AE%B5%E8%A1%80%E7%BC%98/

https://blog.csdn.net/thomas0yang/article/details/49449723

https://download.csdn.net/download/thomas0yang/9354943

https://download.csdn.net/download/thomas0yang/9369949

http://tech.meituan.com/hive-sql-to-mapreduce.html
http://www.cnblogs.com/drawwindows/p/4595771.html
https://cwiki.apache.org/confluence/display/Hive/LanguageManual
————————————————
版权声明：本文为CSDN博主「thomas0yang」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/thomas0yang/article/details/49449723

https://download.csdn.net/download/xl_1803/75865628?utm_medium=distribute.pc_relevant_download.none-task-download-2_defaultBlogCommendFromBaidu_{Rate-1-75865628-download-9369949.257%5Ev11%5Epc_dl_relevant_income_base1&depth_1-utm_source=distribute.pc_relevant_download.none-task-download-2}default_{BlogCommendFromBaidu}Rate-1-75865628-download-9369949.257%5Ev11%5Epc_dl_relevant_income_base1&spm=1003.2020.3001.6616.1

https://download.csdn.net/download/weixin_42131618/16734276?utm_medium=distribute.pc_relevant_download.none-task-download-2_defaultBlogCommendFromBaidu_{Rate-12-16734276-download-9369949.257%5Ev11%5Epc_dl_relevant_income_base1&depth_1-utm_source=distribute.pc_relevant_download.none-task-download-2}default_{BlogCommendFromBaidu}Rate-12-16734276-download-9369949.257%5Ev11%5Epc_dl_relevant_income_base1&spm=1003.2020.3001.6616.13

https://github.com/JunNan-X/HiveSqlBloodFigure

https://github.com/lihuigang/dp_dw_lineage

https://blog.csdn.net/qq_44831907/article/details/123033137

https://github.com/webgjc/sql-parser

http://ganjiacheng.cn/article/2020/article_6_%E5%9F%BA%E4%BA%8Eantlr4%E5%AE%9E%E7%8E%B0HQL%E7%9A%84%E8%A7%A3%E6%9E%90-%E5%85%83%E6%95%B0%E6%8D%AE/

http://ganjiacheng.cn/article/2020/article_14_%E5%9F%BA%E4%BA%8Eantlr4%E5%AE%9E%E7%8E%B0HQL%E7%9A%84%E8%A7%A3%E6%9E%90-%E8%A1%A8%E8%A1%80%E7%BC%98%E5%92%8C%E5%AD%97%E6%AE%B5%E8%A1%80%E7%BC%98/

http://ganjiacheng.cn/article/2020/article_12_%E5%9F%BA%E4%BA%8Eantlr4%E5%AE%9E%E7%8E%B0HQL%E7%9A%84%E8%A7%A3%E6%9E%90-%E6%A0%BC%E5%BC%8F%E5%8C%96/

https://gitee.com/Kingkazuma111/sql-parser-lineage?_from=gitee_search

https://gitee.com/hassan1314/flink-sql-lineage?_from=gitee_search

https://blog.csdn.net/SOHU_TECH/article/details/110605919

https://github.com/reata/sqllineage

https://reata.github.io/blog/sqllineage-a-sql-lineage-analysis-tool/

跨分区扫描

package com.atguigu.dga.governance.assess.assessor.calc;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.atguigu.dga.governance.assess.Assessor;
import com.atguigu.dga.governance.bean.AssessParam;
import com.atguigu.dga.governance.bean.GovernanceAssessDetail;
import com.atguigu.dga.util.SqlParser;
import com.atguigu.dga.meta.bean.TableMetaInfo;
import com.google.common.collect.Sets;
import lombok.*;
import org.apache.hadoop.hive.ql.lib.Dispatcher;
import org.apache.hadoop.hive.ql.lib.Node;
import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer;
import org.apache.hadoop.hive.ql.parse.HiveParser;
import org.apache.hadoop.hive.ql.parse.SemanticException;
import org.springframework.stereotype.Component;

import java.math.BigDecimal;
import java.util.*;

@Component("MULTI_PARTITION")
public class MultiPartitionAssessor extends Assessor {
    @Override
    protected void checkProblem(GovernanceAssessDetail governanceAssessDetail, AssessParam assessParam) throws Exception {

        if (assessParam.getTableMetaInfo().getTableMetaInfoExtra().getDwLevel().equals("ODS") || assessParam.getTDsTaskDefinition() == null) {  //ods层没有sql处理
            return;
        }

        //跨分区扫描
        //提取sql 进行
        if (assessParam.getTableMetaInfo().getTableName().equals("ads_order_to_pay_interval_avg")) {
            System.out.println(111);
        }


        String sql = assessParam.getTDsTaskDefinition().getSql();
        governanceAssessDetail.setAssessComment(sql);
        Map<String, TableMetaInfo> tableMetaInfoMap = assessParam.getTableMetaInfoMap();

        CheckMultiPartitionScanDispatcher dispatcher = new CheckMultiPartitionScanDispatcher();
        dispatcher.setTableMetaInfoMap(tableMetaInfoMap);
        dispatcher.setDefaultSchemaName(assessParam.getTableMetaInfo().getSchemaName());
        SqlParser.parse(dispatcher, sql);

        Map<String, Set<String>> tableFilterFieldMap = new HashMap<>();
        Map<String, Set<String>> tableRangeFilterFieldMap = new HashMap<>();


        //把条件列表 整理为 表-被过滤字段 的结构
        List<CheckMultiPartitionScanDispatcher.WhereCondition> whereConditionList = dispatcher.getWhereConditionList();
        for (CheckMultiPartitionScanDispatcher.WhereCondition whereCondition : whereConditionList) {

            List<CheckMultiPartitionScanDispatcher.OriginTableField> tableFieldList = whereCondition.getTableFieldList();
            for (CheckMultiPartitionScanDispatcher.OriginTableField originTableField : tableFieldList) {
                Set<String> tableFilterFieldSet = tableFilterFieldMap.get(originTableField.getOriginTable());
                if (tableFilterFieldSet == null) {
                    tableFilterFieldSet = new HashSet<>();
                    tableFilterFieldMap.put(originTableField.getOriginTable(), tableFilterFieldSet);
                }
                tableFilterFieldSet.add(originTableField.getField());

                if (!whereCondition.operator.equals("=")) {
                    Set<String> tableFilterFilterFieldSet = tableRangeFilterFieldMap.get(originTableField.getOriginTable());
                    if (tableFilterFilterFieldSet == null) {
                        tableFilterFilterFieldSet = new HashSet<>();
                        tableRangeFilterFieldMap.put(originTableField.getOriginTable(), tableFilterFieldSet);
                    }
                    tableFilterFilterFieldSet.add(originTableField.getField());

                }
            }
        }

        StringBuilder assessProblem = new StringBuilder();
        // 获得所有引用表的清单
        Map<String, List<CheckMultiPartitionScanDispatcher.CurTableField>> refTableFieldMap = dispatcher.getRefTableFieldMap();
        for (String refTableName : refTableFieldMap.keySet()) {
            //获得元数据的分区字段
            TableMetaInfo tableMetaInfo = tableMetaInfoMap.get(refTableName);
            Set<String> tableFilterFieldSet = tableFilterFieldMap.get(refTableName);
            Set<String> tableFilterRangeFieldSet = tableRangeFilterFieldMap.get(refTableName);

            //检查每个分区字段 1 是否被过滤  2 是否被范围查询
            String partitionColNameJson = tableMetaInfo.getPartitionColNameJson();
            List<JSONObject> partitionJsonObjList = JSON.parseArray(partitionColNameJson, JSONObject.class);
            for (JSONObject partitionJsonObj : partitionJsonObjList) {
                String partitionName = partitionJsonObj.getString("name");
                if (tableFilterFieldSet == null || !tableFilterFieldSet.contains(partitionName)) {
                    assessProblem.append("引用表:" + refTableName + "中的分区字段" + partitionName + "未参与过滤 ;");
                }
                if (tableFilterRangeFieldSet != null && tableFilterRangeFieldSet.contains(partitionName)) {
                    assessProblem.append("引用表:" + refTableName + "中的分区字段" + partitionName + "涉及多分区扫描 ;");
                }
            }

        }

        if (assessProblem.length() > 0) {
            governanceAssessDetail.setAssessScore(BigDecimal.ZERO);
            governanceAssessDetail.setAssessProblem(assessProblem.toString());
            governanceAssessDetail.setAssessComment(JSON.toJSONString(dispatcher.refTableFieldMap.keySet()) + "||" + sql);

        }


    }


    //节点处理器 会经过sql所有节点处理环节，每经过一个节点执行dispatch方法
    public class CheckMultiPartitionScanDispatcher implements Dispatcher {

        //检查策略
        // 1  获得比较条件的语句
        // 2  查看比较字段是否为分区字段
        // 3  如果比较符号为 >=  <= < >  <> in 则是为多分区
        // 4  如果比较符号为 =  则获得比较的值 如果同一个分区字段 有多个值 则视为多分区


        @Setter
        Map<String, TableMetaInfo> tableMetaInfoMap = new HashMap<>();


        @Getter
        Map<String, List<CurTableField>> subqueryTableFiedlMap = new HashMap<>();   //表<表名,<字段名,Set<原始字段>>

        @Getter
        Map<String, List<CurTableField>> insertTableFieldMap = new HashMap<>();   //表<表名,<字段名,Set<原始字段>>

        @Getter
        Map<String, List<CurTableField>> refTableFieldMap = new HashMap<>();

        @Getter
        List<WhereCondition> whereConditionList = new ArrayList<>();
        @Setter
        String defaultSchemaName = null;

        Set<String> operators = Sets.newHashSet("=", ">", "<", ">=", "<=", "<>", "like"); // in / not in 属于函数计算

        @Override
        public Object dispatch(Node nd, Stack<Node> stack, Object... nodeOutputs) throws SemanticException {

            //检查该节点的处理内容
            ASTNode queryNode = (ASTNode) nd;
            //分析查询
            if (queryNode.getType() == HiveParser.TOK_QUERY) {

                //System.out.println("astNode = " + queryNode.getText());
                Map<String, List<CurTableField>> curQueryTableFieldMap = new HashMap<>();
                Map<String, String> aliasMap = new HashMap<>();


                for (Node childNode : queryNode.getChildren()) {

                    ASTNode childAstNode = (ASTNode) childNode;
                    if (childAstNode.getType() == HiveParser.TOK_FROM) {
                        loadTablesFromNodeRec(childAstNode, curQueryTableFieldMap, aliasMap);
                    } else if (childAstNode.getType() == HiveParser.TOK_INSERT) {
                        for (Node insertChildNode : childAstNode.getChildren()) {
                            ASTNode insertChildAstNode = (ASTNode) insertChildNode;
                            if (insertChildAstNode.getType() == HiveParser.TOK_WHERE) {
                                loadConditionFromNodeRec(insertChildAstNode, whereConditionList, curQueryTableFieldMap, aliasMap);
                            } else if (insertChildAstNode.getType() == HiveParser.TOK_SELECT || insertChildAstNode.getType() == HiveParser.TOK_SELECTDI) {
                                // 如果有子查询 //把查询字段写入缓存 // 没有子查询作为最终输出字段
                                List<CurTableField> tableFieldOutputList = getTableFieldOutput(insertChildAstNode, curQueryTableFieldMap, aliasMap);
                                //向上追溯子查询的别名
                                ASTNode subqueryNode = (ASTNode) queryNode.getAncestor(HiveParser.TOK_SUBQUERY);
                                //保存到子查询
                                if (subqueryNode != null) {
                                    cacheSubqueryTableFieldMap(subqueryNode, tableFieldOutputList);
                                }
                                ASTNode insertTableNode = (ASTNode) childAstNode.getFirstChildWithType(HiveParser.TOK_DESTINATION).getChild(0);
                                if (insertTableNode.getType() == HiveParser.TOK_TAB) {  //需要做sql最终输出
                                    cacheInsertTableField(insertTableNode, tableFieldOutputList);
                                }

                            }
                        }

                    }
                }
            }


            return null;
        }

        private void loadTableFiledByTableName(String tableName, Map<String, List<CurTableField>> curTableFieldMap, Map<String, String> aliasMap) {
            String tableWithSchema = tableName;
            if (tableName.indexOf(".") < 0) {
                tableWithSchema = defaultSchemaName + "." + tableName;
            }
            TableMetaInfo tableMetaInfo = tableMetaInfoMap.get(tableWithSchema);
            if (tableMetaInfo != null) {  //是 真实表
                List<CurTableField> curFieldsList = new ArrayList<>();
                //加载普通字段
                String colNameJson = tableMetaInfo.getColNameJson();
                List<JSONObject> colJsonObjectList = JSON.parseArray(colNameJson, JSONObject.class);

                for (JSONObject colJsonObject : colJsonObjectList) {
                    CurTableField curTableField = new CurTableField();

                    OriginTableField originTableField = new OriginTableField();
                    originTableField.setField(colJsonObject.getString("name"));
                    originTableField.setPartition(false);
                    originTableField.setOriginTable(tableMetaInfo.getSchemaName() + "." + tableMetaInfo.getTableName());
                    if (colJsonObject.getString("type").indexOf("struct") > 0) {
                        Set<String> structFieldSet = getStructFieldSet(colJsonObject.getString("type"));
                        originTableField.setSubFieldSet(structFieldSet);
                    }

                    curTableField.getOriginTableFieldList().add(originTableField);
                    curTableField.setCurFieldName(colJsonObject.getString("name"));
                    curFieldsList.add(curTableField);
                }
                //加载分区字段
                String partitionColNameJson = tableMetaInfo.getPartitionColNameJson();
                List<JSONObject> partitionJsonObjectList = JSON.parseArray(partitionColNameJson, JSONObject.class);
                for (JSONObject partitionColJsonObject : partitionJsonObjectList) {
                    CurTableField curTableField = new CurTableField();

                    OriginTableField originTableField = new OriginTableField();
                    originTableField.setField(partitionColJsonObject.getString("name"));
                    originTableField.setPartition(true);
                    originTableField.setOriginTable(tableMetaInfo.getSchemaName() + "." + tableMetaInfo.getTableName());

                    curTableField.getOriginTableFieldList().add(originTableField);
                    curTableField.setCurFieldName(partitionColJsonObject.getString("name"));
                    curFieldsList.add(curTableField);
                }

                curTableFieldMap.put(tableName, curFieldsList);
                refTableFieldMap.put(tableName, curFieldsList);
                String tableWithoutSchema = tableWithSchema.substring(tableWithSchema.indexOf(".") + 1);
                aliasMap.put(tableWithoutSchema, tableWithSchema);  //把不带库名的表名 作为别名的一种
            } else {  //不是真实表 从缓存中提取
                List<CurTableField> subqueryFieldsList = subqueryTableFiedlMap.get(tableName);
                if (subqueryFieldsList == null) {
                    throw new RuntimeException("未识别对应表: " + tableName);
                }
                curTableFieldMap.put(tableName, subqueryFieldsList);

            }


        }

        // 递归查找某个节点下的引用的表，并进行加载
        public void loadTablesFromNodeRec(ASTNode astNode, Map<String, List<CurTableField>> tableFieldMap, Map<String, String> aliasMap) {
            if (astNode.getType() == HiveParser.TOK_TABREF) {
                ASTNode tabTree = (ASTNode) astNode.getChild(0);
                String tableName = null;
                if (tabTree.getChildCount() == 1) {
                    tableName = BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0));
                } else {
                    tableName = BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0)) + "." + tabTree.getChild(1);  //自动拼接表名
                }
                //根据表名和补充元数据
                loadTableFiledByTableName(tableName, tableFieldMap, aliasMap);

                //涉及别名
                if (astNode.getChildren().size() == 2) {
                    ASTNode aliasNode = (ASTNode) astNode.getChild(1);
                    aliasMap.put(aliasNode.getText(), tableName);
                }

            } else if (astNode.getType() == HiveParser.TOK_SUBQUERY) {
                String aliasName = astNode.getFirstChildWithType(HiveParser.Identifier).getText();
                loadTableFiledByTableName(aliasName, tableFieldMap, aliasMap);
            } else if (astNode.getChildren() != null && astNode.getChildren().size() > 0) {
                for (Node childNode : astNode.getChildren()) {
                    ASTNode childAstNode = (ASTNode) childNode;
                    loadTablesFromNodeRec(childAstNode, tableFieldMap, aliasMap);
                }
            }
        }


        //递归检查并收集条件表达式
        public void loadConditionFromNodeRec(ASTNode node, List<WhereCondition> whereConditionList, Map<String, List<CurTableField>> queryTableFieldMap, Map<String, String> aliasMap) {

            if (operators.contains(node.getText())
                    || (node.getType() == HiveParser.TOK_FUNCTION && node.getChild(0).getText().equals("in"))) {
                WhereCondition whereCondition = new WhereCondition();
                if (node.getType() == HiveParser.TOK_FUNCTION && node.getChild(0).getText().equals("in")) {
                    if (node.getParent().getText().equals("not")) {
                        whereCondition.setOperator("nin");
                    } else {
                        whereCondition.setOperator("in");
                    }
                } else {
                    whereCondition.setOperator(node.getText());
                }

                ArrayList<Node> children = node.getChildren();
                for (Node child : children) {
                    ASTNode operatorChildNode = (ASTNode) child;
                    if (operatorChildNode.getType() == HiveParser.DOT) {   //带表名的字段名
                        ASTNode prefixNode = (ASTNode) operatorChildNode.getChild(0).getChild(0);
                        ASTNode fieldNode = (ASTNode) operatorChildNode.getChild(1);
                        getWhereField(whereCondition, prefixNode.getText(), fieldNode.getText(), queryTableFieldMap, aliasMap);
                        whereConditionList.add(whereCondition);
                    } else if (operatorChildNode.getType() == HiveParser.TOK_TABLE_OR_COL) {  //不带表名的字段名
                        ASTNode fieldNode = (ASTNode) operatorChildNode.getChild(0);
                        getWhereField(whereCondition, null, fieldNode.getText(), queryTableFieldMap, aliasMap);
                        whereConditionList.add(whereCondition);
                    }
                }
            } else {
                if (node.getChildren() != null) {
                    for (Node nd : node.getChildren()) {
                        ASTNode nodeChild = (ASTNode) nd;
                        loadConditionFromNodeRec(nodeChild, whereConditionList, queryTableFieldMap, aliasMap);
                    }
                }
            }
        }

        private String getInputTableName(Stack<Node> stack) {
            ASTNode globalQueryNode = (ASTNode) stack.firstElement();
            ASTNode insertNode = (ASTNode) globalQueryNode.getFirstChildWithType(HiveParser.TOK_INSERT);
            ASTNode tableNode = (ASTNode) insertNode.getChild(0).getChild(0);  //TOK_DESINATION->TOK_TAB
            if (tableNode.getChildCount() == 1) {
                return defaultSchemaName + "." + BaseSemanticAnalyzer.getUnescapedName((ASTNode) tableNode.getChild(0));      //不带库名 补库名
            } else {
                return BaseSemanticAnalyzer.getUnescapedName((ASTNode) tableNode.getChild(0)) + "." + tableNode.getChild(1);  //带库名
            }
        }


        public List<CurTableField> getTableFieldOutput(ASTNode selectNode, Map<String, List<CurTableField>> curQueryTableFieldMap, Map<String, String> aliasMap) {

            List<CurTableField> outputTableFieldList = new ArrayList<>();
            for (Node selectXPRNode : selectNode.getChildren()) {
                ASTNode selectXPRAstNode = (ASTNode) selectXPRNode;
                // 如果是隐性 或者select * //返回子查询
                if (selectXPRAstNode.getChild(0).getType() == HiveParser.TOK_SETCOLREF || selectXPRAstNode.getChild(0).getType() == HiveParser.TOK_ALLCOLREF) {
                    for (List<CurTableField> curTableFieldList : curQueryTableFieldMap.values()) {
                        outputTableFieldList.addAll(curTableFieldList);
                    }
                    return outputTableFieldList;
                } else {
                    //逐个取节点下的select 的字段
                    CurTableField curTableField = new CurTableField();
                    loadCurTableFieldFromNodeRec((ASTNode) selectXPRAstNode, curTableField, curQueryTableFieldMap, aliasMap);
                    if (selectXPRNode.getChildren().size() == 2) { //说明为字段起了别名
                        ASTNode aliasNode = (ASTNode) ((ASTNode) selectXPRNode).getChild(1);
                        curTableField.setCurFieldName(aliasNode.getText());
                    }
                    outputTableFieldList.add(curTableField);

                }
            }
            return outputTableFieldList;

        }

        //把对象保存到子查询缓存中
        private void cacheSubqueryTableFieldMap(ASTNode subqueryNode, List<CurTableField> curTableFieldList) {
            ASTNode subqueryAliasNode = (ASTNode) subqueryNode.getFirstChildWithType(HiveParser.Identifier);
            String aliasName = subqueryAliasNode.getText();
            List<CurTableField> existsTableFieldList = subqueryTableFiedlMap.get(aliasName);

            if (existsTableFieldList != null) { //说明已经有查询声明为改别名了 ，主要原因是因为union造成的， 这种情况要按照顺序把每个字段的原始字段信息追加
                for (int i = 0; i < existsTableFieldList.size(); i++) {
                    CurTableField existsTableField = existsTableFieldList.get(i);
                    CurTableField curTableField = curTableFieldList.get(i);
                    existsTableField.getOriginTableFieldList().addAll(curTableField.getOriginTableFieldList());
                }

            } else {          //把子查询加入缓存
                subqueryTableFiedlMap.put(aliasName, curTableFieldList);
            }
        }


        private void cacheInsertTableField(ASTNode outputTableNode, List<CurTableField> curTableFieldList) {
            String outputTableName = null;
            if (outputTableNode.getChildCount() == 2) {
                outputTableName = outputTableNode.getChild(0).getChild(0).getText() + "." + outputTableNode.getChild(1).getText();
            } else {
                outputTableName = defaultSchemaName + "." + outputTableNode.getChild(0).getChild(0).getText();
            }

            insertTableFieldMap.put(outputTableName, curTableFieldList);
        }


        // 利用递归获得当前节点下的字段信息
        public void loadCurTableFieldFromNodeRec(ASTNode recNode, CurTableField curTableField, Map<String, List<CurTableField>> curQueryTableFieldMap, Map<String, String> aliasMap) {
            if (recNode.getChildren() != null) {
                for (Node subNode : recNode.getChildren()) {
                    ASTNode subAstNode = (ASTNode) subNode;
                    if (subAstNode.getType() == HiveParser.DOT) {  //带表的字段
                        ASTNode prefixNode = (ASTNode) subAstNode.getChild(0).getChild(0);
                        ASTNode fieldNode = (ASTNode) subAstNode.getChild(1);
                        String prefix = prefixNode.getText();
                        List<OriginTableField> originTableFieldList = getOriginFieldByFieldName(prefix, fieldNode.getText(), curQueryTableFieldMap, aliasMap);


                        curTableField.getOriginTableFieldList().addAll(originTableFieldList);
                        curTableField.setCurFieldName(fieldNode.getText());


                    } else if (subAstNode.getType() == HiveParser.TOK_TABLE_OR_COL) {
                        ASTNode fieldNode = (ASTNode) subAstNode.getChild(0);
                        //不带表的字段要从
                        List<OriginTableField> originTableFieldList = getOriginTableFieldList(curQueryTableFieldMap, fieldNode.getText());
                        curTableField.getOriginTableFieldList().addAll(originTableFieldList);
                        curTableField.setCurFieldName(fieldNode.getText());


                    } else {
                        loadCurTableFieldFromNodeRec(subAstNode, curTableField, curQueryTableFieldMap, aliasMap);

                    }

                }
            }


        }

        //前缀
        public void getWhereField(WhereCondition whereCondition, String prefix, String fieldName, Map<String, List<CurTableField>> queryTableFieldMap, Map<String, String> aliasMap) {

            List<OriginTableField> originTableFieldList = null;
            if (prefix == null) {
                originTableFieldList = getOriginTableFieldList(queryTableFieldMap, fieldName);
            } else {   //有前缀
                originTableFieldList = getOriginFieldByFieldName(prefix, fieldName, queryTableFieldMap, aliasMap);   //把前缀作为表查询

            }


            if (originTableFieldList == null) {
                throw new RuntimeException("无法识别的字段名：" + fieldName);
            }
            whereCondition.setTableFieldList(originTableFieldList);
        }


//        private List getOriginTableFieldList(List curTableField, String fieldName) {
//
//        }


//        private List getCurTableFieldListByPrefix(String prefix, Map> queryTableFieldMap, Map aliasMap) {
//            List curFieldList = queryTableFieldMap.get(prefix);   //把前缀作为表查询
//            if (curFieldList == null) {//未查询出 尝试换为字段查询
//                String tableName = aliasMap.get(prefix);
//                if (tableName != null) {
//                    curFieldList = queryTableFieldMap.get(tableName);
//                }
//            }
//
//            return curFieldList;
//        }


        //根据前缀和字段名 获得从表结构中获得 原始字段列表
        private List<OriginTableField> getOriginFieldByFieldName(String prefix, String fieldName, Map<String, List<CurTableField>> queryTableFieldMap, Map<String, String> aliasMap) {

            List<CurTableField> curFieldList = queryTableFieldMap.get(prefix);   //把前缀作为表查询
            if (curFieldList == null) {//未查询出 尝试换为字段查询
                String tableName = aliasMap.get(prefix);
                if (tableName != null) {
                    curFieldList = queryTableFieldMap.get(tableName);
                }
            }
            if (curFieldList == null) {
                return getOriginTableFieldList(queryTableFieldMap, prefix); //前缀有可能是结构体字段名
            }
            if (curFieldList == null) {
                throw new RuntimeException("不明确的表前缀：" + prefix);
            }
            return getOriginTableFieldList(fieldName, curFieldList);

        }


        private List<OriginTableField> getOriginTableFieldList(String fieldName, List<CurTableField> curFieldList) {
            for (CurTableField tableField : curFieldList) {
                if (tableField.getCurFieldName().equals(fieldName)) {
                    return tableField.getOriginTableFieldList();
                }
            }
            return new ArrayList<>();  // 一般是常量字段 比 lateral产生的常量字段 不是从表中计算而来
        }

        private List<OriginTableField> getOriginTableFieldList(Map<String, List<CurTableField>> queryTableFieldMap, String fieldName) {

            List<OriginTableField> originTableFieldList = null;

            for (Map.Entry entry : queryTableFieldMap.entrySet()) {

                List<CurTableField> curTableFieldList = (List<CurTableField>) entry.getValue();
                List<OriginTableField> matchedOriginTableFieldList = getOriginTableFieldList(fieldName, curTableFieldList);
                if (originTableFieldList != null && originTableFieldList.size() > 0 && matchedOriginTableFieldList.size() > 0) {
                    throw new RuntimeException("归属不明确的字段：" + fieldName);
                } else {
                    originTableFieldList = matchedOriginTableFieldList;
                }
            }
            return originTableFieldList;
        }


        //拆分子字段
        //struct
        private Set<String> getStructFieldSet(String structType) {
            Set<String> subFieldNameSet = new HashSet();
            structType = structType.replace("struct<", "").replace(">", "");
            String[] fieldArr = structType.split(",");
            for (String fieldString : fieldArr) {
                String[] field = fieldString.split(":");
                String fieldName = field[0];
                subFieldNameSet.add(fieldName);
            }
            return subFieldNameSet;
        }


        @Data
        @AllArgsConstructor
        @NoArgsConstructor
        class CurTableField {
            String curFieldName;
            List<OriginTableField> originTableFieldList = new ArrayList<>();
        }

        @Data
        class OriginTableField {
            String field;
            String originTable;
            Set<String> subFieldSet;
            boolean isPartition;


        }

        @Data
        @AllArgsConstructor
        @NoArgsConstructor
        class WhereCondition {
            List<OriginTableField> tableFieldList = new ArrayList<>();
            String operator = null;
        }
    }
}

Hive 解析语法树

package com.atguigu.dga.util;

import org.apache.hadoop.hive.ql.lib.DefaultGraphWalker;
import org.apache.hadoop.hive.ql.lib.Dispatcher;
import org.apache.hadoop.hive.ql.lib.GraphWalker;
import org.apache.hadoop.hive.ql.lib.Node;
import org.apache.hadoop.hive.ql.parse.*;

import java.util.Collections;
import java.util.Stack;

public class SqlParser {


    //1  把sql转换为语法树   有工具 完成  在hive依赖中就已经提供了
    //
    //2  提供了一个 遍历器   后序遍历
    //
    //3  自定义一个节点处理器
    //4  把处理器放到遍历器中
    //5  让遍历器遍历语法树


    public  static void  parse(Dispatcher dispatcher,String sql ) throws  Exception {
        //1  把sql转换为语法树   有工具 完成  在hive依赖中就已经提供了
        ParseDriver parseDriver = new ParseDriver(); //用于把sql转为语法树
        ASTNode astNode = parseDriver.parse(sql);
        //2  提供了一个 遍历器   后序遍历
        while(astNode.getType()!= HiveParser.TOK_QUERY){   //循环遍历直到找到第一个query节点 ，循环退出 ，用query节点作为根节点。

            astNode=(ASTNode)astNode.getChild(0);
        }


        //3  自定义一个节点处理器  //根据不同的需求在方法外部定义 ，定义好后传递
        //4  把处理器放到遍历器中
        GraphWalker graphWalker=new DefaultGraphWalker(dispatcher);
        //5  让遍历器遍历语法树

        graphWalker.startWalking(Collections.singletonList(astNode),null);


    }


    public static void main(String[] args) throws Exception {
        String sql = " select a,b,c from gmall.user_info  u where u.id='123' and dt='123123' ";
        //   自定义一个节点处理器
        TestDispatcher testDispatcher = new TestDispatcher();


        SqlParser.parse( testDispatcher,sql);

    }


   static class TestDispatcher implements Dispatcher {




        //每到达一个节点要处理的事项
        @Override
        public Object dispatch(Node nd, Stack<Node> stack, Object... nodeOutputs) throws SemanticException {
            ASTNode astNode = (ASTNode) nd;
            System.out.println("type"+astNode.getType() +" || token:"+astNode.getToken().getText());
            return null;
        }
    }
}

druid 解析SQL语法树

import com.alibaba.druid.DbType;
import com.alibaba.druid.sql.ast.*;
import com.alibaba.druid.sql.ast.expr.SQLAggregateExpr;
import com.alibaba.druid.sql.ast.expr.SQLMethodInvokeExpr;
import com.alibaba.druid.sql.ast.statement.SQLSelectItem;
import com.alibaba.druid.sql.ast.statement.SQLSelectStatement;
import com.alibaba.druid.sql.dialect.hive.ast.HiveInsertStatement;
import com.alibaba.druid.sql.dialect.hive.parser.HiveStatementParser;
import com.alibaba.druid.sql.parser.SQLParserUtils;
import com.alibaba.druid.sql.parser.SQLStatementParser;

import java.util.List;
import java.util.Map;
import java.util.Set;

import com.alibaba.druid.sql.SQLUtils;
import com.alibaba.druid.sql.ast.SQLExpr;
import com.alibaba.druid.sql.ast.SQLName;
import com.alibaba.druid.sql.ast.SQLStatement;
import com.alibaba.druid.sql.ast.expr.SQLBinaryOpExpr;
import com.alibaba.druid.sql.parser.SQLStatementParser;
import com.alibaba.druid.sql.parser.ParserException;
import com.alibaba.druid.sql.parser.SQLParserFeature;
import com.alibaba.druid.sql.repository.SchemaRepository;
import com.alibaba.druid.sql.visitor.SchemaStatVisitor;
import com.alibaba.druid.stat.TableStat;
import com.alibaba.fastjson.JSON;

import com.alibaba.druid.sql.ast.SQLExpr;
import com.alibaba.druid.sql.ast.SQLStatement;
import com.alibaba.druid.sql.ast.statement.SQLSelect;
import com.alibaba.druid.sql.ast.statement.SQLSelectItem;

import com.alibaba.druid.sql.SQLUtils;
import com.alibaba.druid.sql.ast.SQLStatement;
import com.alibaba.druid.sql.dialect.mysql.visitor.MySqlSchemaStatVisitor;
import com.alibaba.druid.sql.dialect.hive.visitor.*;

/**
 * Created by 黄凯 on 2023/6/7 0007 14:11
 *
 * @author 黄凯
 * 永远相信美好的事情总会发生.
 */
public class DruidDemo {

    /*public static void main(String[] args) {

        String sql = " select a,b,c from gmall.user_info  u where u.id='123' and dt='123123' ";
//        String sql = "with t1 as (select aa(a), b, c, dt as dd\n" +
//                "            from tt1,\n" +
//                "                 tt2\n" +
//                "            where tt1.a = tt2.b\n" +
//                "              and dt = '2023-05-11')\n" +
//                "insert\n" +
//                "overwrite\n" +
//                "table\n" +
//                "tt9\n" +
//                "select a, b, c\n" +
//                "from t1\n" +
//                "where dt = date_add('2023-06-08', -4)\n" +
//                "union\n" +
//                "select a, b, c\n" +
//                "from t2\n" +
//                "where dt = date_add('2023-06-08', -7)";

        // 提取表名
//        SQLSelectItem sqlSelectItem = SQLUtils.toSelectItem(sql, DbType.mysql);
//        System.out.println("sqlSelectItem = " + sqlSelectItem);
//
//        SQLExpr expr = sqlSelectItem.getExpr();
//
//        System.out.println(expr.toString());
//        String string1 = JSON.toJSONString(expr);
//
//
//
//        System.out.println(expr.getAttributesDirect());
//
//        SQLCommentHint hint = expr.getHint();
//        Map attributes1 = expr.getAttributes();
//        List children1 = expr.getChildren();
//        Map attributesDirect = expr.getAttributesDirect();
//        Object subQuery = expr.getAttribute("subQuery");
//        List afterCommentsDirect = expr.getAfterCommentsDirect();
//        SQLObject parent = expr.getParent();
//
//
//        Map attributes2 = children1.get(0).getAttributes();


        // 创建Parser对象
        SQLStatementParser parser = SQLParserUtils.createSQLStatementParser(sql, DbType.hive);

        SQLStatement statement = parser.parseStatement();

        List children2 = statement.getChildren();
        Object select = statement.getAttribute("select");
        Object query = statement.getAttribute("query");
        Object from = statement.getAttribute("from");
        List headHintsDirect = statement.getHeadHintsDirect();
        Map attributesDirect1 = statement.getAttributesDirect();
        Map attributes3 = statement.getAttributes();
        List afterCommentsDirect1 = statement.getAfterCommentsDirect();
        List beforeCommentsDirect = statement.getBeforeCommentsDirect();


        String string = JSON.toJSONString(children2);

        for (SQLObject child : children2) {
            if (child instanceof SQLSelectItem) {
                SQLSelectItem selectItem = (SQLSelectItem) child;
                SQLExpr expr2 = selectItem.getExpr();

                SQLObject parent = expr2.getParent();
                System.out.println("parent = " + parent);

                // 处理selectList中的表达式
                System.out.println(expr2.toString());
            }
        }


        List children = statement.getChildren();

        for (SQLObject child : children) {

            System.out.println("child = " + child);

            Map attributes = child.getAttributes();
            System.out.println("attributes = " + attributes);

        }

        SQLLimit limit = SQLUtils.getLimit(statement, DbType.mysql);
        System.out.println("limit = " + limit);


        //强转
        SQLSelectStatement statement1 = (SQLSelectStatement) statement;

//        HiveInsertStatement statement1 = (HiveInsertStatement) statement;


        //对的
        SQLSelect select1 = statement1.getSelect();
//        SQLSelect select1 = null;

        SQLSelect sqlSelect = select1;
        List selectItems = sqlSelect.getQueryBlock().getSelectList();

        for (SQLSelectItem selectItem : selectItems) {
            SQLExpr expr3 = selectItem.getExpr();
            // 处理selectList中的表达式
            System.out.println(expr3.toString());
        }

        SQLExpr where = sqlSelect.getQueryBlock().getWhere();
        System.out.println("where = " + where);
        //对的


        /
        // 假设sql是要分析的SQL查询语句
//        String sql = "SELECT column1, column2 FROM table1";

        // 解析SQL语句
        List statements = SQLUtils.parseStatements(sql, DbType.hive);

        // 创建血缘分析器
        HiveSchemaStatVisitor visitor = new HiveSchemaStatVisitor();

        for (SQLStatement statement3 : statements) {
            statement3.accept(visitor);
        }

        System.out.println(visitor);

        SchemaStatVisitor schemaStatVisitor = new SchemaStatVisitor();


        HiveStatementParser parser3 = new HiveStatementParser(sql);
        // 使用Parser解析生成AST，这里SQLStatement就是AST
        SQLStatement sqlStatement = parser3.parseStatement();
        HiveSchemaStatVisitor visitor3 = new HiveSchemaStatVisitor();
        sqlStatement.accept(visitor3);
        Map tables = visitor3.getTables();
        System.out.println(tables.keySet());

        System.out.println("使用visitor数据表：" + visitor3.getTables());
        System.out.println("使用visitor字段：" + visitor3.getColumns());
        System.out.println("使用visitor条件：" + visitor3.getConditions());
        System.out.println("使用visitor分组：" + visitor3.getGroupByColumns());
        System.out.println("使用visitor排序：" + visitor3.getOrderByColumns());


        // 获取血缘关系结果
//        Map> tableLineage = visitor.getColumnsLineage();

        // 获取血缘关系结果
//        Map> tableLineage = visitor.getco

        // 创建血缘分析器
//        MySqlSchemaStatVisitor visitor = new MySqlSchemaStatVisitor();
//        // 获取血缘关系结果
//        Map> tableLineage = visitor.getColumnsLineage();

        // 假设statement是SQLStatement对象
//        if (select1 instanceof SQLSelect) {
//            SQLSelect sqlSelect = (SQLSelect) statement;
//            List selectItems = sqlSelect.getQueryBlock().getSelectList();
//            for (SQLSelectItem selectItem : selectItems) {
//                SQLExpr expr3 = selectItem.getExpr();
//                // 处理selectList中的表达式
//                System.out.println(expr3.toString());
//            }
//        }


//        // 获取表名
//        String tableName = statement.getTableSource().toString();
//
//        // 获取列名
//        List selectItems = statement.getSelect().getQueryBlock().getSelectList();
//        for (SQLSelectItem item : selectItems) {
//            String columnName = item.getExpr().toString();
//            // 处理列名
//        }
//
//        // 获取条件
//        SQLExpr where = statement.getSelect().getQueryBlock().getWhere();
//        if (where != null) {
//            // 处理条件
//        }


    }*/

    /**
     * 测试Druid
     *
     * @param args
     */
    public static void main(String[] args) {

        String sql = "with t1 as (select aa(a), b, c, dt as dd\n" +
                "            from tt1,\n" +
                "                 tt2\n" +
                "            where tt1.a = tt2.b\n" +
                "              and dt = '2023-05-11')\n" +
                "insert\n" +
                "overwrite\n" +
                "table\n" +
                "tt9\n" +
                "select a, b, c\n" +
                "from t1\n" +
                "where dt = date_add('2023-06-08', -4)\n" +
                "union\n" +
                "select a, b, c\n" +
                "from t2\n" +
                "where dt = date_add('2023-06-08', -7)";

        // 解析SQL语句
        List<SQLStatement> statements = SQLUtils.parseStatements(sql, DbType.hive);

        String string = SQLUtils.toSQLString(statements, DbType.hive);

        System.out.println("string = " + string);

        // 创建血缘分析器
        HiveSchemaStatVisitor visitor = new HiveSchemaStatVisitor();

        for (SQLStatement statement3 : statements) {
            statement3.accept(visitor);
        }

        System.out.println(visitor);

        SchemaStatVisitor schemaStatVisitor = new SchemaStatVisitor();


        HiveStatementParser parser3 = new HiveStatementParser(sql);
        // 使用Parser解析生成AST，这里SQLStatement就是AST
        SQLStatement sqlStatement = parser3.parseStatement();
        HiveSchemaStatVisitor visitor3 = new HiveSchemaStatVisitor();
        sqlStatement.accept(visitor3);
        Map<TableStat.Name, TableStat> tables = visitor3.getTables();
        System.out.println(tables.keySet());

        System.out.println("使用visitor数据表：" + visitor3.getTables());
        System.out.println("使用visitor字段：" + visitor3.getColumns());
        System.out.println("使用visitor条件：" + visitor3.getConditions());
        System.out.println("使用visitor分组：" + visitor3.getGroupByColumns());
        System.out.println("使用visitor排序：" + visitor3.getOrderByColumns());

        List<SQLAggregateExpr> aggregateFunctions = visitor3.getAggregateFunctions();
        List<SQLMethodInvokeExpr> functions = visitor3.getFunctions();
        List<SQLName> originalTables = visitor3.getOriginalTables();
        List<Object> parameters = visitor3.getParameters();
        Set<TableStat.Relationship> relationships = visitor3.getRelationships();
        SchemaRepository repository = visitor3.getRepository();


    }

}

表级沿袭

列级沿袭

你可能感兴趣的:(数据治理,hive,hadoop,数据仓库)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。