张小凡vip

hadoop组件---数据仓库(五)---通过JDBC连接hive的thrift或者hiveserver2

我们在上一篇文章中已经学习了Hive的常用命令，但是如果使用其他的语言如何跟Hive进行交互呢。

Thrift简介

Hive拥有HiveServer(Thrift)或者Hiveserver2组件，提供了JDBC驱动服务，使得我们可以用Java代码或者Python来连接Hive并进行一些关系型数据库的sql语句查询等操作。

HiveServer或者HiveServer2都是基于Thrift的，但HiveSever有时被称为Thrift server，而HiveServer2却不会。既然已经存在HiveServer为什么还需要HiveServer2呢？这是因为HiveServer不能处理多于一个客户端的并发请求，这是由于HiveServer使用的Thrift接口所导致的限制，不能通过修改HiveServer的代码修正。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2，进而解决了该问题。HiveServer2支持多客户端的并发和认证，为开放API客户端如JDBC、ODBC提供了更好的支持。

既然HiveServer2提供了更强大的功能，将会对其进行着重学习，但也会简单了解一下HiveServer的使用方法。在命令中输入

hive --service help

结果如下

我们可以看到上边输出项Server List，里边显示出Hive支持的服务列表，beeline cli help hiveserver2 hiveserver hwi jar lineage metastore metatool orcfiledump rcfilecat，下面介绍最有用的一些服务
1、cli：是Command Line Interface 的缩写，是Hive的命令行界面，用的比较多，是默认服务，直接可以在命令行里使用

2、hiveserver：这个可以让Hive以提供Thrift服务的服务器形式来运行，可以允许许多个不同语言编写的客户端进行通信，使用需要启动HiveServer服务以和客户端联系，我们可以通过设置HIVE_PORT环境变量来设置服务器所监听的端口，在默认情况下，端口号为10000，这个可以通过以下方式来启动Hiverserver：

bin/hive --service hiveserver -p 10002

其中-p参数也是用来指定监听端口的

3、hwi：其实就是hive web interface的缩写它是hive的web借口，是hive cli的一个web替代方案

4、jar：与hadoop jar等价的Hive接口，这是运行类路径中同时包含Hadoop 和Hive类的Java应用程序的简便方式

5、metastore：在默认的情况下，metastore和hive服务运行在同一个进程中，使用这个服务，可以让metastore作为一个单独的进程运行，我们可以通过METASTOE——PORT来指定监听的端口号

从结果可以了解到，可以使用

hive <parameters> --service serviceName <serviceparameters>

启动特定的服务，如cli、hiverserver、hiveserver2等。

在命令行输入

hive --service hiveserver –help
hive --service hiveserver2 –help

查看hiveserver的帮助信息：

从图中可以看到有些版本hive已经不支持hiveserver了，只能使用hiveserver2。

启动hiveserver2

使用命令启动

hive --service hiveserver2

如图:

hiveserver2配置

配置文件可以使用如下命令查找:

whereis hive

如图:

Hiveserver2允许在配置文件hive-site.xml中进行配置管理，常用参数有：
hive.server2.thrift.min.worker.threads– 最小工作线程数，默认为5。 hive.server2.thrift.max.worker.threads – 最小工作线程数，默认为500。 hive.server2.thrift.port– TCP 的监听端口，默认为10000。 hive.server2.thrift.bind.host– TCP绑定的主机，默认为localhost。
也可以设置环境变量HIVE_SERVER2_THRIFT_BIND_HOST和HIVE_SERVER2_THRIFT_PORT覆盖hive-site.xml设置的主机和端口号。
hive.server2.thrift.port 10000 hive.server2.thrift.bind.host 192.168.48.130
从Hive-0.13.0开始，HiveServer2支持通过HTTP传输消息，该特性当客户端和服务器之间存在代理中介时特别有用。与HTTP传输相关的参数如下：
hive.server2.transport.mode – 默认值为binary（TCP），可选值HTTP。 hive.server2.thrift.http.port– HTTP的监听端口，默认值为10001。 hive.server2.thrift.http.path – 服务的端点名称，默认为 cliservice。 hive.server2.thrift.http.min.worker.threads– 服务池中的最小工作线程，默认为5。 hive.server2.thrift.http.max.worker.threads– 服务池中的最小工作线程，默认为500。

默认情况下，HiveServer2以提交查询的用户执行查询（true），如果hive.server2.enable.doAs设置为false，查询将以运行hiveserver2进程的用户运行。

<property>
  <name>hive.server2.enable.doAsname>
  <value>truevalue>
property>

为了防止非加密模式下的内存泄露，可以通过设置下面的参数为true禁用文件系统的缓存：
fs.hdfs.impl.disable.cache – 禁用HDFS文件系统缓存，默认值为false。 fs.file.impl.disable.cache – 禁用本地文件系统缓存，默认值为false。

测试hiveserver2

hive自带了一个thrift的客户端——-beeline
打开beeline
使用命令

beeline

连接hiveserver2
使用命令

!connect jdbc:hive2://host253:10000

（host253是hiveserver2所启动的那台主机名，端口默认是10000）
如果是在hiveserver2所启动的那台主机进行操作也可以使用命令

!connect jdbc:hive2://localhost:10000

有可能需要输入当前linux用户名和密码。
正常连接上之后会出现
0: jdbc:hive2://host253:10000>
这时可以尝试操作数据库了，使用命令

show databases;

结果如下图:

HiveServer2 Thrift API

https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Thrift+API

用Java代码通过JDBC连接Hiveserver2

添加依赖的包

依赖的jar包有以下几个：

hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar
$HIVE_HOME/lib/hive-exec-0.11.0.jar 
$HIVE_HOME/lib/hive-jdbc-0.11.0.jar 
$HIVE_HOME/lib/hive-metastore-0.11.0.jar  
$HIVE_HOME/lib/hive-service-0.11.0.jar   
$HIVE_HOME/lib/libfb303-0.9.0.jar   
$HIVE_HOME/lib/commons-logging-1.0.4.jar  
$HIVE_HOME/lib/slf4j-api-1.6.1.jar

如果是使用Maven，则加入依赖如下:

<dependency>
        <groupId>org.apache.hivegroupId>
        <artifactId>hive-jdbcartifactId>
        <version>0.11.0version>
dependency>

<dependency>
        <groupId>org.apache.hadoopgroupId>
        <artifactId>hadoop-commonartifactId>
        <version>2.2.0version>
dependency>

Java代码如下

package com.test;

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveJdbcTest {

    private static String driverName = "org.apache.hive.jdbc.HiveDriver";

    public static void main(String[] args) throws SQLException {
        try {
            Class.forName(driverName);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
            System.exit(1);
        }

        Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "zzq", "12345");
        Statement stmt = con.createStatement();
        String tableName = "students";
        stmt.execute("drop table if exists " + tableName);
        stmt.execute("create table " + tableName +  " (key int, value string)");
        System.out.println("Create table success!");
        // show tables
        String sql = "show tables '" + tableName + "'";
        System.out.println("Running: " + sql);
        ResultSet res = stmt.executeQuery(sql);
        if (res.next()) {
            System.out.println(res.getString(1));
        }

        // describe table
        sql = "describe " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1) + "\t" + res.getString(2));
        }


        sql = "select * from " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
        }

        sql = "select count(1) from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1));
        }
    }
}

Hiveserver1和hiveserver2的JDBC区别

HiveServer version
HiveServer2
HiveServer1

Connection URL
jdbc:hive2://:
jdbc:hive://:

Driver Class
org.apache.hive.jdbc.HiveDriver
org.apache.hadoop.hive.jdbc.HiveDriver

用Java代码通过JDBC连接Hiveserver

我们前面已经熟悉了用Java代码通过JDBC连接Hiveserver2，也知道了Hiveserver1和hiveserver2的JDBC区别，连接Hiveserver只需要修改相应的URL和驱动即可。
也就是

private static String driverName = "org.apache.hive.jdbc.HiveDriver";
改为
private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";

Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10002/default", "zzq", "12345");
改为
Connection con = DriverManager.getConnection("jdbc:hive://localhost:10002/default", "zzq", "12345");

Java代码如下

package com.test;

import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;

public class HiveJdbcTest {

    private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";

    public static void main(String[] args) throws SQLException {
        try {
            Class.forName(driverName);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
            System.exit(1);
        }

Connection con = DriverManager.getConnection("jdbc:hive://localhost:10002/default", "zzq", "12345");
        Statement stmt = con.createStatement();
        String tableName = "students";
        stmt.execute("drop table if exists " + tableName);
        stmt.execute("create table " + tableName +  " (key int, value string)");
        System.out.println("Create table success!");
        // show tables
        String sql = "show tables '" + tableName + "'";
        System.out.println("Running: " + sql);
        ResultSet res = stmt.executeQuery(sql);
        if (res.next()) {
            System.out.println(res.getString(1));
        }

        // describe table
        sql = "describe " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1) + "\t" + res.getString(2));
        }


        sql = "select * from " + tableName;
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
        }

        sql = "select count(1) from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
            System.out.println(res.getString(1));
        }
    }
}

你可能感兴趣的:(数据仓库)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
离线数仓VS实时数仓 james二次元数据仓库数据仓库大数据
离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表
数仓建模之维度表&指标表锵锵锵锵~蒋数据研发数据仓库数据研发
在数据仓库中，维度和指标是两个重要的概念。维度（Dimension）：维度是一种描述业务过程中各种属性的方法，用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性，是数据分析的基础。指标（Measure）：指标是衡量业务过程效果的标准，是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等，用于衡量业务过程的各种结果。在数据仓库中，通常会使用维度表和指标表来进行
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
一文说清什么是数据仓库数据分析小兵数据中台系列 spark 大数据分布式数据分析数据挖掘数据仓库
01数据仓库的概念数据仓库的概念可以追溯到20世纪80年代，当时IBM的研究人员开发出了“商业数据仓库”。本质上，数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。目前对数据仓库（DataWarehouse）的标准定义，业界普遍比较认可的是由数据仓库之父比尔·恩门（BillInmon）在1991年出版的“BuildingtheDataWarehouse”（《建立数据仓库》）一书中所提
美团点评酒旅数据仓库建设实践大数据金猫数据仓库
美团点评酒旅数据仓库建设实践：https://tech.meituan.com/2017/05/26/hotel-dw-layer-topic.html
大数据平台--调度系统小瓶盖的猪猪侠
调度系统是数据仓库的重要组成部分，也是每个银行或公司一个基础软件或服务，需要在全行或全公司层面进行规划，在全行层面统一调度工具和规范，由于数据类系统调度作业较多，交易类系统批量优先级高，调度系统的整体架构如下：调度中心对调度批次和作业进行创建、管理、监控，它负责所有批量作业的调度和编排；在整个作业过程中，作业之间关系分为触发，依赖和互斥。1、触发触发关系表示一个作业完毕后，生成另一个作业的控制文件
数据库，数据仓库，数据湖，湖仓一体到底是什么区别大数据小尘数据库数据仓库 spark
昨天结束的一场面试，面试官问了下我对数据仓库和数据湖的理解，根据之前的理解我说了下数据湖是数据仓库某些时候的缓存，然后面试官反问说我确定这个用词对吗？没理解到位，所以去了解之后再整体输出下我自己的理解。先说下上面的答案，数据仓库和数据湖可以是互相独立存在的，不存在谁是谁的缓存一说，但是如果涉及到湖仓一体的时候，数仓是结构化的数据访问入口，而底层的数据湖是可以作为数仓的底层的存储支持。要了解各个概念
第八章外部数据和数据仓库晨磊的微博
[TOC]第八章外部数据和数据仓库8.0概述外部数据：产生于企业外部系统的数据（非企业内部系统）外部数据典型来源：商报、新闻、研究报告、分析报告等外部数据不能自由导入，需要统一进入仓库原因1：自由导入容易丢失源信息原因2：自由导入数据难以再次使用8.1数据仓库中的外部数据外部数据：出现没有固定频率，不便永久监控完全没有规则，必须格式化不可预测，任何时候可能来自于任何数据源8.2元数据和外部数据元数
数据仓库系列篇之基本概述小学僧来啦数据仓库数据仓库数据库大数据
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及数仓平台的优势为什么要建立数据仓库大数据数仓平台的特点或优势数据仓库和数据集市的关系前言通过收集资料、个人经验总结整理了【数据仓库系列篇】，有不足之处多多包涵，可参考如下：《数据仓库系列篇之基本概述》《数据仓库系列篇之分
数据域VS主题域陈吉俊 spark 大数据分布式
数据域和主题域是数据仓库中两个重要的概念，他们在数据仓库建设和数据分析中扮演着不同的角色，两者有着明显的区别。数据域：以业务系统的角度，对业务过程进行归纳，抽象出来的数据域。它是自下而上的，通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分，确保数据的完整性和准确性。主题域：从数据分析应用的角度进行划分的，通常是联系较为紧密的数据主题的集合。主题域是自上而下
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
hive序列生成_Hive实现自增列的两种方法 weixin_39559804 hive序列生成
多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。用row_number()函数生成代理键INSERTOVERWRITETABLEmy_hive
数据仓库之【商品订单数据数仓】10：数据可视化工具：Zeppelin安装部署、Zeppelin使用做一个有趣的人Zz hadoop hive 数据仓库 hive big data
一、数据可视化数据可视化这块不是项目的重点，不过为了让大家能有一个更加直观的感受，我们可以选择一些现成的数据可视化工具实现。咱们前面分析过，想要查询hive中的数据可以使用hue，不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表，可以选择定制开发，使用echarts、finebi组件实现。二、Zeppelin安装部署注意：不要使用Zeppelin0.8.2版本，这
关于Apache Hive 和 Apache Iceberg [听得时光枕水眠] apache hive hadoop
ApacheHive和ApacheIceberg都是大数据生态系统中的重要工具，但它们解决的问题和扮演的角色有所不同。我们可以用大白话来比喻它们之间的关系：ApacheHive可以想象成一个“数据仓库超市”，它的货架上摆满了各种商品（数据），并且提供了一个购物车（HiveQL，一种类SQL语言），让你可以方便地从这些商品中挑选你想要的，进行购买（查询）。Hive主要负责将Hadoop的数据组织成表
【GaussDB(DWS)】数仓部署架构与物理结构分析若兰幽竹 GaussDB DWS gaussdb
数仓架构与物理结构分析一、部署架构二、物理结构三、测试验证一、部署架构华为数据仓库服务DWS，集群版本8.1.3.x集群拓扑结构：上述拓扑结构为DWS单AZ高可靠部署架构，为减少硬件故障对系统可用性的影响，建议集群部署方案遵循如下原则：对于每组实例，其主、备部署在不同的节点上。例如：GTM的主、备分别部署在不同的节点上。DN的主、备、从备部署在不同的节点上。建议节点内存大于等于512G，每个节点部
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
06 | 学数据分析要掌握哪些基本概念？张九日zx
商业智能BI、数据仓库DW、数据挖掘DM开头中的百货商店利用数据预测用户购物行为属于商业智能，他们积累的顾客的消费行为习惯会存储在数据仓库中，通过对个体进行消费行为分析总结出来的规律属于数据挖掘。元数据（MetaData）：描述其它数据的数据，也称为“中介数据”。通过元数据，可以很方便地帮助我们管理数据仓库。数据元（DataElement）：就是最小数据单元。数据挖掘：分类、聚类、预测和关联分析K
数仓分层架构：DWS 大连赵哥大数据大数据
在数据仓库的分层架构中，"DWS"通常指的是数据仓库的"服务层"或"汇总层"，但这个缩写可能根据不同的上下文有不同的含义。以下是几种可能的解释：1.**数据仓库服务层（DataWarehouseServices）**：-在一些云服务提供商的数据平台中，DWS可能指的是提供数据仓库功能的一组服务，这些服务可能包括数据存储、管理和分析工具。2.**数据仓库星型模式（DataWarehouseStarS
阿里云日志服务sls的典型应用场景阿里云天池体验场景云计算
日志服务的典型应用场景包括：数据采集与消费、数据清洗与流计算（ETL/StreamProcessing）、数据仓库对接（DataWarehouse）、日志实时查询与分析。云起实验室日志服务体验（活动期完成有机会参与100%中奖）：https://developer.aliyun.com/adc/series/activity/sls-1数据采集与消费通过日志服务LogHub功能，可以大规模低成本接
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他