hive数仓第12页

Java开发基础环境的搭建

JDK各版本下载：https://www.oracle.com/technetwork/java/javase/archive-139210.htmlJDK(JavaDevelopmentKit)是整个

重庆淡静·2024-02-05 07:18

大数据框架(分区，分桶，分片)

建议收藏目录Hive分区与分桶ES分片Kafka分区HBase分区Kudu分区HiveHive分区是按照数据表的某列或者某些列分为多区，在hive存储上是hdfs文件，也就是文件夹形式。

坨坨的大数据·2024-02-05 06:29

Hive 调优

Hive调优一、SQL语句分析——EXPLAIN二、Fetch抓取三、本地模式四、表的优化1、小表大表JOIN2、大表JOIN大表3、Groupby4、Count(Distinct)去重统计5、笛卡尔积

长不大的大灰狼·2024-02-05 04:03

数仓建设规范

数仓建设规范一、数据模型架构原则1.数仓分层原则2.主题域划分原则3.数据模型设计原则二、数仓公共开发规范1.层次调用规范2.数据类型规范3.数据冗余规范4.NULL字段处理规范5.指标口径规范6.数据表处理规范四

长不大的大灰狼·2024-02-05 04:03

列式数据库、行式数据库简介

行式数据库3、列式数据库4、行式、列式存储对比常见的行式数据库有Mysql，DB2，Oracle，Sql-server等；列数据库（Column-Based）数据存储方式按列存储，常见的列数据库有Hbase，Hive

长不大的大灰狼·2024-02-05 04:32

《Qt》Qt概述（二）

之前介绍了Qt的大致历史，现在我们继续安装QT安装软件首选官方网站Qt下载官⽹：http://download.qt.io/archive/qt/国内清华源：https://mirrors.tuna.tsinghua.edu.cn

绅士·永·2024-02-05 02:25

Tomcat环境搭建

1.关闭防火墙和selinuxsetenforce0systemctlstopfirewalld2.下载jdk和Tomcatcd/optwgethttps://archive.apache.org/dist

暗隐之光·2024-02-05 02:50

数据库与数据仓库的区别

数据库Database(Oracle,Mysql,PostgreSQL)主要用于事务处理，数据仓库Datawarehouse(AmazonRedshift,Hive)主要用于数据分析。

42c64edf12e9·2024-02-05 02:12

HIVE

--------hive数据仓库hive底层执行引擎有MapReduceTezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF

Yagami_·2024-02-05 00:23

kernel里的头文件 asm 与 asm-generic

本文转载于:https://www.cnblogs.com/sammei/archive/2013/03/14/3295598.html路径asm的路径是arch/xxx/include/asm/asm-generic

最快乐的寂寞是独处·2024-02-04 23:08

hive小文件合并问题

背景Hivequery将运算好的数据写回hdfs（比如insertinto语句），有时候会产生大量的小文件，如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的maptask

DuLaGong·2024-02-04 20:16

（三）Hive的分桶详解

Hive分桶通俗点来说就是将表（或者分区，也就是hdfs上的目录而真正的数据是存储在该目录下的文件）中文件分成几个文件去存储。

小猪Harry·2024-02-04 19:20

Fink CDC数据同步（五）Kafka数据同步Hive

6、Kafka同步到Hive6.1建映射表通过flinksqlclient建Kafkatopic的映射表CREATETABLEkafka_user_topic(idint,namestring,birthstring

大数据_苡~·2024-02-04 16:18

Linux下 tar 命令详解

一、tar命令概述Tar（TapeARchive，磁带归档的缩写，LCTT译注：最初设计用于将文件打包到磁带上，现在我们大都使用它来实现备份某个分区或者某些重要的目录）。

夜光小兔纸·2024-02-04 15:01

c/c++字符串处理大集合

转自：https://blog.csdn.net/wallwind/article/details/6827863参考：https://www.cnblogs.com/xFreedom/archive/

小肥羊的慢慢科研路·2024-02-04 14:59

Win10下安装Anaconda(Opencv和Numpy）

注：楼主是学生所以一切版本以老师安排为主一、下载Anaconda下载网址：Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirrorhttps

阿阿阿阿阿阿樊·2024-02-04 14:41

win10安装anaconda详细教程

下载安装包Anaconda官网：https://www.anaconda.com/download/镜像网站：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive

小张dand·2024-02-04 14:10

利用requests包下载音频文件

mp3_url="https://static.dedic.cn/archive/audio/e2/e27a4e2d-f7dc-442a-937e-6b10691275e5/data/95abd3e5-

二十二_0cbe·2024-02-04 13:18

基于Flink的实时数仓建设

目录：一.实时计算初期二.实时数仓建设三.Lambda架构的实时数仓四.Kappa架构的实时数仓五.流批结合的实时数仓一、实时计算初期虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求

园陌·2024-02-04 12:48

RocketMQ安装与基本使用

而生产者和消费者实际上就是业务系统，所以这里不需要搭建，真正要搭建的就是NameServer和BrokernameServer安装启动：下载安装https://archive.apache.org/dist

Artisan_w·2024-02-04 11:05

实战经验分享，Python 连接 Oracle 踩坑实录

最近的一个测试任务需要测试oracle同步hive数据库的性能，那就需要对oracle数据库灌注测试数据。我就又打开了我的IDE，准备把我之前一下可以灌50w数据到MySQL的代码，改一改，直接用。

咖啡加剁椒.·2024-02-04 11:26

大数据Hive--安装和配置

文章目录一、Hive的安装地址1.1Hive安装部署1.1.1安装Hive1.1.2启动Hive二、MySQL的安装地址2.1安装MySQL2.2配置MySQL2.3卸载MySQL三、配置Hive元数据存储到

泛黄的咖啡店·2024-02-04 11:44

大数据Hive--函数

文章目录一、函数1.1函数简介1.2单行函数1.2.1算术运算函数1.2.2数值函数1.2.3字符串函数1.2.4日期函数1.2.5流程控制函数1.2.6集合函数1.2.7案列演示1.2.7.1数据准备1.2.7.2需求1.3高级聚合函数1.3.1案例演示1.4炸裂函数1.4.1概述1.4.2案例演示1.4.2.1数据准备1.4.2.2需求1.5窗口函数（开窗函数）1.5.1概述1.5.2常用窗口

泛黄的咖啡店·2024-02-04 11:44

大数据Hive--DDL(数据定义)和DML(数据操作)

文章目录一、DDL1、数据库1.1创建数据库1.2查询数据库1.3修改数据库1.4删除数据库1.5切换当前数据库2、表2.1创建表1）普通建表2）CreateTableAsSelect（CTAS）建表3）CreateTableLike语法2.2案例1）内部表与外部表2）SERDE和复杂数据类型2.3查看表2.4修改表2.5删除表2.6清空表二、DML1.1Load1.2Insert1.2.1将查询

泛黄的咖啡店·2024-02-04 11:43

（五）springboot 配置多数据源连接mysql和hive

项目结构如下mysql执行如下建表语句，并插入一条测试数据12345CREATETABLE`user`(`id`int(11)NOTNULL,`name`varchar(255)COLLATEutf8mb4_general_ciDEFAULTNULL,PRIMARYKEY(`id`))ENGINE=InnoDBDEFAULTCHARSET=utf8mb4COLLATE=utf8mb4_genera

调试大师·2024-02-04 10:11

HiveSQL题——collect_set()/collect_list()聚合函数

一、collect_set()/collect_list()介绍collect_set()函数与collect_list()函数属于高级聚合函数（行转列），将分组中的某列转换成一个数组返回，常与concat_ws()函数连用实现字段拼接效果。collect_list：收集并形成list集合，结果不去重collect_set：收集并形成set集合，结果去重二、collect_set()/collec

爱吃辣条byte·2024-02-04 10:38

[转]互联网企业安全建设(一)

摘自：http://www.secpulse.com/archives/34805.html安全行业的第三流派-CSOs目前在大多数行业后加入者的眼中“二进制”和“脚本”流派广为人知，虽然他们是安全行业的主力军

angaoux03775·2024-02-04 08:30

Fink CDC数据同步（三）Flink集成Hive

1目的持久化元数据Flink利用Hive的MetaStore作为持久化的Catalog，我们可通过HiveCatalog将不同会话中的Flink元数据存储到HiveMetastore中。

苡~·2024-02-04 07:20

hiveSQL计算有效工作日核心思路

hiveSQL计算有效工作日核心思路SQL计算是否工作日SQL计算当天是否工作日，如果不是下个工作日是哪天SQL计算工作日之间的有效工作天数

weixin_44988612·2024-02-04 07:20

Hive 主要内容一览

Hive架构用户接口：ClientCLI（command-lineinterface）、JDBC/ODBC(jdbc访问hive)元数据：Metastore元数据包括：表名、表所属的数据库（默认是default

大数据左右手·2024-02-04 07:13

Jmeter 基于Docker 实现分布式测试

制作Jmeter基础镜像下载jmeter安装包https://archive.apache.org/dist/jmeter/binaries/apache-jmete

Chengdu.S·2024-02-04 06:28

大数据本地环境搭建03-Spark搭建

需要提前部署好Zookeeper/Hadoop/Hive环境1Local模式1.1上传压缩包下载链接链接：https://pan.baidu.com/s/1rLq39ddxh7np7JKiuRAhDA?

OnePandas·2024-02-04 06:31

Hadoop大数据实战系列文章之Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将

测试帮日记·2024-02-04 05:45

spark运维问题记录

环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME

lishengping_max·2024-02-04 05:11

当电脑gpu太强，安装最新对应的pytorch版本和对应版本的cuda

Ling_Ze·2024-02-04 05:05

大数据组件部署下载链接

Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org

运维道上奔跑者·2024-02-04 05:13

【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南

Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：######################################

运维道上奔跑者·2024-02-04 05:43

Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测

spark和Hudi的安装部署文档，本人已经写完，连接：Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.1单机伪分布式安装注意：本篇文章是在本人写的Hadoop+Hive

运维道上奔跑者·2024-02-04 05:43

Java JDK下载+安装+配置环境【图文教程】

JDK下载：方式一：Oracle官网下载链接：https://www.oracle.com/java/technologies/downloads/archive/步骤：1.选择要下载的版本2.选择自己电

Ts_White·2024-02-04 04:00

第七章主管信息系统和数据仓库

[TOC]第七章主管信息系统和数据仓库7.0前言EIS是数仓之前的概念EIS没有注重基础结构（数据源、数据质量、数据流通等）DSS是现代的EIS，与数仓紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控

晨磊的微博·2024-02-04 04:53

【git】命令一览表

命令命令简要说明gitadd添加至暂存区gitadd–interactive交互式添加gitapply应用补丁gitam应用邮件格式补丁gitannotate同义词，等同于gitblamegitarchive

AG_·2024-02-04 02:57

windows安装配置anaconda & 创建并激活自己的虚拟环境（亲测可行，装不好你打我）

一.下载选择一：进入清华镜像选择过去的版本https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/本人电脑配置不高，并且一般过去的版本比较稳定，因此保守起见选择

computer_vision_chen·2024-02-03 22:24

EasyExcel多线程导出并实现Zip压缩

然后创建线程池，调用zipArchiveOutputStream来写入图片和excel@PostMapping("/export3")publicvoidexportZip(HttpServletResponseresponse

顾十方·2024-02-03 22:35

2019-10-08 大数据开发进阶之路

市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术，如HDFS/MapRedunce/Yarn/HBase/Flume等掌握Spark生态核心技术，如Spark架构/RDD

红瓦李·2024-02-03 20:39

CentOS7安装MySQL5.7

镜像下载地址：链接:http://isoredirect.centos.org/centos/7/isos/x86_64/MySQL5.7下载地址：https://downloads.mysql.com/archives

IT-xiaobai·2024-02-03 20:13

大数据环境搭建(一)-Hive

1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、Spark等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore

xfchn多多学习学习·2024-02-03 20:42

PHP 配置Redis拓展及应用

/local目录下cd/usr/local下载源码包，如果下载速度过慢，建议从github镜像下载再上传到服务器wgethttps://github.com/phpredis/phpredis/archive

华章酱·2024-02-03 17:59

数仓建模&维度建模理论知识

0.思维导图第1章数据仓库概述1.1数据仓库概述数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策。同时，随着时间的推移，数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2数据仓库核心架构第2章数据仓库建模概述2.1数据仓库建模的意义数据模型就是数据组织和存

韩顺平的小迷弟·2024-02-03 16:02

hadoop使用公平调度器

Stage1（默认调度器）大概在几年前，搭建的数仓集群中。数据量不大，做离线一个晚上就能轻松调度完，那时候使用的hadoop自带的调度器，容量调度器。但默认配置没有改，就会发生什么！

向他一样rap·2024-02-03 13:22

离线数仓-数据治理

目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、数据仓库发展阶段2.1初始期2.2扩张期2.3缓慢发展期2.4变革期三、数据治理内容3.1元数据治理3.2数据质量治理3.3数据安全治理3.4计算资源治理3.5存储资源治理四、数据治理总结4.1模型合规治理4.2数据质量合规治理

爱吃辣条byte·2024-02-03 13:51

推荐频道

hive数仓