数据开发--hive 第12页

大数据（4）Hive数仓三大核心特性解剖：面向主题性、集成性、非易失性如何重塑企业数据价值？

目录背景：企业数据治理的困境与破局一、Hive数据仓库核心特性深度解析1.‌面向主题性（Subject-Oriented）：从业务视角重构数据‌2.‌集成性（Integrated）：打破数据孤岛的统一视图‌

一个天蝎座白勺程序猿·2025-04-10 09:16

flutter环境搭建

1下载flutterSDK选择版本3.19.6https://docs.flutter.dev/release/archive2解压到d:/env/flutterpath中添加d:\env\flutter

qq_34324703·2025-04-10 05:20

大数据开发-Spark-RDD实操案例-http日志分析

1.在生产环境下，如何处理配置文件&&表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决ip地址映射问题数据地址：链接：https://pan.baidu.com/s/1FmFxSrPIynO3u

Hoult-吴邪·2025-04-10 05:17

基于ISO13400 (DoIP) 实现车辆刷写

当前，风丘诊断工具链，从诊断数据开发到诊断测试，已涵

WINDHILL风丘科技·2025-04-10 00:43

Flink读取Kafka数据写入IceBerg（HiveCatalog）

Readmejava8flink1.13kafka3iceberg0.13链路：Kafka->Flink->IceBerg（HiveCatalog）代码importorg.apache.flink.api.common.serialization.SimpleStringSchema

徐一闪_BigData·2025-04-09 18:34

python模块之zipfile

转载自：http://blog.csdn.net/zhaoweikid/archive/2007/05/30/1630842.aspx这篇文章是从我的另一个blog转过来的:http://hi.baidu.com

weixin_30516243·2025-04-09 17:23

初识Java-jdk 版本说明

CompressedArchive：二进制包，已编译好的可直接使用的程序，解压缩后，点击bin目录下的.sh或者.bat执行文件即可使用。

超懒的猿·2025-04-09 11:21

Spark修炼之道（基础篇）——Linux大数据开发基础：第十一节：Shell编程入门（三)

本节主要内容shell数组shell命令别名时间操作1.Shell数组同C、C++等语言一样，shell脚本也提供了数组这样一个重要的数据结构，shell中的数组有两种，一种为普通数组，另外的一种称为关联数组。普通数据的存取通过整数进行，关联数组的存取通过字符串进行。具体如下://用()定义一个数组，注意数组元素间不能用,否则达不到预期目的root@sparkmaster:~/ShellLearn

zhouzhihubeyond·2025-04-09 05:14

大数据架构师选型必懂：大数据离线数仓开发框架详解与对比(hive、Spark SQL、Impala、Doris）

大模型大数据攻城狮·2025-04-09 05:10

公钥算法的基本数论知识——欧几里得算法、扩展的欧几里得算法、欧拉函数、费马小定理、欧拉定理

公钥算法的基本数论知识包含内容欧几里得算法、扩展的欧几里得算法、欧拉函数、费马小定理、欧拉定理http://www.huangjihao.com/index.php/archives/625一、欧几里得算法

南隅笙箫·2025-04-09 01:16

linux xxd 命令

http://www.cnblogs.com/openix/archive/2012/04/23/2466320.htmlxxd-idht.jpgdht.h

weixin_34166847·2025-04-09 00:10

探索Hadoop生态圈：核心组件介绍

Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop

放。756·2025-04-08 12:49

TDH计算引擎针对数据倾斜现象的保护机制

Bucketsizeistoolarge(>2G)aftercompress的报错提醒，此时应当调整reducenumber或者调整分桶策略；shuffleread阶段参数一：ngmr.safety.size.single.entry--hive-site.xml

若愚致远·2025-04-08 10:02

Python 中的错误处理与调试技巧

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-04-08 09:00

数据分析开源可视化工具

superset简单易用，可以对接mysql、presto、doris、postgresql、ClickHouse、sparkSQL、hive、oracle、sqlserver、Elasticsearch

PONY LEE·2025-04-08 07:17

Redash：让数据可视化变得简单

Redash支持查询多个数据库，包括：Redshift、GoogleBigQuery、PostgreSQL、MySQL、Graphite、Presto、Google电子表格、ClouderaImpala、Hive

开源项目精选·2025-04-08 07:13

（五）Spark大数据开发实战：豆瓣电影数据处理与分析（python版）

目录一、PySpark二、数据介绍三、PySpark大数据开发实战1、数据文件上传HDFS2、导入模块及数据3、数据统计与分析①、计算演员参演电影数②、依次罗列电影番位前十的演员③、按照番位计算演员参演电影数

小楼一夜听春雨258·2025-04-08 01:09

大数据新视界 -- Hive 数据仓库设计模式：星型与雪花型架构

Hive是基于Hadoop的数据仓库工具，它能够提供一个SQL类似的查询语言（HiveQL），并通过MapReduce或者其他引擎进行查询处理。

一只蜗牛儿·2025-04-07 11:14

MySQL 存储引擎详解

下面详细介绍几种常见的MySQL存储引擎，包括InnoDB、MyISAM、MEMORY、CSV、ARCHIVE和NDB。

微笑听雨。·2025-04-07 03:23

大数据面试题整理——Hive

系列文章目录大数据面试题专栏点击进入文章目录系列文章目录Hive面试知识点全面解析一、函数相关（一）函数分类与特点（二）`concat`和`concat_ws`的区别二、SQL的书写和执行顺序（一）书写顺序

自节码·2025-04-06 22:50

Hive ETL自动化实战：6大清洗策略×4种转换技巧×DolphinScheduler全链路调度方案

目录背景一、HiveETL核心架构设计1.三阶段核心流程2.企业级ETL分层模型二、六大清洗策略实战场景1：电商订单数据清洗三、四大转换技巧解析技巧1：SCD2历史维度处理技巧2：跨表指标计算四、DolphinScheduler

一个天蝎座白勺程序猿·2025-04-06 12:18

大数据（4.7）Hive查询优化四大黑科技：分区裁剪×谓词下推×列式存储×慢查询分析，性能提升600%实战手册

背景根据《2023年大数据系统性能报告》，‌80%的Hive慢查询源于未优化的I/O操作‌。某电商平台在未优化前，每日分析10TB订单数据时，平均查询耗时高达32分钟。

一个天蝎座白勺程序猿·2025-04-06 12:18

大数据（4.3）Hive基础查询完全指南：从SELECT到复杂查询的10大核心技巧

目录背景一、Hive基础查询核心语法1.基础查询（SELECT&FROM）2.条件过滤（WHERE）3.聚合与分组（GROUPBY&HAVING）4.排序与限制（ORDERBY&LIMIT）二、复杂查询实战技巧

一个天蝎座白勺程序猿·2025-04-06 12:18

Hive学习（7）Hive核心函数解密：pmod()的9大高阶用法与避坑指南

背景在Hive数仓开发中，‌pmod()‌作为数学计算领域的关键函数，常被用于金融周期计算、数据分片、时间序列处理等场景。

一个天蝎座白勺程序猿·2025-04-06 12:17

Hive学习（3）ORDER BY排序NULL值终极指南：默认行为、显式控制与实战避坑

目录背景‌一、Hive中NULL值的默认排序行为‌1.核心规则‌2.示例验证‌二、显式控制NULL值位置‌1.语法支持‌‌2.使用示例3.多列排序中的NULL控制‌三、实战案例与解决方案‌案例1：生成用户活跃度排行榜

一个天蝎座白勺程序猿·2025-04-06 12:47

深入剖析 Hive Fetch 抓取机制：原理、优化与实践

在Hive查询执行过程中，Fetch抓取机制作为重要的性能优化手段，能够在特定场景下直接跳过MapReduce计算，显著提升数据访问效率。

自然术算·2025-04-06 12:47

基于CentOS-7.0系统搭建LAMP环境

注：使用一键安装方式1.下载一键安装包wget-Olamp.ziphttps://github.com/teddysun/lamp/archive/master.zip2.解压缩unziplamp.zip3

后青春期的诗go·2025-04-06 10:34

斯密斯夫妇握手问题

本文转自：http://www.cnblogs.com/csumissu/archive/2012/02/10/2344803.html史密斯夫妇邀请另外四对夫妇就餐，已知他们每个人都不和自己握手，不和自己的配偶握手

Rachel-Zhang3·2025-04-06 02:03

Centos7安装配置Hive教程

当在CentOS7上安装和配置Hive时，可以按照以下步骤进行操作：确保已安装Java：首先，确保在CentOS7上已经安装了Java。

uuuuu1711644·2025-04-06 00:22

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

SparkSQL内部五大组件（四）SparkSQL工作流程（五）SparkSQL主要特点1、将SQL查询与Spark应用程序无缝组合2、SparkSQL以相同方式连接多种数据源3、在现有数据仓库上运行SQL或HiveQL

酒城译痴无心剑·2025-04-05 20:59

C#实现HiveQL建表语句中特殊数据类型的包裹

用C#实现搜索字符串中用’(‘和’)‘包裹的最外层的里面里面的字符串，将里面的记录按一个或多个空格、换行或tab，或者是它的在一起的组合作为分隔，分隔出多个字符串组，如果组中有字符串中同时包含’’，则在原始的字符串中该字符串的位置的前后插入字符`，最后返回修改过后的字符串，优化这个字符串处理算法，并给出所有的测试用例。以下是C#代码，包括优化后的算法和测试用例：usingSystem;usingS

weixin_30777913·2025-04-05 17:05

使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型

usingSystem;usingSystem.Collections.Generic;usingSystem.Text.RegularExpressions;namespaceHivePartitionParser

weixin_30777913·2025-04-05 17:05

MySQL体系架构

MySQL官方提供的引擎InnoDB存储引擎Mrg_MylSAMArchive引擎Blackhole引擎CSV引擎Federated引擎Memory引擎NDB集群引擎除非需要用到某些

振鹏Dong·2025-04-05 15:52

python中的 f 是什么意思，f‘{username}_log_archive_{int(time.time())}.txt‘

python中的f是什么意思，f’{username}log_archive{int(time.time())}.txt’在Python中，f是一种字符串前缀，用于创建格式化字符串（也称为f-string

ZhangJiQun&MXP·2025-04-05 09:15

Datax-web 添加达梦数据库

tag202309版本后端项目分支使用2.1.3-alpha-releaseGitHub-WeiYe-Jing/datax-web:DataX集成可视化页面，选择数据源即可一键生成数据同步任务，支持RDBMS、Hive

蝈蝈噶蝈蝈噶·2025-04-05 05:14

Apache Hive和Snowflake的`CREATE TABLE`语法和功能特性整理的对比表

写一个ApacheHive中CREATETABLE语句转换为对应Snowflake中CREATETABLE语句的程序，现在需要一个根据功能的相似性对应的ApacheHiveQL和SnowflakeSQL

weixin_30777913·2025-04-05 01:22

大数据（4.1）Hive架构设计与企业级实战：从内核原理到性能巅峰优化，打造高效数据仓库

目录背景与行业痛点一、Hive内核机制深度拆解1.‌元数据管理的艺术：Metastore核心原理‌2.‌执行引擎的底层博弈：MapReducevs.Tezvs.Spark‌二、企业级数仓建模实战：金融风控场景

一个天蝎座白勺程序猿·2025-04-05 01:21

Hive 常见面试 300 问

一、Hive基础概念什么是Hive？它的主要用途是什么？Hive与传统关系型数据库有什么区别？简述Hive的架构，各个组件的作用是什么？解释Hive中的元数据，它存储在哪里？Hive支持哪些数据格式？

自然术算·2025-04-04 23:07

String结构之首页热点数据开发实战

我们实现首页热点数据开发的思路是，首先检查缓存是否有存在热点数据，如果缓存不存在则查询数据库，并把查询结果放到缓存，设置过期时间，下次访问则命中缓存。下面我们来实现首页热点数据开发！

哈哈哈hhhh·2025-04-04 21:55

CentOS挂载NTFS移动硬盘

https://www.cnblogs.com/zengen/archive/2011/09/01/2161637.html时间比较紧，还要加班，把作者的搬过来了，侵删；

skywalker_123·2025-04-04 20:17

oracle拉链表实现原理,数据仓库-拉链表+增量表抽取的实现

所以本篇文章主要解决两个问题1：问题一怎么再HIVE里实现拉链表2：问题二怎么再没有数据更新时间字段的情况下获取增量数据(个人认为这个方式也是一种通用的方式)一：拉链表是什么？使用场景？实现原理？

红茶漫山·2025-04-04 15:17

大数据（4.5）Hive聚合函数深度解析：从基础统计到多维聚合的12个生产级技巧

目录背景一、Hive聚合函数分类与语法1.基础聚合函数2.高级聚合函数二、6大核心场景与案例场景1：基础统计（SUM/COUNT）场景2：多维聚合（GROUPINGSETS）场景3：层次化聚合（ROLLUP

一个天蝎座白勺程序猿·2025-04-03 23:32

hive 写 es 报EsHadoopRemoteException: index_closed_exception: closed null

错误由来，es添加xpack后，hive写es总报index关闭。通过测试，其实数据是可以写入index，且数据量对不上，怀疑是最后提交的时候无法成功，一直提交刷新，最后报错。

守猫de人·2025-04-03 20:42

架构师之路：数据中台产品策略与规划

数据中台的主要作用在于提升数据仓库、数据湖、数据应用三者之间的数据价值，建立统一的业务域数据模型，以及统一的数据开发流程、数据服务接口及标准化。

AI天才研究院·2025-04-03 12:18

Oracle DataGuard主备切换(switchover)

主备切换有两种方式，一种是手动，一种是使用dgmgr切换一、手动切换（一）先查看主备库的状态何日志是否正常1、主库SQL>setline300pages300selectname,remote_archive

❀͜͡傀儡师·2025-04-03 07:45

拉卡拉 x Apache Doris：统一金融场景 OLAP 引擎，查询提速 15 倍，资源直降 52%

为此，拉卡拉选择使用ApacheDoris替换Elasticsearch、Hive、Hbase、TiDB、Oracle/MySQL等组件，实现了OLAP引擎的统一、查询性能提升15倍、资源减少52%的显著成效

·2025-04-02 20:13

DBEAVER 连接hive老是掉线

问题描述：连接生产环境的VPN后用dbeaver连上hive后，经常查询无响应掉线，报错：org.apache.thrift.transport.TTransportException:java.net.SocketException

dogplays·2025-04-02 18:18

肺结节公开数据集（LIDC-IDRI）

https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI

云小白66·2025-04-02 13:48

Hive优化高频面试题

文章目录一、开启本地模式二、explain分析sql语句三、修改Fetch操作四、开启hive的严格模式五、JVM重用六、分区、分桶以及压缩七、合理设置map和ruduce的数量八、设置并行执行九、CBO

lzhlizihang·2025-04-01 19:03

推荐频道

数据开发--hive

大数据（4）Hive数仓三大核心特性解剖：面向主题性、集成性、非易失性如何重塑企业数据价值？

最新【Rust指南】快速入门 开发环境 hello world_rust开发是啥，大数据开发开发入门与实战

flutter环境搭建

大数据开发-Spark-RDD实操案例-http日志分析

基于ISO13400 (DoIP) 实现车辆刷写

Flink读取Kafka数据写入IceBerg（HiveCatalog）

python模块之zipfile

初识Java-jdk 版本说明

Spark修炼之道（基础篇）——Linux大数据开发基础：第十一节：Shell编程入门（三)

大数据架构师选型必懂：大数据离线数仓开发框架详解与对比(hive、Spark SQL、Impala、Doris）

公钥算法的基本数论知识——欧几里得算法、扩展的欧几里得算法、 欧拉函数、费马小定理、欧拉定理

linux xxd 命令

探索Hadoop生态圈：核心组件介绍

TDH计算引擎针对数据倾斜现象的保护机制

Python 中的错误处理与调试技巧

数据分析开源可视化工具

Redash：让数据可视化变得简单

（五）Spark大数据开发实战：豆瓣电影数据处理与分析（python版）

大数据新视界 -- Hive 数据仓库设计模式：星型与雪花型架构

MySQL 存储引擎详解

大数据面试题整理——Hive

Hive ETL自动化实战：6大清洗策略×4种转换技巧×DolphinScheduler全链路调度方案

大数据（4.7）Hive查询优化四大黑科技：分区裁剪×谓词下推×列式存储×慢查询分析，性能提升600%实战手册

大数据（4.3）Hive基础查询完全指南：从SELECT到复杂查询的10大核心技巧

Hive学习（7）Hive核心函数解密：pmod()的9大高阶用法与避坑指南

Hive学习（3）ORDER BY排序NULL值终极指南：默认行为、显式控制与实战避坑

深入剖析 Hive Fetch 抓取机制：原理、优化与实践

基于CentOS-7.0系统搭建LAMP环境

斯密斯夫妇握手问题

Centos7安装配置Hive教程

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

C#实现HiveQL建表语句中特殊数据类型的包裹

使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型

MySQL体系架构

python中的 f 是什么意思，f‘{username}_log_archive_{int(time.time())}.txt‘

Datax-web 添加达梦数据库

Apache Hive和Snowflake的`CREATE TABLE`语法和功能特性整理的对比表

大数据（4.1）Hive架构设计与企业级实战：从内核原理到性能巅峰优化，打造高效数据仓库

Hive 常见面试 300 问

String结构之首页热点数据开发实战

CentOS挂载NTFS移动硬盘

oracle拉链表实现原理,数据仓库-拉链表+增量表抽取的实现

大数据（4.5）Hive聚合函数深度解析：从基础统计到多维聚合的12个生产级技巧

hive 写 es 报EsHadoopRemoteException: index_closed_exception: closed null

架构师之路：数据中台产品策略与规划

Oracle DataGuard主备切换(switchover)

拉卡拉 x Apache Doris：统一金融场景 OLAP 引擎，查询提速 15 倍，资源直降 52%

DBEAVER 连接hive老是掉线

肺结节公开数据集（LIDC-IDRI）

Hive优化高频面试题

最新【Rust指南】快速入门开发环境 hello world_rust开发是啥，大数据开发开发入门与实战

公钥算法的基本数论知识——欧几里得算法、扩展的欧几里得算法、欧拉函数、费马小定理、欧拉定理