Hive技术点第6页

Hive使用双重GroupBy解决数据倾斜问题

createtablewordcount(astring)rowformatdelimitedfieldsterminatedby‘,’;loaddatalocalinpath‘opt/2.txt’intotablewordcount;hive

黄土高坡上的独孤前辈·2024-02-20 10:29

Hive切换引擎(MR、Tez、Spark)

Hive切换引擎(MR、Tez、Spark)1.MapReduce计算引擎(默认)sethive.execution.engine=mr;2.Tez引擎sethive.execution.engine=

落空空。·2024-02-20 10:54

Hive框架(三) —— Hive SQL语句的执行顺序

HQL的语句执行顺寻与SQL有一定的差别HiveSQLFrom-where-join-on-select-groupby-select-having-distinct-orderby-limit-union

爱睡觉的考拉yxl·2024-02-20 10:52

二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断)

一、目的需要用Kettle从Hive的DWS层库表数据增量同步到ClickHouse的ADS层库表中，不过这次的增量判断字段是day字段，不像之前的create_time字段因为day字段需要转换类型，

天地风雷水火山泽·2024-02-20 10:20

Hive SQL——group by函数的注意点

HiveSQL的groupby对比MySQL，有一个让我特别不能接受的原则：select后面所有的列中，没有使用聚合函数的列，必须出现在groupby子句中。

xia ge tou lia·2024-02-20 10:16

HiveSQL——统计当前时间段的有客人在住的房间数量

注：参考文章：HiveSQL一天一个小技巧：如何统计当前时间点状态情况【辅助变量+累计变换思路】_sql查询统计某状态出现的次数及累计时间-CSDN博客文章浏览阅读2k次，点赞6次，收藏8次。

爱吃辣条byte·2024-02-20 09:42

NSCoding对象存储(注意:以后使用NSSecureCoding)

文件存储：NSData类提供了一个方法，可以直接将NSData实例存储到文件中3.相关知识介绍NSCoder类是一个抽象类，用来被其他的类继承NSKeyedArchiver和NSKeyedUnarchi

皮蛋豆腐酱油·2024-02-20 09:38

hive load data未正确读取到日期

1.源数据CSV文件日期字段值：2.hiveDDL语句：CREATEEXTERNALTABLE`test.textfile_table1`(`id`intCOMMENT'????'

dogplays·2024-02-20 08:48

测试环境搭建整套大数据系统（三：搭建集群zookeeper，hdfs，mapreduce，yarn，hive）

一：搭建zkhttps://blog.csdn.net/weixin_43446246/article/details/123327143二：搭建hadoop，yarn，mapreduce。1.安装hadoop。sudotar-zxvfhadoop-3.2.4.tar.gz-C/opt2.修改java配置路径。cd/opt/hadoop-3.2.4/etc/hadoopvimhadoop-env.

宇智波云·2024-02-20 08:05

【Flink】ClassNotFoundException: org.apache.hadoop.conf.Configuration

问题背景在Flink的sql-client客户端中执行连接hive的sql代码时出现如下错误，版本Flink1.13.6FlinkSQL>createcatalogtestwith(>'type'='hive

一杯咖啡半杯糖·2024-02-20 07:38

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea

　Laurence·2024-02-20 06:28

【高效开发工具系列】PyCharm使用

檀越剑指大厂·2024-02-20 06:09

HarmonyOS 实战开发案例-仿抖音短视频应用

技术点拆分1、http请求数据；2、measure计算文本宽度；3、video播放视频；4、onTouch上滑/下拉切换视频；5、List实现滚动加载；效果展示http请求数据通过对@ohos.net.http

码中之牛·2024-02-20 04:19

第六篇【传奇开心果系列】Python微项目技术点案例示例：庖丁解牛tkinter.ttk库gui界面编程

传奇开心果微博系列系列微博目录Python微项目技术点案例示例系列微博目录前言一、主窗口和子窗口创建和切换，以员工信息管理系统示例代码二、主窗口添加有菜单项图标的菜单栏、工具栏和右键菜单示例代码三、使用

传奇开心果编程·2024-02-20 03:04

【极乐净土mmd】动作+镜头数据下载

下载地址：https://go.ysboke.cn/archives/218

bronya0·2024-02-19 22:43

MMD动作：白い雪のプリンセスは（白雪公主）

下载地址：https://go.ysboke.cn/archives/934mmd镜头+动作+bgm打包下载。

bronya0·2024-02-19 22:43

hive学习笔记之三：内部表和外部表

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

程序员欣宸·2024-02-19 22:05

公历转农历linux C程序

//blog.jjonline.cn/userInterFace/173.html1900年至2100年公历、农历互转Js代码http://www.cnblogs.com/qintangtao/archive

andylauren·2024-02-19 21:20

Vue+SpringBoot+MySQL项目

第一节：技术点介绍1：技术点介绍前端：vueVue是一套用于构建用户界面的渐进式框架，Vue被设计为可以自底向上逐层应用。Vue的核心库只关注视图层，不仅易于上手，还便于与第三方库或既有项目整合。

云端的数据·2024-02-19 19:19

第十九篇【传奇开心果系列】Python的OpenCV库技术点案例示例：文字识别与OCR

传奇开心果短博文系列系列短博文目录Python的OpenCV库技术点案例示例系列短博文目录前言一、OpenCV文字识别介绍二、图像预处理示例代码三、文字区域检测示例代码四、文字识别示例代码五、文字后处理示例代码六

传奇开心果编程·2024-02-19 19:40

kerberos 合并keytab文件 ktutil

非交互式：printf"%b""rkt/root/keytab/hdfs.keytab\nrkt/root/keytab/hive.keytab\nwkt/root/keytab/merged.keytab

brandblue·2024-02-19 19:51

ktutil编写生成keytab文件的脚本、通过keytab文件认证用户

/usr/bin/bashktutil<hive用户，生成

但行益事莫问前程·2024-02-19 19:13

centos 安装 maven

wgethttps://archive.apache.org/dist/maven/maven-3/3.8.6/binaries/apache-maven-3.8.6-bin.tar.gz解压文件：使用

iteye_10392·2024-02-19 16:15

docker ubuntu tomcat 换源安装软件

第一种办法参考docker中ubuntu容器更换apt源_ubuntu更改apt源withdockerfile-CSDN博客sed-is@/archive.ubuntu.com/@/mirrors.aliyun.com

linux实践操作记录·2024-02-19 16:36

js实现判断大写锁定是否开启（转）

转载地址：http://www.cnblogs.com/xiaoao808/archive/2008/07/31/1257624.html在用户登录输入密码时，常常会有因为大写锁定开启而造成输入密码错误的情况

weixin_30621959·2024-02-19 15:59

Visual Studio设置Solution Explorer同步当前文档

从Debug或Tools菜单项打开Options窗体，勾选下面的选项：http://www.cnblogs.com/findcaiyzh/archive/2011/03/31/2000529.html

霍莉雪特·2024-02-19 14:00

数据归档神器-pt-archiver

前言介绍`pt-archiver是用来归档表的工具，可以做到低影响、高性能的归档工具，从表中删除旧数据，而不会对OLTP查询产生太大影响。可以将数据插入到另一个表中，该表不需要在同一台服务器上。

落弋V·2024-02-19 14:40

数据归档工具pt-archiver原理研究与使用

1.介绍之前处理mysql历史数据归档，直接写存储过程实现的（《mysql历史数据自动归档》），换新东家后，还是决定研究下主流的pt-archiver并实施。

sdmei·2024-02-19 14:08

MySQL-运维工具 pt-archiver数据归档工具

逐行进行)4.2表归档到表(批量进行)4.2.1归档到当前实例，并删除数据4.2.2归档到远程实例，不删除数据4.3仅清除表数据4.4表自增字段处理5.总结1.引言2.工具说明2.1使用方式pt-archiver

凡尘技术·2024-02-19 14:07

利用 pt-archiver 实现数据库归档功能

文章目录一、前言关于Percona二、PerconaToolkit安装percona-toolkit：pt-archiver归档命令的使用格式：示例：三、归档步骤：1）、创建归档数据库和归档表方式一(推荐

程序没有缘·2024-02-19 14:02

(10)Hive的相关概念——文件格式和数据压缩

1.1.1行存储的特点1.1.2列存储的特点1.2TextFile1.3SequenceFile1.4Parquet1.5ORC二、数据压缩2.1数据压缩-概述2.1.1压缩的优点2.1.2压缩的缺点2.2Hive

爱吃辣条byte·2024-02-19 13:21

linux压缩webfile文件夹 webfile.tar.gz和webfile.tar的区别

tar，全称TapeArchive，最初被设计用于在磁带存储设备上存储文件，但现在已经广泛用于在硬盘驱动器上存储和分发文件。

·2024-02-19 11:53

浏览器跨 Tab 窗口通信原理及应用实践

动画联动，效果如下：代码不多，核心代码200行，感兴趣的可以戳这里：Github-broadcastAnimation当然，本文的核心不是去一一剖析上面的效果具体的实现方式，而是讲讲其中比较关键的一个技术点

·2024-02-19 11:18

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值3.1.2存在大量异常值或空值3.2业务数据本身的特性3.3SQL语句本身就有数据倾斜3.4建表时考虑不周四、触发数据倾斜的SQL操作五、数据倾斜的解决方案5.1Map长尾优化5.1.1Map读取

爱吃辣条byte·2024-02-19 11:50

第三篇【传奇开心果系列】Python的文本和语音相互转换库技术点案例示例：pyttsx3实现语音助手经典案例

传奇开心果短博文系列系列短博文目录Python的文本和语音相互转换库技术点案例示例系列短博文目录一、项目背景和目标二、雏形示例代码三、扩展思路介绍四、与其他库和API集成示例代码五、自定义语音示例代码六

传奇开心果编程·2024-02-19 10:10

第七篇【传奇开心果系列】Python微项目技术点案例示例：数据可视化界面图形化经典案例

传奇开心果微博系列系列微博目录Python微项目技术点案例示例系列微博目录一、微项目开发背景和项目目标：二、雏形示例代码三、扩展思路介绍四、数据输入示例代码五、数据分析示例代码六、排名统计示例代码七、数据导入导出示例代码八

传奇开心果编程·2024-02-19 10:09

第二篇【传奇开心果系列】Python的文本和语音相互转换库技术点案例示例：深度解读pyttsx3支持多种语音引擎

传奇开心果短博文系列系列短博文目录Python的文本和语音相互转换库技术点案例示例系列短博文目录前言一、三种语音引擎支持介绍和示例代码二、SAPI5引擎适用场景介绍和示例代码三、nsss引擎适用场景介绍和示例代码四

传奇开心果编程·2024-02-19 10:09

Hive入门，Hive是什么？

1.1Hive是什么？Hive是一个开源的数据仓库工具，主要用于处理大规模数据集。它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。

JayGboy·2024-02-19 10:31

第一篇【传奇开心果系列】Python的pyttsx3库技术点案例示例：文本转换语言

传奇开心果短博文系列系列短博文目录Python的pyttsx3库技术点案例示例系列短博文目录前言一、pyttsx3主要特点和功能介绍二、pyttsx3文字转语音操作步骤介绍三、多平台支持介绍和示例代码四

传奇开心果编程·2024-02-19 10:23

Hive Distribute by 应用之动态分区小文件过多问题优化

Fatalerroroccurredwhennodetriedtocreatetoomanydynamicpartitions.Themaximumnumberofdynamicpartitionsiscontrolledbyhive.exec.max.dynamic.p

莫叫石榴姐·2024-02-15 10:58

Hive调优——count distinct替换

离线数仓开发过程中经常会对数据去重后聚合统计，而对于大数据量来说，count(distinct)操作消耗资源且查询性能很慢，以下是调优的方式。解决方案一：groupby替代原sql如下：#=====7日、14日的app点击的用户数（user_id去重统计）selectgroup_id,app_id,--7日内UVcount(distinctcasewhendt>='${7d_before}'the

爱吃辣条byte·2024-02-15 10:58

Hive的相关概念——架构、数据存储、读写文件机制

目录一、架构及组件介绍1.1Hive整体架构1.2Hive组件1.3Hive数据模型（DataModel）1.3.1Databases1.3.2Tables1.3.3Partitions1.3.4Buckets

爱吃辣条byte·2024-02-15 10:57

Hive的相关概念——分区表、分桶表

目录一、Hive分区表1.1分区表的概念1.2分区表的创建1.3分区表数据加载及查询1.3.1静态分区1.3.2动态分区1.4分区表的本质及使用1.5分区表的注意事项1.6多重分区表二、Hive分桶表2.1

爱吃辣条byte·2024-02-15 10:57

Hive——动态分区导致的小文件问题

目录0问题现象1问题解决解决方案一：调整动态分区数方案一弊端：小文件剧增解决方案二：distributeby方案二弊端：数据倾斜解决方案三：distributeby命令2思考3小结0问题现象现象：报错errorr如下：[Error20004]:Fatalerroroccurredwhennodetriedtocreatetoomanydynamicpartitions.Themaximumnumb

爱吃辣条byte·2024-02-15 10:25

【大数据Hive】hive 表设计常用优化策略

目录一、前言二、hive普通表查询原理2.1操作演示说明2.1.1创建一张表，并加载数据2.1.2统计3月24号的登录人数2.1.3查询原理过程总结2.2普通表结构带来的问题三、hive分区表设计3.1

逆风飞翔的小叔·2024-02-15 10:22

Hive on Spark配置

前提条件1、安装好Hive，参考：Hive安装部署-CSDN博客2、下载好Spark安装包，链接：https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?

在下区区俗物·2024-02-15 10:51

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

部署一个3节点的Kafka集群

一Java环境部署：1.1官网下载jdkJava下载官网https://www.oracle.com/cn/java/technologies/javase/javase8u211-later-archive-downloads.html1.12

小关暗器·2024-02-15 09:25

Hive3.1.2——企业级调优

前言本篇文章主要整理hive-3.1.2版本的企业调优经验，有误请指出~一、性能评估和优化1.1Explain查询计划使用explain命令可以分析查询计划，查看计划中的资源消耗情况，定位潜在的性能问题

爱吃辣条byte·2024-02-15 09:48

推荐频道

Hive技术点