Sunny_god

Hive全解

文章目录

- - 一.Hive基本介绍
  - - 1.基本名词解释
    - 2.hive概述
    - 3.hive可以做什么以及适用场景
    - - a 不适合：
      - b 适合：
    - 4.hive特点
    - 5.hive安装与配置
  - 二.Hiveql与Hive基础指令
  - - 1.基础指令
    - 2.join操作
    - 3.Hive工作流程
  - 三.Hive表类型
  - - ！注意
    - 1.内部表
    - - 概念
      - 特点
    - 2.外部表
    - - 概念
      - 特点
      - 如何创建
    - 3.分区表
    - - a.基本介绍
      - b.作用
      - c. 实际运用
      - d.语法
    - 4.分桶表
    - - a.分桶原理
      - b.分桶语法 TABLESAMPLE（BUCKET X OUT OF Y）
      - c.分桶指令（分桶表只能是内部表）
  - 四.Hive语法
  - - 1.数据类型
    - - a 基本数据类型
      - b 复杂数据类型
    - 2.字符串操作
    - 3.explode
    - 4.UDF与UDAF与UDTF
    - - a.UDF可以做什么？
      - b.什么时候用UDF
  - 五.Hive的数据倾斜
  - - 1.场景
    - 2.哪些操作会导致数据倾斜
    - 3.处理数据倾斜
    - - a.处理group by
      - b.解决join
      - c.解决count distinct
  - 六.Hive优化
  - - 1.见五的数据倾斜处理
    - 2.调整切片数（map任务数）
    - 3.JVM重利用
    - 4.启用严格模式
  - 七.Hive体系结构
  - - 1. 用户接口
    - 2.Metastore（元数据信息默认derby 可设置成mysql）
    - 3.解释器（complier)、优化器(optimizer)、执行器(executor)组件
    - 4.Hadoop
  - 八.Sqoop安装与指令
  - 九.hive面试题
  - - 1.问题
    - - a.Hive的主要作用是什么？
      - b.Hive中追加导入数据的4种方式是什么？请写出简要语法。
      - c.Hive导出数据有几种方式？如何导出数据？
      - d.Hive几种排序的特点
      - e.Sqoop如何导入数据，如何导出数据？
      - f.海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10
      - g.分区和分桶的区别
      - h.Hive数据倾斜的原因与解决方案
      - i.Hive如何优化
      - j.配置hive-env.sh都涉及到哪些属性
      - k.配置hive-site.xml都修改了哪些属性，请写出属性名称并解释该属性
    - 2.答案
    - - a.
      - b.
      - c.
      - d.
      - e.
      - f.
      - g.
      - h.
      - i.
      - j.
      - k.
      - l.
  - 十.拓展
  - - 1.常用sql练习
    - 2.hiveql练习
    - - 写出将 text.txt 文件放入 hive 中 test 表‘2016-10-10’ 分区的语句，test 的分区字段是 l_date。
      - 转成hive SELECT a.key,a.value FROM a WHERE a.key not in (SELECT b.key FROM b)
      - Hive创建id，name，sex表的语法是什么？
      - Hive中如何复制一张表的表结构（不带有被复制表数据）
  - 十一.hive下配置元数据存在mysql（默认derby）

一.Hive基本介绍

1.基本名词解释

数据库：
为捕获数据设计
数据仓库：
为分析数据设计，弱事务，数据存储的都是从历史角度提供信息，一般就只有只读操作（分析）
ETL：(数据清洗)数据的提取,转化，加载
OLTP:联机事务处理系统如Mysql
OLAP:联机分析处理系统如Hive，Hbase

2.hive概述

基于Hadoop的一个数据仓库工具
hiveql转化为M/R任务执行十分适合数据仓库的统计分析
可以进行ETL
离线大数据分析工具

3.hive可以做什么以及适用场景

a 不适合：

大规模数据集的低延迟快速查询
本质上还是离线数据的处理的工具，实时查询性能有限，本质上是一个基于hadoop的数据仓库工具，不能支持行级别的新增修改和删除 hive支持查询，行级别的插入

b 适合：

大数据集的离线批处理作业

4.hive特点

拥有MapReduce的特点（海量数据高兴能处理高拓展性与高容错性）
类sql的查询语言学习成本不高
与Hadoop其他产品兼容（支持处理 HDFS 上的多种文件格式(TextFile、SequenceFile 等)，还支持处理 HBase 数据库。用户也完全可以实现自己的驱动来增加新的数据源和数据格式。一种理想的应用模型是将数据存储在 HBase 中实现实时访问，而用Hive对HBase 中的数据进行批量分析。）
hiveql的可拓展性（用户可以自定义数据类型函数用任何语言自定义mapper与reducer脚本）

5.hive安装与配置

https://blog.csdn.net/qq_38061534/article/details/86553379

二.Hiveql与Hive基础指令

1.基础指令

https://blog.csdn.net/qq_38061534/article/details/86553848

在HDFS实际存储目录：

2.join操作

3.Hive工作流程

通过客户端提交一条Hql语句
通过complier（编译组件）对Hql进行词法分析、语法分析。在这一步，编译器要知道此hql语句到底要操作哪张表
去元数据库找表信息
得到信息
complier编译器提交Hql语句分析方案。
executor 执行器收到方案后，执行方案（DDL过程）。在这里注意，执行器在执行方案时，会判断
如果当前方案不涉及到MR组件，比如为表添加分区信息、比如字符串操作等，比如简单的查询操作等，此时就会直接和元数据库交互，然后去HDFS上去找具体数据。
如果方案需要转换成MR job，则会将job 提交给Hadoop的JobTracker。
MR job完成，并且将运行结果写入到HDFS上。
执行器和HDFS交互，获取结果文件信息。

如果客户端提交Hql语句是带有查询结果性的，则会发生：6-7-8步，完成结果的查询。

三.Hive表类型

！注意

hive表的元数据信息存放在数据库中（默认derby 可以修改为mysql）
数据存储在HDFS中
元数据信息表中有一张TBLS表，
其中有一个字段属性：TBL_TYPE——MANAGED_TABLE
MANAGED_TABLE 表示内部表 EXTERNAL_TABLE表示内部表

1.内部表

概念

先在hive里建一张表，然后向这个表插入数据（用insert可以插入数据，也可以通过加载外部文件方式来插入数据）

特点

先有hive表再有数据
内部表删除时 HDFS里对应存储的数据也会被删除

2.外部表

概念

HDFS里已经有数据了如2.txt hive创建一个新表来管理这个文件数据

特点

先有数据再有hive表
hive外部表管理的是HDFS某一个文件目录中的文件数据
删除外部表外部表管理的对应的文件数据并不会被删除
当向HDFS对应的目录节点下追加文件时（只要格式符合），hive都可以把数据管理进来

如何创建

进入hive，执行：
create external table stu (id int,name string) row format delimited fields terminated by ’ ’ location ‘/目录路径’

3.分区表

a.基本介绍

在HDFS存储目录上一个分区对应一个目录分区就是一个目录

b.作用

可以避免查询整表，在生产环境下，基本都是建立带有分区字段的表，在查询时，带上分区条件。

c. 实际运用

一般以日期如天为单位来建立分区方便管理表数据

d.语法

创建分区

执行：create table book (id int, name string) partitioned by (category string)
row format delimited fields terminated by ‘\t’;

注：在创建分区表时，partitioned字段可以不在字段列表中。生成的表中自动就会具有该字段。
category 是自定义的字段。

给分区加载数据
1）load data local inpath ‘/home/cn.txt’ overwrite into table book partition (category=‘cn’);
2）load data local inpath ‘./book_english.txt’ overwrite into table book partition (category=‘en’);

select * from book; 查询book目录下的所有数据
select * from book where category=‘cn’; 只查询 cn分区的数据
通过创建目录来增加分区
先在HDFS目录下手动创建一个分区目录（category=jp）然后在此目录下上传文件

!!!注意：此时手动创建的目录hive无法使用要在元数据库记录该分区才行
ALTER TABLE book add PARTITION (category = ‘jp’) location ‘/user/hive/warehouse/park01.db/book/category=jp’;
作用是添加分区即在元数据表中创建对应的元数据
显示分区

show partitions iteblog;

添加分区

alter table book add partition (category=‘jp’) location ‘hdfs某个目录’
删除cn分区

alter table book drop partition(category=‘cn’)
修改分区

alter table book partition(category=‘french’) rename to partition(category=‘hh’)
分区名称由french改为hh

4.分桶表

https://blog.csdn.net/qq_38061534/article/details/86569037

a.分桶原理

根据指定的列的计算hash值模余分桶数量后将数据分开存放。方便数据抽样

b.分桶语法 TABLESAMPLE（BUCKET X OUT OF Y）

总抽取数量 N=总bucket数目S/Y
抽取第x个,第x+y个，第x+2*y个，…，总共N个为止

c.分桶指令（分桶表只能是内部表）

1.创建带桶的 table ：
create table teacher(name string) clustered by (name) into 3 buckets row format delimited fields terminated by ’ ';
2.开启分桶机制：
set hive.enforce.bucketing=true;
3.往表中插入数据：
insert overwrite table teacher select * from tmp;//需要提前准备好temp，从temp查询数据写入到teacher
注：teacher是一个分桶表，对于分桶表，不允许以外部文件方式导入数据，只能从另外一张表数据导入。分通表只能是内部表。

四.Hive语法

1.数据类型

a 基本数据类型

int
boolean
float
double
string

b 复杂数据类型

array
map
struct

说明如下：

https://blog.csdn.net/qq_38061534/article/details/86554930

2.字符串操作

https://blog.csdn.net/qq_38061534/article/details/86554965

3.explode

注意行数据必须是String类型

4.UDF与UDAF与UDTF

https://blog.csdn.net/dreamingfish2011/article/details/51283542

UDF 输入一行输出一行数据
UDAF 输入多行数据输出一行数据，一般在group by中使用。
UDTF 用来实现一行输入多行输出

a.UDF可以做什么？

可以看如下文章:

https://blog.csdn.net/scgaliguodong123_/article/details/46993005
https://blog.csdn.net/qq_38061534/article/details/86569511

用户自定义函数来操作hive表如
select no,num,bigthan(no,num) from testudf
判断no是否大于num

b.什么时候用UDF

用户的需求hiveql的内置函数不能满足需求需要用户自己开发函数去实现

UDF使用实例

https://blog.csdn.net/zolalad/article/details/10819749

五.Hive的数据倾斜

1.场景

2.哪些操作会导致数据倾斜

group by
distinct xx
join

3.处理数据倾斜

a.处理group by

set hive.groupby.skewindata=true;(shell 中输入是会话级别的)
原理：
生成的查询计划会有两个MRJob。第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。
解释：比如 100g数据80g是(aaa,某个value），这样设置后 (aaa,1) (aaa,2) 可能分配到不同的reduce任务中这样数据就不会倾斜

b.解决join

map side join（hive做jion时小表在左）
当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle，在实际的应用中，我们这样设置：

set hive.auto.convert.join=true;
此外，hive有一个参数：hive.mapjoin.smalltable.filesize，默认值是25mb（其中一个表大小小于25mb时，自动启用mapjoin）

join语句优化

c.解决count distinct

六.Hive优化

1.见五的数据倾斜处理

2.调整切片数（map任务数）

3.JVM重利用

4.启用严格模式

在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的不好的效果的查询,从而保护hive的集群。

七.Hive体系结构

1. 用户接口

JDBC 使用java代码操作
CLI hive> 命令行下操作

2.Metastore（元数据信息默认derby 可设置成mysql）

存储表的列，分区及其属性，是否为外部表，表数据所在目录

3.解释器（complier)、优化器(optimizer)、执行器(executor)组件

HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

4.Hadoop

Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成

八.Sqoop安装与指令

https://blog.csdn.net/qq_38061534/article/details/86571782

九.hive面试题

1.问题

a.Hive的主要作用是什么？

b.Hive中追加导入数据的4种方式是什么？请写出简要语法。

c.Hive导出数据有几种方式？如何导出数据？

d.Hive几种排序的特点

e.Sqoop如何导入数据，如何导出数据？

f.海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10

g.分区和分桶的区别

h.Hive数据倾斜的原因与解决方案

i.Hive如何优化

j.配置hive-env.sh都涉及到哪些属性

k.配置hive-site.xml都修改了哪些属性，请写出属性名称并解释该属性

2.答案

a.

b.

1.从本地导入： load data local inpath ‘/home/1.txt’ (overwrite)into table student;
2.从Hdfs导入： load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into table student;
3.查询导入： create table student1 as select * from student;(也可以具体查询某项数据)
4.查询结果导入：insert （overwrite）into table staff select * from track_log;

c.

1.用insert overwrite导出方式
导出到本地：
1. insert overwrite local directory ‘/home/robot/1/2’ rom format delimited fields terminated by ‘\t’
select * from staff;(递归创建目录)
导出到HDFS
2.insert overwrite directory ‘/user/hive/1/2’ rom format delimited fields terminated by ‘\t’
select * from staff;
2.Bash shell覆盖追加导出
例如：$ bin/hive -e “select * from staff;” > /home/z/backup.log
3.Sqoop把hive数据导出到外部

d.

e.

f.

g.

h.

i.

j.

k.

l.

十.拓展

1.常用sql练习

2.hiveql练习

写出将 text.txt 文件放入 hive 中 test 表‘2016-10-10’ 分区的语句，test 的分区字段是 l_date。

转成hive SELECT a.key,a.value FROM a WHERE a.key not in (SELECT b.key FROM b)

Hive创建id，name，sex表的语法是什么？

Hive中如何复制一张表的表结构（不带有被复制表数据）

十一.hive下配置元数据存在mysql（默认derby）

https://blog.csdn.net/qq_38061534/article/details/86571985

前端项目中脚本文件打包，vscode中如何正确使用gtar命令今天吃了嘛o 前端 vscode ide
1、下载gtarhttps://gnuwin32.sourceforge.net/packages/libarchive.htm2、傻瓜式安装一路下一步即可。3、配置环境变量高级系统设置”在弹出的“系统属性”窗口中，点击“环境变量”。在“系统变量”列表中找到“Path”变量，点击“编辑”。点击“新建”，将gtar可执行文件所在的目录路径（例如C:\ProgramFiles(x86)\GnuWin3
win11编译pytorchvision cuda128版本流程 System_sleep pytorch python 编译 windows cuda
1.前置条件本篇续接自win11编译pytorchcuda128版本流程，阅读前请先参考上一篇配置环境。访问https://kkgithub.com/pytorch/vision/archive/refs/tags/v0.21.0.tar.gz下载源码，下载后解压。2.编译打开MiniforgePrompt，依次执行如下代码：condaactivatetorch_build_envcondains
‌Tomcat 8.0.12安装流程小魚資源大雜燴 tomcat java linux
需要确保系统已经安装了JavaDevelopmentKit(JDK)7或更高版本。可以通过以下命令检查Java是否安装以及版本信息：shjava-version如果未安装Java，需要先下载并安装适合你操作系统的JDK。Windows系统安装流程步骤1：下载Tomcat8.0.12打开浏览器，访问ApacheTomcat的存档页面：https://archive.apache.org/dist/t
京东Hive SQL面试题实战：APP路径分析场景解析与幽默生存指南数据大包哥 #大厂SQL面试指南 hive sql hadoop
京东HiveSQL面试题实战：APP路径分析场景解析与幽默生存指南“数据开发工程师的终极浪漫，就是把用户路径写成诗——用HiveSQL押韵。”——某不愿透露姓名的SQL诗人一、题目背景：来自京东的真实需求假设你是京东APP的数据工程师，现在需要分析用户在APP中的访问路径特征。原始日志表user_behavior结构如下：字段名类型说明user_idBIGINT用户ID（脱敏）session_id
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
jdbc连接数据库步骤oracle,jdbc连接oracle数据库的步骤 weixin_39726044
使用E-MapReduce集群sqoop组件同步云外Oracle数据库数据到集群hiveE-MapReduce集群sqoop组件可以同步数据库的数据到集群里，不同的数据库源网络配置有一些差异网络配置。最常用的场景是从rdsmysql同步数据，最近也有用户询问如何同步云外专有Oracle数据库数据到hive。云外专有数据库需要集群所有节点通过公网访问，要创建VPC网络，使用VPC网络...文章鸿初2
Anaconda配置tensorflow-gpu教程 rubisco214 tensorflow 人工智能 python
最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU）打开Nvidia控制面板，左上角帮助-系统信息-组件NVCUDA64.DLL后面的NVIDIACUDA12.1就是你的显卡支持的CUDA版本，去CUDA官网CUDAToolkitArchive|N
linux压缩解压文件夹命令 zip unzip 和 tar luoluosheng07 linux linux 运维服务器
1.zip和unzip（处理.zip文件）压缩文件夹zip-r压缩包名.zip文件夹名-r:递归压缩子目录内容。示例：zip-rmyarchive.zipmydir解压文件unzip压缩包名.zip-d目标目录-d:指定解压目录（默认当前目录）。示例：unzipmyarchive.zip-d/path/to/extract查看压缩包内容unzip-l压缩包名.zip2.tar（处理.tar、.ta
python 一小时教程 wsf_123456 python Python 编程 C C#C++
1序言面向读者本文适合有经验的程序员尽快进入Python2.x世界.特别地,如果你掌握Java和Javascript,不用1小时你就可以用Python快速流畅地写有用的Python程序.Python3.x用户请参考:http://www.cnitblog.com/yunshichen/archive/2009/04/01/55924.html(由于Django不支持python3,所以为了你的发展
HIVE 面试题总结小余真旺财 Hive hive
Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。一、Hive架构用户接口：CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：元数据包括：表名、表所属的数据库（默
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
hivePB级迁移方案我要用代码向我喜欢的女孩表白数据库 bigdata-大数据专栏 hive
1、评估磁盘空间大小、调整副本数、设置heapsize大小2、distcp-i-skipcrccheck源端到目标端，迁移3、元数据迁移，建表，替换location地址，或者导出db4、表分区修复5、配置增量T-1迁移或者T-26、校验历史分区脚本，表结构，大小，文件数7、根据ditcp不对的，进行补数脚本，删分区，重拉8、任务校验，客户跑完任务后，校验指定分区的count数和内容的md59、任务
Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
linux 打包解压命令 luoluosheng07 linux linux 服务器运维
1.Linux打包和解压命令打包命令tar命令是最常用的打包工具，可以用来创建归档文件。创建一个名为archive.tar的tar包：tar-cvfarchive.tar/path/to/directory/这里：c表示创建新的归档文件。v表示在打包过程中显示文件。f指定归档文件的名称。zip命令用于创建zip格式的压缩文件。zip-rarchive.zip/path/to/directory/这
Hadoop 基础原理 disgare 数据库 hadoop 大数据分布式
Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce底层原理示例Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈，包含HDFS、Hive、MapRe
nodejs npm run build 打包压缩zip文件 xiaoxiao_0721 vue
步骤1:安装npminstallarchiver-D步骤2:根目录下新建zip.js，内容如下constfs=require('fs')constarchiver=require('archiver')//创建文件输出流letoutput=fs.createWriteStream(__dirname+'/dist.zip')letarchive=archiver(
本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程 weixin_30777913 数据库大数据 hive
我们已经有安装ApacheHive的Linux服务器集群，它可以连接到一个OracleRDS数据库，需要在该Linux服务器上安装配置sqoop，然后将OracleRDS数据库中所有的表数据复制到Hive。为了将本地Oracle数据库中的所有表数据复制到ApacheHiveLinux服务器集群中，您可以遵循以下详细步骤：第一步：安装和配置Sqoop1.下载并安装Sqoop您可以从ApacheSqo
preview_220624,Day08_DM层建设实战, 啊六六六 Python 大数据数据挖掘数据仓库
DM名称：数据集市层DataMarket功能：基于DWS层日统计宽表，上卷出周、月、年等统计宽表，即粗粒度汇总。解释从理论层面来说，数据集市是一个小型的部门或工作组级别的数据仓库。一些公司早期的数据集市后期可能会演变成为数仓系统。本项目中在数据集市层面主要进行粗粒度汇总，也可以将这些功能下放至DWS层完成。抛弃DM.使用DataGrip在Hive中创建dm层注意，对于建库建表操作，需直接使用Hiv
MySQL 8 公用表表达式（CTE）—— WITH关键字深入用法 gmHappy 大数据学习 java web Java mysql 数据库 with递归
一、前言公用表表达式（CTE）是一个命名的临时结果集，它存在于单个语句的范围内，可以在该语句中引用，可能多次。对于逻辑复杂的SQL，可以大大减少临时表的数量，提升代码的可读性、可维护性。更多介绍请查看官网：https://dev.mysql.com/blog-archive/mysql-8-0-labs-recursive-common-table-expressions-in-mysql-cte
jar、war、pom JIU_WW jar java
1.jar定义与用途用途：默认打包类型，生成JAR文件（JavaArchive），适用于普通Java应用或库。场景：开发工具类库（如commons-lang.jar）。构建可执行应用（通过java-jar运行）。关键行为构建流程：执行mvnpackage后，生成target/.jar。包含编译后的.class文件、资源文件（如.properties）和META-INF/MANIFEST.MF。依赖
MAC电脑初始化开发环境（Java + Node） Kevin_K2 macos java 开发语言
1.后端1.1Java下载地址https://www.oracle.com/cn/java/technologies/javase/javase8-archive-downloads.html1.2Maven安装https://archive.apache.org/dist/maven/maven-3/1.3maven环境变量exportMAVEN_HOME=/Users/kevin/Soft/a
centOS 7.9 安装JDK MYSQL he25819 centos java mysql
jdk:JavaArchiveDownloads-JavaSE17.0.12andearlierCentOS安装JDK17教程（完整版）-秦胜飞-博客园sudoyumupdatewgethttps://download.oracle.com/java/17/archive/jdk-17.0.3.1_linux-x64_bin.rpmyuminstall./jdk-17.0.3.1_linux-x6
显卡3050ti等安培架构的GPU安装paddlepaddle 社会闲散人员中的代码爱好者 python 环境搭建 python 人工智能深度学习
3050ti等安培架构的GPU安装paddlepaddle官网原话如果您使用的是安培架构的GPU，推荐使用CUDA11.2如果您使用的是非安培架构的GPU，推荐使用CUDA10.2，性能更优其他配套确定软件版本后，到官网下载对应版本的软件CUDA：CUDAToolkitArchive|NVIDIADevelopercuDNN：cuDNNArchive|NVIDIADeveloper这里需要下载CU
Oracle 19C DataGuard GAP 修复过程（RECOVER STANDBY DATABASE FROM SERVICE）莳花微语 Oracle oracle 数据库 ADG
1.介绍DGGAP顾名思义就是：DG不同步，当备库不能接受到一个或多个主库的归档日志文件时候，就发生了GAP。那么，如果遇到GAP如何修复呢？DGGAP主要分为以下两类情况：主库归档日志存在，可以通过配置FetchArchiveLog(FAL)参数，自动解决归档GAP；主库归档日志丢失，需要人工干预来修复；不同Oracle版本的GAP修复方式也不尽相同，下面分别介绍不同版本的方式！11G的处理步骤
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f