moshang_3377

hive学习（二）之Hive的hql操作

前言：
常见hive参数设置：

//Hive 显示列名/表头
set hive.cli.print.header=true;
//hive设置本地资源执行
set hive.exec.mode.local.auto=true;

1、hive的DDL——data define language数据定义语言

1.1库的定义语言

1）创建数据库

create database  if not exists  数据库名;

2）切换数据库

use  数据库名；

3）查看所有数据库

show databases;
show databases like "test*";    所有test开头的数据库

4）查看数据库的描述信息

desc database  数据库名;
desc database  extended 数据库名;    //查看数据库的扩展信息

5)查看正在使用的数据库

select current_database();

6）修改数据库——不支持

7）删除数据库

drop database [if exists] 数据库名[restrict];         //只能删除空数据库
drop database 数据库名 cascade；      //级联删除非空数据库

1.2表的定义语言

1.2.1创建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
 [(col_name data_type [COMMENT col_comment], ...)]
 [COMMENT table_comment]
 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
 [CLUSTERED BY (col_name, col_name, ...)
 [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
 [ROW FORMAT row_format]
 [STORED AS file_format]

建表语句说明：
①externel hive中的建表关键字
外部表关键字，加上后建的表就是外部表，不加默认是内部表
②if not exists 建表防止报错
if exists 删表防止报错
③comment 指定列或表的描述信息
④partitioned by(字段名字段类型,…)
分区表用于指定分区用的，括号里的是指定分区字段用的，一般是常用过滤字段
注意：分区字段一定不是建表中字段的字段
⑤clustered by (col_name,col_name,…)
sorted by (col_name [ASC | DSC],…) into num_buckets buckets
指定分桶表相关信息
分桶字段——分桶过程中需要按照哪一个字段将大表切成小文件
clustered by（分桶字段）
into num_buckets buckets 指定分桶个数，每一个桶的数据，分桶字段.hash % 分桶个数
sorted by 指定桶中数据的排序
注意：分桶字段一定包含在建表字段中
⑥row format 指定行格式化
hive不支持update、delete，支持insert，但是效率低
hive擅长导入表中数据方式——load，之间将一个文件导入到hive表中
这里的行格式化指定的是文件每一个字段的切分依据，行之间的切分依据
⑦指定存储格式
指定的是hive表数据在hdfs存储的文件格式
TEXTFILE 文本——默认
SEQUENCEFILE——二进制
RCFILE——行列结合
⑧location 指定hive的表数据在hdfs的存储路径
hive表数据存储路径

hive-default.xml hive.metastore.warehouse.dir 默认的
hive-site.xml 修改后的
location hive表存储路径
这个表必须在hdfs上，在建表过程中指定

1.2.2创建表案例

1）内部表

create table if not exists stu_managed(
sid int,name string,sex string,age int,dept string
) comment "test one managed_table" 
row format delimited fields terminated by "," 
stored as textfile location "/data/hive/managed/stu";

2）外部表

create external table if not exists stu_external(
sid int,name string,sex string,age int,dept string
) comment "test one external_table" 
row format delimited fields terminated by "," ;

3）分区表

分区字段：dept

create table if not exists stu_partitioned(
sid int,name string,sex string,age int
) comment "test one partitioned_table" 
partitioned by (dept string) row format delimited fields terminated by "," ;

4）分桶表

分桶字段：age
分桶分数：3

create table if not exists stu_buk(
sid int,name string,sex string,age int,dept string
) clustered by (age) sorted by (dept desc,age asc) into 3 buckets
row format delimited fields terminated by ",";

5）表复制

like
只会复制表的字段信息，不会复制表的属性（存储位置、存储格式、权限）

create [external] table if not exists tbname1 like tbname2;

6）ctas建表

将一个sql查询结果存放到一张表中

create [external] table tbname as select ....

1.2.3查看表列表

show tables;
show tables like "stu_*";
show tables in 数据库名;
查看表的详细描述信息
desc 表名;                 //查看表字段信息
desc extended 表名;      查看表扩展信息，但是不易读
desc formatted 表名   //查看表扩展信息，格式化显示，易读

1.2.4表修改 alter

1）修改表名

alter table 老表名 rename to 新表名;

2）修改表列信息

添加一个列

alter table 表名 add columns(列名 列属性);	——添加到表的最后

修改列

alter table 表名change 老列名  新列名 新列属性;	——修改列名，类型不变
alter table 表名change 列名  列名 新属性;	——修改类型，列名不变

注意： 修改列属性，大→小是可以的，由小→大不支持

3）删除列——不支持

4）修改表的分区信息

默认分区表中的分区是0个

①添加一个分区信息

alter table 表名 add partition(dept="IS");	 约束当前分区存储的数据
//添加多个分区
alter table stu_partitioned add partition(dept="IS")
partition(dept="MA") partition(dept="CS");

②修改表的分区信息——了解

修改表的分区的存储位置
分区表的每一个分区，默认的存储位置

/user/myhive/warehouse/test_1901.db/stu_ptn/dept="is"

添加分区的时候直接指定这个分区的存储位置

alter table stu_ptn add if not exists partition(dept="aa")
location "/data/hive/ptn/aa";

对于已经添加的分区，set location修改分区存储位置

alter table stu_ptn partition(dept="IS") 
set location "/data/hive/ptn/is";

这个指定的路径不会立即创建，插入数据的时候才会创建，原来的路径也不会帮我们删除

③查询表的分区信息

show partitions 表名；	——查询表的所有分区
分区字段超过一个就是多级分区，前面的字段是高级分区，后面的是低级分区
show partitions 表名 partition(高级分区);       ——查看某一分区下的所有子分区

④删除表的分区信息

alter table 表名 drop if exists partition(分区字段=分区名)；

1.2.5清空表

truncate table 表名；

清空表数据，不会删除表，只能内部表使用，删除表目录下的所有文件

1.2.6删除表

drop table if exists 表名;

1.2.7其他辅助命令

show create table 表名;    查看建表语句

2、hive的DML——data manage language数据操作/管理语言

2.1表数据插入

load

将数据从一个文件直接加载到hive的一个表中

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE
tablename [PARTITION(partcol1=val1, partcol2=val2 ...)]

语句说明：

1）load data 加载数据；
2）local从本地磁盘加载的关键字，从本地磁盘把数据加载到hive表中；不加local是从hdfs加载数据，从hdfs把数据加载到hive中；
3）inpath 文件的存储路径；
4）overwrite 覆盖导入，将原来表中的数据清空，不加 overwrite则追加；
5）partition 指定分区表的数据导入。

注意： 分区表的数据导入一定指定导入到哪一个分区
总结： load就是将数据放在hive表存储的hdfs路径下，hive中表就是hdfs一个路径（目录）的使用者，只要在这个路径下添加文件，就可以被表识别该文件没有限制，关联上以表结构的形式呈现出来

insert

1）单条数据插入

每次只插入一条数据

insert into table tbname values(.....);
:
insert into table stu_copy values(1,"zs","nan",99,"ufo");

实际上hive的语句插入是将插入语句转换 mapreduce任务
过程如下：
先生成一个临时表（当前客户端），最终将这个临时表的数据插入到需要插入表中

2）单重数据插入

一次插入多条数据

#直接将本地文件加载到表中
load data local inpath "/home/hadoop/tmpdata/student.txt" into table stu_managed;
#从一个表中进行查询数据，将查询的结果插入到另一个表中
insert into table tbname select ...
:
insert into table stu_copy select * from stu_managed where age=20;

3)多重数据插入

对一个表扫描一次，将多个结果插入到不同的表中

eg： stu_managed  
		age=18  age=19   stu_copy 
		age=18   age=20   stu_external

正常的写法：

insert into table stu_copy select * from stu_managed where age=18 or age=19;
insert into table stu_external select * from stu_managed where age=18 or age=20;

上面操作会对原始表 stu_managed扫描两次

优化写法：
对同一个表扫描只扫描一次，最终不同的结果插入到不同的表中

from tbname 
insert ...select ...where ...
insert ... select ...where...
:
from stu_managed 
insert into stu_copy select * where age=18 or age=19 
insert into stu_external select * where age=18 or age=20;

2.2数据导入

2.2.1数据导入——分区表的数据导入

注意：分区表数据无法直接导入，必须指定分区

1）静态分区导入

导入数据的时候是静态指定分区名，分区名导入数据的时候是写死的

缺陷：
一定要足够了解数据有哪些分区，如果数据很大，比如有2T，分区很多的时候这个方式不太适用了
适用：
分区数比较少、分区名固定的情况下，分区表进行读取数据的时候，前面的表字段正常从表对应的文件中读取，分区字段从导入数据的时候指定的分区字段读取分区字段存储在分区的目录上

①load的方式

可以向分区表导入数据，但是这个时候不会对导入的数据进行检查（本质就是数据文件的移动或复制）所以这种方式在进行分区表数据导入的时候要慎重，只有当你确定这个数据一定是这个分区的时候才可以这么使用，如果不确定则不可以使用这种方式；
生产上也会使用load方式进行导入数据，一般会按照日期建分区，数据采集一般也会按照日期存储。

②insert方式

先将原始数据导入到一个普通表（非分区表）中，再从这个表结果放到分区表中

单重数据插入

insert into table tbname partition (分区字段=分区值) select ... from....

注意：
a、分区表数据 insert插入的时候，select的字段的个数和顺序一定要和分区表的建表字段一致；
b、插入insert或导入load 数据到分区表的时候，分区已经存在直接将数据放在分区目录下，分区不存在则自动创建这个分区。

多重数据插入
对原始表扫描一次最终将数据插入到了多个分区中

from ...
insert ... select ... where ..
insert ... select .... where ...

注意：分区字段在进行查询的时候，按照普通字段查询就可以了

select * from stu_ptn where dept="MA";
只会扫描  /user/myhive/warehouse/test_1901.db/stu_ptn/dept=MA 分区下的数据
select * from stu_ptn where age=18;  全表扫描的

2）动态分区插入方式

根据分区字段的实际值进行动态生成分区名，这种方式插入数据只能使用insert的方式
语法：

insert into table tbname partition(分区字段名) select ... from ...

分区字段对应的值是根据select查询的数据来的，所以select中需要将分区字段查询出来

insert into table stu_ptn partition(dept) 
select sid,name,sex,age,dept from stu_copy;

此时会报错：

FAILED: SemanticException [Error 10096]: Dynamic partition strict
mode requires at least one static partition column. To turn this
off set hive.exec.dynamic.partition.mode=nonstrict

解决办法：
需要打开动态分区参数，默认没有打开动态分区

set hive.exec.dynamic.partition.mode=nonstrict;

注意： 分区表在建表的时候，会将分区字段放在最后

补充说明：
多级分区的时候，分区级别超过1级，分区字段的个数超过1个一般会按照日期建分区year/month/day；分区字段超过一个按照分区字段的顺序划分级别，前面的字段的级别高于后面的字段的级别

craete ... partitioned by(dept string,age int)...

分区：先按照dept分区，再按照age进行分区，最终目录是
stu_ptn02/dept=../age=..

2.2.2导入数据实例

1）两个分区都是静态分区

load和insert 均可，以insert为例

insert into table stu_ptn02 partition(dept="CS",age=18) 
select sid,name,sex from stu_copy where dept="CS" and age=18;

2）一静一动

注意： 静态分区必须是高级分区dept，高级分区必须是静态分区，低级分区为动态分区，否则语法报错
insert

insert into table stu_ptn02 partition(dept="MA",age) 
select sid,name,sex,age from stu_copy where dept="MA";
#目录结构如下：
/user/myhive/warehouse/test_1901.db/stu_ptn02/dept=MA/age=17

3）两个分区都是动态分区

insert

insert into table stu_ptn02 partition(dept,age) 
select sid,name,sex,dept,age from stu_copy;

2.2.2数据导入——分桶表的数据导入

1）load 方式

将表数据分成 3个文件存储
分桶依据： 分桶字段.hash % 分桶个数，0 1 2 针对每一条数据进行判断
原则上load方式不支持
load data local inpath “/home/hadoop/tmpdata/student.txt” into table stu_buk;
不支持load的只能insert

2）insert方式

分桶表插入数据：设置参数

set hive.strict.checks.bucketing=false;
set hive.mapred.mode=nonstrict;
insert into table stu_buk select * from stu_copy;

Number of reducers (= 3) is more than 1 默认设置reducetask的个数就是3个 == 桶的个数的
查询表stu_copy数据导入stu_buk的时候，会根据建表语句中指定的分桶字段分桶，分桶个数将数据分成3个
总结：

分桶表只能用insert方式
分桶规则
如果分桶字段整型，分桶字段 % 分桶个数；不是整型，分桶字段.hash % 分桶个数，余数相同的数据到同一个桶中

2.3数据导出

hive中提供将一个查询结果导出为一个文件

2.3.1单重数据导出

INSERT OVERWRITE [LOCAL] DIRECTORY 文件夹（本地的|hdfs） select_statemen

参数解释：
local 导出数据到本地
案例：

#本地：
insert overwrite local directory "/home/hadoop/hive_data" 
select * from stu_copy where age=18;
#hdfs：
insert overwrite directory "/home/hadoop/hive_data" 
select * from stu_copy where age=18;

2.3.2多重数据导出

扫描一次表，将不同的结果导出不同的目录下

from ... 
insert ...
insert ....

案例：

from stu_copy 
insert overwrite local directory "/home/hadoop/hive/age18" 
select * where age=18 
insert overwrite local directory "/home/hadoop/hive/age19" 
select * where age=19;

3、hive的DML之查询

语法顺序：

join  group by  order by  limit   where  having 
select .... from ... join...on...where...
group by...having....order by....limit ...

3.1join

注意：

join 支持等值，不支持非等值
支持and连接不支持or连接多个连接条件的时候

select * from a join b on a.id=b.id and a.name=b.name;  支持
select * from a join b on a.id=b.id or a.name=b.name;   不支持 mapkey不好设计

支持超过2个表的连接

3.1.1join的分类

3.1.1.1内连接 inner join | join

求两个表的连接键的交集,两个表都有返回

3.1.1.2外连接 outer join

左外 left outer join == left join
join 左侧表作为基础表，左侧表有的则返回，没有的不要了，左有右没有就补null

select * from a left join b on a.id=b.id; 
	结果
	1       zs      1       23
	2       ls      2       45
	4       ww      NULL    NULL

3.1.1.3右外 right outer join == right join

join 右侧表作为基础表，右表有的则返回，没有的不要了，右有左没有就补null

select * from a right join b on a.id=b.id;
结果：
1       zs      1       23
2       ls      2       45
NULL    NULL    3       56

3.1.1.4全外 full outer join == full join

求两个表的并集，两个表中有的所有的关联建都会返回，哪一个对应的关联建有数据，补充数据，没有数据补null

select * from a full join b on a.id=b.id;
结果：
1       zs      1       23
2       ls      2       45
NULL    NULL    3       56
4       ww      NULL    NULL

3.1.1.5半连接 semi join

左半连接 left semi join
mysql in/exits 判断字段值是否包含在我们给定的范围中

select * 
from a where id in (select id from b);
hive2中这个语句可以执行但是执行效率低  mapkey hive1中不支持

半连接就是高效解决 in /exists 问题

select * from a left semi join b on a.id=b.id;

最终取的结果a b进行内连接，取的是左半表；
最终返回的是a表中在b表中出现过的a所有的数据。
另一种实现方式：

select a.* from a join b on a.id=b.id;

内连接取左部分的表

3.2group by

group by后面的字段相同的分到一组中
注意：group by 使用的时候是有很大的限制的

3.2.1使用group by时select后面的字段(需要查询的字段)有严格的限制

只能跟两种类型的字段

1）group by的分组字段

select dept from stu_copy group by dept;

2)根据分组字段的进行的聚合函数

聚合函数多–>一条，如sum max avg min…

select dept,max(age) from stu_copy group by dept;
错误示范：
select dept,sid,max(age) from stu_copy group by dept;

3.2.2group by 的执行顺序在select 执行之前 group by中不能使用select中字段的别名

错误的
select dept d,max(age) from stu_copy group by d;
正确的：
select dept d,max(age) from stu_copy group by dept;

3.3where和having

where:
where是对聚合函数之前的数据进行过滤的，where就是为聚合函数准备数据，需要聚合的数据先进行一步过滤再聚合。
having:
执行顺序是在聚合函数之后，针对聚合之后的结果进行过滤。

3.4order by

注意： order by 的执行顺序在select之后，可以使用select中的别名
在hive中order by这个位置4个语法：

order by 用于全局排序，无论启动多少个reducetask最终全局有序
sort by 用于局部排序，每一个reducetask的运行结果有序的，不保证全局有序
distribute by 用于字段分配
reducetask的个数需要手动指定 set mapreduce.job.reduces=2;
按照指定的字段进行分配reducetask的数据
distribute by 分+ sort by 排序
需要指定字段进行分 reducetask （mapreduce 分区）指定字段排序

先要按照性别分成两个reducetask，再在每一个reducetask中按照年龄排序

select * from stu_copy distribute by sex sort by age;

划分依据： sex .hash % reducetasks
cluster by 用于先按照指定字段切分reducetask的数据再按照指定字段进行升序排序=distribute by 字段 + sort by 字段
调整 reducetask的个数：
set mapreduce.job.reduces=2;
当distribute by 的字段和sort by的字段一致的时候，并且升序可以使用cluster by 替换

按照age 切分，按照age升序

select * from stu_copy cluster by age;
select * from stu_copy distribute by age sort by age;

3.5limit

全局前几个，所有数据的前几个

select * from stu_copy limit 1;

补充：hql语句转换为mr时候日志中显示和解释

In order to change the average load for a reducer (in bytes):
	每一个reducer平均加载的字节数
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
	reducetask最大限制
  set hive.exec.reducers.max=<number>  1009 
In order to set a constant number of reducers:
	设置reducetask的个数的
  set mapreduce.job.reduces=<number>  -1 
  0  没有reducetask  需要的时候1 
  特例 分桶表插入数据的时候  reducetask=== 桶的个数

你可能感兴趣的:(hive)

linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那