Xiao Miao

Hive基础知识 02

文章目录

Hive基础知识
- 一、Hive表结构
- - 1.普通表结构
  - 2.分区表结构
  - 3.分桶表结构
- 二、Hive中的Join
- - 1.inner join：内连接
  - 2.left outer join：左外连接
  - 3.right outer join：右外连接
  - 4.full join：全连接
  - 5.map join
  - 6.Reduce Join
  - 7.Bucket Join
- 三、Select语法：order by与sort by
- - 1.Hive中ReduceTask个数
  - 2.order by
  - 3.sort by
  - 4.order by与sort by的功能与区别是？
- 四、Select语法：distribute by 与 cluster by
- - 1.distribute by
  - 2.distribute by和sort by一块使用
  - 3.cluster by
- 五、数据类型：Array
- - 1.生成数据
  - 2.创建表
  - 3.加载数据
  - 4.取出需要的数据
- 六、数据类型：Map
- - 1.生成数据
  - 2.创建表
  - 3.加载数据
  - 4.取出需要的数据
- 七、正则加载
- - 1.分隔符的问题
  - 2.处理方案
  - 3.正则加载
- 八、Hive中的函数：内置函数
- 九、Hive中的函数：自定义函数
- - 1.函数分类
  - 2.自定义UDF函数
  - 3.自定义UDAF与UDTF
- 十、Hive中的函数：parse_url_tuple
- 十一、Hive中的函数：lateral view
- 十二、Hive中的函数：explode

Hive基础知识

一、Hive表结构

创建表的格式：

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
(
    col1Name col1Type [COMMENT col_comment],
    co21Name col2Type [COMMENT col_comment],
    co31Name col3Type [COMMENT col_comment],
    co41Name col4Type [COMMENT col_comment],
    co51Name col5Type [COMMENT col_comment],
    ……
    coN1Name colNType [COMMENT col_comment]

)

[PARTITIONED BY (col_name data_type ...)]		--分区表结构

[CLUSTERED BY (col_name...) [SORTED BY (col_name ...)] INTO N BUCKETS] --分桶表结构

[ROW FORMAT row_format] -- 指定数据文件的分隔符
	row format delimited fields terminated by '列的分隔符' -- 列的分隔符，默认为\001
	lines terminated by '行的分隔符' --行的分隔符，默认\n
[STORED AS file_format] -- 指定文件的存储格式
[LOCATION hdfs_path] -- 用于指定表的目录所在位置，默认表的目录在数据库的目录下面

1.普通表结构

MapReduce处理的规则：
step1：检索元数据，找到表对应的HDFS目录
step2：将表的最后一级目录作为MapReduce程序的输入

结构：

Hive数据仓库目录/数据库目录/表的目录/数据文件

问题：如果是一张普通表的结构，手动将文件通过HDFS命令放入表的目录下，在表中能否读到？

可以，由于表的最后一级目录是普通目录，所以在表中可以读取到

应用：
默认创建的表都是普通表结构的
一般用于将原始的数据文件构建成表的结构

2.分区表结构

普通表结构的问题？
Map阶段要做大量无意义的过滤操作，导致浪费大量资源

2.1分区表结构的设计

设计思想：
将数据按照一定规则条件划分不同的目录进行分区存储
在查询时，可以根据查询条件在目录层次进行过滤，直接由MapReduce加载需要处理的数据的目录

本质：
提前将数据划分到不同的目录中存储
通过查询条件减少底层的MapReduce的输入的数据量，避免无用的过滤，提高性能

结构：

数据仓库目录/数据库目录/表的目录/分区目录/分区数据文件

应用：
最常用的表：分区外部表
分区的划分：一般都是按照时间划分的

2.2分区表结构的实现：

1.静态分区

数据文件本身就是就是按照分区规划好的，直接创建分区表，加载每个分区的数据即可
step1：直接创建分区表
step2：加载每一个文件到对应的分区中即可

创建分区表：

create table tb_emp_part1(
 empno string,
 ename string,
 job string,
 managerno string,
 hiredate string,
 salary double,
 jiangjin double,
 deptno string
) 
partitioned by (department int)
row format delimited fields terminated by '\t';

加载对应数据文件到对应的分区

load data local inpath '/export/data/emp10.txt' into table tb_emp_part1 partition (department=10);
load data local inpath '/export/data/emp10.txt' into table tb_emp_part1 partition (department=20);
load data local inpath '/export/data/emp10.txt' into table tb_emp_part1 partition (department=30);

测试SQL的执行计划：explain
普通表：

explain extended select count(*) as numb from tb_emp where deptno = 20;

分区表：

explain extended select count(*) as numb from tb_emp_part1 where department = 20;

查看元数据：
PARTITIONS

SDS

2.动态分区

数据本身没有按照分区的规则划分，需要通过程序实现自动动态划分
步骤：
step1：先创建一个普通表，加载整体的数据
tb_emp：普通表，所有部门的员工信息都在一个目录文件中

#1.创建员工表
create database db_emp;
use db_emp;
create table tb_emp(
empno string,
ename string,
job string,
managerid string,
hiredate string,
salary double,
jiangjin double,
deptno string
) row format delimited fields terminated by '\t';
#2.加载数据
load data local inpath '/export/data/emp.txt' into table tb_emp;

step2：创建分区表

create table tb_emp_part2(
  empno string,
  ename string,
  job string,
  managerno string,
  hiredate string,
  salary double,
  jiangjin double
) 
partitioned by (dept string)
row format delimited fields terminated by '\t';

开启动态分区：

set hive.exec.dynamic.partition.mode=nonstrict;

step3：将普通表的数据写入分区表，实现动态分区

insert into table tb_emp_part2 partition(dept) 
select ……,deptno from tb_emp ;

要求：查询语句一般不用select *，强制要求查询语句的最后一个字段作为分区字段的

3.多级分区

创建多级分区表

create table tb_ds_source(
id                      string,
url                     string,
referer                 string,
keyword                 string,
type                    string,
guid                    string,
pageId                  string,
moduleId                string,
linkId                  string,
attachedInfo            string,
sessionId               string,
trackerU                string,
trackerType             string,
ip                      string,
trackerSrc              string,
cookie                  string,
orderCode               string,
trackTime               string,
endUserId               string,
firstLink               string,
sessionViewNo           string,
productId               string,
curMerchantId           string,
provinceId              string,
cityId                  string,
fee                     string,
edmActivity             string,
edmEmail                string,
edmJobId                string,
ieVersion               string,
platform                string,
internalKeyword         string,
resultSum               string,
currentPage             string,
linkPosition            string,
buttonPosition          string
)
partitioned by (daystr string,hourstr string)
row format delimited fields terminated by '\t';

加载多级分区数据

load data local inpath '/export/data/2015082818' into table tb_ds_source partition (daystr='20150828',hourstr='18');
load data local inpath '/export/data/2015082819' into table tb_ds_source partition (daystr='20150828',hourstr='19');

查看分区目录：

show partitions  tb_ds_source;

分区是目录级别的，一个目录代表一个分区
目录的名称：分区字段 = 分区的值
分区的字段是逻辑的

3.分桶表结构

1.Join的问题
Map Join：性能比较好，适合于小表join大表
Reduce Join：通过Shuffle的分组来实现的，适合于大表join大表

2.分桶的设计
思想：将大的数据按照规则划分为多份小数据，每份小的数据都走Map Join，减少每条数据的比较次数，提高性能
功能：优化大表join大表的问题，分桶采样
本质：通过MapReduce底层的分区【Reduce的划分规则】将数据划分到多个文件中
每个文件 = 每个桶 = 每个Reduce
划分规则：Hash取余
分桶表字段是物理的
分桶表是文件级别的设计
分桶表的数据不能用load加载

结构：

数据仓库目录/数据库目录/表的目录/分桶的文件数据

将两张大表按照相同的规则进行分桶，实现分桶Join，桶与桶之间直接进行Map Join，减少比较次数，提高性能

流程：
step1：将两张表进行分桶
step2：实现Bucket Join
Hive会自动判断是否满足分桶Join的条件，如果满足就自动实现分桶Join

3.分桶的实现
语法：

clustered by col  [sorted by col] into N buckets
clustered by ：按照哪一列分桶
sorted by：每个桶的内部按照哪一列进行排序
N：分几个桶，代表底层写入数据就有几个reduce

开启配置

set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;

创建分桶表

create table tb_emp_bucket(
empno string,
ename string,
job string,
managerno string,
hiredate string,
salary double,
jiangjin double,
deptno string
) 
clustered by (deptno) into 3 BUCKETS
row format delimited fields terminated by '\t';

写入分桶表

insert overwrite table tb_emp_bucket
select * from tb_emp cluster by (deptno);

二、Hive中的Join

1.inner join：内连接

select
a.empno,
a.ename,
b.deptno,
b.dname
from
tb_emp a join tb_dept b on a.deptno = b.deptno;

特点：两边都有结果才有

2.left outer join：左外连接

select
a.empno,
a.ename,
b.deptno,
b.dname
from
tb_emp a left join tb_dept b on a.deptno = b.deptno;

特点：左边有，结果就有

3.right outer join：右外连接

select
a.empno,
a.ename,
b.deptno,
b.dname
from
tb_emp a right join tb_dept b on a.deptno = b.deptno;

特点：右边有，结果就有

4.full join：全连接

select
a.empno,
a.ename,
b.deptno,
b.dname
from
tb_emp a  full join tb_dept b on a.deptno = b.deptno;

5.map join

特点：将小表的数据放入分布式缓存，与大表的每个部分进行Join，发生在Map端，不用经过shuffle
场景：小表 join 小表，小表 join 大表
要求：必须有一张表是小表

实现规则:
Hive中默认会优先判断是否满足Map Join的条件
判断表的文件大小：小于25MB
如果满足，就自动走Map Join
如果不符合，自动走Reduce Join

6.Reduce Join

特点：利用Shuffle的分组来实现Join过程，发生在Reduce端，需要经过Shuffle
场景：大表join大表
要求：Hive中默认如果不满足Map Join，就自动走Reduce Join

7.Bucket Join

特点：将大的数据划分成多份小的数据，每个小数据就是一个桶，实现分桶join
场景：大表join大表，优化这个过程，如果你的Join多次
要求:
Bucket Map Join：普通的分桶join
两张表都是桶表,桶的个数成倍数,Join字段 = 分桶的字段
Bucket Sort Merge Map Join：基于排序的分桶Join
两张表都是桶表
桶的个数成倍数
Join字段 = 分桶的字段 = 排序的字段

三、Select语法：order by与sort by

1.Hive中ReduceTask个数

Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):\
#每个Reduce处理的数据量大小
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
#最多允许启动的reduce的个数
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
#设置reduce的个数
  set mapreduce.job.reduces=

#指定reduce个数为2
 set mapreduce.job.reduces=2;

2.order by

功能：全局排序

select empno,ename,deptno,salary from tb_emp order by salary desc;

问题：如果Reduce有多个，能否实现全局排序？

不能有多个Reduce，使用了order by，只会启动一个reduce

3.sort by

功能：局部排序
多个reduce场景下，每个reduce内部有序

select empno,ename,deptno,salary from tb_emp sort by salary desc;

将sql结果放入文件中

insert overwrite local directory '/export/data/sort' row format delimited fields terminated by '\t'
select empno,ename,deptno,salary from tb_emp sort by salary desc;

4.order by与sort by的功能与区别是？

order by：全局排序，只能有1个reduce
sort by：局部排序，多个reduce每个reduce局部排序

四、Select语法：distribute by 与 cluster by

1.distribute by

功能：由于干预底层的MapReduce，指定某个字段作为k2

#指定reduce个数为3
set mapreduce.job.reduces=3;

insert overwrite local directory '/export/data/distby' row format delimited fields terminated by '\t'
select empno,ename,deptno,salary from tb_emp distribute by deptno;

2.distribute by和sort by一块使用

insert overwrite local directory '/export/data/distby' row format delimited fields terminated by '\t'
select empno,ename,deptno,salary from tb_emp distribute by deptno sort by salary desc;

应用：

distribute by 1					=>		用于将所有数据进入一个Reduce中
distribute by rand()			=> 		实现随机分区，避免数据倾斜

3.cluster by

功能：如果distribute by与sort by是同一个字段，可以使用cluster by代替

五、数据类型：Array

1.生成数据

#1.创建一个array.txt
vim /export/data/array.txt
#2.添加数据
zhangsan	beijing,shanghai,tianjin
wangwu	shanghai,chengdu,wuhan,haerbin

2.创建表

#1.创建db_complex数据库
create database db_complex;
use db_complex;
#2.创建complex_array表
create table if not exists complex_array(
name string,
work_locations array
)
row format delimited fields terminated by '\t'
COLLECTION ITEMS TERMINATED BY ',';

COLLECTION ITEMS TERMINATED BY ‘,’ ; 用于指定数组中每个元素的分隔符

3.加载数据

load data local inpath '/export/data/array.txt' into table complex_array;

4.取出需要的数据

#1.统计每个用户工作过的城市个数
select name,size(work_locations) as numb from complex_array;
#2.取出数组中单独的元素
select name,work_locations[0],work_locations[1] from complex_array;

六、数据类型：Map

1.生成数据

#1.创建一个amp.txt
vim /export/data/map.txt
#2.添加数据
1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般般
2,lisi,打游戏:非常喜欢-篮球:不喜欢

2.创建表

create table if not exists complex_map(
id int,
name string,
hobby map
)
row format delimited fields terminated by ','
COLLECTION ITEMS TERMINATED BY '-' MAP KEYS TERMINATED BY ':';

COLLECTION ITEMS TERMINATED BY ‘-’
用于划分每个KV对
MAP KEYS TERMINATED BY ‘:’;
用户划分K和V的

3.加载数据

load data local inpath '/export/data/map.txt' into table complex_map;

4.取出需要的数据

#1.统计每个人有几个兴趣爱好
select name,size(hobby) as numb from complex_map;
#2.取出每个人对唱歌的喜好程度
select name,hobby["唱歌"] as deep from complex_map;

七、正则加载

Hive不支持多字节分隔符

1.分隔符的问题

数据中的列的分隔符||
数据中每列的分隔符不一致
数据字段中包含了分隔符

2.处理方案

方案一：先做ETL，需要先开发一个程序来实现数据的处理，将处理的结果再加载到Hive表中
通过程序替换分隔符
方案二：Hive官方提供了正则加载的方式
通过正则表达式来匹配每一条数据中的每一列

3.正则加载

生成数据

#1.创建一个regex.txt
vim /export/data/regex.txt
#2.添加数据
2019-08-28 00:03:00 tom
2019-08-28 10:00:00 frank
2019-08-28 11:00:00 jack
2019-08-29 00:13:23 tom
2019-08-29 10:00:00 frank
2019-08-30 10:00:00 tom
2019-08-30 12:00:00 jack

创建表

正常创建

#1.创建表regex1
create table regex1(
timestr string,
name string
) row format delimited fields terminated by ' ';
#2.加载数据
load data local inpath '/export/data/regex.txt' into table regex1;

正则加载

#1.创建表regex2
create table regex2(
timestr string,
name string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^}]*) ([^ ]*)"
)
STORED AS TEXTFILE;
#2.加载数据
load data local inpath '/export/data/regex.txt' into table regex2;

八、Hive中的函数：内置函数

#1.查看函数
show functions;
#2.查看函数的用法
desc function  [extended] funName;
#3.常用函数
#3.1聚合函数
count、sum、avg、max、min
#3.2条件函数
if、case when
#3.3字符串函数
截取：substring，substr
拼接：concat、concat_ws
分割：split
查找：instr
替换：regex_replace
长度：length
#3.4日期函数
转换：unix_timestamp、from_unixtime
日期：current_date，date_sub，date_add
获取：year、month、day、hour
#4.特殊函数
JSON：json_tuple，get_json_object
URL：parse_url，parse_url_tuple
窗口函数：
聚合窗口：sum、count……
位置窗口：lag、lead、first_value，last_value
分析函数：row_number、rank、dense_rank

九、Hive中的函数：自定义函数

1.函数分类

UDF：一对一函数，类似于substr
UDAF：多对一函数，类似于聚合函数：count
UDTF：一对多函数，explode将一行中的每个元素变成一行

2.自定义UDF函数

需求：24/Dec/2019:15:55:01 -> 2019-12-24 15:55:01
step1：自定义一个类，继承UDF类
step2：在类中至少实现一个evaluate方法定义处理数据的逻辑
step3：打成jar包，添加到hive的环境变量中

add jar /export/data/udf.jar;

step4：将类注册为函数

create temporary function transFDate as 'com.miao.hive.udf.UserUDF';

step5：调用函数

select transFDate("24/Dec/2019:15:55:01");

3.自定义UDAF与UDTF

UDAF
step1：将类注册为函数

create temporary function  userMax as 'com.miao.hive.udaf.UserUDAF';

step2：调用函数

select userMax(cast(deptno as int)) from db_emp.tb_dept;

cast：强制类型转换函数

cast(列 as 类型)

UDTF
step1：将类注册为函数

create temporary function  transMap as 'com.miao.hive.udtf.UserUDTF';

step2：调用函数

select transMap("uuid=root&url=www.taobao.com") as (userCol1,userCol2);

十、Hive中的函数：parse_url_tuple

#1.创建lateral.txt文件
vim /export/data/lateral.txt
#2.添加数据
1	http://facebook.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu
#3.创建表
create table tb_url(
id int,
url string
) row format delimited fields terminated by '\t';
#4.加载数据
load data local inpath '/export/data/lateral.txt' into table tb_url;

1.parse_url：用于解析URL，每次只能解析一个元素
2.parse_url_tuple：用于解析URL，是一个UDTF函数，一次解析多个元素
3.语法：

select parse_url(url,'HOST') from tb_url;
select parse_url(url,'PATH') from tb_url;
select parse_url(url,'QUERY') from tb_url;
select parse_url_tuple(url,'HOST','PATH','QUERY') from tb_url;

十一、Hive中的函数：lateral view

1.UDTF函数的问题
udtf只能直接select中使用，不可以添加其他字段使用，不可以嵌套调用，不可以和group by/cluster by/distribute by/sort by一起使用

2.lateral view
搭配UDTF函数使用，将UDTF函数的结果变成类似于视图的表，方便与原表进行操作

语法：

select …… from tabelA lateral view UDTF(xxx) 别名 as col1,col2,col3……

十二、Hive中的函数：explode

1.explode功能
将集合类型中集合的每个元素变成一行
语法：

explode( Map | Array)

2.用法
单独使用

select explode(work_locations) as loc from complex_array;
select explode(hobby) from complex_map;

侧视图连用

select 
a.id,
a.name,
b.*
from complex_map a lateral view explode(hobby) b as hobby,deep;

你可能感兴趣的:(Hive,hive)

required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&