欧叶冲冲冲

【大数据】Hive函数➕分区分桶表➕hive文件格式和压缩

目录

前言

一、函数

1. 单行函数

1.1. 算数、数值函数

1.2. 字符串函数（10种）

1.3 日期函数（9点）

1.4 流程控制函数（case、if）

1.5 集合函数（3大类）

2. 高级聚合函数（collect_list、collect_set）

3. 炸裂函数（UDTF）

3.1. 四种常用的UDTF（拆开集合）

3.2. Lateral View（串成一个虚拟表）

4. 窗口函数（开窗函数）

4.1. 基本概念、语法

4.2. 窗口

4.3. 常用窗口函数（聚合、跨行取值、排名函数）

5. 自定义UDF函数

二、分区表和分桶表（存储角度优化）

1. 分区表

1.2. 基本语法（创建、查看、插入、删除）

1.2. 修复分区

1.3. 二级分区表

1.4. 动态分区

2. 分桶表

2.1. 基本语法

2.2. 分桶排序表

三、文件格式和压缩

1. Hadoop压缩概述

2. Hive文件格式（orc/parquet）

2.1. Text File（默认使用）

2.2. ORC（用的多）

2.3. Parquet（同样用的多）

3. 压缩（推荐snappy）

3.1. Hive表数据进行压缩（textfile/orc/parquet）

3.2. 计算过程中使用压缩（2种）

总结

前言

hive打开本地模式sql语句（所有语句都走本地模式）：set mapreduce.framework.name=local;

一、函数

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。

好处：避免用户反复写逻辑，可以直接拿来使用。

重点：用户需要知道函数叫什么，能做什么。

Hive提供了大量的内置函数，按照其特点可大致分为如下几类：单行函数、聚合函数、炸裂函数、窗口函数

查看函数语法：

-- 查看系统内置函数
show functions;
--查看内置函数用法
desc function upper;
-- 查看内置函数详细信息
desc function extended upper;

1. 单行函数

单行函数的特点是一进一出，即输入一行，输出一行。单行函数按照功能可分为如下几类: 日期函数、字符串函数、集合函数、数学函数、流程控制函数等

1.1. 算数、数值函数

算术运算函数

数值函数

-- round：四舍五入
select round(3.3);   -- 3
select round(1.123456,2);  -- 1.12
select round(-1.5);  -- -2

-- ceil：向上取整
select ceil(3.1);   -- 4
-- floor：向下取整
select floor(4.8);  -- 4

1.2. 字符串函数（10种）

1️⃣ substring：截取字符串

-- 返回字符串A从start位置（从1开始）到结尾的字符串
substring(string A, int start)

-- 返回字符串A从start位置（从1开始）开始，长度为len的字符串
substring(string A, int start, int len)

2️⃣ replace ：替换（全局替换）

-- 将字符串A中的子字符串B替换为C
replace(string A, string B, string C)

select replace('atguigu', 'a', 'A9')
-- 输出：
A9tgigu

3️⃣ regexp_replace：正则替换，正则可视化网站点击前往

-- 将字符串A中的符合java正则表达式B的部分替换为C，在有些情况下要使用转义字符
select regexp_replace('114-514', '\\d{1,}', 'homo')
-- 输出：
homo-homo

4️⃣ regexp_replace：正则匹配

-- 若字符串符合正则表达式，则返回true，否则返回false
select 'dfsaaaa' regexp 'dfsb+';
-- 输出：
false

类似于like能做出判断select "string" like '%str%';不同的是like里面的是通配表达式，这里是正则表达式

5️⃣ repeat：重复字符串，语法：repeat(string A, int n)

-- 将字符串A重复n遍
select repeat('123', 3);
-- 输出：
123123123

6️⃣ split ：字符串切割，语法：split(string str, string pat)

-- 按照正则表达式pat匹配到的内容分割str，分割后的字符串，以数组的形式返回
select split('a-b-c-d','-');
-- 输出：
["a","b","c","d"]

7️⃣ nvl ：替换null值，语法：nvl(A,B)

select nvl(null,1); 
-- 输出：
1
-- 非null值输出第一个数
select nvl(66,99);
select nvl(99,66);
-- 给字段默认值(col为null)
select nvl(col,1);

8️⃣ concat：拼接字符串，语法：concat(string A, string B, string C, ……)，特殊符号||也有拼接作用

select concat('beijing','-','shanghai','-','shenzhen');
select 'beijing'||'-'||'shanghai'||'-'||'shenzhen'
-- 输出：
beijing-shanghai-shenzhen

9️⃣ concat_ws：以指定分隔符拼接字符串或者字符串数组，语法：concat_ws(string A, string…| array(string))

select concat_ws('-','beijing','shanghai','shenzhen');
select concat_ws('-',array('beijing','shanghai','shenzhen'));
-- 输出：
beijing-shanghai-shenzhen

get_json_object：解析json字符串，语法：get_json_object(string json_string, string path)

-- 解析json的字符串json_string，返回path指定的内容。如果输入的json字符串无效，那么返回NULL

-- 获取数组元素中的信息
select get_json_object('[{"name":"大海海","sex":"男","age":"25"},{"name":"小宋宋","sex":"男","age":"47"}]','$[1].name');
-- 输出：
小宋宋

-- 获取json数组里面的数据
select get_json_object('[{"name":"大海海","sex":"男","age":"25"},{"name":"小宋宋","sex":"男","age":"47"}]','$.[0]');
-- 输出：
{"name":"大海海","sex":"男","age":"25"}

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它有以下一些主要特点和用途:

结构清晰和易于理解:JSON采用完全独立于编程语言的文本格式,使得JSON数据在各种系统之间传输变得更简单。
语法简单:JSON的语法是JavaScript对象表示法的子集,数据在中括号{}内,采用名称/值对的形式,通过逗号分隔。
轻量和高效:相比XML,JSON更小更快,且解析起来没有那么复杂。这使得它更适合在Web环境中传输数据。
通用性强:JSON格式 standardized,并得到广泛支持。目前几乎所有编程语言和主流Web框架都提供了对JSON的支持。

主要应用场景:

作为数据交换的格式,用于服务端与客户端、后端与前端的通信交互。
存储服务端的数据,如配置文件、用户信息、产品数据等。
用于NoSQL数据库中存储和表示文档数据。
作为参数传递格式,用于AJAX请求或服务请求。
用于日志文件或监控指标采集数据。

所以总的来说,JSON是一个轻量级的文本数据格式,由于其简单易用的特点,广泛应用于现代软件系统中的数据存储、传输和交互。它大大提高了系统与系统,服务与客户端之间的数据交换能力。

了解学习json

1.3 日期函数（9点）

1️⃣ unix_timestamp：返回当前或指定时间的时间戳（UTC，0时区为准），语法：unix_timestamp()，返回值：bigint

-- 指定时间（0时区的）
select unix_timestamp('2023/08/30 11-30-08','yyyy/MM/dd HH-mm-ss');  
-- 输出：
1693395008

2️⃣ from_unixtime：转化UNIX时间戳（从 1970-01-01 00:00:00 UTC 到指定时间的秒数）到当前时区的时间格式，语法：from_unixtime(bigint unixtime[, string format])，返回值：string

select from_unixtime(1659946088);   
-- 输出：
2022-08-08 08:08:08

解决UTC导致的时区不一致问题

-- 先获取当前时间戳
select unix_timestamp();

-- 转化
select from_utc_timestamp(cast(1693367059 as bigint)*1000,'GMT+8');
-- 输出：
2023-08-30 11:44:19.000000000

-- 格式化
select date_format(from_utc_timestamp(cast(1693367059 as bigint)*1000,'GMT+8'),'yyyy/MM/dd HH:mm:ss');
-- 输出：
2023/08/30 11:44:19

3️⃣ current_date：当前日期

select current_date();     
-- 输出：
2023-08-30

4️⃣ current_timestamp：当前的日期加时间，并且精确的毫秒

select current_timestamp();   
-- 输出：
2023-08-30 12:05:28.636000000

5️⃣year/month/day/hour：获取日期中的年/月/日/时信息

select year('2022-08-08 08:08:08');
select month('2022-08-08 08:08:08');
select day('2022-08-08 08:08:08');
select hour('2022-08-08 08:08:08');
-- 输出：
2022
8
8
8

6️⃣ datediff：两个日期相差的天数（结束日期减去开始日期的天数），语法：datediff(string enddate, string startdate)，返回值：int

select datediff('2023-08-30','2003-05-16');     
-- 输出：
7411

8️⃣ date_add/sub：日期加/减天数，语法：date_add/sub(string startdate, int days)，返回值：string

select date_add('2023-08-30',2);   
-- 输出：
2023-09-01

select date_sub('2023-08-30',7); 
-- 输出：
2023-08-23

9️⃣ date_format：将标准日期解析成指定格式字符串

select date_format('2022-08-08','yyyy年-MM月-dd日')   
-- 输出：
2022年-08月-08日

1.4 流程控制函数（case、if）

1️⃣ case when：条件判断函数

-- 语法一：
case when a then b [when c then d]* [else e] end 
-- 语法二：
case a when b then c [when d then e]* [else f] end

举个例子：

select
	stu_id,
	course_id,
	case
		when score>=90 then 'A'
		when score>=80 then 'B'
		when score>=70 then 'C'
		when score>=60 then 'D'
		else '不及格'
	end
from beginner.score_info;

-- 第二种写法(仅限于同一字段)：
select
	stu_id,
	course_id,
	case score
		when 90 then 'A'
		when 80 then 'B'
		when 70 then 'C'
		when 60 then 'D'
		else '不及格'
	end
from beginner.score_info;

2️⃣ if: 条件判断，类似于Java中三元运算符，语法：if(boolean testCondition, T valueTrue, T valueFalseOrNull)

select if(10>5,'true','false');

1.5 集合函数（3大类）

数组相关

1️⃣ array：声明array集合，语法：array(val1, val2, …)

-- 根据输入参数构建array类
select array('1','1','4','5','1','4');
-- 输出：
["1","1","4","5","1","4"]

2️⃣ array_contains：判断array中是否包含某个元素

 select array_contains(array('a','b','c','d'),'a');
-- 输出：
true

3️⃣ sort_array：将array中的元素排序（默认升序）

select sort_array(array('c','d','a'));
-- 输出：
["a","c","d"]

4️⃣ size：集合中元素的个数（数组长度计算）

select size(array(1,4,5,98));
-- 输出：
4

map相关

1️⃣ map：创建map集合，语法：map(key1, value1, key2, value2, …)

select map('xiaohai',1,'dahai',2);  
-- 输出：
{"xiaohai":1,"dahai":2}

2️⃣ map_keys/values：返回map中的key/values

select map_keys(map('xiaohai',1,'dahai',2));
-- 输出：
["xiaohai","dahai"]

select map_values(map('xiaohai',1,'dahai',2));
-- 输出：
[1,2]

结构体相关

1️⃣ struct：声明struct中的各属性，语法：struct(val1, val2, val3, …)

select struct('name','age','weight');
-- 输出：
{"col1":"name","col2":"age","col3":"weight"}

2️⃣ named_struct：声明struct的属性和值

select named_struct('name','xiaosong','age',18,'weight',80);
-- 输出：
{"name":"xiaosong","age":18,"weight":80}

单行函数案例视频讲题，巩固所学

2. 高级聚合函数（collect_list、collect_set）

多进一出 （多行传入，一个行输出）

1️⃣ collect_list：收集并形成list集合，结果不去重

select 
  sex,
  collect_list(job)
from
  employee
group by 
  sex;
  
-- 输出：
女	["行政","研发","行政","前台"]
男	["销售","研发","销售","前台"]

2️⃣ collect_set：收集并形成set集合，结果去重

select 
  sex,
  collect_set(job)
from
  employee
group by 
  sex;
  
-- 输出：
女	["行政","研发","前台"]
男	["销售","研发","前台"]

3. 炸裂函数（UDTF）

UDTF (Table-Generating Functions)，接收一行数据，输出一行或多行数据，也叫做制表函数

3.1. 四种常用的UDTF（拆开集合）

常用UDTF——explode(ARRAY a)

语法：select explode(array('a','b','c')) as item

常用UDTF——explode(MAP m)

语法：select explode(map('a','1','b',2,'c',3)) as (key,value);

常用UDTF——pseexplode(ARRAY a)

语法：select posexplode(array('a','b','c')) as (pos,item);

常用UDTF——inline(ARRAY>a)

语法：select inline(array(named_struct('id',1,'name','zs'),named_struct('id',2,'name','ls'),named_struct('id',3,'name','ww'))) as (id,name);

3.2. Lateral View（串成一个虚拟表）

定义：Latera View通常与UDTF配合使用。Lateral View可以将UDTF应用到源表的每行数据，将每行数据转换为一行或多行，并将源表中每行的输出结果与该行连接起来，形成一个虚拟表

语法（得取别名）：

select 
	id,
	name,
	hobbies,
	hobby 
from person 
lateral view explode(hobbies) tmp as hobby;

其中tmp是炸出来的数据的别名，穿成一串叫做hobby,多串用逗号分隔，构成一个虚拟表

案例演示：

实现：

select
	cate,
	count(*)
from
(
	select
		movie,
		split(category,',') category
	from movie_info
) t1 lateral view explode(category) tmp as cate
group by cate;

4. 窗口函数（开窗函数）

4.1. 基本概念、语法

窗口函数，能为每行数据划分一个窗口，然后对窗口范围内的数据进行计算，最后将计算结果返回给该行数据

语法：窗口函数的语法中主要包括“窗口”和“函数”两部分。其中“窗口”用于定义计算范围，“函数”用于定义计算逻辑。

select
	order_id,
	order_data,
	amount,
	函数(amount) over (窗口范围) total_amount
from order_info;

4.2. 窗口

窗口：窗口范围的定义分为两种类型，一种是基于行的（是看计算时的行关系并非看到的表中的，因此必须排序保证字段顺序一致），一种是基于值的。

窗口语法——基于行（rows）
窗口语法——基于值（range）
窗口语法——分区
窗口语法——缺省

4.3. 常用窗口函数（聚合、跨行取值、排名函数）

聚合函数：绝大多数的聚合函数都可以配合窗口使用，例max(),min(),sum(),count(),avg()等，因为是多行输入、一行输出

跨行取值函数（2种）

lead和lag
first_value和last_value

排名函数（rank(113)、dense_rand(112)、row_number(123)均不支持自定义窗口）

窗口函数案例演示视频传送门

别光看啊，快来刷题！！！

5. 自定义UDF函数

Hive自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数UDF：user-defined function参考官方文档

根据用户自定义函数类别分为以下三种：

UDF（User-Defined-Function）
一进一出，单行函数
UDAF（User-Defined Aggregation Function）
用户自定义聚合函数，多进一出。类似于：count/max/min
UDTF（User-Defined Table-Generating Functions）
用户自定义表生成函数，一进多出。如lateral view explode()

自定义函数编程步骤：

继承Hive提供的类

org.apache.hadoop.hive.ql.udf.generic.GenericUDF
org.apache.hadoop.hive.ql.udf.generic.GenericUDTF

实现类中的抽象方法
在hive的命令行窗口创建函数

-- 添加jar。
add jar linux_jar_path
-- 创建function。
create [temporary] function [dbname.]function_name AS class_name;

-- 在hive的命令行窗口删除函数的命令
drop [temporary] function [if exists] [dbname.]function_name;

需求：自定义一个UDF实现计算给定基本数据类型的长度（hive(default)> select my_len("abcd"); -- 4）点击前往代码视频讲解！

在idea中创建一个Maven工程，并导入依赖（hive3.1.3）

    <dependencies>
        <dependency>
            <groupId>org.apache.hivegroupId>
            <artifactId>hive-execartifactId>
            <version>3.1.3version>
        dependency>
    dependencies>

创建一个类

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

public class myLength extends GenericUDF {


    /**
     * 判断传进来的参数类型和长度
     * 约定返回的数据类型
     * @param objectInspectors
     * @return
     * @throws UDFArgumentException
     */
    @Override
    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {
        if(objectInspectors.length != 1){
            throw new UDFArgumentException("只接受一个参数");
        }
        ObjectInspector argument = objectInspectors[0];
        if(!argument.getCategory().equals(ObjectInspector.Category.PRIMITIVE)){
            throw new UDFArgumentException("只接受基本数据类型");
        }
        PrimitiveObjectInspector primitiveObjectInspector = (PrimitiveObjectInspector) argument;
        if(!primitiveObjectInspector.getPrimitiveCategory().equals(PrimitiveObjectInspector.PrimitiveCategory.STRING)){
            throw new UDFArgumentException("只接受String类型");
        }
        return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
    }

    /**
     * 解决具体逻辑
     * @param deferredObjects
     * @return
     * @throws HiveException
     */
    @Override
    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {

        DeferredObject argument = deferredObjects[0];
        Object o = argument.get();
        if(o==null)
        {
            return 0;
        }

        return o.toString().length();
    }

    /**
     * 用于获取解释的字符串
     * @param strings
     * @return
     */
    @Override
    public String getDisplayString(String[] strings) {
        return null;
    }
}

临时函数和永久函数

创建临时函数：临时函数只跟会话有关系，跟库没有关系。只要创建临时函数的会话不断，在当前会话下，任意一个库都可以使用，其他会话全都不能使用

# 打成jar包上传到服务器
/opt/module/datas/hiveTest-1.0-SNAPSHOT.jar
# 将jar包添加到hive的classpath，hive中执行使其临时生效
add jar /opt/module/datas/hiveTest-1.0-SNAPSHOT.jar
# 创建临时函数与开发好的java class关联(找到对应的全类名)
create temporary function my_len as "com.xxxx.hive.udf.myLength";

就可在hive中使用自定义的临时函数

hive> select my_len(1);
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '1': 只接受String类型

hive> select my_len(1,2);
FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '2': 只接受一个参数

hive> select my_len("aaa");
OK
3
Time taken: 2.37 seconds, Fetched: 1 row(s)

-- 删除临时函数
drop temporary function my_len;

永久函数：我们选择把路径放置到HDFS上，上传好jar包，永久函数跟会话没有关系，创建函数的会话断了以后，其他会话也可以使用。永久函数创建的时候，在函数名之前需要自己加上库名，如果不指定库名的话，会默认把当前库的库名给加上。永久函数使用的时候，需要在指定的库里面操作，或者在其他库里面使用的话加上，库名.函数名。

-- hive中执行
create function my_len
as "com.xxxx.hive.udf.myLength"
using jar "hdfs://hadoop102:8020/udf/hiveTest-1.0-SNAPSHOT.jar";

-- 永久函数名字上会加上数据库名，在那个数据库中不用加也能用
show function like '*my_len*';
select my_len("123")；
drop function my_len;

二、分区表和分桶表（存储角度优化）

1. 分区表

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多

1.2. 基本语法（创建、查看、插入、删除）

set mapreduce.framework.name=local;
-- 创建分区表(未指定路径默认在HDFS中/user/hive/warehouse/partition bucket.db路径下)
create table dept_partition
(
    deptno int,    --部门编号
    dname  string, --部门名称
    loc    string  --部门位置
)
partitioned by (day string)
row format delimited fields terminated by '\t';

-- 可以将分区字段看作表的伪列，可像使用其他字段一样使用分区字段
select * from dept_patition;

-- 写入数据（load/insert）
-- 1. 数据准备
vim /opt/module/datas/dept_20990401.log
10	行政部	1700000
20	财务部	1800
-- 2. 装载语句
load data local inpath '/opt/module/datas/dept_20990401.log' 
into table dept_partition partition(day='20990401');

-- insert+select
insert overwrite table dept_partition partition (day = '20990402') select deptno, dname, loc from dept_partition
where day = '20990401';

-- 查看所有分区信息
show partitions dept_partition;

-- 创建单个分区
alter table dept_partition add partition(day='20220403');

-- 同时创建多个分区（分区之间不能有逗号）
alter table dept_partition add partition(day='20220404') partition(day='20220405');

-- 删除单个分区（HDFS也会删除因为默认是内部表）
alter table dept_partition drop partition (day='20220403');

-- 同时删除多个分区（分区之间必须有逗号）
alter table dept_partition drop partition (day='20220404'), partition(day='20220405');

1.2. 修复分区

Hive将分区表的所有分区信息都保存在了元数据中，只有元数据与HDFS上的分区路径一致时，分区表才能正常读写数据。若用户手动创建/删除分区路径，Hive都是感知不到的，这样就会导致Hive的元数据和HDFS的分区路径不一致。再比如，若分区表为外部表，用户执行drop partition命令后，分区元数据会被删除，而HDFS的分区路径不会被删除，同样会导致Hive的元数据和HDFS的分区路径不一致。可通过如下几种手段进行修复。

add partition：若手动创建HDFS的分区路径，Hive无法识别，可通过alter table dept_partition add partition (day='20220403'); 命令增加分区元数据信息，从而使元数据和分区路径保持一致。
drop partition：若手动删除HDFS的分区路径，Hive无法识别，可通过drop partition命令删除分区元数据信息，从而使元数据和分区路径保持一致。
msck：若分区元数据和HDFS的分区路径不一致，还可使用msck命令进行修复，以下是该命令的用法说明。

-- 语法说明
msck repair table table_name [add/drop/sync partitions];

-- 说明：都是增加元数据hive端的信息
msck repair table dept_partition add partitions; --该命令会增加HDFS路径存在但元数据hive部分缺失的分区信息。
msck repair table dept_partition drop partitions; --该命令会删除HDFS路径已经删除但元数据仍然存在的分区信息。
msck repair table dept_partition sync partitions;  --该命令会同步HDFS路径和元数据分区信息，相当于同时执行上述的两个命令。
msck repair table table_name;  --等价于msck repair table table_name add partitions命令。

1.3. 二级分区表

如果一天内的日志数据量也很大，如何再将数据拆分?答案是二级分区表，例如可以在按天分区的基础上，再对每天的数据按小时进行分区

语法说明：

-- 建表语句
create table dept_partition2(
    deptno int,    -- 部门编号
    dname string, -- 部门名称
    loc string     -- 部门位置
)
partitioned by (day string, hour string)
row format delimited fields terminated by '\t';

--  数据装载语句
load data local inpath '/opt/module/hive/datas/dept_20220401.log' into table dept_partition2 partition(day='20220401', hour='12');

-- 查询分区数据
select 
    * 
from dept_partition2 
where day='20220401' and hour='12';

1.4. 动态分区

动态分区是指向分区表insert数据时，被写往的分区不由用户指定，而是由每行数据的最后一个字段的值来动态的决定。使用动态分区，可只用一个insert语句将数据写入多个分区

相关参数：

-- 动态分区功能总开关（默认true，开启）
set hive.exec.dynamic.partition=true

-- 严格模式和非严格模式
-- 动态分区的模式，默认strict（严格模式），要求必须指定至少一个分区为静态分区
-- nonstrict（非严格模式）允许所有的分区字段都使用动态分区
set hive.exec.dynamic.partition.mode=nonstrict

-- 一条insert语句可同时创建的最大的分区个数，默认为1000
set hive.exec.max.dynamic.partitions=1000

-- 单个Mapper或者Reducer可同时创建的最大的分区个数，默认为100
set hive.exec.max.dynamic.partitions.pernode=100

-- 一条insert语句可以创建的最大的文件个数，默认100000
hive.exec.max.created.files=100000

-- 一条insert语句可以创建的最大的文件个数，默认100000
hive.error.on.empty.partition=false

案例实操：将dept表中的数据按照地区（loc字段），插入到目标表dept_partition_dynamic的相应分区中

-- 创建目标分区表
create table dept_partition_dynamic(
    id int, 
    name string
) 
partitioned by (loc int) 
row format delimited fields terminated by '\t';

-- 设置动态分区
set hive.exec.dynamic.partition.mode = nonstrict;

-- 由于是动态分区只需要声明分区字段即可，select要多写一个字段
insert into table dept_partition_dynamic 
partition(loc) 
select 
    deptno, 
    dname, 
    loc 
from dept;

-- 查看目标分区表的分区情况
show partitions dept_partition_dynamic;

2. 分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分，分区针对的是数据的存储路径，分桶针对的是数据文件。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的hash值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）

2.1. 基本语法

-- 建表语句（分区要指定没有在create中的字段，而分桶表指定在create中的字段）
create table stu_bucket(
    id int, 
    name string
)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';

-- 数据准备
vim /opt/module/datas/student.txt
1001	student1
1002	student2
1003	student3
1004	student4
1005	student5
1006	student6
1007	student7
1008	student8
1009	student9
1010	student10
1011	student11
1012	student12
1013	student13
1014	student14
1015	student15
1016	student16

-- 导入数据到分桶表中（4个文件）
load data local inpath '/opt/module/datas/student.txt' 
into table stu_bucket;

-- File information - 000000_0
1016	student16
1012	student12
1008	student8
1004	student4

-- File information - 000001_0
1009	student9
1005	student5
1001	student1
1013	student13

-- File information - 000002_0
1010	student10
1002	student2
1006	student6
1014	student14

-- File information - 000003_0
1003	student3
1011	student11
1007	student7
1015	student15

2.2. 分桶排序表

-- 分桶字段和排序字段不要求一致
create table stu_bucket_sort(
    id int, 
    name string
)
clustered by(id) sorted by(id) into 4 buckets
row format delimited fields terminated by '\t';

-- 导入数据
load data local inpath '/opt/module/datas/student.txt'  into table stu_bucket_sort;

-- File information - 000000_0
1004	student4
1008	student8
1012	student12
1016	student16

-- File information - 000001_0
1001	student1
1005	student5
1009	student9
1013	student13

-- File information - 000002_0
1002	student2
1006	student6
1010	student10
1014	student14

-- File information - 000003_0
1003	student3
1007	student7
1011	student11
1015	student15

三、文件格式和压缩

hive底层是在HDFS上的，HDFS支持哪些压缩算法，hive就支持哪些，跟Hadoop保持一致，当成Hadoop的一个客户端，跟HDFS和YARN打交道

1. Hadoop压缩概述

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示：

Hadoop查看支持压缩的方式：hadoop checknative，Hadoop在 driver端可以设置压缩

点击查看Hadoop压缩格式

2. Hive文件格式（orc/parquet）

为Hive表中的数据选择一个合适的文件格式，对提高查询性能的提高是十分有益的。Hive表数据的存储格式，可以选择text file、orc、parquet、sequence file等

2.1. Text File（默认使用）

文本文件是Hive默认使用的文件格式，文本文件中的一行内容，就对应Hive表中的一行记录。非要显示的话，可通过以下建表语句指定文件格式为文本文件:

2.2. ORC（用的多）

ORC（Optimized Row Columnar）file format是Hive 0.11版里引入的一种列式存储的文件格式。ORC文件能够提高Hive读写数据和处理数据的性能。与列式存储相对的是行式存储，下图是两者的对比：

行存储的特点

查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

列存储的特点（查得多)

因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

前文提到的text file和sequence file都是基于行存储的，orc和parquet是基于列式存储的。

orc文件的具体结构如下图所示：

orc文件结构解读：每个Orc文件由Header、Body和Tail三部分组成。

其中Header内容为ORC，用于表示文件类型。
Body由1个或多个stripe组成，每个stripe一般为HDFS的块大小，每一个stripe包含多条记录，这些记录按照列进行独立存储，每个stripe里有三部分组成，分别是Index Data，Row Data，Stripe Footer。
1️⃣ Index Data：一个轻量级的index，默认是为各列每隔1W行做一个索引。每个索引会记录第n万行的位置，和最近一万行的最大值和最小值等信息。
2️⃣Row Data：存的是具体的数据，按列进行存储，并对每个列进行编码，分成多个Stream来存储。
3️⃣Stripe Footer：存放的是各个Stream的位置以及各column的编码信息，用编码存储数据省下了大量空间
Tail由File Footer和PostScript组成。File Footer中保存了各Stripe的其实位置、索引长度、数据长度等信息，各Column的统计信息等；PostScript记录了整个文件的压缩类型以及File Footer的长度信息等。

在读取ORC文件时，会先从最后一个字节读取PostScript长度，进而读取到PostScript，从里面解析到File Footer长度，进而读取FileFooter，从中解析到各个Stripe信息，再读各个Stripe拿到编码信息返回数据，即从后往前读，速度非常快！
了解更多点击查看官方orc说明文档

orc建表语法：

create table orc_table
(column_specs)
stored as orc
tblproperties (property_name=property_value, ...);

举个例子：

set hive.exec.mode.local.auto=true;

create database file;
use file;
-- 只需要加上stored as orc即可！！
create table test_org(
    id int,
    name string
)
stored as orc ;

-- 查看原生建表语句
show create table test_org;

ROW FROMAT行的格式，SERDE序列化和解序列化器（读取、输出时用），INPUTFORMAT/OUTPUTFORMAT执行读写任务时供Mapredude用写读文件

一个文本文件想要进orc表中怎么办！
创建一个临时表，将数据load进临时表（普通文本文件），再用insert＋select语句将数据导进orc表中

2.3. Parquet（同样用的多）

Parquet文件是Hadoop生态中的一个通用的文件格式，它也是一个列式存储的文件格式。Parquet文件的格式如下图所示：

☝上图展示了一个Parquet文件的基本结构，文件的首尾都是该文件的Magic Code，用于校验它是否是一个Parquet文件。

1️⃣首尾中间由若干个Row Group和一个Footer（File Meta Data）组成。

2️⃣每个Row Group包含多个Column Chunk，每个Column Chunk包含多个Page。

3️⃣以下是Row Group、Column Chunk和Page三个概念的说明：

行组（Row Group）：一个行组对应逻辑表中的若干行。
列块（Column Chunk）：一个行组中的一列保存在一个列块中。
页（Page）：一个列块的数据会划分为若干个页。

4️⃣Footer（File Meta Data）中存储了每个行组（Row Group）中的每个列快（Column Chunk）的元数据信息，元数据信息包含了该列的数据类型、该列的编码方式、该类的Data Page位置等信息。

基本语法（跟orc类似）

3. 压缩（推荐snappy）

在Hive表中和计算过程中，保持数据的压缩，对磁盘空间的有效利用和提高查询性能（降低磁盘IO）都是十分有益的

3.1. Hive表数据进行压缩（textfile/orc/parquet）

在Hive中，不同文件类型的表，声明数据压缩的方式是不同的

TextFile：若一张表的文件类型为TextFile，若需要对该表中的数据进行压缩，多数情况下，无需在建表语句做出声明。直接将压缩后的文件导入到该表即可，Hive在查询表中数据时（select读取操作），可自动识别其压缩格式，进行解压。
需要注意的是，在执行往表中导入数据的SQL语句时（load写入操作），用户需设置以下参数，来保证写入表中的数据是被压缩的

--SQL语句的最终输出结果是否压缩
set hive.exec.compress.output=true;
--输出结果的压缩格式（以下示例为snappy）
set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;

orc：若一张表的文件类型为ORC，若需要对该表数据进行压缩，需在建表语句中声明压缩格式如下

create table orc_table
(column_specs)
stored as orc
tblproperties ("orc.compress"="snappy");

Parquet：若一张表的文件类型为Parquet，若需要对该表数据进行压缩，需在建表语句中声明压缩格式如下

create table orc_table
(column_specs)
stored as parquet
tblproperties ("parquet.compression"="snappy");

3.2. 计算过程中使用压缩（2种）

1️⃣单个MR的中间结果进行压缩：单个MR的中间结果是指Mapper输出的数据，对其进行压缩可降低shuffle阶段的网络IO，可通过以下参数进行配置

-- 开启MapReduce中间数据压缩功能
set mapreduce.map.output.compress=true;
-- 设置MapReduce中间数据数据的压缩方式（以下示例为snappy）
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

2️⃣单条SQL语句的中间结果进行压缩：单条SQL语句的中间结果是指，两个MR（一条SQL语句可能需要通过多个MR进行计算）之间的临时数据，可通过以下参数进行配置

-- 是否对两个MR之间的临时数据进行压缩
set hive.exec.compress.intermediate=true;
-- 压缩格式（以下示例为snappy）
set hive.intermediate.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;

总结

✍在Hive中，数据可以以行式存储或列式存储的方式进行组织。

行式存储：将数据按行存储在文件中，每行包含多个列的数据。
1️⃣优点是适合对整行数据进行查询和读取操作，特别是在需要获取完整记录的情况下效果较好
2️⃣然而，行式存储在处理某些特定的查询时可能会面临性能瓶颈，比如需要聚合大量数据或只需要部分列的查询
列式存储：是将数据按列存储在文件中，每个列都被单独存储
1️⃣优点是在需要对部分列进行查询时具有较高的性能，特别是当数据量较大时
2️⃣此外，列式存储还可以更好地支持压缩和列存储索引等技术，以提高查询效率
3️⃣但是，对于需要获取整行数据的查询，列式存储则需要额外的操作和资源。

在Hive中，可以根据数据的特点和查询需求来选择行式存储或列式存储。通常情况下，当数据量较大且查询需要涉及大量列时，使用列式存储可以提供更好的性能。而对于需要获取完整记录或只涉及少量列的查询，则行式存储可能更为适合。同时，Hive还提供了混合存储的方式，将行式和列式存储进行结合，以充分利用它们各自的优势。

✍下一节：hive企业级调优！

你可能感兴趣的:(Hive,大数据,hive,数据库,分布式,学习,笔记,mysql)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs