jasondde

Hive 学习历程

使用Hive时需要打开Hadoop集群以及hiveserver

这里可以使用脚本来打开

[hadoop@node02 ~]$ all.sh start
[hadoop@node02 ~]$ hvservice.sh start

等待一段时间后，hiveserver2启动完成

远程连接sql数据库

[hadoop@node02 ~]$ beeline
beeline>!connect jdbc:hive2://node02:10000 
Connecting to jdbc:hive2://node02:10000
Enter username for jdbc:hive2://node02:10000: hadoop
Enter password for jdbc:hive2://node02:10000: ******* #这里的密码是当初设置的密码：000000

1 数据库DDL

数据库操作一般是运维人员操作，数仓开发人员了解即可。

1.1 查看数据库

-- 查看数据库列表
show databases;

-- 使用like关键字模糊匹配，显示包含db前缀的数据库名称
show databases like 'db_*';

1.2 使用数据库

-- 切换到指定数据库
use db_name;

1.3 创建数据库

-- 创建数据库
create database db_name;

-- 创建数据库到指定路径
create database db_name location 'path路径'; #路径以HDFS的具体路径为主

-- 给数据库添加描述信息
create database db_name comment 'db_name描述信息';

1.4 删除数据库

-- 删除数据库（此删除方式，需要将数据库中的表全部删除，才能删除数据库）
drop database db_name;
或者
drop database if not exists db_name;

-- 强制删库（慎用，最好不用！！）
drop database db_name cascade;

1.5 查看数据库的详细描述信息

-- 查看数据库描述
desc database db_name;

1.6 数据库键值对信息

-- 创建带键值对的数据库
create database db_name with dbproperties ('own' = 'cc','day' = '20230324');

-- 查看数据库的键值对信息
desc database extended db_name;

-- 修改数据库的键值对信息
alter database db_name set dbproperties ('k1' = 'v1','k2' = 'v2');

2 数据表DDL

2.1 普通建表

create table test_1(id int comment 'id',name string comment 'xxx')
comment 'student table 1'
-- 列表分隔格式(常见的四种形式)
row format delimited fields terminated by '\t'         -- 列分隔符 
row format delimited collection items terminated by '_'-- STRUCT 和 ARRAY 的分隔符
row format delimited map keys terminated by ':'        -- MAP中的key和value的分隔符
row format delimited lines terminated by '\n'          -- 行分隔符
tblproperties('aaa'='bbb');

2.2 根据查询结果建表

create table xxx_table as
select name,
	   id
from test_1;

2.3 拷贝表结构

create table xxx_table like test_1;

2.4 查询表列表

show tables;

2.5 查询表结构

desc test_1;

2.6 查询更详细的信息

desc formatted test_1;

2.7 修改表 (#一般很少用到)

2.7.1 重命名

-- 重命名表格
alter table stu1 rename to stu2;

2.7.2 修改列

-- 修改列信息
alter table stu2 change column id id_stu bigint comment 'id_stu';

2.7.3 追加列信息

alter table stu2 add columns (age int comment 'stu_age',sex string comment 'stu_sex');

2.7.4 替换列信息

alter table stu2 replace columns (id string comment 'haha',age double comment 'jj');

2.7.5 删除表

-- 删除整个表
drop table stu2;

-- 删除表数据但表还在
truncate table stu2;

3 Hive DML

3.1 导入数据

-- 从本地系统将数据导入到表中
load data local inpath '/opt/module/hive-3.1.2/datas/test.txt' into table stu3; #重复此操作不会覆盖原数据，只会不断的导入数据到表中

-- 从本地系统中将数据覆盖地导入到表中
load data local inpath '/opt/module/hive-3.1.2/datas/test.txt' overwrite into table stu3;

-- 从HDFS中将数据导入到表中（覆盖地导入）
load data inpath '/user/datas/test.txt' overwrite into table stu3;

-- insert 插入
insert into stu4 values (1001,'zhangsan'),(1002,'lisi'); #太慢了，一般不会这样使用

-- insert 查询结果（最常用的，要记住）
insert into stu4 select id,name from stu3 where id < 1001;

-- insert 查询结果(覆盖掉原数据)
insert overwrite table stu4 select id,name from stu3 where id < 1001;

-- 不常用的方法
-- as select
create table stu4 as select * from stu4;

-- 通过location指定地址加载数据
-- 首先将数据上传到hdfs的文件目录：/user/hive/warehouse
create table stu5 (id int,name string) 
row format delimited fields terminated by '\t'
location '/user/hive/warehouse';

3.2 导出数据（基本不用，谁没事从hive导出数据）

-- insert 导出数据 (还可以指定格式导出)
-- 导出数据到本地
insert overwrite local directory '/opt/module/hive-3.1.2/datas/test'
row format delimited fields terminated by '\t'
select id,name from stu4;

-- 导出数据到hdfs
insert overwrite directory '/test'
row format delimited fields terminated by '\t'
select id,name from stu4;

-- import export (在hdfs上操作)
-- 迁移整个hive数据库的时候有用
export table stu4 to '/stu_out'; #将stu4的所有数据（表数据和元数据）导出到hdfs中
import table stu_in from '/stu_out'; #将hdfs上stu_out的表数据导入到表stu_in中

4 内部表和外部表

-- 普通的建表（管理表）
create table stu5 (id int,name string) row format delimited fields terminated by '\t';

-- 创建外部表
create external table stu5_ex (id int,name string) row format delimited fields terminated by '\t';

-- 向内部表中插入数据
insert into stu5 select id,name from stu4;

-- 删除内部表时，数据会一起删除
drop table stu5;

-- 删除外部表时，数据不会删
drop table stu5_ex;

-- 外部表和内部表的转换
create table stu5_ex (id int,name string) row format delimited fields terminated by '\t';

-- 通过修改表将内部表转换为外部表(key value都要大写)
alter table stu5_ex set tblproperties('EXTERNAL'='TURE');

-- 通过修改表将外部表转换为内部表
alter table stu5 set tblproperties('EXTERNAL'='FALSE');

5 基本查询和分组过滤

查询顺序：

SELECT -->FROM -->WHERE -->GROUP BY -->HAVING -->ORDER BY …

SQL的执行顺序：

FROM -->JOIN -->ON -->WHERE -->GROUP BY -->AVG SUM 等聚合函数 -->HAVING -->计算所有表达式 -->SELECT -->DISTINCT -->ORDER BY -->LIMIT …

HIVE的执行顺序：

FROM --> ON --> JOIN --> WHERE --> GROUP BY --> HAVING -->SELECT --> DISTINCT --> DISTRIBUTE BY --> CLUSTER BY --> SORT BY --> ORDER BY --> LIMIT --> UNION/UNION ALL

Hive的执行顺序也是MapReduce的执行顺序：

map阶段：

1.执行from加载，进行表的查找与加载
2.执行where过滤，进行条件过滤与筛选
3.执行select查询：进行输出项的筛选
4.执行group by分组：描述了分组后需要计算的函数
5.map端文件合并：map端本地溢出写文件的合并操作，每个map最终形成一个临时文件。然后按列映射到对应的Reduce阶段：

reduce阶段：

1.group by：对map端发送过来的数据进行分组并进行计算。
2.select：最后过滤列用于输出结果
3.limit：限制输出的行数，排序后进行结果输出到HDFS文件

5.1 基本查询

用如下两张表进行操作：

-- 查询特定列
select sal,ename from emp;

-- 起别名，as可以省略
select ename as name,sal salary from emp; -- 与上一行输出结果一致，不过属性名不一样

-- 查询中可以使用算数运算符
select ename,sal + 10 from emp;

-- 常用函数(UDAF)，UDAF函数执行的时候，NULL不参与运算
select count(1) cnt,  	-- 数个数
	sum(sal) sum_sal,
	avg(sal) avg_sal,
	min(sal) min_sal,
	max(sal) max_sal 
from emp;

-- count(1) 的用法
select 1 from emp;

相当于数行的个数，新开一列，数1的个数

-- limit用法
-- 显示前5
select ename from emp limit 5;

-- 显示2-5名(从0开始计数)
select ename from emp limit 1,4;

-- 过滤 查询工资大于1000的人
select ename from emp where sal>1000;

-- 查询工资在1600-3000的人
select ename,sal from emp where sal between 1600 and 3000; -- 左闭右闭区间
-- 查询工资为1600，3000的人
select ename,sal from emp where sal in (1600,3000); -- 类似集合

--  = 与 <=>(安全等于号) 的区别
select ename,job from emp where job = null;

-- <=>安全等于号
select ename,job from emp where job <=> null;

-- 字符串（通配符）
select ename,job from emp where ename like '张%';

-- 字符串（正则表达式）
-- A rlike B ,B是基于Java的正则表达式
select ename,job from emp where ename rlike '^张';
-- 上述两个语句输出结果一致

5.2 分组查询 GROUP BY

-- 查询各个部门的平均工资
select deptno,avg(sal) avg_sal from emp group by deptno;

-- 查询平均工资大于2000的部门及其平均工资
select deptno,avg(sal) avg_sal from emp group by deptno having avg_sal>2000;

5.3 连接

-- 查询员工姓名以及员工所属部门名称
-- 默认inner join内连接
select emp.ename,dept.dname from emp join dept on emp.deptno = dept.dept.no; 
select emp.ename,dept.dname from emp inner join dept on emp.deptno = dept.dept.no; -- 效果一样

Hive 尽量写等值连接，等值连接效率高很多，如果用join……where……效率会低，在SQL中无所谓。

-- 向emp和dept两张表插入数据来演示不同的连接效果
insert into emp values(7498,'jason','学生',NULL,50);
insert into dept values(60,'不存在',1700);

-- 内连接
select emp.ename,dept.dname from emp join dept on emp.deptno = dept.deptno;

-- 左连接
select emp.ename,dept.dname from emp left join dept on emp.deptno = dept.deptno;

-- 右连接
select emp.ename,dept.dname from emp right join dept on emp.deptno = dept.deptno;

从以上三个连接的结果可以看出，

内连接的结果是输出两张表都存在的内容，

左连接输出结果包含连接表不存在的内容，

右连接输出结果包含被连接表不存在的内容。

-- 全连接
select emp.ename,dept.dname from emp full join dept on emp.deptno = dept.deptno;

全连接输出结果包含两张表都不存在的内容

-- 多表连接
-- 查询员工姓名，员工部门，部门地点
select e.ename,d.dname,l.loc_name
	from emp e
	join dept d on e.deptno = d.deptno
	join location l on d.loc = l.loc;

-- 笛卡尔积（不写查询条件就会生成笛卡尔积）
select * from emp join dept;

5.4 排序

降序——desc 升序——asc 默认升序排序

-- 按照工资从高到低给员工排序
select * from emp order by sal desc;
-- 也可以对别名进行排序
select ename,sal salary from emp order by salry desc;

-- 二次排序
-- 先按照部门编号升序排序，同部门按照工资降序排序
select * from emp order by dept asc,sal desc;

-- 分组排序
-- 按照部门平均工资降序给部门排序
select deptno,avg(sal) avg_sal from emp group by deptno order by avg_sal desc;

-- 以上是全局排序，全局排序在数据量大的时候会遇到性能问题，因为做全排序时map不做分区，这时解决方法最好是搭配limit使用
-- 原因：每个map只输出前几条数据，reduce的时候压力没那么大
select * from emp order by sal desc limit 10;

分区和分区排序（hive特有）

-- 首先设置reduce数量，默认值为-1（即hive动态估算数据量来自行设置reduce数量）
set mapreduce.job.reduces = 3;

-- distribute by 指定查询按照什么字段的hash值分区
-- sort by 在分区内部排序
select * from emp distribute by deptno sort by sal desc;

-- 当 distribute by 和 sort by字段相同且为升序时，可以用cluster by代替
-- 如下两个语句的输出内容一致
select * from emp disttibute by deptno sort by deptno;
select * from emp cluster by deptno;

6 HIVE 函数

6.1 系统自带函数的查询和使用

-- 查询所有系统函数
show functions;

-- 查询包含特定关键字的函数
show functions like "*date*";

-- 查询特定函数的使用方法
desc function 'current_date';

-- 查询特定函数更详细的使用方法
desc function extended 'current_date';

-- 其他函数使用建议百度

6.2 常用函数——空值替换

-- 在emp表中存在空值
-- 两个输入
-- nvl(col,default_value) 如果col不为null，返回col，否则返回default_value
select ename,job,nvl(job,'没工作') from emp;

-- 多个输入
-- coalesece(col1,col2,col3,....) 从左到右找第一个不为null的值
select ename,job,sal,coalesce(job,sal,'nothing') from emp;

6.3 常用函数——分支控制

-- if (boolean,result1,result2) 如果boolean为真，返回result1，否则返回result2

-- case col
-- when value1 then result1
-- when value2 then result2
-- else result3
-- end
-- 如果col值为value1，返回result1；若值为value2，返回result2，否则返回result3

-- case when
-- boolean1 then result1
-- boolean2 then result2
-- else result3
-- end
-- 如果boolean1为真，返回result1；若boolean1为假，boolean2为真，返回result2；否则返回result3

对如下表进行操作

-- 求每个部门的男女人数个多少人 (if用法)
select dept_id,
		count(name) cnt,
		count(if(sex='男',name,null)) male,
		count(if(sex='女',name,null)) female
from emp_sex
group by dept_id;

-- 求每个部门的男女人数个多少人 (case用法)
select dept_id,
		count(case when sex='男' then name else null end) male,
		count(case when sex='女' then name else null end) female
from emp_sex
group by dept_id;

6.4 行转列和列转行

行转列

对如下表进行操作

-- collect_set(col) collect_list(col)
-- 这两个函数都是聚合函数，将属于同一组的col的值聚合成一个数组，set会去重，list不会去重
select constellation,
	   blood_type,
	   collect_list(name) names
from person_info 
group by constellation,blood_type;
-- 会出现如下效果，但还是达不到需求

-- 字符串拼接
-- concat(v1,v2,v3,...) 将输入的多列拼成一列字符串输出v1v2v3...
-- concat_ws(sep,array|v1,v2,v3,...) 将数组内的多个元素拼成字符串，按照sep分隔
select concat(constellation,',',blood_type) xzxx,
	   concat_ws('|',collect_list(name)) names
from person_info 
group by constellation,blood_type;
-- 最终输出结果会满足需求

列转行

对如下表进行操作

-- explode(array/map) UDTF函数，可以将一行输入变成多行多列
-- 如果数据的参数是array，结果只有一列；如果数据的参数是map，结果有key，value两列

-- split(str,sep) 将字符串按照sep分成字符串数组
select explode(split(category,',')) from movie_info;
-- 输出结果如下：

-- 列转行：lateral view (列转行固定写法，要背下来)
-- 将原表和UDTF结合查询
select m.movie,
	   tbl.category_id
from movie_info m
lateral view explode(split(category,',')) tbl as category_id;
-- 使用lateral view一定要写新的表名和列名，生成一列就写一列，生成两列就写两列

7 窗口函数

7.1 给聚合函数开操作的状况（在明细查询中，展现汇总结果）

使用如下表
需求1：查询在2017年4月份购买过的顾客及总人数

-- substring(str,pos,len) 返回str字符串从pos(下标从1开始)位置开始长度为len的字串
-- 若想查询2017年4月购买过的人
select distinct name from business where substring(orderdate,1,7) = '2017-04';
-- 若想求2017年4月购买过的人数
select count(distinct name ) from business where substring(orderdate,1,7) = '2017-04';
-- 将两个结果放在一张表里
select distinct name
	   count(distinct name) over()
from business
where substring(orderdate,1,7) = '2017-04';

需求2：查看顾客的购买明细及月购买总额

select name,
	   orderdate,
	   cost
	   sum(cost) over(partition by substring(orderdate,1,7)) month_total
from business;

需求3：查询每个顾客的截止到当日的累计消费

select name,
	   orderdate,
	   cost,
	   sum(cost) over(partition by name order by orderdate 
                      rows between unbounded preceding and current row) -- 本组的第一行到当前行
from business;

需求4：查询每个顾客当天与前一天的累计消费

select name,
	   orderdate,
	   cost,
	   sum(cost) over(partition by name order by orderdate
                     rows between 1 preceding and current row)
from business;

需求5：查询累计到店消费的人

select name,orderdate,cost,
	   collect_set(name) over(order by orderdate 
                              rows between unbounded preceding and current row)
from business;

7.2 其他结合有序窗口使用的函数(有序排序相关)

lag/lead

-- lag(col, n, default_value) over(有序窗口)
-- 显示col这一列n行之前的数据，如果没有，展示default_value

-- lead(col, n, default_value) over(有序窗口)
-- 显示col这一列n行之后的数据，如果没有，展示default_value

-- 查询购买明细和每个人上一次的到店时间
select name,orderdate,cost,
	   lag(orderdate,1,'null') over(partition by name order by orderdate) last_order
from business;

select name,orderdate,cost,
	   lead(orderdate,1,'null') over(partition by name order by orderdate)
from business;

ntile

-- ntile(n) over(有序窗口)
-- 将数据分为n组，返回当前行的组号

-- 将订单明细按照下单时间分5组
select name,orderdate,cost,ntile(5) over(order by orderdate) from business;

rank()/dense_rank()/row_number()

-- rank() over(有序窗口)
-- rank 是我们常见的排序，生成数据项在分组中的排名，排名相等会在名次中留下空位
-- dense_rank 生成数据项在分组中的排名，排名相等会在名次中留下空位
-- row_number 是行号

-- 各科成绩排名
select name,subject,score,
	   rank() over(partition by subject order by score desc) 'rank',
	   dense_rank() over(partition by subject order by score desc) 'dense_rank',
	   row_number() over(partition by subject order by score desc) 'row_number'
from score;

first_value/last_value

-- first_value(col,boolean) over(有序窗口)
-- boolean为false，返回这个窗口中col的第一行，boolean为true，返回这个窗口中col不为null的第一行

-- last_value(col,boolean) over(有序窗口)
-- boolean为false，返回这个窗口中col的最后一行，boolean为true，返回这个窗口中col不为null的最后一行

-- 查询business表明细，以及截止消费当日每人的第一笔和最后一笔大于50元的消费日期
select name,
	   orderdate,
	   cost,
	   if(cost>50,orderdate,null),
	   first_value(if(cost>50,orderdate,null),true) over(partition by name order by orderdate rows between unbounded preceding and current row) fir,
	   last_value(if(cost>50,orderdate,null),true) over(partition by name order by orderdate rows between unbounded preceding and current row) las 
from business;

7.3 其他常用函数

日期相关函数

-- current_date()						返回当前日期
select current_date();
-- date_add(date,n)						返回从date开始n天之后的日期
select date_add(current_date(),1);
-- date_sub(date,n)						返回从date开始n天之前的日期
select date_sub(current_date(),1);
-- datediff(date1,date2)				返回date1-date2的日期差
select datediff(current_date(),'2022-04-05');

-- year(date)			返回日期的年份
-- month(date)			返回日期的月份
-- day(date)			返回日期的日
-- dayofweek(date)		返回星期几(星期天是第一天)
-- weekofyear(date)		返回日期在该年的第几周

取整相关函数

函数声明	解释	演示
ceil(num)	向上取整	select ceil(5.1); 结果返回6
floor(num)	向下取整	select floor(5.1); 结果返回5
round(num)	四舍五入	select round(5.5); 结果返回6

复杂类型包装函数

函数声明	解释
str_to_map(str,field_sep,kv_sep)	将str按照field_sep分段，再按照kv_sep分成key value ，返回一个map
named_struct(name1,col1,name2,col2,…)	将col1，col2，…包装为结构体，名称为name1，name2，…

-- str_to_map(str,field_sep,kv_sep)
select str_to_map('a:b,c:d,e:f',',',':');

-- named_struct(name1,col1,name2,col2,...)
select named_struct('name_1',name,'haha',orderdate) from business;

7.4 自定义函数

基本不需要，hive的函数能满足99%的业务需求，自己写函数基本都写UDF函数

UDF函数（User-Defined-Function）

一进一出
UDTF函数（User-Defined Table-Generating Function）

用户自定义表生成函数，一进多出

如：lateral view explode()
UDAF函数（User-Defined Aggregation Function）

用户自定义聚合函数，多进一出

如：count、max、min

7.5 与时间相关的函数

date_format

date_format(date/timestamp/string,fmt) -- 将一个date/timestamp/string变量转化为fmt的格式
fmt："yyyy-MM-dd HH:mm:ss"

select date_format(current_time(),"yyyy/MM");

current_timestamp

current_timestamp() -- 显示sql执行时的时间戳

select current_timestamp();

from_unixtime

from_unixtime(unix_time,format) -- 将long型数据，单位为秒，转换为format格式的时间戳

select from_unixtime(1655595312,'yyyy-MM-dd');

from_utc_timestamp

from_utc_timestamp(timestamp，string timezone) -- 假设给定timestamp是UTC时间，转换到timezone时区

select from_utc_timestamp(current_time(),'GMT+');

to_unix_timestamp / unix_timestamp

unix_timestamp(date[,pattern]) -- 将时间类型转换为long型，单位为秒
如果date是标准类型，符合"yyyy-MM-dd HH:mm:ss"，可以直接转换
否则需要pattern声明类型

select to_unix_timestamp(current_timestamp());

to_utc_timestamp

to_utc_timestamp(timestamp,string timezone) -- 假设给定timestamp是timezone时区，将其转化为UTC时间

select to_utc_timestamp(current_time(),'GMT+09:00');

8 分区表和分桶表

8.1 分区表

-- 创建分区表
create table dept_partition(
    	     deptno int,
    	     dname string,
    	     loc int) 
    	     partitioned by (dt string) -- 与普通建表区别在此
    	     row format delimited fields terminated by '\t';

-- 导入数据(load)
load data local inpath '/opt/module/hive-3.1.2/datas/dept.txt' 
into table dept_partition 
partition(dt='2023-04-05'); -- 与普通导入的区别在此

-- 插入数据(insert)
insert overwrite table dept_partition partition(dt='2023-04-06') -- 可插入到不同的分区
select deptno,dname,loc from dept;

-- 另一种插入方法
insert overwrite table dept_partition 
select deptno,dname,loc,'2022-04-07' from dept;

分区表就是将一张大表分成不同的文件夹去管理

-- 查询分区表的分区数
show partitions dept_partition;
-- 分区过滤查询
select * from dept_partition where dt='2023-04-05';

-- 直接对分区表的分区进行操作
-- 添加分区
alter table dept_partition add partition(dt='2023-04-08');
alter table dept_partition add partition(dt='2023-04-09') partition(dt='2023-04-10');

-- 删除分区
alter table dept_partiton drop partition(dt='2023-04-10');
alter table dept_partiton drop partition(dt='2023-04-10'),partition(dt='2023-04-09');

-- 注意：直接在分区表数据目录里面建立文件夹，分区表不能直接识别，因为每一个分区都有元数据记录
-- 解决方法
-- 方案一：add partition
-- 方案二：官方修复分区表的命令
		msck repair table dept_partition;

8.2 二级分区表

-- 建表
create table dept_partition2(
    	     deptno int,
    	     dname string,
    	     loc int) 
    	     partitioned by (month string,day string) -- 与普通分区表区别在此
    	     row format delimited fields terminated by '\t';

-- 导入数据
load data local inpath '/opt/module/hive-3.1.2/datas/dept.txt' into table dept_partition2 partition(month='2023-04',day='05'); -- 父目录和子目录
-- 插入数据
insert overwrite table dept_partition2 partition(month='2023-04',day='05')
select deptno,dname,loc from dept;

-- 二级分区表的操作与一级分区表的操作类似，只不过需要指定所有级别的分区

8.3 动态分区

普通表格无法直接转换成分区表，只能先建新的分区表，再将旧数据插入这个新的分区表

-- 例：将business表转化为按照orderdate分区的分区表
-- 1、新建分区表
create table bus_par(
	name string,
    cost int
) partitioned by (orderdate string)
row format delimited fields terminated by '\t';
-- 2、插入数据：
-- 方法一：一次一次插入
insert into bus_par partition(orderdate='2022-04-06')
select name,cost from business where orderdate='2022-04-06';
-- 方法二：动态分区一次搞定
insert into bus_par
select name,cost,orderdate from business;
-- 分区号一定要写在最后

分区表的好处
- 一般数据量很大的表格，我们按照分区存储
- 分布表按照分区过滤时，可以减少数据扫描量
- 一般来说，在生产环境中，只要是分区表，尽量不要做全表扫描

8.4 分桶表

-- 建表
create table bus_buck(
	name string,
	orderdate string,
	cost int)
clustered by (cost) sorted by (cost) into 4 buckets
row format delimited fields terminated by '\t';

-- 向分桶表中插入数据，一般不要load，因为在一个分布式系统中导入一个本地的数据，很容易出问题。如果要用load，也要用HDFS上的文件
load data inpath '/test/business' into table bus_buck;

-- 最好用insert插入
insert overwrite into bus_buck
select * from business;

-- 既分区也分桶
create table bus_par_buck(
	name string,
	ordate string,
	cost int)
partitioned by (dt string)
clustered by (cost) sorted by (cost) into 4 buckets
row format delimited fields terminated by '\t';

-- 插入数据
insert into bus_par_buck
select name,cost,orderdate,'2022-04-05' from business;

注意：

必须先分区再分桶，建表语序也是先写分区再写分桶
分区是将表拆分成不同的文件夹下的表进行管理，分桶是将表分成不同的表

9 HIVE文件存储

9.1 文件存储格式

TextFile每一行都是一条记录，每行都以换行符（\ n）结尾。数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。
SequenceFile是Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。支持三种压缩选择：NONE, RECORD, BLOCK。 Record压缩率低，一般建议使用BLOCK压缩。
RCFile是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。
ORC文件格式提供了一种将数据存储在Hive表中的高效方法。这个文件系统实际上是为了克服其他Hive文件格式的限制而设计的。Hive从大型表读取，写入和处理数据时，使用ORC文件可以提高性能。（主要用ORC存储方式）
Parquet是一个面向列的二进制文件格式。Parquet对于大型查询的类型是高效的。对于扫描特定表格中的特定列的查询，Parquet特别有用。Parquet使用压缩Snappy，gzip;目前Snappy默认。
AVRO是开源项目，为Hadoop提供数据序列化和数据交换服务。Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。

9.1.1 列式存储和行式存储

9.2 数据压缩

为了节省集群磁盘的存储资源，数据一般都是需要压缩的，目前在 Hadoop 中用的比较多的有 lzo、gzip、snappy、bzip2。

那么是否选择文件压缩呢？在hadoop作业执行过程中，job执行速度更多的是局限于I/O，而不是受制于CPU。如果是这样，通过文件压缩可以提高hadoop性能。然而，如果作业的执行速度受限于CPU的性能，那么压缩文件可能就不合适，因为文件的压缩和解压会花费掉较多的时间。当然确定适合集群最优配置的最好方式是通过实验测试，然后衡量结果。

-- 建表建议数据格式
stored as orc
tblproperties('orc.compress'='SNAPPY');

10 性能调优

10.1 explain查看SQL执行过程

Hive提供的执行计划目前可以查看的信息有以下几种（只列出常见常用的）：

（1）explain：查看执行计划的基本信息。

（2）explain dependency ：dependency在explain语句中使用，会产生有关计划中输入的额外信息，它显示了输入的各种属性。

（3）explain authorization：查看SQL操作相关权限的信息。通过explain authorization可以知道当前SQL访问的数据来源(INPUTS)和数据输出(OUTPUTS)，以及当前Hive的访问用户(CURRENT_USER)和操作(OPERATION)。

（4）explain vectorization：查看SQL的向量化描述信息。

（5）explain extended：加上 extended 可以输出有关计划的额外信息。这通常是物理信息，例如文件名，这些额外信息对我们用处不大。

explain的用法

【功能说明】：Hive提供了explain命令来展示一个查询的执行计划，这个执行计划对于我们了解底层原理、Hive 调优、排查数据倾斜等很有帮助。

使用语法如下：explain query;

【代码示例】：

-- 代码1： 

explain select sum(price) as total_price from olist_order_items_dataset;  

--代码2： 

explain select product_id,sum(price) as total_price from olist_order_items_dataset group by product_id order by product_id desc limit 5;

【执行结果】：

代码1的执行结果：

代码2的执行结果：

【输出说明】：一个HIVE查询被转换为一个由一个或多个stage组成的序列（有向无环图DAG）。这些stage可以是MapReduce stage，也可以是负责元数据存储的stage，也可以是负责文件系统的操作（比如移动和重命名）的stage。

我们将上述结果拆分看，先从最外层开始，包含两个大的部分：

(1) stage dependencies：各个stage之间的依赖性；

(2) stage plan：各个stage的执行计划

详细说明：

先看第一部分stage dependencies，包含两个stage，Stage-1是根stage，说明这是开始的stage，Stage-0依赖 Stage-1，Stage-1执行完成后执行Stage-0。

再看第二部分 stage plan，里面有一个 Map Reduce，一个MR的执行计划分为两个部分：

(1)Map Operator Tree：MAP端的执行计划树

(2)Reduce Operator Tree：Reduce端的执行计划树

这两个执行计划树里面包含这条sql语句的 operator：

(1)TableScan：表扫描操作，map端第一个操作肯定是加载表，所以就是表扫描操作，常见的属性：

Ø alias：表名称

Ø Statistics：表统计信息，包含表中数据条数，数据大小等

(2)Select Operator：选取操作，常见的属性：

Ø expressions：需要的字段名称及字段类型

Ø outputColumnNames：输出的列名称

Ø Statistics：表统计信息，包含表中数据条数，数据大小等

(3)Group By Operator：分组聚合操作，常见的属性：

Ø aggregations：显示聚合函数信息

Ø mode：聚合模式，值有hash：随机聚合，就是hash partition；partial：局部聚合；final：最终聚合

Ø keys：分组的字段，如果没有分组，则没有此字段

Ø outputColumnNames：聚合之后输出列名

Ø Statistics：表统计信息，包含分组聚合之后的数据条数，数据大小等

(4)Reduce Output Operator：输出到reduce操作，常见属性：

Ø sort order：值为空不排序；值为 + 正序排序，值为 - 倒序排序；值为 ± 排序的列为两列，第一列为正序，第二列为倒序

(5)Filter Operator：过滤操作，常见的属性：

Ø predicate：过滤条件，如sql语句中的where id>=1，则此处显示(id >= 1)

(6)Map Join Operator：join 操作，常见的属性：

Ø condition map：join方式，如Inner Join 0 to 1 Left Outer Join 0 to 2

Ø keys: join 的条件字段

Ø outputColumnNames： join 完成之后输出的字段

Ø Statistics： join 完成之后生成的数据条数，大小等

(7)File Output Operator：文件输出操作，常见的属性：

Ø compressed：是否压缩

Ø table：表的信息，包含输入输出文件格式化方式，序列化方式等

(8)Fetch Operator：客户端获取数据操作，常见的属性：

Ø limit，值为 -1 表示不限制条数，其他值为限制的条数

10.2 explain dependency

explain dependency的用法

**【功能说明】**explain dependency用于描述一段SQL需要的数据来源，输出是一个json格式的数据(该格式的数据可以在https://www.bejson.com/进行格式化查看)，里面包含以下两个部分的内容：

Ø input_partitions：描述一段SQL依赖的数据来源表分区，里面存储的是分区名的列表，如果整段SQL包含的所有表都是非分区表，则显示为空。

Ø input_tables：描述一段SQL依赖的数据来源表，里面存储的是Hive表名的列表。

【非分区表依赖】 使用explain dependency查看SQL查询非分区普通表，在 hive cli 中输入以下命令：

代码示例：

explain dependency select product_id,count(1) num from olist_order_items_dataset group by product_id;

执行结果：

格式化一下输出结果：

{ 

  "input_tables": [{ 

    "tablename": "sh_hive@olist_order_items_dataset", 

    "tabletype": "MANAGED_TABLE" 

  }], 

  "input_partitions": [] 

}

【分区表依赖】 使用explain dependency查看SQL查询分区表，在 hive cli 中输入以下命令：

代码示例：student_part是分区表

explain dependency select user_year,count(1) num from student_part group by user_year;

执行结果：

格式化一下输出结果：

{ 

  "input_tables": [{ 

    "tablename": "sh_hive@student_part", 

    "tabletype": "MANAGED_TABLE" 

  }], 

  "input_partitions": [{ 

    "partitionName": "sh_hive@student_part@user_year=1990/sex=male" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=1995/sex=female" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=1998/sex=male" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=1999/sex=male" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=2000/sex=female" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=2000/sex=male" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=2001/sex=female" 

  }, { 

    "partitionName": "sh_hive@student_part@user_year=2002/sex=male" 

  }] 

}

explain dependency的使用场景

常见的使用场景

explain dependency的使用场景有两个：

场景一：快速排除。快速排除因为读取不到相应分区的数据而导致任务数据输出异常。例如，在一个以天分区的任务中，上游任务因为生产过程不可控因素出现异常或者空跑，导致下游任务引发异常。通过这种方式，可以快速查看SQL读取的分区是否出现异常。

场景二：理清表的输入。帮助理解程序的运行，特别是有助于理解有多重子查询，多表连接的依赖输入。

10.3 优化

10.3.1开启Fetch抓取（默认已开启）

【机制说明】：

Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。

例如：select * from user_base_info;

在这种情况下，Hive可以简单地读取user_base_info对应的存储目录下的文件，然后输出查询结果到控制台。

【参数设置】：

在hive-default.xml.template文件中 hive.fetch.task.conversion默认是 more或者minimal），在全局查找、字段查找、limit查找等都不走mapreduce。

但是把hive.fetch.task.conversion设置成none，然后执行查询语句，全局查找、字段查找、limit查找等都会执行mapreduce程序。

【执行结果】：很明显的可以看出，开启和关闭Fetch 抓取时查询时间差距达几百倍，并且关闭Fetch 抓取时查询启动了MapReduce工作。

10.3.2本地模式（默认未开启）

【机制说明】：

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。

用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。

【参数设置】：

//开启本地 mr 

set hive.exec.mode.local.auto=true; 

 

//设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的方式，

默认为 134217728，即128M 

set hive.exec.mode.local.auto.inputbytes.max=50000000; 

 

//设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr 的方式，

默认为 4 

set hive.exec.mode.local.auto.input.files.max=8;

【执行结果】：开启和关闭本地模式对比如下：

10.3.3表的优化

小表Join大表：

将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用 Group 让小的维度表（1000 条以下的记录条数）先进内存，在map 端完成 reduce。

新版的 hive（ hive 0.11.0之后）已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。

此外，需要注意的是Join小表默认进内存的大小为25M，可以通过修改hive.mapjoin.smalltable.filesize=2500000配置，改变默认大小，但一般修改最大值不能超过128M，这个值刚好是MapReduce分块的最小单元，也是HDFS一个块的默认大小。

大表Join大表：

空KEY过滤

有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的reducer上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数据，我们需要在 SQL 语句中进行过滤。

此外，在大多数业务中，除了要对null key 过滤，有时也会对key值为0的情况下进行过滤。事实上，就是过滤掉非法的或者异常的、无效的或者无意义的key值。

空key转换

有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在 join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。

#设置 5 个 reduce 个数 

set mapreduce.job.reduces = 5; 

 
#JOIN 两张表 

select n.* from nullidtable n left join ori o on case when n.id is null then concat('hive', rand()) else n.id end = o.id;

10.3.4 MapJoin（默认已开启）

如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join操作转换成Common Join，即：在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map 端进行 join，避免 reducer 处理。

1.开启MapJoin 参数设置：

#设置自动选择 Mapjoin 

set hive.auto.convert.join = true; 默认为 true 

 

\#大表小表的阀值设置（默认25M 以下认为是小表）  

set hive.mapjoin.smalltable.filesize=25000000;

可根据实际情况来调整小表的阈值设置，以控制触发 MapJoin。但一般修改最大值不能超过128M，这个值刚好是MapReduce分块的最小单元，也是HDFS一个块的默认大小。

2.MapJoin工作机制：

首先是 Task A，它是一个Local Task（在客户端本地执行的 Task），负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到 DistributeCache中。

接下来是Task B，该任务是一个没Reduce的MR，启动MapTasks扫描大表 a,在 Map阶段，根据a的每一条记录去和 DistributeCache 中 b 表对应的HashTable 关联，并直接输出结果。

由于MapJoin没有Reduce，所以由Map直接输出结果文件，有多少个 MapTask，就有多少个结果文件。

10.3.5 Group By优化

默认情况下，Map 阶段同一Key 数据分发给一个reduce，当一个 key 数据过大时就会产生数据倾斜。但在数据计算时，并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。

#是否在 Map 端进行聚合， 默认为 **True** 

set hive.map.aggr = true; 

 
# 在 Map 端进行聚合操作的条目数目 

set hive.groupby.mapaggr.checkinterval = 100000; 


#有数据倾斜的时候进行负载均衡（默认是 **false**） 

set hive.groupby.skewindata = true;

当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job中，Map 的输出结果会随机分布到Reduce中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照Group By Key 分布到Reduce中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

10.3.6 Count(Distinct)去重统计

数据量小的时候无所谓，数据量大的情况下，由于 COUNT DISTINCT 操作需要用一个Reduce Task 来完成，这一个Reduce 需要处理的数据量太大，就会导致整个Job很难完成，一般 COUNT DISTINCT使用先GROUP BY再COUNT的方式替换。

#直接去重 

select count(distinct id) from bigtable; 

 

#改写后去重 

select count(id) from (select id from bigtable group by id) a;

虽然会多用一个Job来完成，但在数据量大的情况下，group by 依旧是去重的一个优化手段。如果说需要统计的字段有Null 值,最后只需要null值单独处理后union即可。

10.3.7 笛卡尔积

尽量避免笛卡尔积，join 的时候不加on条件，或者无效的on条件都有可能会产生笛卡尔积。Hive 只能使用1个reducer来完成笛卡尔积，会导致计算性能较低。

10.3.8 行列过滤

列处理：

在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。

行处理：

在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在 Where后面，那么就会先全表关联，之后再过滤。

10.3.9 动态分区调整

关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过使用Hive的动态分区，需要进行相应的配置。

#开启动态分区功能（默认 **true**， 开启）  

hive.exec.dynamic.partition=true  

  

#设置为非严格模式（动态分区的模式默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。）  

hive.exec.dynamic.partition.mode=nonstrict  

  

#在所有执行MR的节点上，最大一共可以创建多少个动态分区。  

hive.exec.max.dynamic.partitions=1000

  

# 在每个执行 MR 的节点上， 最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。

比如：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，

如果使用默认值 100，则会报错。

hive.exec.max.dynamic.partitions.pernode=100  

  

#整个MR Job中，最大可以创建多少个HDFS 文件。  

hive.exec.max.created.files=100000  

  

#当有空分区生成时， 是否抛出异常。 一般不需要设置。  

hive.error.on.empty.partition=false

11 数据倾斜问题(☆☆☆重点掌握)

11.1数据倾斜的现象

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证作业的性能。

数据倾斜的现象就是：

绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时，这种情况很常见。进入任务的执行界面：reduce阶段卡在99.99%不动；各种container报错OOM（内存溢出）；读写数据量很大，超过其他正常reduce。

11.2数据倾斜的原理

数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个作业的运行进度是由运行时间最长的那个task决定的。

发生数据倾斜的原因在于Task的数据分配不均衡。分为两种情况：数据本身就是倾斜的，数据中某种数据出现的次数过多；分区规则导致这些相同的数据都分配给了同一个Task，导致这个Task拿到了大量的数据，而其他Task数据量比较少，所以运行起来较慢。

11.3数据倾斜的处理

11.3.1 group by产生数据倾斜

【场景描述】：使用 Hive 对数据做一些类型统计的时候遇到过某种类型的数据量特别多，而其他类型数据的数据量特别少。当按照类型进行group by的时候，会将相同的group by 字段的reduce任务需要的数据拉取到同一个节点进行聚合，而当其中每一组的数据量过大时，会出现其他组的计算已经完成而这里还没计算完成，其他节点的一直等待这个节点的任务执行完成，所以会看到一直map 100%和reduce99%的情况。

【解决方法】：

(1)开启 Map 端聚合参数设置（详见上文Group By）。

(2)或者根据业务，合理调整分组维度。

11.3.2 count(distinct)产生数据倾斜

【场景描述】：如果数据量非常大，执行如select a,count(distinct b) from t group by a;类型的SQL 时，会出现数据倾斜的问题。

【解决方法】：

(1)使用 sum…group by 代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;（详见上文Count(Distinct)去重统计）

(2)在业务逻辑优化效果的不大情况下，有些时候是可以将倾斜的数据单独拿出来处理，最后union回去。

11.3.3大表和小表 join产生数据倾斜

【场景描述】：当遇到一个大表和一个小表进行join操作时。

【解决方法】：使用 mapjoin 将小表加载到内存中。（详见上文小表 join 大表）

11.3.4 空值产生数据倾斜

【场景描述】：遇到需要进行 join 的但是关联字段有数据为空。如日志中，常会有信息丢失的问题，比如日志中的user_id，如果取其中的user_id和用户表中的user_id 关联，会碰到数据倾斜的问题。数据量大时也会产生数据倾斜，如表一的 id 需要和表二的 id 进行关联。

【解决方法】：

(1) id 为空的不参与关联:

select * from log a join users b 

 on a.user_id is not null and a.user_id = b.user_id 

union all  

select * from log a where a.user_id is null;

(2) 给空值分配随机的key值:

select * from log a left outer join users b  

on case when a.user_id is null then 

concat('hive',rand() ) else a.user_id end = b.user_id;

一般分配随机 key 值得方法更好一些。

11.3.5 合理设置map和reduce数避免数据倾斜

【调整Map****数】

1.小文件进行合并，减少map数（默认开启）

在 map 执行前合并小文件，减少 map 数：

set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

注意： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。但是HiveInputFormat 没有对小文件合并功能。

2.复杂文件增加Map数

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加 Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

MapReduce中没有办法直接控制 map 数量，可以通过设置每个map中处理的数据量进行设置。

#HDFS默认数据块大小128M、最小分片大小1、最大分片大小256M

set dfs.blocksize=134217728; 

set mapreduce.input.fileinputformat.split.minsize=1; 

set mapreduce.input.fileinputformat.split.maxsize=256000000;

增加map的方法为：根据公式，调整maxSize最大值：

computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

让maxSize 最大值低于 blocksize 就可以增加 map 的个数。

【调整Reduce数】

调整 reduce 个数方法一：

#每个 Reduce 处理的数据量默认是 256MB 
hive.exec.reducers.bytes.per.reducer=256000000 

#每个任务最大的 reduce 数，默认为 1009 
hive.exec.reducers.max=1009 

#计算 reducer 数的公式： 
N=min(hive.exec.reducers.max，总输入数据量/hive.exec.reducers.bytes.per.reducer)

调整 reduce 个数方法二：

#在hadoop的mapred-default.xml文件中修改设置每个job的Reduce个数 

set mapreduce.job.reduces = 15;

你可能感兴趣的:(hive,学习,数据库)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

Hive 学习历程