小强签名设计

SQL语句整理三--hive

文章目录

- - - 字符串拼接：
    - split函数（分割字符串）：
    - Hive中的replace方法：
    - 行列转换：
    - 创建数据库：
    - 创建表：
    - 添加或删除字段：
    - insert into 和 insert overwrite：
    - 查询语句中显示列名，不带表名：
    - hive 表的类型：
    - - 1.内部表：
      - 2.外部表：
      - 3.分区表：
      - 4.创建桶表：
    - desc命令：
    - 将生成的结果导入到一个文件中：
    - udf时间函数用法：
    - datediff，date_add和date_sub：
    - 时间函数应用获取当前时间：
    - mysql到hive数据类型转换：
    - Hbase表映射Hive表三种方法：
    - - 1.列映射（单列）：
      - 2.列映射（多列）：
      - 3.列族映射：
    - 创建日期维度表：
    - show functions：

字符串拼接：

select date_format(concat('2021-08','-01'),'yyyy-MM-dd HH:mm:ss') ;
+----------------------+
|         _c0          |
+----------------------+
| 2021-08-01 00:00:00  |
+----------------------+
1 row selected (2.258 seconds)

split函数（分割字符串）：

语法: split(string str, string pat)
返回值: array
说明: 按照pat字符串分割str，会返回分割后的字符串数组

1.基本用法
select split('abcdef', 'c');
结果：["ab", "def"]

2.截取字符串中的某个值
select split('abcdef', 'c')[0];
结果：ab

3.特殊字符。如正则表达式中的特殊符号作为分隔符时，需做转义 (前缀加上\)
select split('ab_cd_ef', '\_')[0];
结果：ab
select split('ab?cd_ef', '\\?')[0];
结果：ab

如果是在shell中运行，则(前缀加上\\)
hive -e "select split('ab?cd_ef', '\\\\?')[0]"
注：有些特殊字符转义只需\，而有些需\\，eg.?。可能在语句翻译过程中经历经历几次转义。

参考：【Hive】split函数（分割字符串）

计算最后指定位数的字段值：

假设字段样式如下：
a,b,c,d
a,c,b
a,f,g,h,j

想要取出倒数第一位的数（结果如下）：
c
c
h

实现如下：
方法一：
select split(cat_id,',')[size(split(cat_id,','))-2] from test_tmp;
方法二：
select reverse(split(reverse(cat_id),',')[1]) as cat_id from test_tmp;
注：字符串反转函数：reverse。select reverse('abcedfg'); ##返回值为gfdecba

参考（测试了sql语句有错误进行了相应的修改）：hive中split后计算最后指定位数的字段值（从后往前推的索引值）

Hive中的replace方法：

参考：Hive中的replace方法

Hive本身并没有replace方法，但是提供了两个方法可以实现replace功能

1.translate例子（这个方法可用是在Hive 0.10.0）：使用空字符串替换#字符

> select translate('This #is test to verify# translate #Function in Hive', '#','');
+----------------------------------------------------+--+
|                        _c0                         |
+----------------------------------------------------+--+
| This is test to verify translate Function in Hive  |
+----------------------------------------------------+--+
1 row selected (0.28 seconds)

2.regexp_replace例子：使用$符号替换^

> select regexp_replace('HA^G^FER$JY',"\\^","\\$");
+--------------+--+
|     _c0      |
+--------------+--+
| HA$G$FER$JY  |
+--------------+--+
1 row selected (0.208 seconds)

注：我使用的是hive 3.1.0版本，发现有replace方法啊，而且感觉更好用。

select replace('HA^G^FER$JY',"\\^","\\$");
+--------------+
|     _c0      |
+--------------+
| HA^G^FER$JY  |
+--------------+
select replace('HA^G^FER$JY',"^","$");
+--------------+
|     _c0      |
+--------------+
| HA$G$FER$JY  |
+--------------+
select regexp_replace('HA^G^FER$JY',"^","$");
Error: Error while compiling statement: FAILED: SemanticException [Error 10014]: Line 1:7 Wrong arguments '"$"': org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public org.apache.hadoop.io.Text org.apache.hadoop.hive.ql.udf.UDFRegExpReplace.evaluate(org.apache.hadoop.io.Text,org.apache.hadoop.io.Text,org.apache.hadoop.io.Text):Illegal group reference: group index is missing (state=42000,code=10014)

行列转换：

参考：Hive之列转行,行转列

列转行：

// 测试数据：
hive> select * from col_lie limit 10;
OK
col_lie.user_id    col_lie.order_id
104399    1715131
104399    2105395
104399    1758844
104399    981085
104399    2444143
104399    1458638
104399    968412
104400    1609001
104400    2986088
104400    1795054

// 把相同user_id的order_id按照逗号转为一行：
select user_id,
concat_ws(',',collect_list(order_id)) as order_value 
from col_lie
group by user_id
limit 10;

//结果(简写)
user_id    order_value
104399    1715131,2105395,1758844,981085,2444143

总结：
使用函数：concat_ws(',',collect_set(column))  
说明：collect_list 不去重，collect_set 去重。 column的数据类型要求是string

行转列：

// 测试数据：
hive> select * from lie_col;
OK
lie_col.user_id    lie_col.order_value
104408    2909888,2662805,2922438,674972,2877863,190237
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128
104406    1463273,2351480,1958037,2606570,3226561,3239512,990271,1436056,2262338,2858678
104405    153023,2076625,1734614,2796812,1633995,2298856,2833641,3286778,2402946,2944051,181577,464232
104404    1815641,108556,3110738,2536910,1977293,424564
104403    253936,2917434,2345879,235401,2268252,2149562,2910478,375109,932923,1989353
104402    3373196,1908678,291757,1603657,1807247,573497,1050134,3402420
104401    814760,213922,2008045,3305934,2130994,1602245,419609,2502539,3040058,2828163,3063469
104400    1609001,2986088,1795054,429550,1812893
104399    1715131,2105395,1758844,981085,2444143,1458638,968412
Time taken: 0.065 seconds, Fetched: 10 row(s)

// 将order_value的每条记录切割为单元素：
select user_id,order_value,order_id
from lie_col
lateral view explode(split(order_value,',')) demo as order_id
limit 10;

//结果
user_id    order_value    order_id
104408    2909888,2662805,2922438,674972,2877863,190237    2909888
104408    2909888,2662805,2922438,674972,2877863,190237    2662805
104408    2909888,2662805,2922438,674972,2877863,190237    2922438
104408    2909888,2662805,2922438,674972,2877863,190237    674972
104408    2909888,2662805,2922438,674972,2877863,190237    2877863
104408    2909888,2662805,2922438,674972,2877863,190237    190237
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    2982655
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    814964
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    1484250
104407    2982655,814964,1484250,2323912,2689723,2034331,1692373,677498,156562,2862492,338128    2323912
Time taken: 0.096 seconds, Fetched: 10 row(s)

创建数据库：

create database jiuyebu;

desc database jiuyebu;

use jiuyebu;

-- casecad 表示有表也删除
drop database yangyang casecad;

创建表：

-- 建表时判断该表是否存在
create table if not exists zb_xsgsbqy_xzq。。。

-- 创建临时表
create temporary table tmp as select * from test.test001 ;

-- 创建dept测试表
create table emp(
    empno int,
    ename string,
    job string,
    mgr int,
    hiredate string,
    sal double,
    comm double,
    deptno int
)
row format delimited fields terminated by '\t';

--  导入测试数据
load data local inpath "/home/hadoop/emp.txt" into table emp;
-- 注释： --local表示本地
		 --overwrite表示覆盖（默认情况使用的是append），一般要加上overwrite 表示覆盖

-- 清空一个表
truncate table emp;

-- 删除一个表
drop table emp;
drop table if exists yesterday_tmp;

-- 重命名表名
alter table FaRen_JiChuShuJu141 rename to FaRen_JiChuShuJu;

-- 展示建表语句
show create table + 表名;

添加或删除字段：

官方文档关于Add/ReplaceColumns操作的说明

// 创建测试表
CREATE TABLE IF NOT EXISTS test (id BIGINT, name STRING);

// 插入一条数据
INSERT INTO TABLE test VALUES(2341344423,"lisi");

// 添加字段
ALTER TABLE test ADD COLUMNS(age Int) COMMENT '年龄';
注：原有数据在新增一个或多个字段后，会将新增字段的值设置为null

// 插入一条数据
INSERT INTO TABLE test VALUES(2341344422,"zhangsan",18);

// 删除字段(使用新schema替换原有的)
ALTER TABLE test REPLACE COLUMNS(id BIGINT, name STRING);
注：在删除一个或多个字段后，原始数据的原始字段的值不会随之丢失

修改字段（名称/类型/位置/注释）：

CREATE TABLE test_change (a int, b int, c int);
 
// First change column a's name to a1.
ALTER TABLE test_change CHANGE a a1 INT;
 
// Next change column a1's name to a2, its data type to string, and put it after column b.
ALTER TABLE test_change CHANGE a1 a2 STRING AFTER b;
// The new table's structure is:  b int, a2 string, c int.
  
// Then change column c's name to c1, and put it as the first column.
ALTER TABLE test_change CHANGE c c1 INT FIRST;
// The new table's structure is:  c1 int, b int, a2 string.
  
// Add a comment to column a1
ALTER TABLE test_change CHANGE a1 a1 INT COMMENT 'this is column a1';

insert into 和 insert overwrite：

insert into table account select id,age,name from account_tmp;

insert overwrite table account2 select id,age,name from account_tmp;

两者的区别：

insert into 只是简单的插入，不考虑原始表的数据，直接追加到表中。
insert overwrite 会覆盖已经存在的数据，假如原始表使用overwrite 上述的数据，先现将原始表的数据remove，再插入新数据。

查询语句中显示列名，不带表名：

在hive-site.xml配置文件里添加如下：

<property>
	<name>hive.resultset.use.unique.column.namesname>
	<value>falsevalue>
property>

或者：set hive.resultset.use.unique.column.names=false;

hive 表的类型：

1.内部表：

hive 的管理表也可以称为内部表：默认表类型。

数据存放的MANAGED_TABLE 内部
默认数据存储在仓库位置目录/user/hive/warehouse/下面，每创建一个库，就是一个目录，建表就会生成文件。
删除表的时候，也会删除HDFS上面的文件。

create table dept1(
    deptno int,
    dname string,
    loc string
)
row format delimited fields terminated by '\t';

-- 导入数据处理：
load data local inpath "/home/hadoop/dept.txt" into table dept1;

2.外部表：

数据存放的MANAGED_TABLE 内部
一般我们会使用location去指定存放到其他位置
删除表的时候，不会去删除HDFS上面的文体,只删除元数据

create table dept2(
    deptno int,
    dname string,
    loc string
)
row format delimited fields terminated by '\t' location '/hive/dept2';

-- 导入数据处理
load data local inpath "/home/hadoop/dept.txt" into table dept2;

3.分区表：

使用业务场景：

时间增量数据
提高查询速度(核心)
一级分区、二级分区 partitioned by (date string,time string)
创建表时需要给定partitioned 处理一般是指定日期为string 类型。

create table emp3(
    empno int,
    ename string,
    job string,
    mgr int,
    hiredate string,
    sal double,
    comm double,
    deptno int
)
partitioned by (data string)
row format delimited fields terminated by '\t';

-- 导入数据的时候要加上partitioned处理。
load data local inpath "/home/hadoop/emp.txt" into table emp3 partition (date='20150515');

-- 查找可以用按 分区去查找
select * from emp3 where date='20150515';

-- 查询某个表的分区信息
show partitions emp3;

注：上传文件到分区表当中没有带分区等相关信息就需要修复分区表，可参考：hive的msck repair命令

msck repair table emp3 ;
-- 或者
alter table emp3 add partition(date='20150515');

4.创建桶表：

create table emp4(
    empno int,
    ename string,
    job string,
    mgr int,
    hiredate string,
    sal double,
    comm double,
    deptno int
)
clustered by(empno) into 3 buckets
row format delimited fields terminated by '\t';

-- 默认情况下load 加载时不分桶表：
-- 强制设置分桶：
set hive.enforce.bucketing = true;
-- 可以使用查询其它表加载到桶表，
-- 插入数据： 
insert into emp4 select * from emp4;

-- 显示dfs下文件：路径/库/表/文件
hive> dfs -lsr /

注：hive中的桶表数量如何去设置，评估数据量，保证每个桶的数据量是block的2倍大小

desc命令：

desc 命令是为了展示hive表格的内在属性。例如列名，data_type，存储位置等信息。这个命令常常用在我们对hive表格观察之时，我们想要知道这个hive各个列名，hive表格的存储位置。

desc table + 表名;

-- 要想获得更加详细的内容，我们可以使用 desc formatted 命令。

-- 想获得表中有分区的情况：
desc formatted revr_bmbs_dmp_offline.rv_dmp_offline_tags_hist partition(dt=20210307);

-- 双分区的情况：
+----------------------+
|         partition      |
+----------------------+
| dt=20210309/hour=6   |
+----------------------+
desc formatted revr_bmbs_dmp_offline.rt_recmd_message partition(dt=20210309,hour=6);

将生成的结果导入到一个文件中：

beeline --outputformat=tsv2 -e "select dmp_id from huiq.heheda where partition_date='20201205'" > 20201205_rd_tmp.csv

注：hiveserver2提供了一个新的命令行工具beeline，hiveserver2 对之前的hive做了升级，功能更加强大，它增加了权限控制。Beeline和其他工具有一些不同，执行查询都是正常的SQL输入，但是如果是一些管理的命令，比如进行连接，中断，退出，执行Beeline命令需要带上“！”，不需要终止符。常用命令介绍：

1、!connect url –连接不同的Hive2服务器  
2、!exit –退出shell  
3、!help –显示全部命令列表  
4、!verbose –显示查询追加的明细  

The Beeline CLI 支持以下命令行参数:    
Option    
Description    
--autoCommit=[true/false] ---进入一个自动提交模式：beeline --autoCommit=true    
--autosave=[true/false]   ---进入一个自动保存模式：beeline --autosave=true    
--color=[true/false]    ---显示用到的颜色：beeline --color=true    
--delimiterForDSV= DELIMITER ---分隔值输出格式的分隔符。默认是“|”字符。    
--fastConnect=[true/false]  ---在连接时，跳过组建表等对象：beeline --fastConnect=false    
--force=[true/false]    ---是否强制运行脚本：beeline--force=true    
--headerInterval=ROWS   ---输出的表间隔格式，默认是100: beeline --headerInterval=50    
--help ---帮助  beeline --help    
--hiveconf property=value  ---设置属性值，以防被hive.conf.restricted.list重置：beeline --hiveconf prop1=value1     
--hivevar name=value   ---设置变量名：beeline --hivevar var1=value1    
--incremental=[true/false]  ---输出增量  
--isolation=LEVEL  ---设置事务隔离级别：beeline --isolation=TRANSACTION_SERIALIZABLE    
--maxColumnWidth=MAXCOLWIDTH ---设置字符串列的最大宽度：beeline --maxColumnWidth=25    
--maxWidth=MAXWIDTH ---设置截断数据的最大宽度：beeline --maxWidth=150    
--nullemptystring=[true/false]  ---打印空字符串：beeline --nullemptystring=false    
--numberFormat=[pattern]     ---数字使用DecimalFormat：beeline --numberFormat="#,###,##0.00"    
--outputformat=[table/vertical/csv/tsv/dsv/csv2/tsv2] ---输出格式：beeline --outputformat=tsv （默认为talbe）
--showHeader=[true/false]   ---显示查询结果的列名：beeline --showHeader=false    
--showNestedErrs=[true/false] ---显示嵌套错误：beeline --showNestedErrs=true    
--showWarnings=[true/false] ---显示警告：beeline --showWarnings=true    
--silent=[true/false]  ---减少显示的信息量：beeline --silent=true    
--truncateTable=[true/false] ---是否在客户端截断表的列       
--verbose=[true/false]  ---显示详细错误信息和调试信息：beeline --verbose=true    
-d class>  ---使用一个驱动类：beeline -d driver_class    
-e   ---使用一个查询语句：beeline -e "query_string"    
-f   ---加载一个文件：beeline -f filepath  多个文件用-e file1 -e file2  
-n   ---加载一个用户名：beeline -n valid_user    
-p   ---加载一个密码：beeline -p valid_password    
-u  ---加载一个JDBC连接字符串：beeline -u db_URL

udf时间函数用法：

参考：hive中的udf时间函数用法

from_unixtime函数用法为将时间戳转换为时间格式
语法：from_unixtime(bigint unixtime, [string format]) 返回值为string
例如：hive>select from_unixtime(1326988805,'yyyyMMddHH');
结果：2012011916
UNIX时间戳函数：unix_timestamp
语法：unix_timestamp() 返回值为bigint
例如1：hive> select unix_timestamp();
结果：1629111510
例如2：select unix_timestamp('2011-12-07 13:01:03');
结果：1323262863
例如3：select unix_timestamp('20111207 13:01:03', 'yyyyMMdd HH:mm:ss');
结果：1323262863
日期时间转日期函数：to_date
语法：to_date(string timestamp) 返回值为string
例如：hive>select to_date('2011-12-08 10:03:01');
结果：2011-12-08
日期转年函数：year
语法：year(string date) 返回值为int
例如：hive>select year('2011-12-08 10:03:01');
结果：2011
日期转月函数：month
语法：month (string date) 返回值为int
例如：hive>select month('2011-08-08');
结果：8
日期转天函数：day
语法：day (string date) 返回值为int
例如1：hive>select day('2011-12-08 10:03:01');
结果：8
例如2：hive>select day('2011-12-24');
结果：24
日期转小时函数：hour
语法：hour (string date) 返回值为int
例如：hive>select hour('2011-12-08 10:03:01');
结果：10
日期转分钟函数：minute
语法：minute (string date) 返回值为int
例如：hive>select minute('2011-12-08 10:03:01');
结果：3
日期转秒函数：second
语法：second (string date) 返回值为int
例如：hive>select second('2011-12-08 10:03:01');
结果：1
日期转周函数：weekofyear
语法：weekofyear (string date) 返回值为int
例如：hive>select weekofyear('2011-12-08 10:03:01');
结果：49

datediff，date_add和date_sub：

1、日期比较函数：datediff语法：datediff(string enddate,string startdate)
返回值：int
说明：返回结束日期减去开始日期的天数。
例如：
hive> select datediff('2019-10-13','2019-10-03');
OK
10

月数时间差：select months_between('1997-02-28', '1996-1-30'); --12.93548387

其他方式：先转换为时间戳格式再求时间差
# 将两个字段转换为为毫秒类型时间戳，相减，再转换为2019-06-23 00:00:00 这种形式并取两位小数点，如果时间差单位为天的话则除以3600*24 如果时间差单位是小时的话则除以3600
示例：时间格式为2019-06-23 00:00:00

计算天数时间差：
select round(((unix_timestamp('2019-06-23 00:00:00') - unix_timestamp('2019-06-22 00:00:00') ) / (3600*24)),2); --1.0

计算小时时间差：
select round(((unix_timestamp('2019-06-23 00:00:00') - unix_timestamp('2019-06-22 00:00:00') ) / (3600)),2); --24.0

计算分钟时间差：
select round(((unix_timestamp('2019-06-23 00:00:00') - unix_timestamp('2019-06-22 00:00:00') ) / 60),2); --1440.0

计算秒时间差：
select round((unix_timestamp('2019-06-23 00:00:00') - unix_timestamp('2019-06-22 00:00:00') ),2); --86400

2、日期增加函数：date_add语法：date_add(string startdate, intdays)
返回值：String
说明：返回开始日期startdate增加days天后的日期
例如：
hive> select date_add('2019-10-13',10);
OK
2019-10-23

3、日期减少函数：date_sub语法： date_sub (string startdate,int days)
返回值：String
说明：返回开始日期startdate减少days天后的日期
例如：
hive> select date_sub('2019-10-13',10);
OK
2019-10-03

时间函数应用获取当前时间：

参考：hive时间函数应用获取当前时间

1. 获取当前时间：yyyy-MM-dd HH:mm:ss.S
select current_timestamp;
结果1：2021-08-17 14:11:43.61
结果2：2021-08-17 14:11:43.499
select date_format(current_timestamp,'yyyy-MM-dd HH:mm:ss') ;
结果：2021-08-17 14:11:43
select substr(current_timestamp(),1,19);
结果：2021-08-17 14:11:43
注：网上还有一种写法是select from_unixtime(unix_timestamp(),"yyyy-MM-dd HH:mm:ss");但我的结果却和上面的相差8小时，在hive版本2.1.1的时候结果正常，但到3.1.0的时候就会相差8小时。并且在3.1.0版本查询时有显示“unix_timestamp(void) is deprecated.Use current_timestamp instead.”。参考：https://blog.csdn.net/tototuzuoquan/article/details/113518186

2. 获取当前时间：yyyy-mm-dd
SELECT CURRENT_DATE;
结果：2021-08-17

3. 获取当月第一天时间：yyyy-mm-dd
select date_sub(current_date,dayofmonth(current_date)-1);
结果：2021-08-01

4. 获取下个月第一天时间：yyyy-mm-dd
select add_months(date_sub(current_date,dayofmonth(current_date)-1),1);
结果：2021-09-01

5. 获取当月第几天：yyyy-mm-dd
select dayofmonth(current_date);
结果：17

6. 获取当前日期所在月月末日期：yyyy-mm-dd
select last_day(current_date);
结果：2021-08-31

7. 获取当前日期本周一：yyyy-mm-dd
select date_sub(next_day(CURRENT_DATE,'MO'),7);
结果：2021-08-16

8. 获取当前日期上周一：yyyy-mm-dd
select date_sub(next_day(CURRENT_DATE,'MO'),14);
结果：2021-08-09

9. 获取当前日期上周日：yyyy-mm-dd
select date_sub(next_day(CURRENT_DATE,'MO'),8);
结果：2021-08-15

10. 获取当前日期本周二：yyyy-mm-dd（获取其他周几调整最后参数）
select date_sub(next_day(CURRENT_DATE,'MO'),6);
结果：2021-08-17

11. 获取当前日期上周二：yyyy-mm-dd（获取其他周几调整最后参数）
select date_sub(next_day(CURRENT_DATE,'MO'),13) ;
结果：2021-08-10

12. 获取当前时间的前/后几个月时间：yyyy-mm-dd（调整最后参数）
select add_months(CURRENT_DATE,-3);
结果：2021-05-17

13. 获取上季度初日期=（quarter方法hive不支持需通过其他方式）
select add_months(concat(year(CURRENT_DATE),'-',substr(concat('0',floor((month(CURRENT_DATE)+2)/3)*3+1),-2),'-01'),-6);
结果：2021-04-01

14. 获取本季度初日期=（quarter方法hive不支持需通过其他方式）
select add_months(concat(year(CURRENT_DATE),'-',substr(concat('0',floor((month(CURRENT_DATE)+2)/3)*3+1),-2),'-01'),-3);
结果：2021-07-01

15. 取上个季度同今天时间
select add_months(CURRENT_DATE,-3);
结果：2021-05-17

16. 去年本季度开始时间
select add_months(concat(year(CURRENT_DATE),'-',substr(concat('0',floor((month(CURRENT_DATE)+2)/3)*3+1),-2),'-01'),-15);
结果：2020-07-01

17. 去年本季度结束时间
select add_months(CURRENT_DATE,-12);
结果：2020-08-17

mysql到hive数据类型转换：

mysql和hive中的数据类型存在差异，在mysql集成数据到hive中这样的场景下，我们希望在hive中的数据是贴源的，所以在hive中希望创建和mysql结构一致的表。mysql到hive数据类型映射参考如下：

	mysql数据类型	hive数据类型
整型	bigint	BIGINT
整型	int	BIGINT
整型	smalint	BIGINT
整型	tinyint	BIGINT
浮点型	decimal	DECIMAL
浮点型	double	DOUBLE
浮点型	float	DOUBLE
二进制	binary	BINARY
二进制	varbinary	BINARY
字符	char	STRING
字符	varchar	STRING
字符	mediumtext	STRING
字符	text	STRING
字符	longtext	STRING
时间	datetime	STRING
时间	time	STRING
时间	timestamp	STRING
时间	date	DATE
json	json	MAP

参考：mysql到hive数据类型转换、Hive之数据类型

Hbase表映射Hive表三种方法：

官方文档：https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

Hbase表	Hive表	映射方法
index1	hbase_table1	列映射（单列）
index1	hbase_table2	列映射（多列）
index1	hbase_table3	列族映射

index1表结构：

逻辑关系：

注：如果hbase不存在相应的表则hive创建映射表时hbase中也会自动创建相应的表。

1.列映射（单列）：

Hive建表语句：

CREATE EXTERNAL TABLE hbase_table_1(key string, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES("hbase.columns.mapping" = "cf0:indexId") 
TBLPROPERTIES("hbase.table.name" = "index1", "hbase.mapred.output.outputtable" = "index1");

在Hive库中创建一个hbase_table_1表，列名为key、value
映射Hbase库中的index1表的cf0:indexId列
key、value为hive表的列名可修改
string为该字段的字符类型可修改

hive库中的表：

hive> show tables;
OK
hbase_table_1
Time taken: 0.03 seconds, Fetched: 1 row(s)
hive> select * from hbase_table_1;
11	11
13	11
9696	100
990111	11
990_11aa_aza	11
Time taken: 1.266 seconds, Fetched: 5 row(s)

-- 第一列为rowkey的值
-- 第二列为cf0:indexId的值
-- 没有展示cf0:muMac的值

2.列映射（多列）：

Hive建表语句：

CREATE EXTERNAL TABLE hbase_table_2(key int, indexId string, muMac string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "cf0:indexId,cf0:muMac") 
TBLPROPERTIES("hbase.table.name" = "index1", "hbase.mapred.output.outputtable" = "index1");

在Hive库中创建一个hbase_table_2表，列名为key、indexId、muMac
映射Hbase库中的index1表的cf0:indexId与cf0:muMac列
key、indexId、muMac为hive表的列名可修改
string为该字段的字符类型可修改

hive库中的表：

hive> show tables;
OK
hbase_table_1
hbase_table_2
Time taken: 0.02 seconds, Fetched: 2 row(s)
hive> select * from hbase_table_2;
OK
11	11	NULL
13	11	NULL
9696	100	NULL
9901	NULL	uzzu
990111	11	NULL
NULL	11	NULL
Time taken: 0.144 seconds, Fetched: 6 row(s)

-- 第一列为rowkey的值
-- 第二列为cf0:indexId的值
-- 第三列为cf0:muMac的值

3.列族映射：

Hive建表语句：

CREATE EXTERNAL TABLE hbase_table_3(value map<string,string>,row_key string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "cf0:,:key") 
TBLPROPERTIES("hbase.table.name" = "index1", "hbase.mapred.output.outputtable" = "index1");

在Hive库中创建一个hbase_table_3表，列名为value map、row_key
映射Hbase库中的index1表的cf0:列名
key、indexId、muMac为hive表的列名可修改
string为该字段的字符类型可修改

hive库中的表：

hive> show tables;
OK
hbase_table_1
hbase_table_2
hbase_table_3
Time taken: 0.922 seconds, Fetched: 3 row(s)
hive> select * from hbase_table_3;
{"indexId":"11"}	11
{"indexId":"11"}	13
{"indexId":"100"}	9696
{"muMac":"uzzu"}	9901
{"indexId":"11"}	990111
{"indexId":"11"}	990_11aa_aza
Time taken: 1.469 seconds, Fetched: 6 row(s)

-- 第一列为键值对
-- 第二列为rowkey的值

参考：Hbase表映射Hive表三种方法

注意1：其中key是必须加的，否则会报错：

注意2：在ods层做完hbase表映射之后，编写hql语句想在dwd层使用hbase的映射表生成相应的表却报错：Caused by: org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/meta-region-server

一开始跑偏的解决思路：在 hive-site 中添加 zookeeper.znode.parent 参数后重启hive
注：不同的环境，此默认值不一样，CDH是/hbase，HDP是/hbase-unsecure。

最终解决方法：在 hive-site 中添加 hbase.zookeeper.quorum 参数后重启hive。参考：解决HBase整合Hive时一直连接地址为localhost2181的zookeeper的问题

问题剖析：目前公司有两套集群，测试环境为三台服务器，zookeeper的server在这三台机器上都有安装，并且同样的场景执行相同的SQL语句并没有出现该问题。正式环境有10台服务器，zookeeper的server也装在了其中三台服务器中，而且在正式环境中执行同一语句有时候可以成功有时候却报上面截图的那个错误很是奇怪，后来查看yarn的日志发现当最后在装有zookeeper server的机器上就可以成功，而在其他七台机器上会失败而且日志中会报拒绝连接Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.ConnectException: Connection refused，而且看日志发现当在其他7台机器上会去连本地的zookeeper最终导致任务失败，于是我就想能不能让他们都连装有zookeeper server的三台机器上呐，最终搜索发现在hive中配置hbase.zookeeper.quorum可以解决该问题。

修改参数后的日志截图：

创建日期维度表：

在Hive数仓中创建一张时间跨度为2004-01-01到2021-08-31的时间维度表：

SELECT
    row_number() over(order by `date`) as id,
    date_ds,
    `date` day,
    substr(`date`, 0, 7) month,
    substr(`date`, 0, 4) year
FROM (
  SELECT
    `date`,
    regexp_replace(`date`, '-', '') as date_ds
  FROM (
    SELECT date_add(`start_date`,pos) AS `date`
    from (
      SELECT '2004-01-01' `start_date`
    ) t 
    lateral view posexplode(split(repeat(", ", 6452), ",")) tf AS pos,val  -- 6452为时间跨度
  ) dates
) dates_expanded;

优化：
参考：使用Hive SQL创建日期维度表
注意：这篇文章中的theMonday再计算CAST((day(theMonday) - 1) / 7 + 1 AS BIGINT) as week_of_month的逻辑不对，比如2004年1月1号、2号、3号取本周一29号再算的话是本月的第5个周，而实际是本月的第1个周。

列	类型	Comment	计算逻辑（用于需求沟通）
date	string	标准日期格式	2020-01-01
date_ds	string	ds日期格式	20200101
year	string	年份	2020
month	string	月份	01
day	string	日期	01
day_of_week	bigint	星期几【1-7】
week_of_year	bigint	本年度第几周	1. 以本年度第一个周一开始计算 2. 本年度前几日如属于上一年度的最后一周，则与上一年度最后一周的序号相同
week_of_month	bigint	本月第几周	与weekOfYear类似

SELECT
    `date`,
    date_ds,
    year,
    month,
    day,
    day_of_week,
    weekofyear(`date`) as week_of_year, 
    from_unixtime(unix_timestamp(`date`, 'yyyy-MM-dd'), 'W') as week_of_month
FROM (
  SELECT
    `date`,
    regexp_replace(`date`, '-', '') as date_ds,
    year(`date`) as year,
    month(`date`) as month,
    day(`date`) as day,
    -- 版本支持date_format，可以使用： date_format(`date`, 'u') as day_of_week
    from_unixtime(unix_timestamp(`date`, 'yyyy-MM-dd'), 'u') as day_of_week 
  FROM (
    SELECT date_add(`start_date`,pos) AS `date`
    from (
      SELECT '2004-01-01' `start_date`
    ) t 
    lateral view posexplode(split(repeat(', ', 10), ',')) tf AS pos,val --  10为时间跨度
  ) dates
) dates_expanded
SORT BY `date`
;

注：我是用的hive版本为Apache Hive (version 3.1.0.3.1.4.0-315)

show functions：

hive的UDF还是很强大的，可以多show functions,学习了解各种hive function。

# 我这里hive的版本是3.1.0
hive> show functions;
+------------------------------+
|           tab_name           |
+------------------------------+
| !                            |
| !=                           |
| $sum0                        |
| %                            |
| &                            |
| *                            |
| +                            |
| -                            |
| /                            |
| <                            |
| <=                           |
| <=>                          |
| <>                           |
| =                            |
| ==                           |
| >                            |
| >=                           |
| ^                            |
| abs                          |
| acos                         |
| add_months                   |
| aes_decrypt                  |
| aes_encrypt                  |
| and                          |
| array                        |
| array_contains               |
| ascii                        |
| asin                         |
| assert_true                  |
| assert_true_oom              |
| atan                         |
| avg                          |
| base64                       |
| between                      |
| bin                          |
| bloom_filter                 |
| bround                       |
| bucket_number                |
| cardinality_violation        |
| case                         |
| cbrt                         |
| ceil                         |
| ceiling                      |
| char_length                  |
| character_length             |
| chr                          |
| coalesce                     |
| collect_list                 |
| collect_set                  |
| compute_stats                |
| concat                       |
| concat_ws                    |
| context_ngrams               |
| conv                         |
| corr                         |
| cos                          |
| count                        |
| covar_pop                    |
| covar_samp                   |
| crc32                        |
| create_union                 |
| cume_dist                    |
| current_authorizer           |
| current_database             |
| current_date                 |
| current_groups               |
| current_timestamp            |
| current_user                 |
| date_add                     |
| date_format                  |
| date_sub                     |
| datediff                     |
| day                          |
| dayofmonth                   |
| dayofweek                    |
| decode                       |
| degrees                      |
| dense_rank                   |
| div                          |
| e                            |
| elt                          |
| encode                       |
| enforce_constraint           |
| exp                          |
| explode                      |
| extract_union                |
| factorial                    |
| field                        |
| find_in_set                  |
| first_value                  |
| floor                        |
| floor_day                    |
| floor_hour                   |
| floor_minute                 |
| floor_month                  |
| floor_quarter                |
| floor_second                 |
| floor_week                   |
| floor_year                   |
| format_number                |
+------------------------------+
|           tab_name           |
+------------------------------+
| from_unixtime                |
| from_utc_timestamp           |
| get_json_object              |
| get_splits                   |
| greatest                     |
| grouping                     |
| hash                         |
| hex                          |
| histogram_numeric            |
| hour                         |
| if                           |
| in                           |
| in_bloom_filter              |
| in_file                      |
| index                        |
| initcap                      |
| inline                       |
| instr                        |
| internal_interval            |
| isfalse                      |
| isnotfalse                   |
| isnotnull                    |
| isnottrue                    |
| isnull                       |
| istrue                       |
| java_method                  |
| json_tuple                   |
| lag                          |
| last_day                     |
| last_value                   |
| lcase                        |
| lead                         |
| least                        |
| length                       |
| levenshtein                  |
| like                         |
| likeall                      |
| likeany                      |
| ln                           |
| locate                       |
| log                          |
| log10                        |
| log2                         |
| logged_in_user               |
| lower                        |
| lpad                         |
| ltrim                        |
| map                          |
| map_keys                     |
| map_values                   |
| mask                         |
| mask_first_n                 |
| mask_hash                    |
| mask_last_n                  |
| mask_show_first_n            |
| mask_show_last_n             |
| matchpath                    |
| max                          |
| md5                          |
| min                          |
| minute                       |
| mod                          |
| month                        |
| months_between               |
| murmur_hash                  |
| named_struct                 |
| negative                     |
| next_day                     |
| ngrams                       |
| noop                         |
| noopstreaming                |
| noopwithmap                  |
| noopwithmapstreaming         |
| not                          |
| ntile                        |
| nullif                       |
| nvl                          |
| octet_length                 |
| or                           |
| parse_url                    |
| parse_url_tuple              |
| percent_rank                 |
| percentile                   |
| percentile_approx            |
| pi                           |
| pmod                         |
| posexplode                   |
| positive                     |
| pow                          |
| power                        |
| printf                       |
| quarter                      |
| radians                      |
| rand                         |
| rank                         |
| reflect                      |
| reflect2                     |
| regexp                       |
| regexp_extract               |
| regexp_replace               |
+------------------------------+
|           tab_name           |
+------------------------------+
| regr_avgx                    |
| regr_avgy                    |
| regr_count                   |
| regr_intercept               |
| regr_r2                      |
| regr_slope                   |
| regr_sxx                     |
| regr_sxy                     |
| regr_syy                     |
| repeat                       |
| replace                      |
| replicate_rows               |
| restrict_information_schema  |
| reverse                      |
| rlike                        |
| round                        |
| row_number                   |
| rpad                         |
| rtrim                        |
| second                       |
| sentences                    |
| sha                          |
| sha1                         |
| sha2                         |
| shiftleft                    |
| shiftright                   |
| shiftrightunsigned           |
| sign                         |
| sin                          |
| size                         |
| sort_array                   |
| sort_array_by                |
| soundex                      |
| space                        |
| split                        |
| sq_count_check               |
| sqrt                         |
| stack                        |
| std                          |
| stddev                       |
| stddev_pop                   |
| stddev_samp                  |
| str_to_map                   |
| struct                       |
| substr                       |
| substring                    |
| substring_index              |
| sum                          |
| surrogate_key                |
| tan                          |
| to_date                      |
| to_epoch_milli               |
| to_unix_timestamp            |
| to_utc_timestamp             |
| translate                    |
| trim                         |
| trunc                        |
| tumbling_window              |
| ucase                        |
| udftoboolean                 |
| udftobyte                    |
| udftodouble                  |
| udftofloat                   |
| udftointeger                 |
| udftolong                    |
| udftoshort                   |
| unbase64                     |
| unhex                        |
| unix_timestamp               |
| upper                        |
| uuid                         |
| var_pop                      |
| var_samp                     |
| variance                     |
| version                      |
| weekofyear                   |
| when                         |
| width_bucket                 |
| windowingtablefunction       |
| xpath                        |
| xpath_boolean                |
| xpath_double                 |
| xpath_float                  |
| xpath_int                    |
| xpath_long                   |
| xpath_number                 |
| xpath_short                  |
| xpath_string                 |
| year                         |
| |                            |
| ~                            |
+------------------------------+
291 rows selected (0.056 seconds)

你可能感兴趣的:(数据库,hive)

Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务 CSDN资讯腾讯云 mongodb 人工智能
2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
深入解析 MySQL 数据库：隔离级别的选择幽兰的天空 MYSQL数据库数据库 mysql oracle
在数据库中，创建事务一般包含几个简单的步骤。以下是如何在MySQL中创建事务的基本指南，包括相关的SQL语句和操作流程：1.启动事务在MySQL中，你可以使用STARTTRANSACTION或BEGIN语句来启动一个新的事务。这表示你将开始执行一系列操作，这些操作要么全部成功（提交），要么全部失败（回滚）。STARTTRANSACTION;--或者使用BEGIN;2.执行操作在事务被启动后，你可以
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
系统架构设计（以飞控系统、航电系统、机电管理系统、电子电气架构为例）机载软件与适航机载系统系统工程适航系统架构架构
架构的定义系统架构涉及对系统的结构和行为进行高层次的描述。它包括系统的组成部分、这些部分之间的关系、与外部环境的交互方式，以及满足特定功能和非功能性需求的方法。系统架构定义了系统的总体设计蓝图，指导系统的开发、集成、部署和维护。系统架构的核心要素组成部分（Components）：系统中的独立模块或单元，每个模块执行特定的功能。组件可以是软件模块、硬件设备、数据库、用户界面等。组件间的关系（Rela
Beekeeper Studio：高颜值且免费的SQL开发工具开源项目精选 sql 数据库
BeekeeperStudio是一款免费开源的SQL开发和数据库管理工具，具有美观高效、简单易用的特点。BeekeeperStudio基于Vue.js开发，遵循MIT开源协议，支持Windows、Linux以及macOS平台。Stars数17842Forks数1170主要特点安全连接：除了正常的连接，也可以使用SSL加密连接或通过SSH隧道连接；SQL自动补全：代码编辑器支持语法高亮和表名自动补全
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
个人AI助手的未来：Yi AI开源系统助力快速搭建耶耶Norsea 网络杂烩人工智能开源
摘要YiAI推出了一站式个人AI助手平台解决方案，助力用户快速搭建专属AI助手。该平台采用全套开源系统，涵盖前端应用、后台管理及小程序功能，并基于MIT协议开放使用。同时，平台集成了本地RAG方案，利用Milvus与Weaviate向量数据库支持本地部署，为用户提供高效、灵活的数据处理能力。关键词个人AI助手,快速搭建,开源系统,本地RAG,向量数据库一、YiAI开源系统概述1.1个人AI助手的发
向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人
本系列前两篇文章深入探讨了PieCloudVector在图片和音频数据上的应用之后，本文将聚焦于文本数据，探索PieCloudVector对于文本数据的向量化处理、存储以及检索，并最终结合LLM打造聊天机器人的全流程。在自然语言处理任务中涉及到大量对文本数据的处理、分析和理解，而向量数据库在其中发挥了重要的作用。本文为《PieCloudVector进阶系列》的第三篇，将为大家介绍如何利用PieCl
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
MySQL 面试题你曾经是少年 mysql 数据库
1.数据库基础问题：请解释数据库（DB）、数据库管理系统（DBMS）、SQL三者的区别。参考答案：DB：存储数据的结构化仓库DBMS：管理数据库的软件（如MySQL、Oracle）SQL：操作关系型数据库的标准化语言2.SQL分类问题：SQL分为哪几类？分别写出对应的关键字（至少3个）。参考答案：DDL：CREATE/DROP/ALTERDML：INSERT/UPDATE/DELETEDQL：SE
Redis 使用入门与进阶指南 ohn.yu 技术杂谈 redis 数据库缓存
Redis（RemoteDictionaryServer）是一个高性能的开源内存数据存储系统，常被用作数据库、缓存和消息队列。它以速度快、支持多种数据结构和简单易用而著称。本文将带你从Redis的基础用法开始，逐步深入到适合中级技术人员的实际应用场景。如果你是一个初学者或有一定经验的技术人员，这篇博客会帮助你更好地掌握Redis。什么是Redis？Redis是一个键值对存储系统，但它不仅仅是简单的
如何在 Node.js 中使用 .env 文件管理环境变量？鸠摩智首席音效师 node.js
Node.js应用程序通常依赖于环境变量来管理敏感信息或配置设置。.env文件已经成为一种流行的本地管理这些变量的方法，而无需在代码存储库中公开它们。本文将探讨.env文件为什么重要，以及如何在Node.js应用程序中有效的使用它。为什么使用.env文件?Security在源代码中保留敏感信息(如API密钥、数据库凭据)可能会将它们暴露给意想不到的访问者。将此数据分离到特定于环境的文件中，您可以使
如何申请内网 IP 证书 ssl证书
一、明确需求与规划在企业或特定内部网络环境中，开启申请内网IP证书流程的首要任务是明确自身需求并做好精细规划。要仔细确定内网中究竟哪些服务器、应用程序或服务亟待IP证书的加持，这可能涉及到企业内部的办公系统、数据库服务器、关键业务应用等诸多关键节点。二、选择合适的证书颁发机构（CA）完成需求规划后，紧接着便是抉择恰当的证书颁发机构。对于内网场景，有两种主流途径：一是企业自主搭建内部CA二是选用专业
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
Node.js系列（5）--数据库操作指南一进制ᅟᅠ ‌‍‎‏ Node.js node.js 数据库
Node.js数据库操作指南引言数据库操作是Node.js应用开发中的关键环节。本文将深入探讨Node.js数据库操作的实现方案，包括连接管理、查询优化、事务处理等方面，帮助开发者构建高效可靠的数据访问层。数据库操作概述Node.js数据库操作主要包括以下方面：连接管理：连接池、故障恢复、负载均衡查询处理：SQL构建、参数绑定、结果映射事务管理：事务控制、隔离级别、一致性保证性能优化：查询优化、缓
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
TDE透明加密技术：免改造实现华为云ECS中数据库和文件加密存储安当加密华为云数据库
在数字经济与云计算深度融合的今天，华为云ECS（弹性云服务器）已成为企业数字化转型的核心载体，承载着数据库、文件存储、AI训练等关键业务。然而，云上数据安全形势日益严峻：2024年全球云环境勒索攻击同比激增210%，密钥泄露、权限失控、合规失效成为企业上云的三大痛点。作为国内数据安全领域的领军者，上海安当推出的TDE透明加密技术，以“存储层无感加密、密钥全生命周期管理、动态防勒索”为核心，为华为云
thinkphp5模型查询数据库，查出来的字段直接修改成另外的名字知码客个人随笔 thinkphp5 php开发
在ThinkPHP5中，如果你希望在查询数据库时将返回的字段名直接修改为其他名称，可以通过以下几种方式实现：方法1：使用field方法指定字段别名在查询时通过field方法直接为字段指定别名（使用AS关键字）。示例代码：//使用Db类查询$result=Db::name('user')->field('idASuser_id,nameASfull_name')->select();//使用模型查询
基于oracle linux的 DBI/DBD 标准化安装文档(三) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据库管理-第303期数据库相关硬件文章汇总（20250319）胖头鱼的鱼缸（尹海文）数据库数据库
数据库管理303期2025-03-19数据库管理-第303期数据库相关硬件文章汇总（20250319）1CPU&内存2SSD3RDMA4存储5CXL6硬件采购7数据库一体机总结数据库管理-第303期数据库相关硬件文章汇总（20250319）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19
数据库管理-第304期业绩？有绩无业！（20250320）胖头鱼的鱼缸（尹海文）数据库数据库 oracle
数据库管理304期2025-03-20数据库管理-第304期业绩？有绩无业！（20250320）1词解2跑偏3活动预告总结数据库管理-第304期业绩？有绩无业！（20250320）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19c、MySQL8.0OCP、Exadata、CDP等认证墨天
Springboot启动失败：解决「org.yaml.snakeyaml.error.YAMLException」报错全记录 -天凉好秋- spring boot java idea visual studio code
##关键字Java、Springboot、vscode、idea、nacos启动失败、YAMLException、字符集配置---##背景环境###项目架构-**框架**：SSM（Spring+SpringMVC+MyBatis）-**中间件**：Nacos（配置管理+服务发现）-**配置存储**：Nacos中存储了Springboot的配置，包括：数据库连接信息、Redis连接信息、服务配置等。
Java课程设计“单项选择题标准化考试系统设计” GG爆不会写代码 java sql mysql intellij-idea
大二时做的java课设，代码能力不是很行，给需要做课设的同学一个参考题目如下“单项选择题标准化考试系统设计”1、问题描述设计一个单项选择题标准化考试系统，该系统要求能自动组卷和评分。2、功能要求（1）用数据库保存试题。（每个试题包括题干、4个备选答案、标准答案）。（2）试题录入：可随时增加试题到试题库中。（3）试题抽取：每次从试题库中可以随机抽出N道题（N由键盘输入）。（4）答题：用户可实现输入自
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http