weixin_52189442

Hive-HQL语法详解

HQL语法详解

一、DDL 数据定义
- 1、创建数据库
- 2、查询数据库
- - （1）查看当前正在使用的数据库
  - （2）显示全部数据库
  - （3）过滤显示数据库列表
  - （4）显示数据库信息
  - （5）显示数据库详细信息（extended）
- 3、切换数据库
- 4、修改数据库
- 5、删除数据库
- 6、创建表
- - （1）建表语法
  - （2）管理表（内部表）与外部表
  - （3）管理表（内部表）与外部表转换
  - （4）复制表结构创建表
  - （5）复制表结构与数据创建表（as select）
- 2、查看系统中的表
- 3、查看表结构
- 4、查看表详情信息（表字段、表类型、表位置、表输入输出类型）
- 5、修改表
- - （1）重命名表
  - （2）增加/修改/替换列信息
  - （3）修改字段分隔符
- 6、清除表中数据
- 7、删除表
二、DML 数据操作
- 1、数据导入
- - （1）直接将数据put到表目录下
  - （2）向表中装载数据（Load）
  - （3）通过查询语句向表中插入数据（Insert）
  - （4）查询语句创建表并加载数据（As Select）
  - （5）创建表时通过 Location 指定加载数据路径（表位置）
  - （6） Import 将文件数据导入到指定 Hive 表中
- 2、数据导出
- - （1）Insert导出
  - （2）Hadoop命令导出到本地
  - （3）hive Shell 命令导出
  - （4） Export导出到HDFS上
  - （5）导出工具 sqoop/dataX
- 3、查询语句
- - （1）查询语句执行流程
  - （2）常用聚合函数
  - （3）Limit 语句
  - （4）比较运算符
  - （5）Like和RLike
  - （6）分组group by
  - （7）having
- 4、表的别名，列的别名
- 5、join语句
- - （1）内连接 join
  - （2）左外连接 left join
  - （3）右外连接 right join
  - （4）满外连接 full join
  - （5）左半连接 left semi join
  - （6）笛卡尔积
  - （7）union
  - （8）union all
- 6、with as 的使用
三、排序
- 1、全局排序（Order By）
- 2、每个 Reduce 内部排序（Sort By）
- 3、分区（Distribute By）
- 3、Cluster By 分区并排序
四、分区表
- 1、查看语句执行计划
- 2、一级静态分区表
- - （1）创建一级静态分区表
  - （2）加载数据到一级分区表中
  - （3）加载数据时不指定分区
  - （4）查询一级分区表中数据
- 3、对分区的增删查
- - （1）增加分区
  - （2）删除分区
  - （3）查看分区表有多少分区
  - （4）查看分区表结构
- 4、二级静态分区表
- - （1）创建二级静态分区表
  - （2）加载数据到二级分区表中
  - （3）查询二级分区表中数据
- 5、静态分区表加载数据的几种方式
- - （1）正常的加载数据（系统自己建分区目录）
  - （2）自己手动创建分区目录
- 6、动态一级分区表
- （1）开启动态分区功能（默认 true，开启）
- （2）设置为非严格模式（动态分区的模式，默认 strict，表示必须指定至少一个分区为静态分区，nonstrict 模式表示允许所有的分区字段都可以使用动态分区。）
- （3）创建普通表，导入数据
- （4）创建分区表
- （5）导入数据到分区表中，并设置动态分区
- （6）导入数据时不写 partition （Hive3.0新增功能）
- （7）查看分区表的分区情况
- （8）动态分区表的缺点
- 7、动态二级分区表
五、分桶表
- 1、创建分桶表
- 2、查看表结构
- 3、导入数据到分桶表中
- - （1）load 的方式
  - （2）insert 方式
- 4、分桶规则
- 5、分桶表操作需要注意的事项
- 6、分桶抽样查询

一、DDL 数据定义

1、创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];

[IF NOT EXISTS]：是否不存在，是的话创建。避免要创建的数据库已经存在错误
[COMMENT database_comment]：表注释
[LOCATION hdfs_path]：指定数据库在 HDFS 上存放的位置，默认存储路径是/user/hive/warehouse/*.db

2、查询数据库

（1）查看当前正在使用的数据库

hive> select current_database() ;

（2）显示全部数据库

hive> show databases;

（3）过滤显示数据库列表

hive> show databases like 'db_hive*';
OK
db_hive
db_hive_1

（4）显示数据库信息

hive> desc database db_hive;

（5）显示数据库详细信息（extended）

hive> desc database extended db_hive;

3、切换数据库

hive> use db_hive;

4、修改数据库

hive> alter database db_hive set dbproperties('createtime'='20170830');

5、删除数据库

删除空数据库

hive> drop database db_hive2;

强制删除非空数据库

hive> drop database db_hive cascade;

6、创建表

（1）建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]

字段说明

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；
用户可以用 IF NOT EXISTS 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实
际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而外
部表只删除元数据，不删除数据。
COMMENT：为表和列添加注释。
PARTITIONED BY 创建分区表
CLUSTERED BY 创建分桶表
SORTED BY 不常用，对桶中的一个或多个列另外排序
ROW FORMAT
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value,
property_name=property_value, …)]
用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW
FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需
要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表
的具体的列的数据。
SerDe 是 Serialize/Deserilize 的简称， hive 使用 Serde 进行行对象的序列与反序列化。
row format delimited fields terminated by “分隔符”：指定文件是以什么分割成列的
STORED AS 指定存储文件类型
常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列
式存储格式文件）
如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED
AS SEQUENCEFILE。
LOCATION ：指定表在 HDFS 上的存储位置。
AS：后跟查询语句，根据查询结果创建表。
LIKE 允许用户复制现有的表结构，但是不复制数据。

（2）管理表（内部表）与外部表

默认创建的表使用的是ManagerTable ，都是所谓的管理表，有时也被称为内部表。因为这种表，Hive会（或多或少地）控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如，/user/hive/warehouse)所定义的目录的子目录下。当我们删除一个管理表时，Hive也会删除这个表中数据（将表文件删除）。管理表不适合和其他工具共享数据。

创建表时用 external 修饰的表都是外部表。因为表是外部表，所以Hive并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据，不过描述表的元数据信息会被删除掉。

CREATE [EXTERNAL] TABLE：有EXTERNAL即为外部表，没有即为内部表

无论是管理表还是外部表不指定location就会在hive.metastore.warehouse.dir配置的hive工作目录下创建以自己的表名为名的工作目录，指定locaition后则以指定位置为工作目录

如果数据是共享数据，数据很重要，建议使用外部表

管理表和外部表的使用场景

每天将收集到的网站日志定期流入HDFS文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、结果表使用内部表存储，数据通过SELECT+INSERT进入内部表

（3）管理表（内部表）与外部表转换

查询表的类型

hive (default)> desc formatted student2;
Table Type:       MANAGED_TABLE

修改内部表student2为外部表

alter table student2 set tblproperties('EXTERNAL'='TRUE');

查询表的类型

hive (default)> desc formatted student2;
Table Type:       EXTERNAL_TABLE

修改外部表student2为内部表

alter table student2 set tblproperties('EXTERNAL'='FALSE'); -- 要求KV的大小写

查询表的类型

hive (default)> desc formatted student2;
Table Type:       MANAGED_TABLE

注意：(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法，区分大小写！

（4）复制表结构创建表

create table tb_user2 like tb_user;

（5）复制表结构与数据创建表（as select）

create  table  tb_emp3  as  select eno , name , job from tb_emp ;

2、查看系统中的表

查看当前数据库的所有表

show  tables ;

查看当前数据库以tb开头的所有表

show tables like 'tb.*' 或 show tables like 'tb*';

查看指定数据库的表

show tables in  数据库名;  或者 show tables like '数据库名.*' ;

3、查看表结构

desc 表名

4、查看表详情信息（表字段、表类型、表位置、表输入输出类型）

desc formatted 表名

5、修改表

（1）重命名表

ALTER TABLE table_name RENAME TO new_table_name

（2）增加/修改/替换列信息

更新列

ALTER TABLE table_name CHANGE [COLUMN] column_old_name column_new_name 
column_type [COMMENT col_comment] [FIRST|AFTER column_name]

增加和替换列

ALTER TABLE table_name ADD|REPLACE COLUMNS (column_name data_type [COMMENT col_comment], ...)

注：ADD 是代表新增一字段，字段位置在所有列后面(partition 列前)，REPLACE 则是表示替换表中所有字段。

对于分区表来说，这样增加列只会对新分区生效，旧分区依旧无法更新新增的列。可以在新增字段时加上cascade关键字，cascade为“级联”，不仅变更新分区的表结构（metadata），同时也变更旧分区的表结构。

alter table  industry_db.product add columns(industry_id string comment ‘行业id) cascade;

如果已经执行添加操作，并且没有带cascade，可以尝试下面的方法：

1、使用replace 恢复表结构，这样历史的分区数据都不会消失
alter table industry_db.product replace columns(product_name string comment ‘产品名’);
2、然后再使用带cascade添加字段

（3）修改字段分隔符

alter table test01 set serdeproperties('field.delim'='\t');

6、清除表中数据

truncate table student;

注意：Truncate只能删除管理表，不能删除外部表中数据

7、删除表

drop table table_name;

二、DML 数据操作

1、数据导入

（1）直接将数据put到表目录下

hdfs dfs -put  user.txt  /user/hive/warehouse/db_doit25.db/tb_manage_user/b.txt
-- 将HDFS的文件移动到表目录下  cp  mv 
hdfs dfs -mv  /user.txt  /user/hive/warehouse/db_doit25.db/tb_manage_user/b.txt

在hive的客户端也提供了操作hdfs文件系统的命令

0: jdbc:hive2://linux01:10000> dfs  -ls  /user/hive/warehouse ;
+----------------------------------------------------+
|                     DFS Output                     |
+----------------------------------------------------+
| Found 4 items                                      |
| drwxrwxrwx   - root supergroup          0 2021-08-05 22:14 /user/hive/warehouse/db_doit25.db |
| drwxrwxrwx   - root supergroup          0 2021-08-05 03:18 /user/hive/warehouse/tb_demo1 |
| drwxrwxrwx   - root supergroup          0 2021-08-05 06:01 /user/hive/warehouse/tb_emp2 |
| drwxrwxrwx   - root supergroup          0 2021-08-05 06:03 /user/hive/warehouse/tb_emp3 |
+----------------------------------------------------+

（2）向表中装载数据（Load）

hive> load data [local] inpath '数据的 path' [overwrite] into table 
tb_name [partition (partcol1=val1,…)];

load data:表示加载数据
local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表
从本地load相当于将本地文件put到HDFS的Hive表文件夹下，本地文件还在；从HDFS上load则是将文件移动到了Hive表文件夹下（实际上只是修改NameNode存储的元数据信息，文件的磁盘位置并没有动），原来的文件就没有了
inpath:表示加载数据的路径
overwrite:表示覆盖表中已有数据（会将原表中所有数据全部删掉），否则表示追加
into table:表示加载到哪张表
student:表示具体的表
partition:表示上传到指定分区

load与put的区别：load会修改元数据信息，put不会修改

（3）通过查询语句向表中插入数据（Insert）

使用insert into values

insert into tb_orders  values('oid010','uid003',98),(oid011','uid002',38) ;

使用 insert into select
将查询结果保存在已经存在的一张表中 增量保存处理结果

insert into tb_orders_back  select  * from tb_orders   where oid > 'oid003' ;

覆盖插入insert overwrite table tb_name，会覆盖表中已存在的数据
覆盖插入注意要写table关键字

insert overwrite table tb_orders_back  select  * from tb_orders   where oid <= 'oid003';

insert 不支持插入部分字段，字段必须全且对应的上
底层就是MR程序写数据到表目录下，效率低，每次insert都会在HDFS中生成小文件, 影响性能 ! 不建议使用。HDFS每次生成小文件都要向NameNode插入元数据，会增加NameNode的压力。MR也不适合处理小文件，每个文件会生成一个MapTask

（4）查询语句创建表并加载数据（As Select）

create  table  tb_emp3  as  select eno , name , job from tb_emp ;

（5）创建表时通过 Location 指定加载数据路径（表位置）

hive (default)> create external table if not exists student5(
 id int, name string
 )
 row format delimited fields terminated by '\t'
 location '/student;

创建表，并指定表在 hdfs 上的位置。location 后面必须是Hdfs上的目录
Hive会自动加载目录中的文件，根据规定的分隔符（row format delimited fields terminated by ‘\t’）生成表数据

（6） Import 将文件数据导入到指定 Hive 表中

用于数据的备份和迁移 , 导入的数据必须是export导出的数据

-- 1导出数据
export table tb_orders to '/user/hive/warehouse/output/orders';
-- 2 建表
create table tb_orders_import  like tb_orders ;
-- 3 导入
import table tb_orders_import from '/user/hive/warehouse/output/orders';

2、数据导出

（1）Insert导出

将a表的数据导出到b表中

insert into b select  * from a; 
create table b as select * from a

将表数据导出到本地文件夹中

 -- 将查询的结果保存在文件夹中
insert overwrite local directory '/data/output'
select * from tb_orders;

导出的数据默认使用隐藏分隔符 , 可以自己指定数据属性的分隔符

insert overwrite local directory '/data/output2'
row format delimited fields terminated by ',' 
select * from tb_orders;

insert overwrite local directory '/data/output3'
row format delimited fields terminated by '-' 
select * from tb_orders;

可以将数据导出到HDFS上(没有 local)

insert overwrite  directory '/data/output3'
row format delimited fields terminated by '-' 
select * from tb_orders;

（2）Hadoop命令导出到本地

hive (default)> dfs -get /user/hive/warehouse/student/student.txt
/opt/apps/data/export/student3.txt;

（3）hive Shell 命令导出

基本语法：（hive -e/-f 执行语句或者脚本 > file）

[root@linux1 hive]$ bin/hive -e 'select * from default.student;' >
/opt/apps/hive/data/export/student4.txt;

（4） Export导出到HDFS上

(defahiveult)> export table default.student 
to '/user/hive/warehouse/export/student';

（5）导出工具 sqoop/dataX

数据迁移工具结构化数据的迁移

3、查询语句

在Hive中，单表简单查询语句如select * from Table;和 select * from Table limit n; 不产生MR任务。若是涉及到分组或排序，才会走MR

（1）查询语句执行流程

select
*        -- 4
from
tb_name  -- 1
where    -- 2
group by -- 3
having   -- 5
order by -- 6
limit    -- 7

（2）常用聚合函数

count：求总行
max：求最大值
min：求最小值
sum：求总和
avg：求平均值

（3）Limit 语句

典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。

取前5条
hive (default)> select * from emp limit 5;
参数一起始的行数 0开始计数参数2 取多少条
hive (default)> select * from emp limit 2, 5;

（4）比较运算符

操作符	支持的数据类型	描述
A=B	基本数据类型	如果A等于B则返回TRUE，反之返回FALSE
A<=>B	基本数据类型	如果A和B都为NULL，则返回TRUE，其他的和等号（=）操作符的结果一致，如果任一为NULL则结果为NULL
A<>B, A!=B	基本数据类型	A或者B为NULL则返回NULL；如果A不等于B，则返回TRUE，反之返回FALSE
A	基本数据类型	A或者B为NULL，则返回NULL；如果A小于B，则返回TRUE，反之返回FALSE
A<=B	基本数据类型	A或者B为NULL，则返回NULL；如果A小于等于B，则返回TRUE，反之返回FALSE
A>B	基本数据类型	A或者B为NULL，则返回NULL；如果A大于B，则返回TRUE，反之返回FALSE
A>=B	基本数据类型	A或者B为NULL，则返回NULL；如果A大于等于B，则返回TRUE，反之返回FALSE
A [NOT] BETWEEN B AND C	基本数据类型	如果A，B或者C任一为NULL，则结果为NULL。如果A的值大于等于B而且小于或等于C，则结果为TRUE，反之为FALSE。如果使用NOT关键字则可达到相反的效果。
A IS NULL	所有数据类型	如果A等于NULL，则返回TRUE，反之返回FALSE
A IS NOT NULL	所有数据类型	如果A不等于NULL，则返回TRUE，反之返回FALSE
IN(数值1, 数值2)	所有数据类型	使用 IN运算显示列表中的值
A [NOT] LIKE B	STRING 类型	B是一个SQL下的简单正则表达式，如果A与其匹配的话，则返回TRUE；反之返回FALSE。B的表达式说明如下：‘x%’表示A必须以字母‘x’开头，‘%x’表示A必须以字母’x’结尾，而‘%x%’表示A包含有字母’x’,可以位于开头，结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。
A RLIKE B, A REGEXP B	STRING 类型	B是一个正则表达式，如果A与其匹配，则返回TRUE；反之返回FALSE。匹配使用的是JDK中的正则表达式接口实现的，因为正则也依据其中的规则。例如，正则表达式必须和整个字符串A相匹配，而不是只需与其字符串匹配。

（5）Like和RLike

使用LIKE运算匹配类似的值，% 任意个任意字符。_ 代表一个任意字符。
RLIKE子句是Hive中这个功能的一个扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件

（6）分组group by

GROUP BY 语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。
根据哪几个字段分组，查询字段就只能是这几个字段和聚合函数。

（7）having

having与where不同点

where针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。
where后面不能写分组函数，而having后面可以使用分组函数。
having只用于group by分组统计语句。

4、表的别名，列的别名

紧跟列名、表名，也可以在列名 / 表名和别名之间加入关键字‘AS’

好处

使用别名可以简化查询。
使用表名前缀可以提高执行效率

select e.empno, e.ename, d.deptno from emp e join dept d 
on e.deptno = d.deptno;

注意：别名如果想起成中文，需要用 ` ` 包裹

select id as `男` from tb_user;

5、join语句

在hive 2以后的版本支持join不等值连接，2版本以前不支持

（1）内连接 join

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

select e.empno, e.ename, d.deptno from emp e join dept d 
on e.deptno = d.deptno;

（2）左外连接 left join

左外连接：JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。右表返回符合连接条件的数据，其余用null

select e.empno, e.ename, d.deptno from emp e left join 
dept d on e.deptno = d.deptno;

（3）右外连接 right join

右外连接：JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。左表返回符合连接条件的数据，其余用null

select e.empno, e.ename, d.deptno from emp e right join 
dept d on e.deptno = d.deptno;

（4）满外连接 full join

满外连接：将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字
段没有符合条件的值的话，那么就使用 NULL 值替代。

select e.empno, e.ename, d.deptno from emp e full join 
dept d on e.deptno = d.deptno;

（5）左半连接 left semi join

left semi join 只传递表的 join key 给 map 阶段，因此left semi join 中最后 select 的结果只出现左表的那些列。

left semi join 遇到右表重复记录，左表会跳过，而 join 则会一直遍历。这就导致右表有重复值的情况下 left semi join 只产生一条，join 会产生多条，也会导致 left semi join 的性能更高

select * from emp e left semi join 
dept d on e.deptno = d.deptno;

（6）笛卡尔积

笛卡尔集会在下面条件下产生

省略连接条件
连接条件无效
所有表中的所有行互相连接

（7）union

将两次查询结果拼接并去重
sql1 union sql2

（8）union all

将两次查询结果拼接，不会去重
sql1 union all sql2
sql1查回M行，sql2查回N行，返回M+N行

注意：sql1与sql2要想使用union拼接查询必须保证两个子句查询的字段数量一致，否则会报错

两次查询的字段数量一致，但字段不一样时，返回的字段名以前面的sql为准，但内容却是各自查询的东西

6、with as 的使用

with as短语，也叫做子查询部分(subquery factoring)，可以将一次查询结果存储在一个临时表空间中。有的时候，是为了让sql语句的可读性更高些，也有可能是在union all的不同部分，作为提供数据的部分。

WITH语句的优点:

SQL可读性增强。比如对于特定with子查询取个有意义的名字等。
with子查询只执行一次，将结果存储在用户临时表空间中，可以引用多次，增强性能。

WITH语句的用法:

创建一个临时表tmp

with tmp as (select * from tb_name)

创建多个临时表，中间用逗号隔开

with
tmp as (select * from tb_name),
tmp2 as (select * from tb_name2),
tmp3 as (select * from tb_name3),
…

三、排序

1、全局排序（Order By）

Order By：全局排序，只有一个 Reducer。ORDER BY 子句在 SELECT 语句的结尾

Order By 字段 ASC（ascend）: 升序（默认）
Order By 字段 DESC（descend）: 降序

查询员工信息按工资升序排列

hive (default)> select * from emp order by sal;

查询员工信息按工资降序排列

hive (default)> select * from emp order by sal desc;

2、每个 Reduce 内部排序（Sort By）

对于大规模的数据集 order by 的效率非常低。在很多情况下，并不需要全局排序，此时可以使用 sort by。

Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序，对全局结果集来说不是排序。

需要设置reduce个数，否则还是一个reduce

设置 reduce 个数

hive (default)> set mapreduce.job.reduces=3;

查看设置的 reduce 个数

hive (default)> set mapreduce.job.reduces;

根据部门编号降序查看员工信息

hive (default)> select * from emp sort by deptno desc;

将查询结果导入到文件中（按照部门编号降序排序）

hive (default)> insert overwrite local directory 
'/opt/module/data/sortby-result'
select * from emp sort by deptno desc;

3、分区（Distribute By）

在有些情况下，我们需要控制某个特定行应该到哪个 reducer，通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by 类似 MR 中 partition（自定义分区），进行分区，结合 sort by 使用。

对于 distribute by 进行测试，一定要分配多 reduce 进行处理，否则无法看到 distribute by 的效果。

distribute by只是设置根据某个字段分区（字段值的hash值%reduce个数），必须得手动设置reduce个数，否则只是在一个reduce里，没有分区效果。

在实际生产环境中，需要避免全局排序，因为数据量特别大，全局排序会耗费系统资源，最好先分区在排序。
如查最高3个数据，可以先分三个区排序，再在每个区拿最高的3个数据（极限情况下，可能最高的3个数据都在一个区中），再对这9个数据排序，拿最高3个

先按照部门编号分区，再按照员工编号降序排序

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory 
'/opt/module/data/distribute-result' select * from emp distribute by 
deptno sort by empno desc;

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前

3、Cluster By 分区并排序

当 distribute by 和 sorts by 字段相同时，可以使用 cluster by 方式。

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。

以下两种写法等价

hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;

四、分区表

分区表是将表根据某个查询维度分为多个文件夹。分区表的每个分区实际上对应表目录下的每个文件夹，相当于将表文件夹里的数据又根据分区规则分到对应的文件夹里。在查询时通过 WHERE 子句中的表达式扫描查询所需要的指定的分区，不再需要扫描全表，这样的查询效率会提高很多

分区表的建表语句是一样的，是静态分区还是动态分区由导入数据的不同方式而定

1、查看语句执行计划

通过查看语句的执行计划，可以比对出分区表与非分区表在sql执行上的不同

explain sql语句

加上关键字extended,则显示抽象语法树

explain extended sql语句

2、一级静态分区表

（1）创建一级静态分区表

create table dept_partition(
deptno int, dname string, loc string
)
partitioned by (day string) --定义分区字段名
row format delimited fields terminated by '\t';

注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。

（2）加载数据到一级分区表中

load data local inpath 
'/opt/module/hive/datas/dept_20200401.log' into table dept_partition 
partition(day='20200401');

这样就会在 dept_partition 表目录下创建一个 day=‘20200401’ 分区文件夹，并把数据文件加载到分区文件夹里

（3）加载数据时不指定分区

若在加载数据时不指定分区，则数据会被加载到一个默认分区内

load data local inpath '/a/a.txt' into table tb_partition; #数据被加载到下图分区

在加载本地数据时，若数据只在本地服务器上，而不在HDFS上，则有可能报错。报错是因为Hive生成的MapReduce程序是运行在Yarn上的，Yarn可能会把任务分配给其他服务器，其他服务器加载不到本地服务器的数据，所以报错。
可以通过set hive.exec.mode.local.auto=true;设置Hive为本地模式运行

（4）查询一级分区表中数据

select * from dept_partition where day='20200401';

3、对分区的增删查

（1）增加分区

创建单个分区

hive (default)> alter table dept_partition add partition(day='20200404');

创建分区并指定分区文件路径

hive (default)> alter table dept_partition add partition(day='20200404') location '/ss/aa';

同时创建多个分区，分区中间用空格隔开

hive (default)> alter table dept_partition add partition(day='20200405') 
partition(day='20200406');

（2）删除分区

删除单个分区

hive (default)> alter table dept_partition drop partition (day='20200406');

同时删除多个分区，分区之间用逗号隔开

hive (default)> alter table dept_partition drop partition 
(day='20200404'), partition(day='20200405');

（3）查看分区表有多少分区

hive> show partitions dept_partition;

（4）查看分区表结构

hive> desc formatted dept_partition;

4、二级静态分区表

（1）创建二级静态分区表

create table dept_partition2(
 deptno int, dname string, loc string
 )
 partitioned by (day string, hour string)
 row format delimited fields terminated by '\t';

注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。

（2）加载数据到二级分区表中

load data local inpath 
'/opt/module/hive/datas/dept_20200401.log' into table dept_partition 
partition(day='20200401');

这样就会在 dept_partition 表目录下创建一个 day=‘20200401’ 分区文件夹，并把数据文件加载到分区文件夹里

（3）查询二级分区表中数据

select * from dept_partition2 where day='20200401' and 
hour='12';

5、静态分区表加载数据的几种方式

（1）正常的加载数据（系统自己建分区目录）

load data local inpath 
'/opt/module/hive/datas/dept_20200401.log' into table
dept_partition2 partition(day='20200401', hour='12');

（2）自己手动创建分区目录

dfs -mkdir -p
/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13;

dfs -mkdir -p
/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=14;

dfs -mkdir -p
/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=15;

此时元数据中没有记录分区信息，有三种方式可以让分区表和数据产生关联

上传数据后修复

#上传数据
dfs -put /opt/module/datas/dept_20200401.log 
/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13;

#此时还查不到分区数据，可以执行修复分区信息
msck repair table dept_partition2;

上传数据后添加分区

#上传数据
dfs -put /opt/module/hive/datas/dept_20200401.log 
/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=14;

#此时还查不到分区数据，可以执行添加分区
alter table dept_partition2 add 
partition(day='20200401',hour='14');

load 数据到分区

#上传数据
load data local inpath 
'/opt/module/hive/datas/dept_20200401.log' into table
dept_partition2 partition(day='20200401',hour='15');

原因：load会修改元数据信息，put不会修改，只要元数据关联上，Hive就会自己加载文件

6、动态一级分区表

（1）开启动态分区功能（默认 true，开启）

set hive.exec.dynamic.partition=true

（2）设置为非严格模式（动态分区的模式，默认 strict，表示必须指定至少一个分区为静态分区，nonstrict 模式表示允许所有的分区字段都可以使用动态分区。）

set hive.exec.dynamic.partition.mode=nonstrict

（3）创建普通表，导入数据

drop table tb_dynamic_partition_source ;
create table tb_dynamic_partition_source(
    id string ,
    name string ,
    city string 
)
row format delimited fields terminated by ','  ;
load data local inpath '/data/city.txt' into table  tb_dynamic_partition_source ;

（4）创建分区表

create table tb_dynamic_partition_demo(
    id string ,
    name string ,
    city string 
)
partitioned by (ct string) 
row format delimited fields terminated by ','

分区字段不能是表中已经存在的数据。也可以直接将某个表字段提出来当分区字段

（5）导入数据到分区表中，并设置动态分区

insert  into  table  tb_dynamic_partition_demo partition(ct)
select id , name ,city , city as  ct1 from tb_dynamic_partition_source ;

注意：select语句查询的字段必须和分区表的字段对应的上，分区表会将分区字段作为最后一个字段（伪列），所以要做动态分区的那个字段必须放最后，字段名可以不和 partition 定义的字段名一致，因为此处只是导数据。

动态分区表建表和导数据时，partition后括号里的字段名必须一样

（6）导入数据时不写 partition （Hive3.0新增功能）

导数据时也可不写 partition 如：

insert into tb_partition select id,name,datetime,name as n from tb_partition1;

这种情况可以不设置为非严格模式，也是以最后一个字段作为动态分区字段。

（7）查看分区表的分区情况

 show partitions tb_dynamic_partition_demo;

（8）动态分区表的缺点

动态分区缺点：容易生成大量分区，生成大量小文件

7、动态二级分区表

与动态一级分区表类似，只是倒数第二个字段为一级分区，倒数第一个字段为二级分区

五、分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。
分区针对的是数据的存储路径；分桶针对的是数据文件。

1、创建分桶表

create table stu_buck(id int, name string)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';

2、查看表结构

hive (default)> desc formatted stu_buck;
Num Buckets: 4

3、导入数据到分桶表中

（1）load 的方式

hive (default)> load data inpath '/student.txt' 
into table stu_buck;

（2）insert 方式

hive(default)>insert into table stu_buck 
select * from student_insert;

4、分桶规则

Hive 的分桶采用对分桶字段的值进行哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中

5、分桶表操作需要注意的事项

reduce 的个数设置为-1,让 Job 自行决定需要用多少个 reduce 或者将 reduce 的个数设置为大于等于分桶表的桶数
从 hdfs 中 load 数据到分桶表中，避免本地文件找不到问题
不要使用本地模式（本地模式只能有一个reduce）

6、分桶抽样查询

对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive可以通过对表进行抽样来满足这个需求。

select * from stu_buck tablesample(bucket 1 out of 4 on id);

注：tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y ON field) 。

x表示从哪个bucket开始抽取，如果需要取多个桶的数据，以后的桶号为当前桶号加上y。例如，table总bucket数为4，tablesample(bucket 1 out of 2)，表示总共抽取（4/2=）2个bucket的数据，抽取第1(x)个和第3(x+y)个bucket的数据。

y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，当y=8时，抽取(4/8=)1/2个bucket的数据。

注意：x的值必须小于等于y的值，否则报错

你可能感兴趣的:(#,Hive,大数据,hive)

Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>