白鹤青洲依旧

大数据之-hive

1 hive环境搭建

2hive 安装

2.1 hive交互命令

1） “-e”不进入 hive 的交互窗口执行 sql 语句
[root@hadoop102 hive]# bin/hive -e “select * from test”
2） “-f”执行脚本中 sql 语句
bin/hive -f /opt/module/hive/datas/hivef.sql
主要运用写脚本时候使用的。

3 Hive数据类型

3.1 基本数据类型

对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

3.2 集合数据类型

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。
ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似
STRUCT 与 java中的对象，复杂数据类型允许任意层次的嵌套。

3.3 数据操作

3.3.1创建表：

3.3.2 数据put到hadoop上

把对应的数据put到hadoop对应hive目录中

3.3.3 Array访问数据

select array类型的字段[index] from 表名；
Array类型的数据支持下标访问

3.3.4 map数据结构访问

select children[“xiao song”] from test6;

3.3.5 结构体(Bean)访问

hive (default)> select address.street from test6;

3.4 类型转换

hive数据类型自动转换只能向大的类型转换。
1）隐式类型转换规则如下
（1）任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转换成
INT，INT 可以转换成 BIGINT。
（2）所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。
（3） TINYINT、SMALLINT、INT 都可以转换为 FLOAT。
（4） BOOLEAN 类型不可以转换为任何其它的类型。
2）可以使用 CAST 操作显示进行数据类型转换例如 CAST(‘1’ AS INT)将把字符串’1’ 转换成整数 1；如果强制类型转换失败，如执行
CAST(‘X’ AS INT)，表达式返回空值 NULL。

4 DDL数据定义

4.1 创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment] //注释
[LOCATION hdfs_path] //存放路径
[WITH DBPROPERTIES (property_name=property_value, …)];//额外的参数信息
1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。
hive (default)> create database db_hive;
2）避免要创建的数据库已经存在错误，增加 if not exists 判断。（标准写法）
hive (default)> create database db_hive; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists hive (default)> create database if not exists db_hive;
3）创建一个数据库，指定数据库在 HDFS 上存放的位置
hive (default)> create database db_hive2 location ‘/db_hive2.db’;

4.2 查询数据库

1）显示数据库
hive> show databases;
2）过滤显示查询的数据库
hive> show databases like ‘db_hive*’; OK db_hive db_hive_1
3）切换库
use 库名；
4）查询数据详情
desc database 库名

4.3 修改数据库

用户可以使用 ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值，
来描述这个数据库的属性信息。
alter database db_hive set dbproperties(‘createtime’=‘20170830’);

4.4 删除数据库

1）删除空数据库
hive>drop database db_hive2;
2）如果删除的数据库不存在，最好采用 if exists 判断数据库是否存在
hive> drop database db_hive;
FAILED: SemanticException [Error 10072]: Database does not exist: db_hive hive> drop database if exists db_hive2;
3）如果数据库不为空，可以采用 cascade 命令，强制删除
hive> drop database db_hive;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.)
hive> drop database db_hive cascade;

4.5 创建表

建表语句：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path] 
[TBLPROPERTIES (property_name=property_value, ...)] 
[AS select_statement]

[EXTERNAL] ：外部的---->Hive表中会有内外之分
[PARTITIONED BY：分区表
[CLUSTERED BY：分桶表
[SORTED BY (col_name [ASC|DESC], …)] INTO num_buckets BUCKETS] ：分桶表，指定分桶个数
[ROW FORMAT row_format] 定义行的格式
[STORED AS file_format] ：指定文件格式
[LOCATION hdfs_path] ：指定表的位置信息
[TBLPROPERTIES (property_name=property_value, …)] ：额外属性
[AS select_statement] ：后跟查询语句，根据查询结果创建表

4.5.1 管理表(内部表)

应用场景比较少–不安全。
1）理论默认创建的表都是所谓的管理表，有时也被称为内部表。因为这种表，Hive 会（或多或少地）控制着数据的生命周期。
Hive 默认情况下会将这些表的数据存储在由配置项 hive.metastore.warehouse.dir(例如，/user/hive/warehouse)所定义的目录的子目录下。
当我们删除一个管理表时，Hive 也会删除这个表中数据。
管理表不适合和其他工具共享数据。
内部表删除的时候元数据与数据都会删除。

4.5.2 外部表

1）理论
因为表是外部表，所以 Hive 并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据，不过描述表的元数据信息会被删除掉。
2）管理表和外部表的使用场景每天将收集到的网站日志定期流入 HDFS 文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、结果表使用内部表存储，数据通过 SELECT+INSERT 进入内部表。

4.5.3 管理表与外部表相互转换

（2）修改内部表 student2 为外部表
alter table 表名 set tblproperties(‘EXTERNAL’=‘TRUE’);

注意：(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法，区分大小写！
desc formatted student2; 查询表结构

4.5.4 创建表时指定分隔符

问题：假如创建一张表不指定分隔符，导出数据默认会在数据之间添加分割符，不利于其他程序使用。
案例：
1、创建一张表
指定分隔符
row format delimited fields terminated by “,”;

2、向表中插入数据
3、查询数据，数据中间有，分割

结论：如果我们不按逗号分割，hive将不会识别

4.6 修改表

4.6.1 重命名表明

1）语法
ALTER TABLE table_name RENAME TO new_table_name
2）实操案例
hive (default)> alter table dept_partition2 rename to dept_partition3;
注意：修改的表名必须不存在

4.6.2 增/修/替换列信息

1）语法
（1）更新列
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
hive (default)> alter table test1 change 旧列名新列名 string(新列名数据类型); 注意字段的数据类型不能向下转
（2）增加和替换列
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], …)
注：ADD 是代表新增一字段，字段位置在所有列后面(partition 列前)，
REPLACE 则是表示替换表中所有字段。
hive (default)> alter table test1 add columns (name string);
（3）替换列
hive (default)> alter table dept replace columns(deptno string, dname string, loc string);

5 DML数据操作

5.1 数据导入

1）语法
hive> load data [local] inpath ‘数据的path’ [overwrite] into table student [partition (partcol1=val1,…)];
（1） load data:表示加载数据
（2） local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表
（3） inpath:表示加载数据的路径
（4） overwrite:表示覆盖表中已有数据，否则表示追加
（5） into table:表示加载到哪张表
（6） student:表示具体的表
（7） partition:表示上传到指定分区

5.2 案例

5.2.1 本地加载文件(重点)

1、创建表

create table student(id int,name string) row format delimited fields terminated by '\t';

2、在本地新建一个文件
2、在hive命令行中导入数据

load data local inpath "./student.txt" into table student;

实际上是把数据传到HDFS上
insert 会走mr 会修改元数据
**put:**和hive没有关系,put上去的数据count查不到数据，
**load:**会修改元数据的numFiles 不会修改元数据中的numRows

5.2.2 HDFS数据导入

加载数据于文件大小没有关系。
1、将文件put到HDFS上
2、HDFS文件导入

load data inpath '/student.txt' into table student1;

相当于剪切操作，其实修改的是nameNode的元数据。实际目录没变。

5.2.3 通过查询语句向表中插入数据（Insert）重点

通过在另外一张表中查询数据然后导入另外一张表：
1）创建一张表
hive (default)> create table student_par(id int, name string) row format delimited fields terminated by ‘\t’;
2）基本插入数据
hive (default)> insert into table student_par values(1,‘wangwu’),(2,‘zhaoliu’);
3）基本模式插入（根据单张表查询结果）
hive (default)> insert overwrite table student_par select id, name from student where month=‘201709’;
insert into：以追加数据的方式插入到表或分区，原有数据不会删除
insert overwrite：会覆盖表中已存在的数据注意可以修改表中的字段。

5.2.4 查询语句中创建表并加载数据（As Select）

根据查询结果创建表（查询的结果会添加到新创建的表中）
create table if not exists student3 as select id, name from student;

5.2.5 创建表时通过 Location 指定加载数据路径

1）上传数据到 hdfs 上
hive (default)> dfs -mkdir /student;
hive (default)> dfs -put /opt/module/datas/student.txt /student;
2）创建表，并指定在 hdfs 上的位置
hive (default)> create external table if not exists student5( id int, name string
) row format delimited fields terminated by ‘\t’ location '/student;
3）查询数据
hive (default)> select * from student5;
一般我们直接在

5.3 数据导出

5.3.1 Insert导出

1）将查询的结果导出到本地
hive (default)> insert overwrite local directory
‘/opt/module/hive/data/export/student’ select * from student;
2）将查询的结果格式化导出到本地
hive(default)>insert overwrite local directory ‘/opt/module/hive/data/export/student1’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ select * from student;
3）将查询的结果导出到 HDFS 上(没有 local)
hive (default)> insert overwrite directory ‘/user/atguigu/student2’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ select * from student;

5.3.2 Hadoop命令导出到本地

方式一：
Hadoop命令：hadoop fs -get /user/hive/warehouse/student/student.txt /home/lianglin/module/hive/ss.txt
方式二：重定向输出
bin/hive -e ‘select * from default.student;’ > /opt/module/hive/data/export/student4.txt;
方式三：hive客户端
dfs -get /user/hive/warehouse/student/student.txt /opt/module/data/export/student3.txt;

5.3.3 Export导出到HDFS上

hive (default)> export table student to “/stuendt1”;
export 和 import 主要用于两个 Hadoop 平台集群之间 Hive 表迁移。

注意：先用 export 导出后，再将数据导入。
hive (default)> import table student2 from ‘/user/hive/warehouse/export/student’;
可以再用import导入到Hive中
Sqoop:数据量小了之后分析完之后的结果导入到mysql

5.3.4清空表中的数据

注意：Truncate 只能删除管理表，不能删除外部表中数据
hive (default)> truncate table student;

6 查询语句

查询语句语法：
SELECT [ALL | DISTINCT] select_expr, select_expr, …
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

6.1 准备数据

员工表
7499,ALLEN,SALESMAN,7698,1981-2-20,1600.00,300.00,30
7521,WARD,SALESMAN,7698,1981-2-22,1250.00,500.00,30
7566,JONES,MANAGER,7839,1981-4-2,2975.00,,20
7654,MARTIN,SALESMAN,7698,1981-9-28,1250.00,1400.00,30
7698,BLAKE,MANAGER,7839,1981-5-1,2850.00,,30
7782,CLARK,MANAGER,7839,1981-6-9,2450.00,,10
7788,SCOTT,ANALYST,7566,1987-4-19,3000.00,,20
7839,KING,PRESIDENT,,1981-11-17,5000.00,,10
7844,TURNER,SALESMAN,7698,1981-9-8,1500.00,0.00,30
7876,ADAMS,CLERK,7788,1987-5-23,1100.00,,20
7900,JAMES,CLERK,7698,1981-12-3,950.00,,30
7902,FORD,ANALYST,7566,1981-12-3,3000.00,,20
7934,MILLER,CLERK,7782,1982-1-23,1300.00,,10

部门表；
10      ACCOUNTING      1700
20      RESEARCH        1800
30      SALES   1900
40      OPERATIONS      1700

建表语句：
（1）创建部门表
create table if not exists dept( deptno int, dname string, loc int )
row format delimited fields terminated by ‘\t’;
（2）创建员工表
create table if not exists emp( empno int, ename string, job string, mgr int, hiredate string, sal double, comm double, deptno int)
row format delimited fields terminated by ‘,’;
（3）导入数据
load data local inpath ‘/opt/module/datas/dept.txt’ into table dept;
load data local inpath ‘/opt/module/datas/emp.txt’ into table emp;

6.1 Hsql查询练习

（1） SQL 语言大小写不敏感。
（2） SQL 可以写在一行或者多行
（3）关键字不能被缩写也不能分行
（4）各子句一般要分行写
（5）使用缩进提高语句的可读性

select empno,ename from emp;
select empno,ename e from emp;

6.2 算数运算符

6.2 常用函数

1）求总行数（count）
hive (default)> select count(*) cnt from emp;
2）求工资的最大值（max）
hive (default)> select max(sal) max_sal from emp;
3）求工资的最小值（min）
hive (default)> select min(sal) min_sal from emp;
4）求工资的总和（sum）
hive (default)> select sum(sal) sum_sal from emp;
5）求工资的平均值（avg）
hive (default)> select avg(sal) avg_sal from emp;

6.3 Limit 语句

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数
select * from emp order by sal limit 5;

6.4 Where语句

1）使用 WHERE 子句，将不满足条件的行过滤掉
2） WHERE 子句紧随 FROM 子句

6.5 比较运算符

1）下面表中描述了谓词操作符，这些操作符同样可以用于 JOIN…ON 和 HAVING 语句中。

（1）查询出薪水等于 5000 的所有员工
hive (default)> select * from emp where sal =5000;
（2）查询工资在 500 到 1000 的员工信息
hive (default)> select * from emp where sal between 500 and 1000;
（3）查询 comm 为空的所有员工信息
hive (default)> select * from emp where comm is null;
（4）查询工资是 1500 或 5000 的员工信息
hive (default)> select * from emp where sal IN (1500, 5000);

6.6 Like 和RLike

1）使用 LIKE 运算选择类似的值 2）选择条件可以包含字符或数字:
% 代表零个或多个字符(任意个字符)。
_ 代表一个字符。
3） RLIKE 子句
RLIKE 子句是 Hive 中这个功能的一个扩展，其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。
4）案例实操
（1）查找名字以 A 开头的员工信息
hive (default)> select * from emp where ename LIKE ‘A%’;
（2）查找名字中第二个字母为 A 的员工信息
hive (default)> select * from emp where ename LIKE ‘_A%’;
（3）查找名字中带有 A 的员工信息
hive (default)> select * from emp where ename RLIKE ‘[A]’;

6.7 逻辑运算符

（1）查询薪水大于 1000，部门是 30
hive (default)> select * from emp where sal>1000 and deptno=30;
（2）查询薪水大于 1000，或者部门是 30
hive (default)> select * from emp where sal>1000 or deptno=30;
（3）查询除了 20 部门和 30 部门以外的员工信息
hive (default)> select * from emp where deptno not IN(30, 20);

6.8 group by

GROUP BY 语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。
查询平均工资大于2000的部门

#嵌套子查询
select deptno,avg_sal from (select deptno,avg(sal) avg_sal from emp group by deptno) where avg_sal > 2000;
#对于字段使用函数的列使用条件筛查必须使用having
select deptno,avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

6.9 Join语句

Join用于连接多张表
e.empno:e.定位提高效率

#根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称；
select e.empno,e.ename,t.dname from emp e join dept t on e.deptno = t.deptno;

6.10 表别名

（1）使用别名可以简化查询。
（2）使用表名前缀可以提高执行效率。

6.11 内连接 join on

得到两张表都有的数据

6.12 左外连接 left join on

左外连接：JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。(左边的数据都要没有的补null)

 select e.empno,e.ename,p.dname,e.deptno from emp e left join dept p on e.deptno = p.deptno;

6.13 右外连接 right join on

右外连接：JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。 (以右边表为主)

select e.empno,e.ename,p.dname,e.deptno from emp e right join dept p on e.deptno = p.deptno;

6.14 满外连接 full join on

满外连接：将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用 NULL 值替代。

select e.empno,e.ename,p.dname,e.deptno from emp e full join dept p on e.deptno = p.deptno;

6.15 左表独有的数据

查询员工信息，所处的部门信息非null
select e.empno,e.ename,p.dname,e.deptno from emp e left join dept p on e.deptno = p.deptno where p.deptno is null;

6.16 有表独有的数据

查询部门中不存在任何员工的部门信息

select  p.deptno,p.dname from emp e right join dept p on e.deptno = p.deptno where e.deptno is null;

6.17 查询两张表特有的信息

select e.empno,e.ename,p.dname,e.deptno from emp e full join dept p on e.deptno = p.deptno where e.deptno is null or p.deptno is null;

6.18 多表连接

大多数情况下，Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。本例中会首先启动一个 MapReduce job 对表 e 和表 d 进行连接操作，然后会再启动一个 MapReduce job 将第一个 MapReduce job 的输出和表 l;进行连接操作。
注意：为什么不是表 d 和表 l 先进行连接操作呢？这是因为 Hive 总是按照从左到右的顺序执行的。
优化：当对 3 个或者更多表进行 join 连接时，如果每个 on 子句都使用相同的连接键的
话，那么只会产生一个 MapReduce job。
多表join 直接在后面join on

select e.ename,p.dname,l.loc_name from emp e join dept p on e.deptno = d.deptno join location l on p.loc = l.loc;

6.19 笛卡尔积

1）笛卡尔集会在下面条件下产生
（1）省略连接条件
（2）连接条件无效
（3）所有表中的所有行互相连接

6.20 排序

6.20.1 全局排序

Order By：全局排序，只有一个 Reducer
1）使用 ORDER BY 子句排序
ASC（ascend）: 升序（默认） DESC（descend）: 降序 2）ORDER BY 子句在 SELECT 语句的结尾
按工资排序：

select ename,sal from emp order by sal;

6.20.2 每个Reduce内部排序(Sort By)

区内有序
Sort By：对于大规模的数据集 order by 的效率非常低。在很多情况下，并不需要全局排序，此时可以使用 sort by。
Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序，对全局结果集来说不是排序。
1）设置 reduce 个数
hive (default)> set mapreduce.job.reduces=3;
2）查看设置 reduce 个数
hive (default)> set mapreduce.job.reduces;

6.20.3 分区(Distribute By)

Distribute By：在有些情况下，我们需要控制某个特定行应该到哪个 reducer，通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by 类似 MR 中 partition （自定义分区），进行分区，结合 sort by 使用。
对于 distribute by 进行测试，一定要分配多 reduce 进行处理，否则无法看到 distribute by 的效果。

select ename,deptno from emp distribute by deptno sort by deptno;

➢ distribute by 的分区规则是根据分区字段的 hash 码与 reduce 的个数进行模除后，余数相同的分到一个区。
➢ Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

6.20.4 Cluster by

当 distribute by 和 sorts by 字段相同时，可以使用 cluster by 方式。
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。
（1）以下两种写法等价
hive (default)> select * from emp cluster by deptno;
hive (default)> select * from emp distribute by deptno sort by deptno;
注意：按照部门编号分区，不一定就是固定死的数值，可以是 20 号和 30 号部门分到一个分区里面去。

7 分区表和分桶表

7.1 分区表

提高效率避免全表扫描，where条件中有分区字段。
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

1、创建分区表

create table dept_partition( deptno int, dname string, loc string 
) 
partitioned by (day string) 
row format delimited fields terminated by ',';

数据加载
hive (default)> load data local inpath
‘/opt/module/hive/datas/dept_20200401.log’ into table dept_partition partition(day=‘20200401’);
hive (default)> load data local inpath
‘/opt/module/hive/datas/dept_20200402.log’ into table dept_partition partition(day=‘20200402’);
hive (default)> load data local inpath
‘/opt/module/hive/datas/dept_20200403.log’ into table dept_partition partition(day=‘20200403’);
注意：分区表加载数据时，必须指定分区
4）查询分区表中数据单分区查询
hive (default)> select * from dept_partition where day=‘20200401’;
多分区联合查询
hive (default)> select * from dept_partition where day=‘20200401’ union select * from dept_partition where day=‘20200402’ union select * from dept_partition where day=‘20200403’; hive (default)> select * from dept_partition where day=‘20200401’ or day=‘20200402’ or day=‘20200403’;
5）增加分区创建单个分区
hive (default)> alter table dept_partition add partition(day=‘20200404’);
同时创建多个分区
hive (default)> alter table dept_partition add partition(day=‘20200405’) partition(day=‘20200406’);
6）删除分区删除单个分区
hive (default)> alter table dept_partition drop partition
(day=‘20200406’);
同时删除多个分区
hive (default)> alter table dept_partition drop partition
(day=‘20200404’), partition(day=‘20200405’);
7）查看分区表有多少分区
hive> show partitions dept_partition;
8）查看分区表结构
hive> desc formatted dept_partition;

7.2 二级分区

如何一天的日志数据量也很大，如何再将数据拆分? 按小时分区
1、创建表

hive (default)> create table dept_par1(deptno int,dname string,loc string)
              > partitioned by (day string,hour string) row format delimited fields terminated by ",";

2、加载数据
day=“2021-9-23”,hour=“15” 按小时分区
load data local inpath “/home/lianglin/module/hive/data/dept1.txt” into table dept_par1 partition**(day=“2021-9-23”,hour=“15”);**
3、查询数据
select * from dept_par1 where day=“2021-9-23” and hour=“15”;

3）把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式
方式一：hive> msck repair table dept_partition2;
方式二：上传数据后添加分区上传数据
执行添加分区
hive (default)> alter table dept_partition2 add partition(day=‘201709’,hour=‘14’);
方式三：创建文件夹后 load 数据到分区

7.3 动态分区调整

关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据
插入到相应的分区中，Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用 Hive 的动态分区，需要进行相应的配置。
默认最后一个字段作为分区
1）开启动态分区参数设置
（1）开启动态分区功能（默认 true，开启）
hive.exec.dynamic.partition=true
（2）设置为非严格模式（动态分区的模式，默认 strict，表示必须指定至少一个分区为静态分区，nonstrict 模式表示允许所有的分区字段都可以使用动态分区。）
hive.exec.dynamic.partition.mode=nonstrict
（3）在所有执行 MR 的节点上，最大一共可以创建多少个动态分区。默认 1000
hive.exec.max.dynamic.partitions=1000
（4）在每个执行 MR 的节点上，最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。比如：源数据中包含了一年的数据，即 day 字段有 365 个值，那么该参数就需要设置成大于 365，如果使用默认值 100，则会报错。
hive.exec.max.dynamic.partitions.pernode=100
（5）整个 MR Job 中，最大可以创建多少个 HDFS 文件。默认 100000
hive.exec.max.created.files=100000
（6）当有空分区生成时，是否抛出异常。一般不需要设置。默认 false
hive.error.on.empty.partition=false

7.4 分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径；分桶针对的是数据文件。
在数据量极大的时候使用，抽样查询
（2）创建分桶表
create table stu_buck(id int, name string) clustered by(id) into 4 buckets
row format delimited fields terminated by ‘\t’;

7.5 抽样查询

对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive 可以通过对表进行抽样来满足这个需求。
语法: TABLESAMPLE(BUCKET x OUT OF y)
查询表 stu_buck 中的数据。
hive (default)> select * from stu_buck tablesample(bucket 1 out of 4 on id);
注意：x 的值必须小于等于 y 的值，否则
FAILED: SemanticException [Error 10061]: Numerator should not be bigger than denominator in sample clause for table stu_buck

8 函数

8.1 系统内置函数

1）查看系统自带的函数
hive> show functions;
2）显示自带的函数的用法
hive> desc function upper;
3）详细显示自带的函数的用法
hive> desc function extended upper;

8.2 常用内置函数

8.2.1 NVL空字段赋值

1）函数说明
NVL：给值为 NULL 的数据赋值，它的格式是 NVL( value，default_value)。它的功能是如果 value 为 NULL，则 NVL 函数返回 default_value 的值，否则返回 value 的值，如果两个参数都为 NULL ，则返回 NULL。
练习：如果员工的 comm 为 NULL，则用-1 代替

select comm,nvl(comm,-1) from emp;

8.2.2 CASE WHEN THEN ELSE END

需求：求每个部门男女有多少人

第一种写法：

select
	dept_id,
	sum(case sex when "男" then 1 else 0 end) maleCount,
	sum(case sex when "女" then 1 else 0 end) femaleCount
from 
	emp_sex
group by 
	dept_id;

第二种写法，当只有两个分支的时候

select dept_id,sum(if(sex="男",1,0)) maleCount,sum(if(sex = "女",1,0)) femaleCount from emp_sex group by dept_id;

8.2.3 行转列

多列合并
1）相关函数说明
1、CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;
2、CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩余参
数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;
注意: CONCAT_WS must be "string or array
3、COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生 Array 类型字段。类似于聚合函数；collect_list不去重
1、练习

name,constellation,blood_type
孙悟空,白羊座,A
大海,射手座,A
小宋,白羊座,B
猪八戒,白羊座,A
凤姐,射手座,A
小五,白羊座,B

建表语句

create table person_info( name string,  constellation string,  blood_type string)  row format delimited fields terminated by ",";

第一步：把姓名与血型拼接在一起

select name,concat(constellation,",",blood_type) con_blood from person_info;t1

第二步：使用collect_set把名字聚合成集合

select con_blood,collect_set(name) arr_list 
from 
(select name,concat(constellation,",",blood_type) con_blood from person_info) t1 
group by con_blood;

第三步：使用concat_ws将名字使用|拼接起来,

select con_blood,concat_ws("|",collect_set(name)) name_arr 
from
(select name,concat(constellation,",",blood_type) con_blood from person_info)t1
group by con_blood;

8.2.3 列转行

一行变多行
1）函数说明
EXPLODE(col)：将 hive 一列中复杂的 Array 或者 Map 结构拆分成多行。
LATERAL VIEW 用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解释：用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

数据

movie|category 
《疑犯追踪》|悬疑,动作,科幻,剧情 
《Lie to me》|悬疑,警匪,动作,心理,剧情 
《战狼 2》|战争,动作,灾难

建表语句

create table movie_info(movie string,category string) row format delimited fields terminated by "|";

1、使用split将字段分割–字符串转换为数组
2、
2、explod 将array转成列
lateral view 加侧写表，如果炸裂出来的列于原表种的字段有关联。

select movie,categora_name from movie_info lateral view explode(split(category,",")) move_info_tmp as categora_name;

8.2.4 窗口函数(开窗函数)

partition by 限制窗口大小 order by 排序
1）相关函数说明
OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。
CURRENT ROW：当前行 n PRECEDING：往前 n 行数据 n FOLLOWING：往后 n 行数据
UNBOUNDED：起点，
UNBOUNDED PRECEDING 表示从前面的起点，
UNBOUNDED FOLLOWING 表示到后面的终点
LAG(col,n,default_val)：往前第 n 行数据
LEAD(col,n, default_val)：往后第 n 行数据

jack,2017-01-01,10 
tony,2017-01-02,15 
jack,2017-02-03,23 
tony,2017-01-04,29 
jack,2017-01-05,46 
jack,2017-04-06,42 
tony,2017-01-07,50 
jack,2017-01-08,55 
mart,2017-04-08,62 
mart,2017-04-09,68 
neil,2017-05-10,12 
mart,2017-04-11,75 
neil,2017-06-12,80 
mart,2017-04-13,94
create table business( name string, orderdate string, 
cost int 
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

（1）查询在 2017 年 4 月份购买过的顾客及总人数

select name,count(1) over() from business where substring(orderdate,0,7) = "2017-04" group by name;

(1) 查询顾客购买明细，消费总额
通过窗口函数，通过名字开窗，计算窗口内部的数量

select name,orderdate,cost,sum(cost) over(partition by name) from business;

（2）查询顾客的购买明细及月购买总额
over(partition by name,month(orderdate)) 提供更加细粒度的分组。

select name,orderdate,cost,sum(cost) over(partition by name,month(orderdate)) from business;

（3）将每个顾客的 cost 按照日期进行累加
排序的时候如果相同数据，则开的窗口一样大

select name,orderdate,cost,sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and CURRENT ROW) from business;
等价于
select name,orderdate,cost,sum(cost) over(partition by name order by orderdate) from business;

（4）查看顾客上次的购买时间

select name,orderdate,lag(orderdate,1) over(partition by name order by orderdate) from business;
select name,orderdate,lag(orderdate,1,"2017-01-01") over(partition by name order by orderdate) from business;

使用场景：页面的单跳转化率

（5）查询前 20%时间的订单信息
NTILE(n)：把有序窗口的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行，NTILE 返回此行所属的组的编号。注意：n 必须为 int 类型。

select name,orderdate,cost,ntile(5) over(order by orderdate) group_id from business t1;
select name,orderdate,cost from (select name,orderdate,cost,ntile(5) over(order by orderdate) group_id from business)t1 where group_id = 1;

8.2.5 Rank()排序

1）函数说明
RANK() 排序相同时会重复，总数不会变
DENSE_RANK() 排序相同时会重复，总数会减少
ROW_NUMBER() 会根据顺序计算

name,subject,score
孙悟空,语文,87
孙悟空,数学,95
孙悟空,英语,68
大海,语文,94
大海,数学,56
大海,英语,84
宋宋,语文,64
宋宋,数学,86
宋宋,英语,84
婷婷,语文,65
婷婷,数学,85
婷婷,英语,78
create table score( name string, subject string,  score int)  row format delimited fields terminated by ",";

练习

select *,rank() over(order by score) from score;

select *,dense_rank() over(order by score) from score;

select *,row_number() over(order by score) from score;

按学科排名并取每个学科的前三名 --分组topN问题

select name,subject,score from (select *,rank() over(partition by subject order by score desc) rk from score
)t1 where rk <= 3;

你可能感兴趣的:(大数据,hive,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin