BigData_Hubert

Hive系列（一）—— Hive初识及基础介绍

Hive 基础

Hive 简介
- 什么是 Hive
- 为什么使用 Hive
- Hive 特点
- Hive 体系结构
- Hive 和 RDBMS 的对比
Hive 基础
- Hive 数据存储
- Hive 基本操作

Hive 简介

什么是 Hive

Hive 是由 Facebook 实现并开源的、基于 Hadoop 的一个数据仓库工具。它可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能；其底层数据是存储在 HDFS 上，Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

数据仓库之父比尔·恩门（Bill Inmon）在 1991 年出版的“Building the Data Warehouse”（《建立数据仓库》）指出：

数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行，所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在 HDFS 中的数据进行分析和管理。用一张图表示Hive如下：

为什么使用 Hive

直接使用 MapReduce 所面临的问题：

人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

为什么要使用 Hive：

更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力
更低的学习成本：避免了写 MapReduce，减少开发人员的学习成本
更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

Hive 特点

Hive 优势

基于hadoop的数据仓库解决方案：
1. 将结构化的数据(序列化)文件映射为数据库表
2. 提供类sql的查询语言HQL（sql 代替 mapreduce）
3. 让更多的人，容易的使用hadoop
可以整合更多的计算框架
1. mapreduce（基于磁盘中间结果存于磁盘）
2. spark（基于内存减少IO（磁盘数据流读写），DAG计算模型减少SHUFFLE）
3. tez(也有DAG和container重用，但部署繁琐)
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
成熟的JDBC和ODBC驱动程序，用于ETL和BI
稳定可靠（真实生产环境）的批处理
有庞大活跃的社区

Hive 劣势

Hive 不支持记录级别的增删改操作，但是用户可以通过查询生成新表或者将查询结果导入到文件中（当前选择的 hive-2.3.2 的版本支持记录级别的插入操作）
Hive 的查询延时很严重，因为 MapReduce Job 的启动过程消耗很长时间，所以不能用在交互查询系统中。
Hive 不支持事务（因为没有增删改，所以主要用来做 OLAP（联机分析处理），而不是 OLTP（联机事务处理），这就是数据处理的两大级别）。

Hive 体系结构

从上图看出hive的内部架构由四部分组成：

用户接口:

(1) CLI，Shell 终端命令行（Command Line Interface），采用交互形式使用 Hive 命令行与 Hive 进行交互，最常用（学习，调试，生产）；
(2) JDBC/ODBC，是 Hive 的基于 JDBC 操作提供的客户端，用户（开发员，运维人员）通过这连接至 Hive server 服务；
(3) Web UI，通过浏览器访问 Hive。
底层的Driver：Driver 组件完成 HQL 查询语句从词法分析，语法分析，编译，优化，以及生成逻辑执行计划的生成。生成的逻辑执行计划存储在 HDFS 中，并随后由 MapReduce 调用执行。

Hive 的核心是驱动引擎Driver，驱动引擎由四部分组成：
　
　(1) 解释器Interpreter：解释器的作用是将 HiveSQL 语句转换为抽象语法树（AST）
　
　(2) 编译器Compiler：编译器是将语法树编译为逻辑执行计划
　
　(3) 优化器Optimizer：优化器是对逻辑执行计划进行优化
　
　(4) 执行器Executor：执行器是调用底层的运行框架执行逻辑执行计划
元数据存储系统： Metastore（default derby,recommend mysql）
　　
元数据，通俗的讲，就是存储在 Hive 中的数据的描述信息。Hive 的元数据包括数据库、表、视图、分区和表数据等。数据库，表，分区等等都对应 HDFS 上的一个目录。表数据对应 HDFS 对应目录下的文件。

Metastore 默认存在自带的 Derby 数据库中。缺点就是不适合多用户操作，并且数据存储目录不固定。数据库跟着 Hive走，极度不方便管理，因此通常通过我们自己创建的 MySQL 库（本地或远程），进行Hive 和 MySQL 之间通过 MetaStore 服务交互。

执行平台hadoop：Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行。

执行流程分为以下两步，如下：

# hive 处理
CLI(beeline)/JAVA jdbc
				=> Driver
					=> SQL Parser -> sql cmd翻译成AST抽象语法树 -> 第三方工具antlr对AST进行语法分析：表、字段、语法寓意是否存在
						=> Query Optimizer -> 优化逻辑执行计划
							=> Physical Plan -> 将AST转换成逻辑执行计划
								=> Execution -> 转换逻辑执行计划为可执行物理执行计划

# hadoop 处理								
hadoop平台
	Hive => Mapreduce/spark/tez =>hdfs

此外，还需要了解hive中跨语言服务 thrift server：

thrift通过一个中间语言IDL(接口定义语言)来定义RPC（不同节点进程之间函数调用，即微服的核心所在）的数据类型和接口，这些内容写在以.thrift结尾的文件中，然后通过特殊的编译器来生成不同语言的代码,以满足不同需要的开发者，比如java开发者，就可以生成java代码，c++开发者可以生成c++代码，生成的代码中不但包含目标语言的接口定义，方法，数据类型，还包含有RPC协议层和传输层的实现代码。

Hive 和 RDBMS 的对比

　Hive 具有 SQL 数据库的外表，但应用场景完全不同，Hive 只适合用来做海量离线数据统计分析，也就是数据仓库。

Hive 基础

Hive 数据存储

Hive 的存储结构包括数据库、表、视图、分区和表数据等。数据库，表，分区等等都对应 HDFS 上的一个目录。表数据对应 HDFS 对应目录下的文件。
Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式，因为 Hive 是读模式（Schema On Read），可支持 TextFile，SequenceFile，RCFile 或者自定义文件格式等
Hive 中包含以下数据模型：

database：在 HDFS 中表现为${hive.metastore.warehouse.dir}目录下一个文件夹

table：在 HDFS 中表现所属 database 目录下一个文件夹

external table：与 table 类似，不过其数据存放位置可以指定任意 HDFS 目录路径

partition：在 HDFS 中表现为 table 目录下的子目录

bucket：在 HDFS 中表现为同一个表目录或者分区目录下根据某个字段的值进行 hash 散列之后的多个文件

view：与传统数据库类似，只读，基于基本表创建
Hive 的元数据存储在 RDBMS 中，除元数据外的其它所有数据都基于 HDFS 存储。默认情况下，Hive 元数据保存在内嵌的 Derby 数据库中，只能允许一个会话连接，只适合简单的测试。实际生产环境中不适用，为了支持多用户会话，则需要一个独立的元数据库，使用 MySQL 作为元数据库，Hive 内部对 MySQL 提供了很好的支持。

Hive 基本操作

删库操作

删除空数据库

drop database if not exists hivetest；

删除非空数据库

drop database if not exists hivetest cascade;

建表操作

只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据：

create table shop(
	shopid BIGINT,
	shopname STRING,
	running BOOLEAN,
	contact ARRAY<STRING>,
	address STRUCT<province:STRING,city:STRING,district:STRING,detail:STRING>,
	yearlymoney MAP<STRING,FLOAT>
)
row format delimited
fields terminated by '|'					#行中列分隔符：默认'\001'
collection items terminated by ','			#指定集合数据ARRAY或者STRUCT分隔符,默认'\002'
map keys terminated by ':'					#指定map分隔符,默认'\003'
lines terminated by '\n'					#指定行结束符：默认'\n'
stored as textfile							#文件存储类型：默认textfile ,压缩用sequen
location '/hive110/warehouse/shop'			#文件存储位置：默认hive.metastore.warehouse.dir位置
;

内部表、外部表、分区表、分桶表

内部表和外部表的区别：

删除内部表，就是删除表元数据和数据，内部表建立核心数据。

删除外部表，只删除元数据，不删除数据，外部表建立共享数据。

内部表和外部表的使用选择：

大多数情况，他们的区别不明显，如果数据的所有处理都在 Hive 中进行，那么倾向于选择内部表，但是如果Hive 和其他工具要针对相同的数据集进行处理，外部表更合适。

使用外部表访问存储在 HDFS 上的初始数据，然后通过 Hive 转换数据并存到内部表中

通过外部表和内部表的区别和使用选择的对比可以看出来，hive 其实仅仅只是对存储在 HDFS 上的数据提供了一种新的抽象。而不是管理存储在 HDFS 上的数据。所以不管创建内部表还是外部表，都可以对 hive 表的数据存储目录中的数据进行增删操作。

分区表和分桶表的区别：

Hive 数据表可以根据某些字段进行分区操作，细化数据管理，可以让部分查询更快。同时表和分区也可以进一步被划分为 Buckets，分桶表的原理和 MapReduce 编程中的 HashPartitioner 的原理（分桶是以分桶字段的hashcode()%numberReducerTasks）类似。

分区和分桶都是细化数据管理，但是分区表是手动添加区分，由于 Hive 是读模式，所以对添加进分区的数据不做模式校验，分桶表中的数据是按照某些分桶字段进行 hash 散列形成的多个文件，所以数据的准确性也高很多
查询排序操作

order by 全局排序：启动一个reducer。值得注意的是，当开启MR严格模式（set hive.mapred.mode=strict;）的时候 order by 必须设置 limit 子句，否则会报错；对于分区表，必须要对分区字段加限制条件，否则会报错。

sort by 部分排序：只对每个reducer中的字段排序。值得注意的是，sort by 可指定执行的reducer个数（set mapreduce.job.reduces=number）；对输出的数据再执行归并排序，即可以得到全部结果。

distribute by ：控制map输出在reducer中的分布就是说相同KEY划分到同一个Reducer中。简单的说，distribute by就是按某字段（key）分区。

cluster by 当（sort by + distribute by ）为相同字段时，对分区的区内进行排序；但是只能是升序排序。

行列互转

行转列

语法：

Lateral view + UDTF(explode表达式) 别名 as columnAlias [,columnAlias]	
#explode(explode表达式) [as (别名,...)] 理论上不能与其他字段并列在select子句中，除非查询的结果行数一致，不提供别名，就是默认map（key,value）、array（array_name）、...
# map（key,value）: explode(map_name)		key和value自动拆分,key为新列字段，value为行值
# array（array_name）:	explode(split(array_name,'分隔符'))	原字段为新字段，拆分的值为行值
# struct（fieldname:fieldvalue）:	explode(struct_name)	fieldname和fieldvalue自动拆分,fieldname为新列字段，fieldvalue为行值

例如：

select shopname,nian,qian from shop lateral view explode(yearlymoney)t as nian,qian

列转行

语法：

concat_ws(SEP_CHAR,collect_list/collect_set())
#	collect_list	有序，不唯一
#	collect_set		无序，唯一

例如：

select userid,concat_ws(',',collect_list(cast(cast(paymoney as decimal(10,2)) as string)))  from consume group by userid order by userid

结果：

窗口函数

语法：sort_func/agg_func/analyze_func over(partition by FIELD order by FIELD[,…]) [as] ALIAS

sort_func

介绍：

#	set mapred.reduce.tasks = 1;

#	行号	row_number()	序号不重复	1,2,3,4,...
#	排名	rank()			并列调号	1,2,2,4，...	序号有可能不连续,排序字段值相同序号
#	排名	dense_rank()	并列续号	1,2,2,3...		序号连续,排序字段值相同序号
#	小于等于当前值的当前组内的记录数（百分比0-1之间，rank/总数（去除重复））	cume_dist()
#	切片	ntile(N)	切成N片，当前行的分片号
	#	如果切片不均，默认增加第一分片
	#	取多少个分片，哪些分片，抽样（类似软分桶）

例如：

select studentid,score,courseid,
row_number() over() as no1,
row_number() over(order by studentid) as no2,
row_number() over(partition by courseid order by studentid) as no3,
cume_dist() over(order by studentid) as no4,
cume_dist() over(partition by courseid order by studentid) as no5,
ntile(2) over(partition by courseid order by studentid) as no6
from score;

结果：
+------------+--------+-----------+------+------+------+----------------------+----------------------+------+--+
| studentid  | score  | courseid  | no1  | no2  | no3  |         no4          |         no5          | no6  |
+------------+--------+-----------+------+------+------+----------------------+----------------------+------+--+
| 1          | 80     | 1         | 18   | 1    | 1    | 0.16666666666666666  | 0.16666666666666666  | 1    |
| 2          | 70     | 1         | 15   | 4    | 2    | 0.3333333333333333   | 0.3333333333333333   | 1    |
| 3          | 80     | 1         | 12   | 7    | 3    | 0.5                  | 0.5                  | 1    |
| 4          | 50     | 1         | 9    | 10   | 4    | 0.6666666666666666   | 0.6666666666666666   | 2    |
| 5          | 76     | 1         | 6    | 13   | 5    | 0.7777777777777778   | 0.8333333333333334   | 2    |
| 6          | 31     | 1         | 4    | 15   | 6    | 0.8888888888888888   | 1.0                  | 2    |
| 1          | 90     | 2         | 17   | 2    | 1    | 0.16666666666666666  | 0.16666666666666666  | 1    |
| 2          | 60     | 2         | 14   | 5    | 2    | 0.3333333333333333   | 0.3333333333333333   | 1    |
| 3          | 80     | 2         | 11   | 8    | 3    | 0.5                  | 0.5                  | 1    |
| 4          | 30     | 2         | 8    | 11   | 4    | 0.6666666666666666   | 0.6666666666666666   | 2    |
| 5          | 87     | 2         | 5    | 14   | 5    | 0.7777777777777778   | 0.8333333333333334   | 2    |
| 7          | 89     | 2         | 2    | 17   | 6    | 1.0                  | 1.0                  | 2    |
| 1          | 99     | 3         | 16   | 3    | 1    | 0.16666666666666666  | 0.16666666666666666  | 1    |
| 2          | 80     | 3         | 13   | 6    | 2    | 0.3333333333333333   | 0.3333333333333333   | 1    |
| 3          | 80     | 3         | 10   | 9    | 3    | 0.5                  | 0.5                  | 1    |
| 4          | 20     | 3         | 7    | 12   | 4    | 0.6666666666666666   | 0.6666666666666666   | 2    |
| 6          | 34     | 3         | 3    | 16   | 5    | 0.8888888888888888   | 0.8333333333333334   | 2    |
| 7          | 98     | 3         | 1    | 18   | 6    | 1.0                  | 1.0                  | 2    |
+------------+--------+-----------+------+------+------+----------------------+----------------------+------+--+

agg_func

介绍：

# unbounded：无界限
# preceding：从分区第一行头开始，则为 unbounded。 N为：相对当前行向前的偏移量
# following：与preceding相反,到该分区结束，则为 unbounded。N为：相对当前行向后的偏移量
# current row：当前行，偏移量为0
# rang/rows between N preceding and N following
# rows unbounded/1 preceding

例如：

select studentid,score,courseid,
sum(score) over(partition by studentid) ssum,
sum(score) over(partition by courseid) csum,
sum(score) over(order by studentid,courseid rows between 1 preceding and 1 following) sum3,
avg(score) over(partition by studentid) savg,
avg(score) over(partition by courseid) cavg,
min(score) over(partition by studentid) smin,
max(score) over(partition by studentid) smax
from score;

+------------+--------+-----------+-------+-------+-------+---------------------+--------------------+-------+-------+--+
| studentid  | score  | courseid  | ssum  | csum  | sum3  |        savg         |        cavg        | smin  | smax  |
+------------+--------+-----------+-------+-------+-------+---------------------+--------------------+-------+-------+--+
| 1          | 80     | 1         | 269   | 387   | 170   | 89.66666666666667   | 64.5               | 80    | 99    |
| 1          | 90     | 2         | 269   | 436   | 269   | 89.66666666666667   | 72.66666666666667  | 80    | 99    |
| 1          | 99     | 3         | 269   | 411   | 259   | 89.66666666666667   | 68.5               | 80    | 99    |
| 2          | 70     | 1         | 210   | 387   | 229   | 70.0                | 64.5               | 60    | 80    |
| 2          | 60     | 2         | 210   | 436   | 210   | 70.0                | 72.66666666666667  | 60    | 80    |
| 2          | 80     | 3         | 210   | 411   | 220   | 70.0                | 68.5               | 60    | 80    |
| 3          | 80     | 1         | 240   | 387   | 240   | 80.0                | 64.5               | 80    | 80    |
| 3          | 80     | 2         | 240   | 436   | 240   | 80.0                | 72.66666666666667  | 80    | 80    |
| 3          | 80     | 3         | 240   | 411   | 210   | 80.0                | 68.5               | 80    | 80    |
| 4          | 50     | 1         | 100   | 387   | 160   | 33.333333333333336  | 64.5               | 20    | 50    |
| 4          | 30     | 2         | 100   | 436   | 100   | 33.333333333333336  | 72.66666666666667  | 20    | 50    |
| 4          | 20     | 3         | 100   | 411   | 126   | 33.333333333333336  | 68.5               | 20    | 50    |
| 5          | 76     | 1         | 163   | 387   | 183   | 81.5                | 64.5               | 76    | 87    |
| 5          | 87     | 2         | 163   | 436   | 194   | 81.5                | 72.66666666666667  | 76    | 87    |
| 6          | 31     | 1         | 65    | 387   | 152   | 32.5                | 64.5               | 31    | 34    |
| 6          | 34     | 3         | 65    | 411   | 154   | 32.5                | 68.5               | 31    | 34    |
| 7          | 89     | 2         | 187   | 436   | 221   | 93.5                | 72.66666666666667  | 89    | 98    |
| 7          | 98     | 3         | 187   | 411   | 187   | 93.5                | 68.5               | 89    | 98    |
+------------+--------+-----------+-------+-------+-------+---------------------+--------------------+-------+-------+--+

analyze_func

介绍：

# lag/lead(COLUMN_NAME,PRECEDING_ROW_NO,DEFAULT_VALUE) over(...)	向上/下取第几行的某列的值，若值为null,取默认值
# first_value/last_value(COLUMN_NAME) over(...)		取分组内排序后截止到当前行的第一行或最后一行某字段

例如：

select studentid,score,courseid,
lag(score,1,0) over(partition by studentid order by courseid) prevscore,
lead(score,1,0) over(partition by studentid order by courseid) nextscore,
first_value(score) over(partition by studentid order by courseid) firstscore
from score;

+------------+--------+-----------+------------+------------+-------------+--+
| studentid  | score  | courseid  | prevscore  | nextscore  | firstscore  |
+------------+--------+-----------+------------+------------+-------------+--+
| 1          | 80     | 1         | 0          | 90         | 80          |
| 1          | 90     | 2         | 80         | 99         | 80          |
| 1          | 99     | 3         | 90         | 0          | 80          |
| 2          | 70     | 1         | 0          | 60         | 70          |
| 2          | 60     | 2         | 70         | 80         | 70          |
| 2          | 80     | 3         | 60         | 0          | 70          |
| 3          | 80     | 1         | 0          | 80         | 80          |
| 3          | 80     | 2         | 80         | 80         | 80          |
| 3          | 80     | 3         | 80         | 0          | 80          |
| 4          | 50     | 1         | 0          | 30         | 50          |
| 4          | 30     | 2         | 50         | 20         | 50          |
| 4          | 20     | 3         | 30         | 0          | 50          |
| 5          | 76     | 1         | 0          | 87         | 76          |
| 5          | 87     | 2         | 76         | 0          | 76          |
| 6          | 31     | 1         | 0          | 34         | 31          |
| 6          | 34     | 3         | 31         | 0          | 31          |
| 7          | 89     | 2         | 0          | 98         | 89          |
| 7          | 98     | 3         | 89         | 0          | 89          |
+------------+--------+-----------+------------+------------+-------------+--+

oceanbase与mysql性能对比_金融业分布式数据库:TDSQL、HotDB、OceanBase等原理、POC性能对比及选择是...... 高中物理宋老师
本帖最后由Amygo于2020-3-1501:33编辑1、分布式的实现，是通过中间件实现分布式，还是源码级别引入分布式算法实现的？解答：(1)分布式数据库是至少由计算节点、存储节点、管理平台、备份还原程序四个部分组成，从数据库系统理论知识上说分成：全局自治和场地自治，也粗略认为：全局可理解为计算节点、场地可理解为存储节点(2)这个问题的标题“中间件实现分布式还是源码级别引入分布式算法”这个说法存在
深度优先搜索（DFS）完全解析：从原理到 Java 实战 my_realmy Java基础知识深度优先 java 算法
深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？深度优先搜索（Depth-FirstSearch,DFS）作为一种经典的图遍历算法，能够轻松应对这些场景。在CSDN社区中，技术文章的受欢迎程度往往取决于内容的实用性、代码的可读性以及图文结合的讲解方式。因此，本文将为你带来一篇深入浅出、图文并茂、代码
2025年渗透测试面试题总结-某四字大厂实习面试复盘一面二面三面（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全 web安全红蓝攻防 python
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录一面1.数组和链表各自的优势和原因2.操作系统层面解析和进程3.线程和进程通信方式及数据安全问题4.线程和多进程的选用场景及原因5.SQL注入绕WAF方式6.FUZZ绕WAF的payload长度通常是多少7.不查资料直接写IPv4正则regex8.Fastjson反序
java面试题,什么是动态代理？、动态代理和静态代理有什么区别？说一下反射机制？JDK Proxy 和 CGLib 有什么区别？动态代理的底层述雾学java java 开发语言 java面试题反射 java核心基础
什么是动态代理？动态代理是在程序运行期，动态的创建目标对象的代理对象，并对目标对象中的方法进行功能性增强的一种技术。在生成代理对象的过程中，目标对象不变，代理对象中的方法是目标对象方法的增强方法。可以理解为运行期间，对象中方法的动态拦截，在拦截方法的前后执行功能操作。动态代理的常见使用场景有：统计每个api的请求耗时；统一的日志输出；校验被调用的api是否已经登录和权限鉴定；SpringAOP。动
Cesium中级开发教程之四十一：红黄蓝渐变线 CesiumMaster Cesium开发教程前端 javascript html Cesium
一、原理渐变线的本质是沿线段方向进行颜色插值，创建顶点着色器，传递线段的位置或长度信息到片元着色器，创建片元着色器，根据位置或长度计算颜色，实现红→黄→蓝的渐变。二、效果图三、代码functioncreateGradientCanvas(){constcanvas=document.createElement("canvas");canvas.width=256;canvas.height=1;c
认识数学建模，什么是数学建模 ymchuangke 从零开始学数学建模数学建模
目录一、什么是数学建模？二、数学建模的核心思想三、数学建模的应用领域四、数学建模的基本步骤五、常用的数学建模方法和工具六、数学建模的挑战与未来发展一、什么是数学建模？数学建模（MathematicalModeling）是一种利用数学语言、结构和方法，对实际问题进行描述、简化、分析和求解的过程。其核心在于通过将复杂的现实世界问题转化为可操作的数学形式，从而利用数学理论和计算技术对其进行深入研究和解决
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
CVE - 2016 - 6628 漏洞复现：深入剖析及实战演示 Waitccy 网络安全网络安全 java
CVE-2016-6628漏洞复现：深入剖析及实战演示一、引言在网络安全领域，漏洞复现是理解和应对安全威胁的重要手段。CVE-2016-6628是一个影响广泛的严重漏洞，它主要存在于某些版本的Android系统中，攻击者可利用此漏洞通过特制的应用程序获取敏感信息、执行任意代码等，给用户带来极大的安全风险。本文将详细介绍CVE-2016-6628漏洞的背景、原理，并进行完整的漏洞复现过程，帮助读者更
合并两个有序链表陆仁贾笨贾链表数据结构
题目：将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例1：输入：l1=[1,2,4],l2=[1,3,4]输出：[1,1,2,3,4,4]思路：虚拟头结点：使用一个虚拟头结点（dummy）来简化链表操作。虚拟头结点的next指针指向合并后的链表的头结点。通过一个指针p来追踪新链表的最后一个节点。遍历链表：使用两个指针p1和p2分别遍历链表l1和l2。
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
Redis Cluster（无中心化设计）详解 π大星星️ redis 数据库缓存
1.1RedisCluster工作原理1.1.1背景与动机在传统的Redis单机模式中，哨兵（Sentinel）机制可以解决Redis的高可用问题。当主节点（Master）故障时，哨兵可以自动将从节点（Slave）提升为新的主节点，从而保证Redis服务的可用性。然而，这种机制无法解决单机Redis的写入瓶颈问题。单机Redis的写入性能受限于单机的内存大小、并发数量、网卡速率等因素。为了解决这一
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
一款超实用的社交软件多开神器，免费无广告贫道曰工具 django python github 开源软件 scipy httpx
你是否还在为微信只能开一个而烦恼？今天我就来给兄弟们推荐一个非常好用的微信多开软件。01软件介绍这款软件就是微信多开助手：绿色免费且无需安装适用windows系统界面简洁，操作简便02软件安装和使用这款软件完全免费，没有任何的广告，适用更是非常方便。使用方法更是十分简单，选择好需要多开的微信数量，点击启动多开按钮即可。例如，若要同时多开10个微信，软件能够轻松帮你实现。这款微信多开软件完全免费，没
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
在操作系统写回策略中，如果未命中cache，为何要先将数据读进cache再修改？我叫磁力泵~ 笔记
下文摘抄自小林coding（2.4CPU缓存一致性|小林coding）如果当发生写操作时，数据已经在CPUCache里的话，则把数据更新到CPUCache里，同时标记CPUCache里的这个CacheBlock为脏（Dirty）的，这个脏的标记代表这个时候，我们CPUCache里面的这个CacheBlock的数据和内存是不一致的，这种情况是不用把数据写到内存里的；如果当发生写操作时，数据所对应的C
不论什么操作都显示，CondaValueError: Malformed version string ‘~‘: invalid character(s). 银㱠 conda
不论什么操作，基本上都是这个报错：感觉是镜像地址的问题，无法用命令修改，打开environment.yml，将清华镜像的https全部替换为http，结果可以了。并且，重新下载之前备份的环境文件也快了很多（非常快了）。使用condaupdateconda更新conda会出错的话，就试试condaupgrade-nbase-cdefaults--override-channelsconda。思路：清
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
C++文件操作 nqqcat~ c++c++开发语言
文本文件二进制文件操作文件的三大类ofstream写ifstream读fstream写+读写文件包含头文件#include创建流对象ofstreamofs;打开文件ofs.open("文件路径",打开方式);写数据ofs#includeusingnamespacestd;//stream数据流，小溪//文本文件写文件voidtest01(){ofstreamofs;ofs.open("test.t
神州数码基础命令小淮@ 网络运维数据库
组网小知识1.设备连接：不同种类型设备的连接用：直通线同种或是跨层设备的连接用：交叉线（路由与PC）2.注意设备的叠放次序3.IP地址要先理顺，以便加快速度。先完成基本配置，全网连通后，继续其它。交换机还原配置文件：特权模式下：setdefault/write/后重启reload被加入密码后，起动过程，ctrl+b/deletestartup-config/后重启reload操作系统nos.img
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
Ark-TS 语言：鸿蒙生态的高效开发利器，让我们用大白话说一说 harmonyos-next
Ark-TS（华为专门为鸿蒙系统——就是华为自己的手机、平板、智能设备操作系统——设计的编程语言，基于TypeScript，一种比普通JavaScript更严格、能减少错误的语言）是鸿蒙应用开发的主力工具。它就像给开发者配备了一套趁手的工具包，让写代码又快又稳。简单来说，Ark-TS有几个厉害的地方：静态类型检查（写代码时必须给变量指定类型，比如数字、文字，这样电脑能在运行前就发现类型错误，避免程
《深入剖析鸿蒙生态原生应用：一次开发多端部署的技术革新》人工智能深度学习
在数字化时代飞速发展的浪潮中，鸿蒙生态以其独特的技术理念和强大的创新能力，为开发者和用户带来了全新的体验。其中，“一次开发多端部署”作为鸿蒙生态原生应用开发的核心技术之一，不仅是技术上的重大突破，更是对未来应用开发模式的一次深刻变革。鸿蒙生态：全场景时代的新引擎鸿蒙操作系统自诞生以来，就肩负着连接万物、构建全场景智能生态的使命。在传统的应用开发模式下，开发者需要针对不同的终端设备，如手机、平板、电
HarmonyOS 5 开发环境介绍 harmonyos-next
一、HarmonyOS5是什么？HarmonyOS5是华为推出的新一代分布式操作系统，基于微内核架构，专注于鸿蒙原生应用开发，不再兼容安卓APK。其核心目标是通过"一次开发、多端部署"的能力，实现全场景设备（手机、平板、智能穿戴、车机、智能家居等）的无缝协同。核心特性包括：分布式架构：设备间可自由组网，共享算力与资源；高性能内核：基于开源鸿蒙（OpenHarmony）优化，支持64位ARM、x86
6.Redis 缓存使用问题及解决方案拾柒mm 缓存 redis mybatis
引言Redis作为一种高效的缓存解决方案，广泛应用于各类项目中。然而，使用缓存时也会面临一些问题，特别是数据一致性、缓存穿透、击穿、雪崩等问题。1.数据一致性数据一致性是指在使用缓存时，缓存中的数据与数据库中的数据保持一致。数据不一致可能导致用户获取到过时的信息，影响用户体验。1.1数据操作方案在进行数据增删改操作时，常见的方案有：先更新缓存，再更新数据库：优点：缓存命中率提高，用户可以快速获取到
适合阅读源码的 Java 优质开源框架、库盘点（初级友好项目、中级进阶项目、高级深入项目）我命由我12345 Java -项目 java 开源开发语言 java-ee spring boot spring intellij-idea
一、初级友好项目1、JUnit5基本介绍：JUnit5是单元测试框架，代码简洁，适合学习测试驱动开发（TDD）和设计模式GitHub地址：https://github.com/junit-team/junit5特点：代码量适中，模块化设计，适合学习测试框架的实现原理2、Guava基本介绍：Guava是Google核心库，包含集合、缓存、字符串处理等工具类GitHub地址：https://githu
深入了解 C# 中的 LINQ：功能、语法与应用解析江沉晚呤时 Net core C#solr lucene c#.netcore
1.什么是LINQ？LINQ（LanguageIntegratedQuery，语言集成查询）是C#和其他.NET语言中的一种强大的查询功能，它允许开发者在语言中直接执行查询操作。LINQ使得开发者可以使用C#语法（或VB.NET）直接对集合、数据库、XML等数据源进行查询和操作，而不需要依赖外部查询语言（如SQL）或者复杂的API。LINQ提供了一个统一的查询模型，可以对各种数据源进行查询，包括集
YashanDB备份数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...操作说明使用本方式执行备份时，要求数据库运行于OPEN状态且归档模式开启。备份命令仅SYS超级用户或拥有SYSDBA、SYSBACKUP权限的用户才可执行，备份语法详细说明请参考开发手册BACKUPDATABASE。若数据库在
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

Hive系列（一）—— Hive初识及基础介绍

Hive 基础

Hive 简介

什么是 Hive

为什么使用 Hive

Hive 特点

Hive 体系结构

Hive 和 RDBMS 的对比

Hive 基础

Hive 数据存储

Hive 基本操作

你可能感兴趣的:(大数据,hive,hive原理,hive操作)