花泽啸

hive-metastore结构

Hive MetaStore数据库表结构图

整体概括

DBS

Columns: DB_ID、DESC、DB_LOCATION_URI、NAME、OWNER_NAME、OWNER_TYPE
DBS 表记录基本的db信息，其中DB_ID为其主键，同时也是FUNC_RU、FUNCS、DB_PRIVS、DATABASE_PARAMS、以及TBLS的外键。
　　一般来说，在hive meta初始化时都会自动创建一个名叫default的库，随后通过业务发展以及数据治理等需求，可进行不同业务域库的划分。

FUNC 表是用来存储udf的基本信息，一个UDF只能对应一个库下的表。FUNC_RU表，用于存储该udf的类型及指向的路径。

DB_PRIVS 表记录该DB下的权限记录信息，具体没怎么研究，因为现在更多的集成开源的类似于sentry、range等成熟的权限框架。

DATABASE_PARAMS 表记录DB的一些扩展信息，便于进行特殊属性的扩展。

TBLS 表自然是记录该DB下的所有Table信息。对应唯一的DB_ID。

TBLS

Columns: TBL_ID、CREATE_TIME、DB_ID,LAST_ACCESS_TIME、OWNER、RETENTION、SD_ID、TBL_NAME、TBL_TYPE、VIEW_EXPANDED_TEXT、VIEW_ORIGNAL_TEXT

首先，TBLS表，这个表主要记录了table的一些基本信息，包括表名、创建时间、类型，以及SD_ID等信息。tbl_id为TBLS的主键，同时也是TABLE_PARAMS、TBL_COL_PRIVS、IDXS、TBL_PRIVS、SDS、PARTITIONS、PARTITION_KEYS、TAB_COL_STATS表的外键。

每个TBLS都对应唯一的DB_ID,取决于你在哪个db下创建的表。在创建表写入meta的同时，也会创建相应的物理路径。同时会在SDS表中加入DDL时设置的input output、表的location以及SERDE信息（具体下面再说）

TBL_PRIVS、TBL_COL_PRIVS表记录该hive表的表及列权限认证信息。PARTITIONS表记录该表的DDL分区的信息,对于PARTITION_KEYS以及PARTITION_VALUES都是用于PartName的拼接获取。（可查看本博客 hive metadata源码解析）

(IDXS 与 TAB_COL_STATS还没有深入研究，后续添加）

PARTITIONS

Columns: PART_ID、CREATE_TIME、LAST_ACCESS_TIME、PART_NAME、SD_ID、TBL_ID

PARTITIONS表，通过表名也能才想到，它是partition分区存储的元数据信息。

PART_ID为PARTITIONS表的主键，同时也是PART_COL_STATS、PART_PRIVS、PARTITION_KEY_VALS、PARTITION_PARAMS、DATABASE_PARAMS表的外键。

Partition表在metastore中是相当重要的表，关系到partition的元数据存取（具体可参考本博客hive metastore partition篇）

SDS

Columns: SD_ID、CD_ID、INPUT_FORMAT、IS_COMPRESSED、IS_STOREDASSUBDIRECTORIES、LOCATION\NUM_BUCKETS、OUTPUT_FORMAT、SERDE_ID

SDS表主要包含计算引擎运行时需要的input与output 、location路径以及序列化的class信息。SD_ID为该表的主键，同时也是PARTITIONS、BUCKETING_COLS、SKEWD_COL_NAMES、SD_PARAMS、SORT_COLS、SKEWED_VALUES、IDXS的外键。

TBLS

记录数据表的信息

字段	解释
TBL_ID	在hive中创建表的时候自动生成的一个id，用来表示，主键
CREATE_TIME	创建的数据表的时间，使用的是时间戳
DBS_ID	这个表是在那个数据库里面
LAST_ACCESS_TIME	最后一次访问的时间戳
OWNER	数据表的所有者
RETENTION	保留时间
SD_ID	标记物理存储信息的id
TBL_NAME	数据表的名称
TBL_TYPE	数据表的类型,MANAGED_TABLE, EXTERNAL_TABLE, VIRTUAL_VIEW, INDEX_TABLE
VIEW_EXPANDED_TEXT	展开视图文本，非视图为null
VIEW_ORIGINAL_TEXT	原始视图文本，非视图为null

TBLS的SD_ID与SDS的SD_ID进行关联,TBLS的DB_ID与DBS的DB_ID进行关联,相关的thrift类为Table,StorageDescriptor。

//由于TBLS与DBS有关联，可以看到当前表是数据那个数据库。
//表的信息
mysql> select * from tbls where tbl_id=71 and db_id=1;
+--------+-------------+-------+------------------+--------+-----------+-------+----------+---------------+--------------------+--------------------+
| TBL_ID | CREATE_TIME | DB_ID | LAST_ACCESS_TIME | OWNER  | RETENTION | SD_ID | TBL_NAME | TBL_TYPE      | VIEW_EXPANDED_TEXT | VIEW_ORIGINAL_TEXT |
+--------+-------------+-------+------------------+--------+-----------+-------+----------+---------------+--------------------+--------------------+
|     71 |  1548340018 |     1 |                0 | hadoop |         0 |    91 | emp      | MANAGED_TABLE | NULL               | NULL               |
+--------+-------------+-------+------------------+--------+-----------+-------+----------+---------------+--------------------+--------------------+
//数据库的信息
mysql> select * from dbs where db_id=1;
+-------+-----------------------+-------------------------------------------+---------+------------+------------+
| DB_ID | DESC                  | DB_LOCATION_URI                           | NAME    | OWNER_NAME | OWNER_TYPE |
+-------+-----------------------+-------------------------------------------+---------+------------+------------+
|     1 | Default Hive database | hdfs://hadoop001:9000/user/hive/warehouse | default | public     | ROLE       |
+-------+-----------------------+-------------------------------------------+---------+------------+------------+

Version

这个表是记录Hive的版本，这个表里面只能有一条记录，这样Hive才能启动。在创建源数据表的时候，自动写入的信息。相关的thrift类为version。
在初始化源数据表的时候，插入一条数据。

INSERT INTO VERSION (VER_ID, SCHEMA_VERSION, VERSION_COMMENT) VALUES (1, '1.1.0', 'Hive release version 1.1.0');
//获取到的结果为：
mysql> select * from version;
+--------+----------------+--------------------------------------+
| VER_ID | SCHEMA_VERSION | VERSION_COMMENT                      |
+--------+----------------+--------------------------------------+
|      1 | 1.1.0          | Set by MetaStore hadoop@10.140.42.16 |
+--------+----------------+--------------------------------------+

DBS

记录数据库的信息

字段	解释
DB_ID	数据库的编号,默认的数据库编号为1,如果创建其他数据库的时候,这个字段会自增,主键
DESC	对数据库进行一个简单的介绍
DB_LOCATION_URI	数据库的存放位置，默认是存放在hdfs://ip:9000/user/hive/warehouse，如果是其他数据库，就在后面添加目录,默认位置可以通过参数hive.metastore.warehouse.dir来设置
NAME	数据库的名称
OWNER_NAME	数据库所有者名称
OWNER_TYPE	数据库所有者的类型

DBS的DB_ID与DATABASE_PARAMS的DB_ID进行关联。
相关的thrift类为Database

#查看所有的数据库
mysql> select * from dbs;
+-------+-----------------------+------------------------------------------------------+---------+------------+------------+
| DB_ID | DESC                  | DB_LOCATION_URI                                      | NAME    | OWNER_NAME | OWNER_TYPE |
+-------+-----------------------+------------------------------------------------------+---------+------------+------------+
|     1 | Default Hive database | hdfs://hadoop001:9000/user/hive/warehouse            | default | public     | ROLE       |
|     2 | NULL                  | hdfs://hadoop001:9000/user/hive/warehouse/xiaoyao.db | xiaoyao | hadoop     | USER       |
+-------+-----------------------+------------------------------------------------------+---------+------------+------------+

TABLE_PARAMS

字段	解释
TBL_ID	数据的编号
PARAM_KEY	参数
PARAM_VALUE	参数的值

TABLE_PARAMS的TBL_ID与TBLS的TBL_ID的进行关联,TBL_ID与PARAM_KEY作为联合主键。

每个表的信息基本上都有如下属性：

参数	值
COLUMN_STATS_ACCURATE	精确统计列
numFiles	文件数
numRows	行数
rawDataSize	原始数据大小
totalSize	当前大小
transient_lastDdlTime	最近一次操作的时间戳

//对tbls中的数据表进行一个介绍:文件的数量、数据行数、数据总的大小等介绍
mysql> select * from table_params where tbl_id=71;
+--------+-----------------------+-------------+
| TBL_ID | PARAM_KEY             | PARAM_VALUE |
+--------+-----------------------+-------------+
|     71 | COLUMN_STATS_ACCURATE | true        |
|     71 | numFiles              | 1           |
|     71 | numRows               | 0           |
|     71 | rawDataSize           | 0           |
|     71 | totalSize             | 701         |
|     71 | transient_lastDdlTime | 1548340028  |
+--------+-----------------------+-------------+

SDS

此对象包含有关属于表的数据的物理存储的所有信息，数据表的存储描述

字段	解释
SD_ID	主键
CD_ID	数据表编号
INPUT_FORMAT	数据输入格式
IS_COMPRESSED	是否对数据进行了压缩
IS_STOREDASSUBDIRECTORIES	是否进行存储在子目录
LOCATION	数据存放位置
NUM_BUCKETS	分桶的数量
OUTPUT_FORMAT	数据的输出格式
SERDE_ID	序列和反序列的信息

SDS的SERDE_ID与SERDES的SERDE_ID进行关联，SDS的CD_ID与CDS的CD_ID进行关联。相关的thrift表为StorageDescriptor。

//数据的存储格式
mysql> select * from sds where sd_id=91;
+-------+-------+------------------------------------------+---------------+---------------------------+-----------------------------------------------+-------------+------------------------------------------------------------+----------+
| SD_ID | CD_ID | INPUT_FORMAT                             | IS_COMPRESSED | IS_STOREDASSUBDIRECTORIES | LOCATION                                      | NUM_BUCKETS | OUTPUT_FORMAT                                              | SERDE_ID |
+-------+-------+------------------------------------------+---------------+---------------------------+-----------------------------------------------+-------------+------------------------------------------------------------+----------+
|    91 |    71 | org.apache.hadoop.mapred.TextInputFormat |               |                           | hdfs://hadoop001:9000/user/hive/warehouse/emp |          -1 | org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat |       91 |
+-------+-------+------------------------------------------+---------------+---------------------------+-----------------------------------------------+-------------+------------------------------------------------------------+----------+

CDS

记录数据表的编号

字段	解释
CD_ID	主键,记录数据表的编号

这个是一个自增的序列，就是一个标识。

SERDES

记录序列化和反序列化信息

字段	解释
SERDE_ID	主键,记录序列化的编号
NAME	序列化和反序列化名称，默认为表名
SLIB	使用的是哪种序列化方式

SERDES_PARAMS

字段	解释
SERDE_ID	主键,记录序列化的编号
PARAM_KEY	参数名称
PARAM_VALUE	参数的值

SERDES_PARAMS的SERDE_ID与SERDES的SERDE_ID进行关联。

//序列化的方式
mysql> select * from serde_params where serde_id=91;
+----------+----------------------+-------------+
| SERDE_ID | PARAM_KEY            | PARAM_VALUE |
+----------+----------------------+-------------+
|       91 | field.delim          |                |
|       91 | serialization.format |                |
+----------+----------------------+-------------+

#DATABASE_PARAMS

字段	解释
DB_ID	数据库的编号
PARAM_KEY	参数名称
PARAM_VALUE	参数值

DB_ID是一个主键，使得DBS与DATABASE_PARAMS关联。

TAB_COL_STATS

数据表的列信息统计

字段	解释
CS_ID	列统计编号
AVG_COL_LEN	数据的平均长度
MAX_COL_LEN	数据的最大长度
COLUMN_NAME	列的名字
COLUMN_TYPE	列的类型
DB_NAME 数据库的名称
BIG_DECIMAL_HIGH_VALUE	数据中最大的Decimal值
BIG_DECIMAL_LOW_VALUE	数据中最小的Decimal值
DOUBLE_HIGH_VALUE	数据中最大的Double值
DOUBLE_LOW_VALUE	数据中最小的Double值
LAST_ANALYZED	最新一次解析的时间戳
LONG_HIGH_VALUE	数据中最大的Long值
LONG_LOW_VALUE	数据中最小的Long值
NUM_DISTINCTS	不同记录的数量
NUM_FALSES	为false的数量
NUM_NULLS	为null的数量
NUM_TRUES	为true的数量
TBL_ID	数据表的编号
TABLE_NAME	数据表的名称

通过tbl_id使得TAB_COL_STATS与tbls关联。

相关的thrift类有：BooleanColumnStatsData、DoubleColumnStatsData、LongColumnStatsData、StringColumnStatsData、BinaryColumnStatsData、
Decimal、DecimalColumnStatsData、ColumnStatisticsData、ColumnStatisticsObj、ColumnStatisticsDesc、ColumnStatistics

Sort_COLS

记录要进行排序的列

字段	解释
SD_ID	数据表物理信息描述的编号
COLUMN_NAME	列的名称
ORDER	排序方式

COLUMNS_V2

用于描述列的信息

字段	解释
CD_ID	表的编号
COMMENT	相关描述信息
COLUMN_NAME	列的名称
TYPE_NAME	类的类型

这个表与cds通过cd_id关联。

mysql> select * from columns_v2 where cd_id=71;
+-------+---------+-------------+-----------+-------------+
| CD_ID | COMMENT | COLUMN_NAME | TYPE_NAME | INTEGER_IDX |
+-------+---------+-------------+-----------+-------------+
|    71 | NULL    | common      | double    |           6 |
|    71 | NULL    | deptno      | int       |           7 |
|    71 | NULL    | empno       | int       |           0 |
|    71 | NULL    | ename       | string    |           1 |
|    71 | NULL    | hiredate    | string    |           4 |
|    71 | NULL    | job         | string    |           2 |
|    71 | NULL    | mgr         | int       |           3 |
|    71 | NULL    | sal         | double    |           5 |
+-------+---------+-------------+-----------+-------------+

FUNCS

记录hive中函数的信息

字段	解释
FUNC_ID	函数的编号
CLASS_NAME	自定义函数的类的名称
CREATE_TIME	函数创建时间
DB_ID	作用于那个数据库
FUNC_NAME	方法名称
FUNC_TYPE	方法类型
OWNER_NAME	所有者名称
OWNER_TYPE	所有者类型

这个表里面记录一些hive自带的函数和用户自定义的函数。
相关的thrift类为Function。

FUNC_RU

对函数的相关参数进行描述。

字段	解释
FUNC_ID	函数的编号
RESOURCE_TYPE	资源的类型
RESOURCE_URI	资源的uri

相关的thrift类为：ResourceUri、ResourceType。

分区表

PARTITIONS

字段	解释
PART_ID	分区的编号
CREATE_TIME	创建分区的时间
LAST_ACCESS_TIME	最近一次访问时间
PART_NAME	分区的名字
SD_ID	存储描述的id
TBL_ID	数据表的id

PARTITION_PARAMS

字段	解释
PART_ID	分区的编号
PARAM_KEY	参数
PARAM_VALUE	参数的值

mysql> select * from partition_params where part_id=21;
+---------+-----------------------+-------------+
| PART_ID | PARAM_KEY             | PARAM_VALUE |
+---------+-----------------------+-------------+
|      21 | COLUMN_STATS_ACCURATE | true        |
|      21 | numFiles              | 1           |
|      21 | numRows               | 0           |
|      21 | rawDataSize           | 0           |
|      21 | totalSize             | 604236      |
|      21 | transient_lastDdlTime | 1543071202  |
+---------+-----------------------+-------------+

PARTITION_KEYS

字段	解释
TBL_ID	数据表的编号
PKEY_COMMENT	分区字段的描述
PKEY_NAME	分区字段的名称
PKEY_TYPE	分区字段的类型

PARTITION_KEY_VALS

字段	解释
PART_ID	分区编号
PART_KEY_VAL	分区字段的值

//按照值分区之后，这是第几个分区
mysql> select * from partition_key_vals;
+---------+--------------+-------------+
| PART_ID | PART_KEY_VAL | INTEGER_IDX |
+---------+--------------+-------------+
|      16 | xiaoyao      |           0 |
|      21 | 2016-05-05   |           0 |
+---------+--------------+-------------+

查看表的信息

//可以使用命令查看表的所有信息，分区表亦如是。
hive (default)> desc formatted emp;
#表类的信息，对应的表为：COLUMNS_V2
# col_name              data_type               comment             
         
empno                   int                                         
ename                   string                                      
job                     string                                      
mgr                     int                                         
hiredate                string                                      
sal                     double                                      
common                  double                                      
deptno                  int                                         
         
# 数据表的详细信息 ，对应的数据表为：TBLS         
Database:               default                  
Owner:                  hadoop                   
CreateTime:             Thu Jan 24 22:26:58 CST 2019     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://hadoop001:9000/user/hive/warehouse/emp    
Table Type:             MANAGED_TABLE            
Table Parameters:        
    COLUMN_STATS_ACCURATE   true                
    numFiles                1                   
    numRows                 0                   
    rawDataSize             0                   
    totalSize               701                 
    transient_lastDdlTime   1548340028          
         
# 表的存储信息 对应的数据表为：TBLS        
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe   
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    field.delim             \t                  
    serialization.format    \t                  
Time taken: 0.253 seconds, Fetched: 39 row(s)

分区表信息

hive (xiaoyao)> desc formatted emp_test_p;
#列的信息
# col_name              data_type               comment             
         
empno                   int                                         
ename                   string                                      
job                     string                                      
mgr                     int                                         
hiredate                string                                      
sal                     double                                      
common                  double                                      
deptno                  int                                         
 
# 分区信息       
# col_name              data_type               comment             
         
pt                      string                                      
         
# 表信息        
Database:               xiaoyao                  
Owner:                  hadoop                   
CreateTime:             Sat Nov 24 15:50:25 CST 2018     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://hadoop001:9000/user/hive/warehouse/xiaoyao.db/emp_test_p  
Table Type:             MANAGED_TABLE            
Table Parameters:        
    transient_lastDdlTime   1543045825          
         
# 存储信息       
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe   
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    field.delim             \t                  
    serialization.format    \t

删除表

Hive中删除
drop table emp;
在MetaStore删除数据表

drop procedure if exists t1;
create  procedure t1 ( in tbinput int) 
begin
    declare v_sd_id int ;
    declare v_part_id int ;
    declare v_cd_id int ;
    declare v_serde_id int ;
 
    select tbinput;
    select SD_ID into v_sd_id from tbls where TBL_ID = tbinput;
    select part_id  into v_part_id from partitions where tbl_id = tbinput;
    select cd_id , serde_id into v_cd_id,v_serde_id from sds where sd_id = v_sd_id;
    select v_sd_id,v_part_id,v_cd_id,v_serde_id;
 
    if v_part_id is not  null then 
        delete from partition_params where part_id = v_part_id;
        delete from partition_key_vals where part_id = v_part_id;
 
    end if;
    delete from serdes where serde_id = v_serde_id;
    delete from serde_params where serde_id = v_serde_id;
    delete from columns_v2 where cd_id = v_cd_id;
    delete from sds where sd_id = v_sd_id;
    delete from partitions where tbl_id = tbinput;
    delete from partition_keys where tbl_id = tbinput;
    delete from table_params where tbl_id = tbinput;
    delete from tbls where tbl_id = tbinput;
 
end ;

存放sql语句的位置：hive-1.1.0-cdh5.7.0/metastore/scripts/upgrade/mysql/hive-schema-1.1.0.mysql.sql
存放thrift相关文件的位置：hive-1.1.0-cdh5.7.0/metastore/if/hive_metastore.thrift
存放java相关文件的位置：hive-1.1.0-cdh5.7.0/metastore/src/gen/thrift/gen-javabean/org/apache/hadoop/hive/metastore/api

参考文档

https://crazymatrix.iteye.com/blog/2088338
http://www.icode9.com/content-2-120314.html
https://blog.csdn.net/Gavin_chun/article/details/78416037
https://blog.csdn.net/qq_32252917/article/details/78458115
https://mp.weixin.qq.com/s?__biz=MzA3ODUxMzQxMA==&mid=2663993556&idx=1&sn=0e5291bd63426d747f32a7fd05128caa&scene=21#wechat_redirect

你可能感兴趣的:(Hive)

C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
android nodejs cike110120
本文参照了http://www.blogjava.net/jelver/articles/143082.html，http://www.blogjava.net/athrunwang/archive/2011/09/28/359680.html，《androidSDK开发范例大全(第2版)》上次做了一个demo，试验如何用node.js响应getpost请求，http请求使用的浏览器。我现在正在学
CYW43: 无线网络开发套件指南阮曦薇Joe
CYW43:无线网络开发套件指南cyw43ARCHIVED--movedintothemainEmbassyrepoathttps://github.com/embassy-rs/embassy项目地址:https://gitcode.com/gh_mirrors/cy/cyw43项目介绍CYW43是一个基于Rust的开源项目，专门用于驱动CypressCYW43xx系列WiFi和蓝牙芯片。它提供
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
assembly : maven assembly打包报错：maven to create assembly : unable to obtain archiver for extension 九师兄工具-maven
原因是没有添加org.apache.maven.plugins<artifactId
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
零基础 Qt 6 在线安装教程程序员乐逍遥 Qt框架 MFC框架高级编程 qt 开发语言 qt6 C++安装
1.首先给你们Qt5.14.2的安装地址,有需要的可以安装Indexof/archive/qt/5.14/5.14.22.首先下载Qt6的在线安装包https://d13lb3tujbc8s0.cloudfront.net/onlineinstallers/qt-online-installer-windows-x64-4.10.0.exe3.安装运行程序
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S