2NaCl

数据仓库Hive——DDL详细数据操作

文章目录

一、Hive基本概念
- 1.什么是Hive
- 2.Hive的优缺点
- 3.Hive的架构原理
- 4.Hive和数据库的比较
二、Hive DDL的基本操作指令
- 1.展示数据库
- 2.使用数据库
- 3.展示表
- 4.导入数据
- 5.用Hive查看HDFS目录文件
- 6.用Hive查看本地目录
- 7.查看hive历史操作命令
- 8.查看表的详细信息
- 9.创建表
- - 9.1 这是创建csv的方法，创建tsv就是by '\t'
  - 9.2 创建内部表：
  - 9.3 根据查询结果创建表
  - 9.4根据已经存在的表创建表
  - 9.5 创建外部表
- 10.关于分区表
- - 10.1 创建分区表并且导入数据
  - 10.2 对于多个分区表的联合查询操作（这样的对表操作会比单区表快很多，使用一个MapReduce案例就知道了）
  - 10.3 创建一个新的分区
  - 10.4 创建多个分区
  - 10.5 查询已创建的所有分区
  - 10.6 删除一个分区
  - 10.7 查看分区表结构
  - 10.8 创建二级分区表
- 11.将数据直接上传到HDFS
- - 11.1 上传数据之后修复
  - 11.2 上传数据后再添加分区
  - 11.3 上传数据后load数据到分区
- 12.修改表
- - 12.1 修改表名
  - 12.2 对列进行修改操作

一、Hive基本概念

1.什么是Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类sql查询功能。
本质是：将HQL转化成MapReduce程序，因为
(1)Hive处理的数据存储在HDFS
(2)Hive分析数据底层的实现是MapReduce
(3)执行程序在yarn上

2.Hive的优缺点

优点：
(1)操作接口采用类sql语法，提供快速开发的能力(简单容易上手)
(2)避免去写MapReduce，减少学习成本
(3)Hive的执行延迟比较高，因此Hive常常用于数据分析，不适用于实时
(4)Hive擅长处理大数据，不擅长处理小数据，因此执行延迟比较高
(5)Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数
缺点：
(1)Hive的HQL表达能力有限(迭代式算法无法表达，数据挖掘方面不擅长)
(2)Hive效率低(Hive自带的MapReduce作业，通常情况下不够智能化，调优很困难，粒度较粗)

3.Hive的架构原理

左侧，MetaStore元数据，我们会把元数据存放到Mysql里面，元数据包括表名，表所属的数据库(默认是default)、表的拥有者、字段、表的类型(是否是外部表)、表的数据所在目录等等。
中间的Client，主要使用的还是ssm框架去访问hive，满足C/S（client/Server）架构
其中最重要的是

在这个部分，Hive将sql语句翻译成了Mapreduce,首先，用sql解析器去解析sql语句，解析之后用编译器去编译，然后把编译计划进行调优处理，最后进行执行器处理，执行器调用底层的MapReduce。

4.Hive和数据库的比较

由于Hive所采用的是HQL语言，因此很容易将Hive理解成数据库，其实从结构上来说，除了sql查询语言差不多以外，也没什么一样的了，因为大多数据库是为了Online而服务的，但是Hive是为了当做数据仓库。

<1>Hive的数据存储位置

Hive是建立在Hadoop之上的，所以Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

<2>Hive数据更新

由于Hive是针对数据仓库设计的，而数据仓库的内容是读多写少。因此Hive不支持对数据的改写和添加，所有的数据都是在加载的时候就确定好的。而数据库中的数据通常是经常需要修改的，所以就可以使用Insert into…values添加数据，使用update set 修改数据，和mysql语法也差不多。

<3>索引

Hive加载数据的时候不会对key进行扫描，所以要是查询满足条件的数据的时候就要扫描全部数据，这就会产生很大的延迟，但是我们用到Hive的时候时常会应用到MapReduce，而MapReduce支持大规模的并行计算，这也就让Hive能够很好的处理大数据，而不适合处理延迟时间长的小数据，所以，Hive不适合实时处理数据。(这里建议实时处理数据还是老老实实用storm或者kafka+SparkStreaming，可以看我之前的文章)

<4>执行

Hive中大多数查询的执行是通过Hadoop提供的MR进行实现的，而数据库常常有自己的搜索引擎。

<5>数据规模

由于Hive建立在集群上并且可以使用MR进行并行计算，因此可以支持很大规模的数据；对应的，数据库支持的数据规模较小。

二、Hive DDL的基本操作指令

1.展示数据库

hive> show databases;
OK
default
Time taken: 0.024 seconds, Fetched: 1 row(s)

2.使用数据库

hive> use default;
OK
Time taken: 0.022 seconds

3.展示表

hive> show tables;
OK
sougou
Time taken: 0.124 seconds, Fetched: 1 row(s)

4.导入数据

hive> load data local inpath '/home/centos01/modules/apache-hive-1.2.2-bin/iotmp/mfd_day_share_interest.csv' into table default.mfd_interest_data;

5.用Hive查看HDFS目录文件

hive> dfs -lsr /;
lsr: DEPRECATED: Please use 'ls -R' instead.

drwxr-xr-x   - centos01 supergroup          0 2019-02-22 14:55 /user/hive/warehouse
drwxr-xr-x   - centos01 supergroup          0 2019-02-22 14:55 /user/hive/warehouse/mfd_interest_data
-rwxr-xr-x   1 centos01 supergroup       9740 2019-02-22 14:55 /user/hive/warehouse/mfd_interest_data/mfd_day_share_interest.csv
drwxr-xr-x   - centos01 supergroup          0 2019-01-11 10:50 /user/hive/warehouse/sougou

也可以用

hive> dfs -ls /;

查看根目录文件，不导出所有文件了就

6.用Hive查看本地目录

hive> ! ls /home;
centos01

总结，在Hive控制台，使用！后可以直接使用本地命令的查看预览操作

7.查看hive历史操作命令

[centos01@linux01 ~]$ cat .hivehistory

8.查看表的详细信息

hive> desc formatted mfd_interest_external;
OK
# col_name              data_type               comment             
                 
tdate                   bigint                                      
interest                double                                      
year_interest           double                                      
                 
# Detailed Table Information             
Database:               default                  
Owner:                  centos01                 
CreateTime:             Fri Feb 22 16:55:46 CST 2019     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://linux01:8020/user/hive/warehouse/mfd_interest_external    
Table Type:             EXTERNAL_TABLE           
Table Parameters:                
        COLUMN_STATS_ACCURATE   true                
        EXTERNAL                TRUE                
        numFiles                1                   
        totalSize               9740                
        transient_lastDdlTime   1550835770          
                 
# Storage Information            
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe       
InputFormat:            org.apache.hadoop.mapred.TextInputFormat         
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat       
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:             
        field.delim             ,                   
        serialization.format    ,                   
Time taken: 0.083 seconds, Fetched: 33 row(s)

9.创建表

9.1 这是创建csv的方法，创建tsv就是by ‘\t’

hive> create table mfd_interest_data(tdate bigint,interest_rate double,year_date double) row format delimited fields terminated by ',';
OK
Time taken: 2.071 seconds

9.2 创建内部表：

我们平时所创建的表，默认都是管理表，也就是内部表，因为这种表，Hive会或多或少的控制着数据的生命周期。Hive默认情况下会将这些数据存储存在由配置项hive.metastore.warehouse.dir所定义的目录的子目录之下。而且，当我们删除这个表的时候，Hive也会删除这个表中的数据，管理表不适合和其他工具共享数据。

hive> create table if not exists stu (id int,name string) row format delimited fields terminated by ',' stored as textfile location '/user/hive/warehouse/student';
OK
Time taken: 0.077 seconds
hive>

9.3 根据查询结果创建表

create table if not exists stu3 as select tdate,interest_rate,year_date;

9.4根据已经存在的表创建表

create if not exists stu4 like stu3;

9.5 创建外部表

因为表是外部表，所以Hive并非认为其完全拥有这份数据。删除该表也不会删除表所拥有的数据，不过描述表的metastore信息会被删除。
外部表和内部表的使用场景：每天将收集到的网站日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量分析，用到的中间表和结果表使用内部表存储，数据通过Select + Insert进入内部表。

hive> create external table if not exists mfd_interest_external (tdate bigint,interest double,year_interest double) row format delimited fields terminated by ',';
OK
Time taken: 0.144 seconds

10.关于分区表

分区表实际上就是针对HDFS的文件系统上的独立文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过where的子句中的表达式选择查询所需要的指定的分区，这样的查询效率会高很多

10.1 创建分区表并且导入数据

hive> create table if not exists user_interst_partition(ttdate bigint,interest double,seven_interest double) partitioned by (tdate string) row format delimited fields terminated by ',';
OK
Time taken: 0.114 seconds

hive> load data local inpath '/home/centos01/modules/apache-hive-1.2.2-bin/iotmp/mfd_day_share_interest.csv' into table user_interst_partition partition(tdate='201408');
Loading data to table default.user_interst_partition partition (tdate=201408)
Partition default.user_interst_partition{tdate=201408} stats: [numFiles=1, numRows=0, totalSize=9773, rawDataSize=0]
OK
Time taken: 1.075 seconds

10.2 对于多个分区表的联合查询操作（这样的对表操作会比单区表快很多，使用一个MapReduce案例就知道了）

hive> select * from user_interst_partition where (tdate='201407') union select * from user_interst_partition where tdate='201408';
Query ID = centos01_20190223090920_78d319dd-50c7-4f9c-b441-835a6589bd46
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2019-02-23 09:09:24,277 Stage-1 map = 100%,  reduce = 0%
2019-02-23 09:09:25,297 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local1321650509_0001
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 29319 HDFS Write: 29319 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK

10.3 创建一个新的分区

hive> alter table user_interst_partition add partition (tdate='201407');
OK
Time taken: 0.143 seconds

10.4 创建多个分区

hive> alter table user_interst_partition add partition (tdate='201401')partition(tdate='201402');
OK
Time taken: 0.223 seconds

10.5 查询已创建的所有分区

hive> show partitions user_interst_partition;
OK
tdate=201401
tdate=201402
tdate=201407
tdate=201408
Time taken: 0.08 seconds, Fetched: 4 row(s)

10.6 删除一个分区

hive> alter table user_interst_partition drop partition(tdate='201807');
OK
Time taken: 0.064 seconds

删除多分区的话，就用逗号隔开每一个partition即可，但是创建却不需要逗号。

10.7 查看分区表结构

hive> desc formatted user_interst_partition;
OK
# col_name              data_type               comment             
                 
ttdate                  bigint                                      
interest                double                                      
seven_interest          double                                      
                 
# Partition Information          
# col_name              data_type               comment             
                 
tdate                   string                                      
                 
# Detailed Table Information             
Database:               default                  
Owner:                  centos01                 
CreateTime:             Sat Feb 23 09:04:42 CST 2019     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://linux01:8020/user/hive/warehouse/user_interst_partition   
Table Type:             MANAGED_TABLE            
Table Parameters:                
        transient_lastDdlTime   1550883882          
                 
# Storage Information            
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe       
InputFormat:            org.apache.hadoop.mapred.TextInputFormat         
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat       
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:             
        field.delim             ,                   
        serialization.format    ,                   
Time taken: 0.064 seconds, Fetched: 34 row(s)

10.8 创建二级分区表

hive> create table if not exists user_interest_partition(ttdate bigint,interest double,seven_interest double) partitioned by (tyear string,tmonth string) row format delimited fields terminated by ',';
OK
Time taken: 0.09 seconds

其他方法雷同，就是多了个分区

11.将数据直接上传到HDFS

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式

11.1 上传数据之后修复

数据准备

hive> create table short_table (name string,age int) partitioned by (year string,month string)row format delimited fields terminated by '\t';
OK
Time taken: 0.061 seconds

hive> select * from short_table;
OK
Time taken: 0.055 seconds

hive> load data local inpath '/home/centos01/modules/apache-hive-1.2.2-bin/examples/files/x.txt' into table short_table partition(year='2010',month='01');
Loading data to table default.short_table partition (year=2010, month=01)
Partition default.short_table{year=2010, month=01} stats: [numFiles=1, numRows=0, totalSize=13, rawDataSize=0]
OK

先在hdfs创建文件

hive> dfs -mkdir -p /user/hive/warehouse/short_table/year=2010/month=01;
hive> dfs -put /home/centos01/modules/apache-hive-1.2.2-bin/examples/files/x.txt /user/hive/warehouse/short_table/year=2010/month=01;

然后数据导入

hive> dfs -put /home/centos01/modules/apache-hive-1.2.2-bin/iotmp/mfd_day_share_interest.csv /user/hive/warehouse/user_interest_partition/year=2013/month=09;
hive> dfs -put /home/centos01/modules/apache-hive-1.2.2-bin/iotmp/mfd_day_share_interest.csv /user/hive/warehouse/user_interest_partition/year=2013/month=10;

查询我们导入的数据

hive> select * from short_table where year='2010' and month='01';
OK
Time taken: 0.285 seconds

发现什么也没有，所以下面执行修复命令

hive> msck repair table short_table;
OK
Partitions not in metastore:    user_interest_partition:year=2013/month=09
Time taken: 0.101 seconds, Fetched: 1 row(s)

然后在查看就可以了

hive> select * from short_table where year='2010' and month='01';
OK
Joe     2       2010    01
Hank    2       2010    01
Time taken: 0.09 seconds, Fetched: 2 row(s)

11.2 上传数据后再添加分区

上传数据

hive> dfs -mkdir -p /user/hive/warehouse/short_table/year=2010/month=03;
hive> dfs -put /home/centos01/modules/apache-hive-1.2.2-bin/examples/files/x.txt /user/hive/warehouse/short_table/year=2010/month=03;

然后查询，发现没有

hive> select * from short_table where year = '2010' and month ='03';
OK
Time taken: 0.07 seconds

这个时候我们添加分区

hive> alter table short_table add partition(year='2010',month='03');
OK
Time taken: 0.145 seconds

然后发现会查询成功

hive> select * from short_table where year='2010' and month='03';
OK
Joe     2       2010    03
Hank    2       2010    03
Time taken: 0.354 seconds, Fetched: 2 row(s)

11.3 上传数据后load数据到分区

创建目录

hive> dfs -mkdir -p /user/hive/warehouse/short_table/year=2010/month=04;

导入数据

hive> load data local inpath '/home/centos01/modules/apache-hive-1.2.2-bin/examples/files/x.txt' into table short_table partition(year='2010',month='04');
Loading data to table default.short_table partition (year=2010, month=04)
Partition default.short_table{year=2010, month=04} stats: [numFiles=1, numRows=0, totalSize=13, rawDataSize=0]
OK
Time taken: 0.267 seconds

查询数据

hive> select * from short_table where year=
    > '2010' and month='04';
OK
Joe     2       2010    04
Hank    2       2010    04
Time taken: 0.113 seconds, Fetched: 2 row(s)

12.修改表

12.1 修改表名

hive> alter table short_table rename to shortTable;
OK
Time taken: 0.218 seconds

12.2 对列进行修改操作

添加列

hive> alter table shortTable add columns(sex string);
OK
Time taken: 0.211 seconds

更新列

hive> alter table shortTable change column age desc float;
OK
Time taken: 0.108 seconds
hive> select * from shortTable;
OK
Joe     2.0     NULL    2010    01
Hank    2.0     NULL    2010    01
Joe     2.0     NULL    2010    03
Hank    2.0     NULL    2010    03
Joe     2.0     NULL    2010    04
Hank    2.0     NULL    2010    04
Time taken: 0.07 seconds, Fetched: 6 row(s)

替换列

hive> alter table shortTable replace columns(dname string,dage string);
OK
Time taken: 0.043 seconds
hive> select * from shortTable;
OK
Joe     2       2010    01
Hank    2       2010    01
Joe     2       2010    03
Hank    2       2010    03
Joe     2       2010    04
Hank    2       2010    04

CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
Hive 窗口函数与分析函数深度解析：开启大数据分析的新维度自节码大数据 hive 数据分析 hadoop
Hive窗口函数与分析函数深度解析：开启大数据分析的新维度在当今大数据蓬勃发展的时代，Hive作为一款强大的数据仓库工具，其窗口函数和分析函数犹如一把把精巧的手术刀，助力数据分析师们精准地剖析海量数据，挖掘出深藏其中的价值宝藏。本文将带领大家深入探索HiveQL中这些神奇函数的奥秘，从版本演进、功能特性到丰富多样的实际应用示例，全方位地呈现它们在大数据处理领域的卓越魅力。一、版本回溯与知识宝库指引
大数据新视界 -- 大数据大厂之 Hive 数据压缩算法对比与选择（下）（20 / 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据压缩压缩算法对比选择因素案例分析实时数据处理数据存储优化 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Hive 数据安全：权限管理体系的深度解读（上）（15/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 集成大数据工具集成模式优化策略未来趋势数据一致性
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
大数据新视界 -- Hive 数据仓库设计模式：星型与雪花型架构（2 - 16 - 3）青云交大数据新视界 #Hive 之道 Hive 数据仓库星型架构雪花型架构对比分析大数据应用 Hive 大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据新视界 -- 大数据大厂之 Hive 数据质量监控：实时监测异常数据（下）（18/ 30）青云交大数据新视界 #Hive 之道 Hive 数据质量监控异常数据监测阈值设定统计模型行业案例大规模数据处理误报漏报平衡
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Hive 数据质量保障：数据清洗与验证的策略（上）（17/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据质量数据清洗数据验证噪声处理一致性验证缺失值填补
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 查询性能优化：索引技术的巧妙运用（下）（6/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据导入多源数据数据整合数据清洗影视娱乐数据电商数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
java race condition_Java多线程Race Condition vs. Data Race 邢仁 java race condition
http://blog.regehr.org/archives/490Araceconditionisaflawthatoccurswhenthetimingororderingofeventsaffectsaprogram’scorrectness.Generallyspeaking,somekindofexternaltimingororderingnon-determinismisneede
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
大数据新视界 -- Hive 数据生命周期自动化管理（2 - 16 - 12）青云交大数据新视界 #Hive 之道 Hive 数据生命周期自动化管理数据处理机器学习数据采集性能优化大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据倾斜问题剖析与解决方案（2 - 16 - 5）青云交大数据新视界 #Hive 之道 Hive 数据倾斜解决方案数据仓库数据预处理 SQL 优化 sql 大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据抽样实战与结果评估（2 - 16 - 2）青云交大数据新视界 #Hive 之道 Hive 数据抽样实战结果评估大数据应用 Hive 优化策略大数据 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据抽样：高效数据探索的方法（2 - 16 - 1）青云交大数据新视界 #Hive 之道 Hive 数据抽样大数据处理随机抽样分层抽样基于桶抽样结果评估大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据湖集成与数据治理（下）（26 / 30）青云交大数据新视界 #Hive 之道 Hive 数据湖集成数据治理数据管理大数据集成数据质量保障数据湖优化 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 与其他大数据工具的集成：协同作战的优势（下）（14/ 30）青云交大数据新视界 #Hive 之道数据库 Hive 集成大数据工具集成模式优化策略数据一致性
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Hive 函数库：丰富函数助力数据处理（上）（11/ 30）青云交大数据新视界 #Hive 之道数据库 Hive 函数库数据处理函数分类自定义函数常用函数大数据 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 函数应用：复杂数据转换的实战案例（下）（12/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 函数数据转换实战案例性能优化数据倾斜 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
ArgoWorkflow教程(五)---Workflow 的多种触发模式：手动、定时任务与事件触发 devopscicd云原生容器
上一篇我们分析了argo-workflow中的archive，包括流水线GC、流水线归档、日志归档等功能。本篇主要分析Workflow中的几种触发方式，包括手动触发、定时触发、Event事件触发等。1.概述ArgoWorkflows的流水线有多种触发方式：手动触发：手动提交一个Workflow，就会触发一次构建，那么我们创建的流水线，理论上是WorkflowTemplate对象。定时触发：Cron
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen