AndrewTeng

Hive简易教程

这里已经默认你的系统成功安装Hive。
下面介绍的例子用到的数据可以在我的网盘下载：
链接：https://pan.baidu.com/s/1GiP1ZWn5oVVTTfNiRSVVZg 密码：4n82

1. 使用Hive

在HDFS上创建Hive所需路径/tmp和/user/hive/warehouse

hadoop fs -mkdir /tmp
hadoop fs -mkdir /user/hive/warehouse

修改上述路径的访问权限，使用户组具有写入权限

hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse

启动Hive

[root@master ~]# hive

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
WARNING: Hive CLI is deprecated and migration to Beeline is recommended.
hive>

退出Hive

hive> quit;

2. 创建表

数据集：
这里用到的是一个公共数据集，它包含60000次UFO目击事件的数据。这些数据集由下面的字段组成：
(1) Sighting date : UFO目击事件发生的时间。
(2) Recorded date ：报告目击事件的日期，通常与目击事件时间不同。
(3) Location ：目击事件发生的地点。
(4) Shape ： UFO形状的简要描述，例如，菱形、发光体、圆筒状。
(5) Duratition ：目击事件的持续时间。
(6) Description ：目击事件的大致描述。

创建表的hql脚本如下，我们保存在createTable.hql文件下：

CREATE TABLE ufodata(sighted STRING, reported STRING, sighting_location STRING,
shape STRING, duration STRING, description STRING COMMENT 'Free text description')
COMMENT 'The UFO data set.';

执行hql脚本

hive -f createTable.hql

列出所有表

hive> show tables;
OK
ufodata
Time taken: 0.577 seconds, Fetched: 1 row(s)

显示与正则表达式 “.*data” 匹配的表

hive> show tables '.*data';
OK
ufodata
Time taken: 0.031 seconds, Fetched: 1 row(s)

验证表中各字段的定义：

hive> desc ufodata;
OK
sighted                 string                                      
reported                string                                      
sighting_location       string                                      
shape                   string                                      
duration                string                                      
description             string                                      
Time taken: 0.157 seconds, Fetched: 6 row(s)

更详细地显示对象的描述(可以使用desc formatted ufodata或desc extended ufodata，formatted参数显示的更为友好)

hive> desc formatted ufodata;
OK
# col_name              data_type               comment             

sighted                 string                                      
reported                string                                      
sighting_location       string                                      
shape                   string                                      
duration                string                                      
description             string                                      

# Detailed Table Information         
Database:               default                  
Owner:                  root                     
CreateTime:             Wed Jul 04 16:18:54 CST 2018     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://master.hxdi.com:8020/home/cloudera/etc/user/hive/warehouse/ufodata    
Table Type:             MANAGED_TABLE            
Table Parameters:        
    COLUMN_STATS_ACCURATE   true                
    numFiles                1                   
    numRows                 0                   
    rawDataSize             0                   
    totalSize               75342464            
    transient_lastDdlTime   1530692335          

# Storage Information        
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe   
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    field.delim             \t                  
    serialization.format    \t                  
Time taken: 0.123 seconds, Fetched: 37 row(s)

针对UFO数据，我们定义该表中所有字段的数据类型为STRING。和SQL一样，HiveQL也支持多种数据类型：
布尔类型： BOOLEAN
整数类型： TINYINT、INT、BIGINT
浮点类型： FLOAT、DOUBLE
文本类型： STRING

注意：
在上面例子中，输入格式被指定为TextInputFormat。默认情况下，Hive假设插入表中的所有HDFS文件都以文本文件(TEXTFILE)的形式存在。同时，我们还观察到，表数据存储在之前创建的HDFS目录/user/hive/warehouse下

关于字符大小写：
就像SQL一样，HiveQL对关键字、列名、表名中的字符不区分大小写。按照惯例，SQL语句中的关键字使用大写字母。

3. 在表中插入数据

将UFO数据文件拷贝到HDFS

hadoop fs -put ufo.tsv /tmp/ufo.tsv

确认文件已经成功复制到HDFS

[root@master runjar]# hadoop fs -ls /tmp
Found 2 items
drwx-wx-wx   - hive   supergroup          0 2018-06-02 12:42 /tmp/hive
-rw-r--r--   2 root   supergroup   75342464 2018-07-06 11:15 /tmp/ufo.tsv

将/tmp目录下的文件数据插入到ufodata表中

hive> LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata;
Loading data to table default.ufodata
chgrp: changing ownership of 'hdfs://master.hxdi.com:8020/home/cloudera/etc/user/hive/warehouse/ufodata/ufo.tsv': User does not belong to hive
Table default.ufodata stats: [numFiles=1, numRows=0, totalSize=75342464, rawDataSize=0]
OK
Time taken: 1.105 seconds

因为我们使用的文件已经放到了HDFS上，所以单独使用INPATH关键字来指定源文件的位置。我们还可以通过LOCAL INPATH指定位于本地文件系统上的源文件，将它直接导入Hive表中。这样就不必明确地将本地文件系统上的源文件拷贝到HDFS。

在把UFO数据导入ufodata表的Hive语句中，我们指定了OVERWRITE关键字，它会在导入新数据前删除表中原有数据。

如果传给LOAD语句的是HDFS上的数据路径，那么LOAD语句不光会将数据复制到/user/hive/warahouse中，同时也会删掉其原始目录。如果想分析HDFS上被其他程序使用的数据，要么备份一个副本，要么使用EXTERNAL方案。

检查HDFS上存放UFO数据副本的目录

[root@master runjar]# hadoop fs -ls /tmp
Found 1 items
drwxrwxr-x - hadoop supergroup 0 … 16:10 /tmp/hivehadoop

插入完数据之后，接下来要验证数据了(这里 -e 表明不需要打开Hive命令行来执行这个查询语句)。

hive -e "select count(*) from ufodata;"

执行结果如下：

可以在hive命令加上”-S”，这就会过滤掉无关信息，只显示查询结果，如：
hive -S -e “select count(*) from ufodata;”

从sighted列选取出5个值

hive -e "select sighted from ufodata limit 5"

从返回结果看出，我们期望得到的是sighted列的5个值，但最后返回了5行，每行都包含了全部列数据。出现这种问题的原因在于，我们依靠Hive把数据文件以文本文件形式导入表中，却没有考虑各列之间的分隔符。我们的数据文件以tab作为分隔符，但在默认情况下，Hive认为其输入文件的分隔符是ASCII码00(Ctrl + A)。

下面，修正表规范，将下列HiveQL语句保存为commands.hql文件：

DROP TABLE ufodata;
CREATE TABLE ufodata(sighted STRING, reported STRING, sighting_location STRING,
shape STRING, duration STRING, description STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata;

将数据拷贝到HDFS：

hadoop fs -put ufo.csv /tmp/ufo.csv

执行HIveQL脚本

hive -f commands.hql

验证表中的数据总行数

hive -e "select count(*) from ufodata"

执行结果如下：

OK
61393
Time taken: 22.454 seconds, Fetched: 1 row(s)

验证reported列的内容：

hive -e "select reported from ufodata limit 5"

执行结果如下：

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
OK
19951009
19951011
19950103
19950510
19950614
Time taken: 1.033 seconds, Fetched: 5 row(s)

新定义的表规约与前一个的主要区别在于，后者用到了ROW FORMAT DELIMITED
和FIELDS TERMINATED BY 命令。第一条命令告诉Hive每行数据包含多个有界字段，而第二条命令制定了真正的分隔符。可以看出，我们可以用明确地ASCII码也可以用常用的\t符号表示tab(不要将\t错写为\T)。

Hive表是一个逻辑概念
从上面的执行可以看出，把数据导入表所用的时间和创建表规约所用的时间基本一样，但是，统计总行数这样的简单任务却用了较长时间。输出结果也表明，表的创建和数据导入并没有真正引起MapReduce作业的执行，这就解释了为什么执行这些任务所用的时间较短。

把数据导入Hive表的过程不同于我们依据传统数据库经验给出的判断。虽然Hive把数据文件拷入工作路劲，但事实上它没有在这个时候将输入数据插入表中各行。与之相反，它以源数据为基础创建一批元数据，后续HiveQL查询将用到这些元数据。

如此说来，CREATE TABLE和LOAD DATA语句都不会创建实际的表数据，只是生成一些元数据。当Hive使用HiveQL转换成的MapReduce作业访问概念上存储在表中的数据时，将会用到这些元数据。

4. 创建外部表

截至目前，我们学习了如何把Hive有效控制的文件数据直接导入到Hive表。然而，我们也可以为Hive外部文件数据创建表。在需要使用Hive处理外部程序写入和管理的数据或数据存储于Hive仓库之外的路径时，这种方法特别有用。用户不必把这些文件移到Hive仓库目录下，用户删除表时也不会影响到这些文件的可用性。

将以下内容存入states.hql脚本文件(注意关键字EXTERNAL)

CREATE EXTERNAL TABLE states(abbreviation STRING, full_name STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/tmp/states';

创建/tmp/states目录，并将states.txt拷贝到HDFS，然后确认该文件确实存在：

[root@master runjar]# hadoop fs -mkdir /tmp/states
[root@master runjar]# hadoop fs -put states.txt /tmp/states/states.txt
[root@master runjar]# hadoop fs -du -h /tmp/states
654  1.3 K  /tmp/states/states.txt

执行HiveQL脚本

[root@master runjar]# hive -f states.hql 

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
OK
Time taken: 0.794 seconds

检查源数据文件(源数据仍然存在)

[root@master runjar]# hadoop fs -ls /tmp/states
Found 1 items
-rw-r--r--   2 root supergroup        654 2018-07-07 15:49 /tmp/states/states.txt

对刚创建的表执行一次示例查询：

[root@master runjar]# su - hdfs
-bash-4.1$ hive -e "select full_name from states where abbreviation like 'CA'"

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
Query ID = hdfs_20180707155656_b1f4fc4d-dea3-45f7-9e44-5464a4eebd13
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1528709271670_137004, Tracking URL = http://master.hxdi.com:8088/proxy/application_1528709271670_137004/
Kill Command = /home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop/bin/hadoop job  -kill job_1528709271670_137004
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2018-07-07 15:56:30,240 Stage-1 map = 0%,  reduce = 0%
2018-07-07 15:56:36,548 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.18 sec
MapReduce Total cumulative CPU time: 2 seconds 180 msec
Ended Job = job_1528709271670_137004
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 2.18 sec   HDFS Read: 3884 HDFS Write: 11 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 180 msec
OK
California
Time taken: 15.109 seconds, Fetched: 1 row(s)

从上面的执行结果可以看出外部表和非外部表的区别：在非外部表的情况下，创建表的语句不会吧数据插入到表中，而是由后续的LOAD DATA或INSERT语句向表中插入数据。在定义表时用LOCATION指定源文件位置，可以在创建表的同时把数据插入到表中。

5. 执行表连接（JOIN）

我们想从一系列的记录中提取sighted和location字段，但不想使用location字段的原始数据，而是想把该字段映射为州名全称。我们创建的HiveQL文件执行的就是这个查询任务。HiveQL使用标准的JOIN关键字指定联结语句，并用ON子句指定匹配条件。

SELECT t1.sighted, t2.full_name
FROM ufodata t1 JOIN states t2
ON (LOWER(t2.abbreviation) = LOWER(SUBSTR(t1.sighting_location, (LENGTH(t1.sighting_location) - 1))))
LIMIT 5;

执行结果如下：

MapReduce Total cumulative CPU time: 2 seconds 220 msec
Ended Job = job_1528709271670_137362
MapReduce Jobs Launched: 
Stage-Stage-3: Map: 1   Cumulative CPU: 2.22 sec   HDFS Read: 72553 HDFS Write: 91 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 220 msec
OK
19951009    Iowa
19951010    Wisconsin
19950101    Washington
19950510    Missouri
19950611    Washington
Time taken: 19.718 seconds, Fetched: 5 row(s)

注意：
Hive还提供了类似RLIKE和REGEXP_EXTRACT的函数，这些函数支持在Hive中使用类似Java中的正则表达式，可以使用正则表达式改写上面的联结语句。

6. Hive和SQL视图

Hive还支持另一个功能强大的SQL特性—–视图。在用户通过SELECT语句指定逻辑表（不是静态表）的内容时，视图特别有用，后续的查询语句就可针对这个包含基础数据的动态视图运行。

我们可以使用视图隐藏相关的查询复杂性，例如上例中的联结操作的复杂性。接下来，我们创建视图实现该功能。

将下列语句保存为view.hql脚本

CREATE VIEW IF NOT EXISTS usa_sightings(sighted, reported, shape, state)
AS SELECT t1.sighted, t1.reported, t1.shape, t2.full_name
FROM ufodata t1 JOIN states t2
ON (LOWER(t2.abbreviation) = LOWER(SUBSTR(t1.sighting_location, (LENGTH(t1.sighting_location) - 1)))) ;

上面的语句与CREATE TABLE有两个关键区别：
(1) 列定义中仅包括列名，不包括数据类型，相关查询会确定各列的数据类型。
(2) 通过AS子句中指定的SELECT语句生成视图。

此外，IF NOT EXISTS子句是可选的(该子句也可以用于CREATE TABLE语句)，意味着，如果该视图已经存在，Hive会忽视CREATE VIEW语句。如果不使用这个子句，重复创建相同的视图会引发错误。

执行view.hql脚本

-bash-4.1$ vi view.hql
-bash-4.1$ hive -f view.hql 

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
OK
Time taken: 1.122 seconds

再次执行view.hql脚本（两次执行该脚本创建视图，验证了使用IF NOT EXISTS子句可以防范某些错误）

-bash-4.1$ hive -f view.hql 

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
OK
Time taken: 1.239 seconds

针对该视图执行一个测试查询

 hive -e "select count(state) from usa_sightings where state = 'California'"

查询结果如下：

Hadoop job information for Stage-2: number of mappers: 1; number of reducers: 1
2018-07-07 17:34:52,196 Stage-2 map = 0%,  reduce = 0%
2018-07-07 17:34:59,694 Stage-2 map = 100%,  reduce = 0%, Cumulative CPU 3.83 sec
2018-07-07 17:35:07,017 Stage-2 map = 100%,  reduce = 100%, Cumulative CPU 6.44 sec
MapReduce Total cumulative CPU time: 6 seconds 440 msec
Ended Job = job_1528709271670_137492
MapReduce Jobs Launched: 
Stage-Stage-2: Map: 1  Reduce: 1   Cumulative CPU: 6.44 sec   HDFS Read: 75355041 HDFS Write: 5 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 440 msec
OK
7599
Time taken: 29.324 seconds, Fetched: 1 row(s)

7. 导出查询结果

刚才，我们把大量数据导入Hive并通过查询语句从中提取少量数据。我们也可以导出大数据集，下面来看个例子。

重新创建刚才用到的视图：

hive -f view.hql

将下列语句保存为export.hql文件

INSERT OVERWRITE DIRECTORY '/tmp/out'
SELECT reported, shape, state
FROM usa_sightings
WHERE state = 'California' ;

这个脚本注意两点：
(1) OVERWRITE修饰语是可选的，它指明是否要删除输出目录下的已有内容。
(2) 可以在DIRECTORY前添加一个修饰语“local”，这样数据数据就写入本地文件系统而不是HDFS

执行export.hql脚本

hive -f export.hql

查看指定的输出

-bash-4.1$ hadoop fs -ls /tmp/out
Found 1 items
-rwxrwxrwt   2 hdfs supergroup     210901 2018-07-08 10:56 /tmp/out/000000_0

8. 表分区

我们之前提到，在一段很长的时间内，人们对糟糕的联结语句评价很差，因为它会导致关系数据库耗费大量时间去完成不必要的工作。此外，也会听到关于查询的类似非议，因为查询操作需要执行全表扫描，也就是说，需要逐一访问表中每行的数据，而无法使用索引直接访问感兴趣的行。

对于存储在HDFS并映射到Hive表中的数据，一般情况下基本上都依赖于全表扫描。由于无法将数据分割为更有规律的、可直接访问用户感兴趣的数据子集的结构，Hive只能处理整个数据集。对大约为70MB的UFO文件来讲，问题并不大，因为Hive只用十几秒就能完成整个文件的处理任务。但是，如果要处理的文件规模是UFO文件大小的1000倍，情况就会变得很糟糕。

就像传统关系型数据库一样，Hive可以基于虚拟列的值对表进行分区操作，这些虚拟列还会用于后续的查询语句。

特别是，当新建一个表时，用户可指定一列或多列作为分区列，然后在把数据导入表时，这些列的值还会用于后续的查询语句。

对每天都要接收大量数据的表而言，最常用的分区策略就是使用日期列作为分区列。之后我们就可以限制查询语句只处理某个特定分区内的数据。Hive在后台把每个分区的数据存储于自身路径和文件中，这样，它就可以使用MapReduce作业只处理用户感兴趣的数据。通过使用多个分区列，用户可以创建一个多层结构，对于需要频繁查询一小部分数据的大表而言，很有必要花一些时间选择一个最佳的分区策略。

对于UFO数据集而言，我们使用目击事件发生的年份作为分区值，接下来，我们将为UFO数据新建一个表，以说明表分区的实用性：

把下列查询语句保存到 createpartition.hql 脚本文件中：

CREATE TABLE partufo(sighted STRING, reported STRING, sighting_location STRING, 
shape STRING, duration STRING, description STRING)
PARTITIONED BY (year STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'

把下列查询语句保存到 insertpartition.hql 脚本文件：

SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

INSERT OVERWRITE TABLE partufo partition (year)
SELECT sighted, reported, sighting_location, shape, 
duration, description, SUBSTR(TRIM(sighted), 1, 4) FROM ufodata;

这个脚本用到了Hive的一个新功能—–动态分区。动态分区支持基于查询参数自动推断出需要创建的分区。partufo表中的分区字段为year，Hive会自动根据SUBSTR(TRIM(sighted), 1, 4) 不同值来创建分区，并且Hive会根据select语句最后一个字段作为动态分区的依据。

Hive默认没有开启自动分区，第一句设置true表示开启自动分区功能。Hive默认不允许所有的分区都是动态的，第二句设置nonstrict表示所有的分区都是动态的。

执行这两个脚本：

hive -f createpartition.hql
hive -f insertpartition.hql

在执行完第一个脚本之后，通过检查表结构，多了一列(year)，这样当在where子句中指定条件时，系统会同样对year列进行处理，即使该列并不存于硬盘数据文件中。

对某个分区数据执行count命令：

-bash-4.1$ hive -e "select count(*) from partufo where year = '1989'"

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
Query ID = hdfs_20180708124545_5c4d197a-b3e6-4134-8803-ce6654dd30a0
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Starting Job = job_1528709271670_142301, Tracking URL = http://master.hxdi.com:8088/proxy/application_1528709271670_142301/
Kill Command = /home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop/bin/hadoop job  -kill job_1528709271670_142301
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2018-07-08 12:45:44,518 Stage-1 map = 0%,  reduce = 0%
2018-07-08 12:45:50,815 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.59 sec
2018-07-08 12:45:57,103 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.7 sec
MapReduce Total cumulative CPU time: 3 seconds 700 msec
Ended Job = job_1528709271670_142301
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 3.7 sec   HDFS Read: 428657 HDFS Write: 4 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 700 msec
OK
249
Time taken: 21.104 seconds, Fetched: 1 row(s)

在未分区表上执行类似查询：

-bash-4.1$ hive -e "select count(*) from ufodata where sighted like '1989%'"

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
Query ID = hdfs_20180708124646_46bd223c-80cd-498d-b36e-71128d0798e1
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Starting Job = job_1528709271670_142302, Tracking URL = http://master.hxdi.com:8088/proxy/application_1528709271670_142302/
Kill Command = /home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/lib/hadoop/bin/hadoop job  -kill job_1528709271670_142302
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2018-07-08 12:47:02,598 Stage-1 map = 0%,  reduce = 0%
2018-07-08 12:47:09,949 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.88 sec
2018-07-08 12:47:16,235 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 4.92 sec
MapReduce Total cumulative CPU time: 4 seconds 920 msec
Ended Job = job_1528709271670_142302
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 4.92 sec   HDFS Read: 75350088 HDFS Write: 4 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 920 msec
OK
249
Time taken: 21.972 seconds, Fetched: 1 row(s)

可以看出，两次查询结果完全一致，这就证实了我们的分区策略按照预期工作。我们还注意到，对分区表的查询要稍快于对非分区表的查询，尽管两者速度差别并不明显。这可能原因在于处理这种小规模数据集的时候，MapRedece的启动时间在整个作业的运行时间中占据较大的比率。

列出保存分区表的Hive目录下的所有文件（我这里用的是CDH，如果用的是原生版Hive，下面语句改为hadoop fs -ls /user/hive/warehouse/partufo）：

-bash-4.1$ hadoop fs -ls /home/cloudera/etc/user/hive/warehouse/partufo
Found 100 items
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=0000
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1400
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1762
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1790
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1860
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1864
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1865
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1871
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1880
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1896
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1897
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1899
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1901
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1905
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1906
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1910
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1914
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1916
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1920
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1922
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1925
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1929
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1930
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1931
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1933
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1934
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1935
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1936
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1937
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1939
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1941
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1942
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1943
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1944
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1945
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1946
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1947
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1948
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1949
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1950
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1951
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1952
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1953
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1954
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1955
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1956
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1957
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1958
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1959
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1960
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1961
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1962
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1963
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1964
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1965
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1966
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1967
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1968
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1969
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1970
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1971
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1972
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1973
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1974
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1975
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1976
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1977
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1978
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1979
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1980
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1981
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1982
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1983
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1984
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1985
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1986
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1987
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1988
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1989
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1990
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1991
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1992
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1993
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1994
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1995
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1996
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1997
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1998
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=1999
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2000
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2001
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2002
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2003
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2004
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2005
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2006
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2007
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2008
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2009
drwxrwxrwt   - hdfs hive          0 2018-07-08 12:42 /home/cloudera/etc/user/hive/warehouse/partufo/year=2010

我们查看了Hive为分区表存储数据的目录，发现该目录下共有100个动态生成的分区表。今后使用HiveQL语句引用某个特定分区，Hive会执行一次优化—–即它只会处理在相应分区路径下的数据。

9. 用户自定义函数（UDF）

Hive允许用户在HiveQL执行过程的中直接挂接自定义代码。这个功能可以通过新增库函数实现，也可以通过指定类似于Hadoop Streaming的Hive transform实现。接下来，通过使用UDF创建并调用自定义Java代码。

将下面代码保存为City.java

package hivedemo;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class City extends UDF {
    private static Pattern pattern = Pattern.compile(
            "[a-zA-z]+?[\\. ]*[a-zA-z]+?[\\, ][^a-zA-Z]");

    public Text evaluate(final Text str) {
        Text result;
        String location = str.toString().trim();
        Matcher matcher = pattern.matcher(location);

        if (matcher.find()) {
            result = new Text(location.substring(matcher.start(), matcher.end()-2));
        }
        else {
            result = new Text("Unknown");
        }
        return result;
    }
}

编译City.java
这里我们用IntelliJ来编译，当编辑完代码，选择IDE左上角的Build -> Recompile ‘City.java’就可完成编译。

选择左上角的File–>Project Structure–>Modules–>Paths–>Use module compile output path就能查到刚才编译的City.java的class文件的输出路径，我这里是E:\LocalData\startUp\target\scala-2.10\classes

去到该路径下，你会发现有一个hivedemo的文件夹，里面就有City.class这个文件，然后将这个文件夹以及文件夹的内容打包到JAR文件中：

jar cvf city.jar hivedemo

其中参数 -c 表示创建新的存档， -v 生成详细输出到标准输出上， -f 指定存档文件名。后面的hivedemo是City.java这个程序所在的包。

接着我们将city.jar这个文件上传到linux某个目录，并在该目录下启动Hive CLI，这样就可以将city.jar添加到Hive classpath中。

[root@master ~]# su - hdfs
-bash-4.1$ hive

Logging initialized using configuration in jar:file:/home/cloudera/parcels/CDH-5.8.2-1.cdh5.8.2.p0.3/jars/hive-common-1.1.0-cdh5.8.2.jar!/hive-log4j.properties
WARNING: Hive CLI is deprecated and migration to Beeline is recommended.
hive> 
    > 
    > add jar city.jar;
Added [city.jar] to class path
Added resources: [city.jar]
hive> 
    > 
    > list jars;
city.jar

为新加入的代码重新注册一个函数名：

hive> create temporary function city as 'hivedemo.City';
OK
Time taken: 0.322 seconds

使用新函数执行一次查询：

hive> select city(sighting_location), count(*) as total from partufo
    > where year = '1999'
    > group by city(sighting_location) having total > 15;

输出结果如下：

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2018-07-15 12:54:07,968 Stage-1 map = 0%,  reduce = 0%
2018-07-15 12:54:14,291 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.49 sec
2018-07-15 12:54:20,598 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 5.32 sec
MapReduce Total cumulative CPU time: 5 seconds 320 msec
Ended Job = job_1528709271670_180554
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 5.32 sec   HDFS Read: 3659501 HDFS Write: 82 SUCCESS
Total MapReduce CPU Time Spent: 5 seconds 320 msec
OK
Chicago 19
Las Vegas   19
Phoenix 19
Portland    17
San Diego   18
Seattle 26
Unknown 34
Time taken: 21.802 seconds, Fetched: 7 row(s)

你可能感兴趣的:(Hive,Hive)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
博客园怎么了？ YYH1992
新年好，给大家拜个早年！今年来到安徽过年，无聊中，不知不觉中又来到博客园了（忠实粉丝哦），却发现一件奇怪的事情，请看截图难道博客园被挂马了？抑或其它问题？如果真有问题，还请dudu抓紧时间修正，免得影响我们园子的声誉！我要下线了，出去买回家的车票了，只能年后回家了。。。转载于:https://www.cnblogs.com/HollisYao/archive/2008/02/06/1065351.
linux下文件的复制、移动与删除搬砖中年人
一、文件复制命令cp命令格式：cp[-adfilprsu]源文件(source)目标文件(destination)cp[option]source1source2source3...directory参数说明：-a:是指archive的意思，也说是指复制所有的目录-d:若源文件为连接文件(linkfile)，则复制连接文件属性而非文件本身-f:强制(force)，若有重复或其它疑问时，不会询问用户
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
SAP HANA makaitai BW sap 数据库工具报表 layer 服务器
原文地址：http://LiuAlex.com/archives/1776也是刚刚开始学习HANA的一些知识，一边看书一遍做笔记，说到底无非是用自己的语言来理解标准帮组文档所讲解的意思，肯定有理解失误的地方，毕竟没有参加过标准培训，即使有培训，从老师那边来的知识也不可能是完整的传授过来，中间多少的知识遗漏是正常的，所以多看看HELP的文档，应该可以原汁原味的理解作者的意思。这张图片是从SAPHAN
Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
C#中两个问号的含义 weixin_30363981 测试
stringstrParam=Request.Params["param"]??"";取??左边的值,如果??左边的值为null则取右边的值转载于:https://www.cnblogs.com/shadowtale/archive/2012/10/19/2731152.html
如何下载各个版本的tomcat-比如tomcat9 耳边轻语999 tomcat java
1，找到tomcat官网https://tomcat.apache.org/ApacheTomcat®-Welcome!找到tomcat9，或者archives1.1，找到对应版本1.2，找到小版本1.3，找到bin2，Indexof/dist/tomcat/tomcat-9/v9.0.39/bin2.1，下载对应的解压版本或者安装版本
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
Ubuntu更换apt-get的下载源愤愤的有痣青年
将以下内容替换/etc/apt/sources.list中的内容deb-srchttp://archive.ubuntu.com/ubuntuxenialmainrestricted#Addedbysoftware-propertiesdebhttp://mirrors.aliyun.com/ubuntu/xenialmainrestricteddeb-srchttp://mirrors.aliy
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
游戏运营环节的一些关键转化率 turtle081025 数据分析游戏网络游戏运营
转载于http://www.gamedatas.com/archives/134转化率这个指标在各行各业的数据分析中运用的非常之广泛，例如：电商中就会存在，点击到订单生成的一系列转化率，传统的销售行业也会在做广告的时候考虑该广告能够转化多少订单，而在游戏行业，转化率同样是一个不容忽视的指标。一般来说，游戏运营的过程中主要会关注到这些转化率：1.下载-安装（激活）转化率；2.安装（激活）-注册转化率
Python API操作RocketMQ 京城小筑 #Python编程 python
背景：开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中，由于需要保证开发的一致性(多个部门协同开发)，所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中，便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分