wbj0110

Cloudera CDH 、Impala本地通过Parcel安装配置详解

original:http://www.cnblogs.com/shudonghe/archive/2013/06/19.html

一、Parcel本地源与Package本地源的区别

本地通过Parcel安装过程与本地通过Package安装过程完全一致，不同的是两者的本地源的配置。

区别如下：

Package本地源：软件包是.rpm格式的，数量通常较多，下载的时候比较麻烦。通过”createrepo .”的命令创建源，并要放到存放源文件主机的web服务器的根目录下，详见创建本地yum软件源，为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备

Parcel本地源：软件包是以.parcel结尾，相当于压缩包格式的，一个系统版本对应一个，下载的时候方便。如centos 6.x使用的CDH版本为CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel，而centos 5.x使用的CDH版本为CDH-4.3.0-1.cdh4.3.0.p0.22-el5.parcel。

CDH的下载地址：http://archive.cloudera.com/cdh4/parcels/

IMPALA的下载地址：http://archive.cloudera.com/impala/parcels/

下载好相应的.parcel文件后，拷贝到本地的parcel源目录下（有Cloudera Manager Server指定，默认是/opt/cloudera/parcel-repo），然后打开同目录下的mainfest.json（也要拷贝到其中）文件，找到与你下载的包一致的那部分，然后根据其创建一个sha文件。例如我的操作系统是CentOS 6.4，下载的对应包为CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel，那么就应该找到相应的：

{
      "parcelName": "CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel",
      "components": [
        { "name":     "flume-ng",
          "version":  "1.3.0-cdh4.3.0",
          "pkg_version":  "1.3.0+159" 
        }
        ,{ "name":     "hadoop-0.20-mapreduce",
          "version":  "2.0.0-cdh4.3.0",
          "pkg_version":  "2.0.0+1357" 
        },         

           . . . .  <snip> . . . 

        ,{ "name":     "zookeeper",
          "version":  "3.4.5-cdh4.3.0",
          "pkg_version":  "3.4.5+19" 
        }
        ,{ "name":     "hue",
          "version":  "2.3.0-cdh4.3.0",
          "pkg_version":  "2.3.0+136" 
        }
      ],
      "hash": "df5cc61b2d257aaf625341f709a4f8e09754038a"
    },

然后创建一个后缀名为.sha的文本文件，名字与下载的parcel同名，我下载的为CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel，所以sha文件CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel.sha。然后执行如下命令将hash码写到sha文件中。

# cat > CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel.sha
df5cc61b2d257aaf625341f709a4f8e09754038a

然后将sha文件也拷贝到本地parcel源的目录下。
总之，要确保/opt/cloudera/parcel-repo下面有三个文件：

CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel

mainfest.json

CDH-4.3.0-1.cdh4.3.0.p0.22-el6.parcel.sha

这些文件放好之后，CM会获取这个包，并出现在主机->包裹的页面。出现的快慢跟你设置的包的刷新频率有关，默认是1小时。

可以在管理页面的属性标签下的包裹种类里修改。

posted @ 2013-06-19 21:23 九天高远阅读(132) 评论(0) 编辑

Hive学习笔记

一、前言

Hive是Hadoop上的数据仓库框架，其设计目的是让精通SQL技能（但Java编程技能相对较弱）的分析师能够在存放到HDFS大规模数据集上运行查询。提出Hive的主要原因是SQL并不是所有的“大数据”的理想工具。

Hive在工作站上运行，它把SQL转换为一系列在Hadoop集群上运行的MapReduce作业，即用MapReduce操作HDFS数据。Hive把数据组织为表，通过这种方式为存储在HDFS上的数据赋予结构。元数据——如表模式——存储在名为metastore的数据库中。

Hive的metastore默认存储在本地机器上，这样就无法和其他用户共享这些定义。后面将会详细讲述如何在生产环境中设置远程共享metastore。

二、HiveQL

用户通过在Hive的解释器交互，发出HiveQL命令，HiveQL是Hive的查询语言，它是SQL的一种方言，和mysql有很大的相似之处。

1、基本命令：

a、显示metastore数据库中的表：

hive> show tables;
OK
Time taken: 1.528 seconds
hive> show tables;
OK
Time taken: 0.126 seconds
hive>

系统采用”懒“策略，第一次比较慢，当创建metastore数据库后加载的就比较快了。该数据库存放在你运行hive命令所在位置下名为metastore_db的目录中。

我的Hive metastore_db的目录位置如下：

[root@master admin]# find / -name metastore_db
/usr/lib64/R/metastore_db

b.运行Hive脚本

对于较长的脚本，通常保存在.q文件中，在shell环境下用如下命令执行：

% hive -f script.q

如果对于较短的脚本，可以使用-e命令在行内嵌入执行，这两种情况下都不需要加上表示结束的分号。

% hive -e "select * from dummy"

下面是一个生成单行表的方法：

[root@master admin]# echo 'X' > /tmp/dummy.txt
[root@master admin]# cat /tmp/dummy.txt 
X
[root@master admin]# hive -e "create table dummy(value STRING);\
> load data local inpath '/tmp/dummy.txt' \
> overwrite into table dummy"
Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-4.3.0-1.cdh4.3.0.p0.22/lib/hive/lib/hive-common-0.10.0-cdh4.3.0.jar!/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_450335d5-274c-4082-81a7-0b4bbe8d1c0c_944836217.txt
OK
Time taken: 2.321 seconds
Copying data from file:/tmp/dummy.txt
Copying file: file:/tmp/dummy.txt
Loading data to table default.dummy
rmr: DEPRECATED: Please use 'rm -r' instead.
Moved: 'hdfs://master:8020/user/hive/warehouse/dummy' to trash at: hdfs://master:8020/user/root/.Trash/Current
Table default.dummy stats: [num_partitions: 0, num_files: 1, num_rows: 0, total_size: 2, raw_data_size: 0]
OK
Time taken: 1.369 seconds
[root@master admin]#

无论是在shell命令还是在交互式环境下，Hive都会把操作运行的时间打印到标准错误输出，可以在启动程序的时候使用- S选项强制不限时这条消息，其结果只是查询输出结果。
带-S的和不带的对比结果如下：

[root@master admin]# hive -S -e 'select * from dummy'
X
[root@master admin]# hive  -e 'select * from dummy'
Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-4.3.0-1.cdh4.3.0.p0.22/lib/hive/lib/hive-common-0.10.0-cdh4.3.0.jar!/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_44207314-384b-4f29-a590-834c723b96ad_444463715.txt
OK
X
Time taken: 2.173 seconds
[root@master admin]#

备注：

其他有用的Hive交互式程序的特性有：使用a!前缀来运行宿主操作系统的命令；使用dfs来访问hadoop文件系统。
c、示例

和RDMS一样，Hive把数据组织成表，下面我们用create table语句为气象数据创建一个表格（各行换行符分隔，用’\t’分隔字段）：

create table records (year string, temperature int, quality int)
row format delimited
fields terminated by '\t';

创建表格完成后，我们可以向Hive中输入数据，overwrite关键字告诉Hive删除表所对应的目录下的所有文件，如果省略overwrite，Hive就简单的把新文件加入目录，如果有同名文件就替换掉，其他的不作处理。

load data local inpath 'input/ncdc/micro-tab/sample.txt'
overwrite into table records;

这样命令告诉Hive把指定的本地文件放到它的存储目录中，这仅仅是一个简单的文件系统操作，不解析文件，也不会将其转换为内部格式，这是因为hive并不强制星星某种特定的文件格式。文件以原样子逐字存储，Hive对文件没有做任何修改。
Hive的表存储在HDFS中，由（fs.default.name 设为默认值file:///），在Hive的仓库目录中，表存储为目录。仓库录由hive.metastore.warehouse.dir设定，默认值为/user/hive/warehouse，在HDFS的根目录下。

Hive的查询语句：

hive> select year, max(temperature)
    > from records
    > where temperature!=9999
    > and (quality=0 or quality=1 or quality=4 or quality=5 or quality=9)
    > group by year;

d、多个Hive 共享hadoop集群

如果准备让多个Hive用户共享一个Hadoop集群，则需要更改Hive所使用目录的权限，对所有用户可写。用以下命令创建，并设置合适的权限：

% hadoop -mkdir /tmp
% hadoop -chmod a+w /tmp
% hadoop -mkdir /user/hive/warehouse
% hadoop -chmod a+w /user/hive/warehouse

如果所有用户在同一个用户组中，把仓库目录权限设置为g+w即可。
e、在一个会话中使用SET命令更改设置

hive> set hive.enforce.bucketing=true;

可以只使用带属性名的SET命令查看属性的当前值：

hive> set hive.enforce.bucketing;

设置属性的优先级，数值越小，优先级越高。
1、Hive SET命令

2、命令行-hiveconf选项

3、hive-site.xml

4、hive-default.xml

5、hadoop-site.xml（或等价的core-site.xml、hdfs-site.xml、mapred-site.xml）

6、hadoop-default.xml（或等价的core-default.xml、hdfs-default.xml、mapred-default.xml）

可以对日志的配置进行设置，下面的语句可以方便的将调试信息发送到控制台:

% hive -hiveconf hive.root.logger=DEBUG, console

e、metastore

metastore是Hive的元数据的集中存放地，metastore包括两部分：后台和数据库的存储。默认情况下，metastore服务和hive服务运行在同一个JVM中，它包含一个内嵌的以本地磁盘作为存储的Derby数据库实例，使用内嵌数据库是Hive入门最简单的方法，在局限是一次只能访问一个磁盘上的数据文件，这就意味着一次只能为每一个metastore打开一个hive会话，如果启动两个会话时就会报如下错误：

Failed to start database 'metastore_db'

若果要支持多会话，就要配置使用一个独立的数据库，这种配置称为”本地metastore”。

f、HiveQL和SQL的比较

SQL的延迟级别为秒级，而HiveQL延迟为分钟级别。HiveSQL支持create table as select语法，而SQL不支持。SQL支持存储过程，而HiveSQL支持用户定义函数，MapReduce脚本。

Hive的string类似其他数据库中的VARCHAR，但不能声明存储长度，最长可以存储2GB字符数（理论上）。当然这样做效率较低，可以使用Sqoop对大对象的处理。

可以使用CAST进行数据类型转换，例如CAST(’1′ AS INT)，可以把字符串’1′转换为整数1。如果转换失败，那么表达式会返回空（CAST (‘X’ AS INT)）。

g、复杂类型

Hive有三种复杂数据类型：array、map、struct，复杂数据类型必须用尖括号”<>”指明其中数据字段的类型。

如下表所示的表定义有三列，每一种对应一种复杂的数据类型：

create table complex(
    col1 arrary<int>,
    col2 map<string, int>,
    col3 struct<a:string, b:int, c:double>
);

下面是展示每种数据类型的访问操作：

hive>select col1[0], col2['b'], col3.c from complex;

h、操作与函数

可以通过hive shell下面键入show functions获取函数列表，用describe function length获取函数帮助。

提供普通的SQL操作：关系操作（x=’a’，空值判断x is null，模式匹配 x like ‘A%’），算数操作（x+1），以及逻辑或（or），如x or y。MySql和Hive中字符串连接使用concat函数。

i、表

Hive表格逻辑上由存储的数据和描述表格中数据形式的相关数据组成。数据一般存放在HDFS中，当然也可以放在本地文件系统中，而把元数据放在关系数据库中。

数据库支持命令空间，0.90的hive也支持命名空间，提供了create database dbname， use dbname以及drop database dbname这样的语句。

托管表和外部表

这两种表的区别表现在load和drop命令的语义上。

加载托管表时，Hive把数据移动到仓库目录，例如;

create table managed_table(dummy string);
load data inpath '/user/tom/data.txt' into table managed_table;

把文件从hdf://user/tom/data.txt 移动到hive的数据仓库目录managed_table表的目录，即hdfs://user/hive/warehouse/managed_table。

如果随后要删除一个表格，可以用

drop table managed_table;

它的表（包括数据和元数据）会一起被删除，这就是hive所谓的”数据托管的含义“。
而对于外部表而言，这两个操作结果就不一样了，用户来控制数据的创建和删除。外部数据的位置要在创建表格的时候说明：

create external table external_table(dummy string)
location '/user/tom/external_table';
load data inpath '/user/tom/data.txt' into table external_table;

使用external关键字之后，hive知道数据并不由自己管理，因此不会把数据移动到自己的仓库目录。丢弃外部表时，Hive不会碰数据，仅删除元数据。

经验法则：所有的数据都在hive中完成，使用托管表，如果使用Hive和其他工具共同处理一个数据集，应该使用外部表。普遍的做法是把存放在hdfs（由其他进程创建）的初始数据集用作外部表，然后使用hive的变换功能把数据移动到托管的hive表，可以使用hive导出数据供其他应用程序使用。

j、分区和桶

hive把表组织成分区（partition），根据分区列（partition column，如日期）对表进行粗略划分的机制。使用分区可以加快数据分片（slice）的查询速度。分区可以进一步划分为桶（bucket）。它会为数据提供额外的结构以获得更搞笑的查询处理。例如，通过根据用户ID来划分桶，我们可以在所有用户集合的随机样本上快速计算基于用户的查询。

使用分区并不会影响大范围查询的执行，我们依然可以查询跨多个分区的整个数据集合。

对于假想的日志文件，在根据日期对日志进行分区外，还可以能根据国家对每个分区进行子分区（subpartition），以加速根据地理位置进行查询。分区在创建表格的时候用partitioned by子句定义，该子句需要定义列的列表。我们可能要把表记录定义为由时间戳和日志行构成：

create table logs(ts bigint, line string)
partitioned by (dt string, country string);

在我们把数据加载到分区表的时候要显示指定分区值：

load data local inpath 'input/hive/partitions/file1'
into table logs
partition (dt='2010-01-01', country='GB');

在文件系统级别，分区只是表示目录下嵌套的子目录。把更多文件加载到日志表以后，目录结构可能像下面这样：

/user/hive/warehouse/logs/dt=2010-01-01/country=GB/file1
                                                                                  /file2
                                                               /country=US/file3
/user/hive/warehouse/logs/dt=2010-01-02/country=GB/file4
                                                              /country=US/file5
                                                                                 /file6

可以使用show partitions 表名命令查询表中有哪些分区：

hive> show partitions logs;
dt=2010-01-01/country=GB
dt=2010-01-01/country=US
dt=2010-01-02/country=GB
dt=2010-01-02/country=US

注意：partitioned by 子句中的列定义是表中正式的列，称为“分区列”（partition column）。但是数据文件并不包含这些列的值，因为它们源于目录名。
实际使用的过程中可以以普通方式使用分区列。Hive会对输入进行修剪，从而只扫描相关分区。例如:

select ts, dt, line
from logs
where country='GB';

将只扫描file1、file2、file4。还要注意，这个查询也返回dt分区列的值。这个值是hive从目录名中读取的，因为他们在数据文件中并不存在。
桶：

把表（或分区）组织成桶（bucket）有两个理由。第一理由是获得更高效的查询处理效率，第二个理由是取样更高效。

使用clustered by子句来指定划分桶所在的列和要划分为桶的个数：

create table bucketed_users (id int, name string)
clustered by (id) into 4 buckets;

可以使用HiveQL对两个划分了桶的表进行连接。

桶中的数据可以根据一个或者多个列另外进行排序，所以这样对每个桶的连接就编程了高效的合并排序，因此可以进一步提升map端连接的效率。以下语法说明一个连接使其使用排序桶。

create table bucketed_users(id int, name string)
clustered by (id) sorted by (id asc) into 4 buckets;

有两种方式将表中的数据划分成桶：一是将Hive外的数据加载到划分成桶的表中，二是针对已有的表可以用Hive来划分桶。
建议用hive来划分桶，以为hive不检查数据文件中的桶是否和表定义中的桶一致。

有个没有划分桶的表格：

hive> select * from user;
OK
0    Nat
2    Joe
3    Kay
4    Ann
Time taken: 2.178 seconds

要将桶内填充成员，需要将hive.enforce.bucketing的属性设置为true。
这样hive就知道使用表定义中生命的变量来创建桶。然后使用insert命令创建即可：

hive> insert overwrite table bucketed_users 
    > select * from user;

物理上每个桶就是表（或分区）里的一个文件。但是桶n是按照字典排列的第n个文件。事实上，桶对应于MapReduce的输出文件分区，一个作业产生的桶（输出文件）和reduce任务个数相等。从下面执行的MapReduce程序中可以看出：

Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 4
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
Starting Job = job_201306210458_0022, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201306210458_0022
Kill Command = /opt/cloudera/parcels/CDH-4.3.0-1.cdh4.3.0.p0.22/lib/hadoop/bin/hadoop job  -kill job_201306210458_0022
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 4

查看bucketed_users表的布局可以得到

hive> dfs -ls /user/hive/warehouse/bucketed_users; 
Found 4 items
-rw-r--r--   2 admin supergroup         12 2013-06-22 22:14 /user/hive/warehouse/bucketed_users/000000_0
-rw-r--r--   2 admin supergroup          0 2013-06-22 22:14 /user/hive/warehouse/bucketed_users/000001_0
-rw-r--r--   2 admin supergroup          6 2013-06-22 22:14 /user/hive/warehouse/bucketed_users/000002_0
-rw-r--r--   2 admin supergroup          6 2013-06-22 22:14 /user/hive/warehouse/bucketed_users/000003_0

4个新建的文件
具体桶内的数据如下所示：

hive> dfs -cat /user/hive/warehouse/bucketed_users/*0_0;
0Nat
4Ann
hive> dfs -cat /user/hive/warehouse/bucketed_users/*1_0;
hive> dfs -cat /user/hive/warehouse/bucketed_users/*2_0;
2Joe
hive> dfs -cat /user/hive/warehouse/bucketed_users/*3_0;
3Kay

使用tablesample子句对表进行取样，我们可以获得相同的结果。这个子句会把查询限定在表的一部分桶内，而不是整个表：

hive> select * from bucketed_users                      
    > tablesample(bucket 1 out of 4 on id);
...........
OK
0    Nat
4    Ann
Time taken: 7.289 seconds

1/4 第一个桶，下面的查询会会返回1/2桶：

hive> select * from bucketed_users         
    > tablesample(bucket 1 out of 2 on ;
.............
OK
0    Nat
4    Ann
2    Joe
Time taken: 10.367 seconds

当然，可以用其他比例对若干个桶进行取样，因为取样并不是一个精确的操作，因此这个比例一定是桶的整数倍。
用此取样分桶表是非常高效的操作，如果使用rand()函数对没有划分成桶的表进行取样，及时只需要读取很小的一部分样本，也要输入整个数据集。所以rand的特点是扫描次数多，效率低，用下面查询结果耗时和上面对比可以得出。

hive> select * from bucketed_users         
    > tablesample(bucket 1 out of 4 on rand());
......................
OK
Time taken: 10.379 seconds

k、存储格式
最简单的是文本格式，同时支持面向行的和面向列的二进制格式。

分隔符的问题，create table ……语句等价于下面的语句：

create table
row format delimited
fields terminated by '\001'
collection iterms terminated by '\002'
map keys terminated by '\003'
lines terminated by '\n' stored as textfile;

注意，可以使用八进制表示分隔符，例如001表示Control-A。
支持顺序文件Sequence File和RCFile，按列记录文件。

在Hvie中可以使用下面的句子还启用面向列的存储：

create table ...........
row format serde 'org.apache.hadoop.hive.seder2.columnar.ColumnarSerDe' 
store as RCFile;

示例：利用正则表达式从一个文本文件中读取定长的观测站数据

create table station (usaf string, wban, name string)
row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
with serdeproperties ( "input.regex"="(\\d{6}) (\\d{5}) (.{29}) .*");

SerDe要设置相应的属性值，在这里要设置RegexSerDe特有的input.regex属性。
用load data向表中输入数据：

load data local inpath “input/ncdc/metadata/stations-fixed-with.txt” into table station;

加载操作并不适用表的SerDe。

从表中检索数据时，用简单的查询所示，反序列化会调用SerDe解析这个字段：

hive> select * from stations limit 4;
10000 99999 BOGUS NORWAY
010003 99999 BOGUS NORWAY
010010 99999 JAN      MAYEN
010013 99999 ROST

l、导入数据

如果想把数据从关系数据库直接导入hive，请参考Sqoop。
insert overwrite table

insert overwrite table target
select col1, col2
from source;

对于分区的表，可以使用partition子句来指明

insert overwrite table target
partition (dt='2010-01-01')
select col1, col2
from source;

使用overwrite会替换掉目标，而如果要向已经填充了内容的表添加记录，可以使用不带overwrite 关键字的load data操作。
从hive 0.6.0开始，可以在select 语句中通过使用分区值来动态指明分区：

insert overwrite table target
partition dt
select col1, col2, dt
from source;

这种方法称为动态分区插入法，这一特性默认是关闭的，可以通过命令set 命令查看开启，将hive.exec.dynamic.partition=true。
当前hive不支持使用insert into values (…….)的形式。

多表插入：

在hive中，可以把insert语句倒过来，把from语句放在最前面，查询的效果是一样的：

from source 
insert overwrite table target
select col1, col2;

在一个表查询中，可以使用多个insert的语句，只要扫描一遍表，就可以生成多个不相交的输出。

FROM records2
INSERT OVERWRITE TABLE stations_by_year
  SELECT year, COUNT(DISTINCT station)
  GROUP BY year 
INSERT OVERWRITE TABLE records_by_year
  SELECT year, COUNT(1)
  GROUP BY year
INSERT OVERWRITE TABLE good_records_by_year
  SELECT year, COUNT(1)
  WHERE temperature != 9999
    AND (quality = 0 OR quality = 1 OR quality = 4 OR quality = 5 OR quality = 9)
  GROUP BY year;

这里有一个源表，三个目标表。
create table ……as select…….

create table target
as
select col1, col2
from source;

m、表的修改
重命名表

alter table source rename to target;

添加新的列

alter table target add columns (col3 string);

n、表的丢弃
drop table删除表的元数据和数据

也可以仅仅删除数据文件，保留表结构，默认为空表

hive > dfs -rmr /user/hive/warehouse/my_table;

这时候，可以使用like关键字创建一个与第一个表模式相同的新表：

create table new_table like existing_table;

o、查询数据

排序和聚集

可以用order by子句对数据进行全局排序，但是它只是用一个reducer完成的。在多数情况下不需要全局排序的情况下，可以使用sort by局部排序，为每一个reduce产生一个排序文件。有些时候需要控制某个特定行应该到哪个reducer，通常是为了后续的聚集操作，这就是hive的 distribute by所做的事情，下面的例子根据年份和气温对气象数据进行排序，以确保所有年份所在的行，最终都在一个reduce分区中。

hive> from records2
      >select year, temperature
      > distribute by year
      > sort by year asc, temperature desc;
1949　　111
1949　　78
1950　　22
1950　　0
1950　　11

如果sort by 和distribute by中所用到的列相同，可以缩写为cluster by一遍同时制定两者相同的列。
使用Hadoop Streaming 、transform 、map、reduce子句这样的方法，便可以在hive中调用外部脚本。

p、连接

同mapreduce相比，hive的好处是简化了常用操作。

内连接：

hive> SELECT * FROM sales;
Joe    2
Hank   4
Ali    0
Eve    3
Hank   2
hive> SELECT * FROM things;
2    Tie
4    Coat
3    Hat
1    Scarf

sales:人名及所购商品的id，sales:上平id及名称

hive> SELECT sales.*, things.*
    > FROM sales JOIN things ON (sales.id = things.id);
Joe     2    2    Tie
Hank    2    2    Tie
Eve     3    3    Hat
Hank    4    4    Coat

hive只支持等值连接，条件是两个表的id必须相等。
与数据库不同，hive不支持where子句，且只允许在from子句中出现一个表。

用explain 关键字可以查询连接的过程中使用多少个MapReduce，可以用explain extended查看更详细的信息。

EXPLAIN
SELECT sales.*, things.*
FROM sales JOIN things ON (sales.id = things.id);

外连接：
使用left outer join，查询会返回左侧表（sales）中的每一个数据行，及时这些行与这各表索要连接的表（things）中的任何数据对应。

hive> SELECT sales.*, things.*
    > FROM sales LEFT OUTER JOIN things ON (sales.id = things.id);
Ali     0    NULL NULL
Joe     2    2    Tie
Hank    2    2    Tie
Eve     3    3    Hat
Hank    4    4    Coat

hive也支持right outer join右外连接

hive> SELECT sales.*, things.*
    > FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id);
NULL    NULL 1    Scarf
Joe     2    2    Tie
Hank    2    2    Tie
Eve     3    3    Hat
Hank    4    4    Coat

全外连接，full outer join

hive> SELECT sales.*, things.*
    > FROM sales FULL OUTER JOIN things ON (sales.id = things.id);
Ali     0    NULL NULL
NULL    NULL 1    Scarf
Joe     2    2    Tie
Hank    2    2    Tie
Eve     3    3    Hat
Hank    4    4    Coat

半连接：
下面的in 子句能够查找things表中在sales表中出现过的所有商品：

select *
from things
where things.id in (select id from sales);

但是hive不支持in子句查询，所以要对其进行改写，改写后如下：

hive> select * from things;
OK
2    Tie
4    Coat
3    Hat
1    Scarf
Time taken: 0.282 seconds
hive> select * from sales; 
OK
Joe    2
Hank    4
Ali    0
Eve    3
Hank    2
Time taken: 0.227 seconds

对上述表操作，左半连接，只要左半自身。

hive> select *
    > from things left semi join sales on (sales.id=things.id);
..................
OK
2    Tie
3    Hat
4    Coat
Time taken: 14.528 seconds

map连接：
如果要指定使用map连接，需要在sql中使用C语言风格的注释，从而给出提示：

select /* mapjoin(things) */ sales.*, things.*
from sales join things on (sales.id=things.id);

执行这个查询不适用reducer，只在所有输入上进行聚集，使用下面的语法启用优化选项：set hive.optimize.bucketmapjoin=true;
q、子查询

hive对子查询支持有限，只允许出现在select 语句的from子句中。

下面的语句可以查出每年每个气象站最高气温的均值：

SELECT station, year, AVG(max_temperature)
FROM (
  SELECT station, year, MAX(temperature) AS max_temperature
  FROM records2
  WHERE temperature != 9999
    AND (quality = 0 OR quality = 1 OR quality = 4 OR quality = 
  GROUP BY station, year
) mt
GROUP BY station, year;

内层查询查询出每个气象站的最高气温，外层查询使用AVG聚集函数计算这些最高读数的均值。

你可能感兴趣的:(cdh)

2023 下半年信息安全工程师考试真题答案 rockmelodies 安全网络安全
一、单项选择如下有关信息安全管理员职责旳论述，不对旳旳是（）A.信息安全管理员应当对网络旳总体安全布局进行规划B.信息安全管理员应当对信息系统安全事件进行处理C.信息安全管理员应当负责为顾客编写安全应用程序D.信息安全管理员应当对安全设备进行优化配置国家密码管理局于2023年公布了“无线局域网产品须使用旳系列密码算法”，其中规定密钥协商算法应使用旳是（）A.DHB.ECDSAC.ECDHD.CPK
kafka消费者重复消费同一个topic 小琳ai 大数据 kafka 重复消费 consumer
我的需求是我有多个消费者，需要重复消费某一个topic。场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用，发现会发生后起来的应用消费不到数据。按理来讲不同的groupid属于不同的消费组，不会相互影响。由于是使用的cdh集成的kafka，不知道cdh里的zookeeper管理kafka的数据存在了
Django HelloWorld 部署 SkTj
第一阶段：搭建Django框架mkdirdjango//创建一个文件夹命名为djangocddjango//进入django文件夹django-adminstartprojectHelloWorld//创建一个Project命名为HelloWorldcdHelloWorld//进入HelloWorld查看一下目录，结果有两个文件：HelloWorld//该目录用于存放一些配置信息manage.py
hue升级文档 101之歌
首先，确定我们的两个安装包：hue.zip（这个包也可以从我们的git仓库下载，具体链接我会发给你）huetool.zip然后，在CDH的管理界面停止hue的服务：1，进入hue2，选择实例3，选择HueServer4，选择“操作”-->“停止此HueServer”停止了hue服务以后，进入shell，开始安装kerberos：1，解压huetool.zip2，进入，打开krb5.conf3，修改
实训day37（8.27） Tʀᴜsᴛ⁴¹⁷487 linux
一、dockerfile应用[root@docker~]#mkdirhttp0[root@docker~]#cdhttp0/[root@dockerhttp0]#vimabc.sh[root@dockerhttp0]#lsabc.sh[root@dockerhttp0]#vimabc.sh#!/bin/bashrm-rf/run/*httpd*exec/sbin/httpd-DFOREGROUND
CDH 之 hive 数据迁移啊这 CDH hive hadoop 大数据迁移学习
当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下1.导出元数据信息#database即是数据库名称hive-e"use;showtables;"|xargs-I'{}'sh-c'hive-e"use;showcreatetable'{}';"'>tables.sql2.将原服务器中h
Gitlab CI/CD 配置 netkiller- 运维手札编程手札 gitlab ci/cd git
CI/CDhttps://gitlab.com/gitlab-examplesGitlab(仓库)->GitlabRunner（持续集成/部署）->Remotehost（远程部署主机）11.5.1.远程服务器配置为远程服务器创建www用户，我们将使用该用户远程部署，远程启动程序。[root@netkiller~]#groupadd-g80www[root@netkiller~]#adduser-o
在linux机器中安装配置hadoop BigData_C linux hadoop
1.首先我们要把hadoop包上传到我们的liunx机器中（运用外链软件上传如：Xshell+xftp）（用我们的外链软件连接成功后，进行hadoop包的上传）上传到我们想要的目录路径下，比如我的是上传到/home/hadoop目录下。（我们可以看到红色字体的hadoop包已经上传成功）2.进行解压，运用命令：tar-zxvfhadoop-2.6.0-cdh5.7.6.tar.gz进行解压，解压后
天猫超市优惠获取渠道，天猫超市内部优惠劵领取方法使用教程氧惠全网优惠
天猫超市是一个不错的购物平台，满足用户所需，基本次日达，很方便的购物平台，那么有人问我，天猫超市优惠获取渠道在哪？怎么能够优惠的购买，今天分享给大家；1、天猫超市优惠券抢好券：天猫超市首页每天可以领取满199减30、满235减35、满299减50、满399减60、满166减30等优惠券，领劵方法复制下条口令打开淘宝进入领劵会场；隐藏神券、实时爆款、天天更新！戳>(CZ9185ZatcdhNADlJ
CDH 启停使用HiveServer2 金刚_30bf
翻译：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hiveserver2_start_stop.html版本：5.14.2HiveServer2是HiveServer的改进版本，支持Kerberos身份验证和多客户端并发访问。您可以使用Beeline客户端访问HiveServer2。警告：如果以远程模
大数据开源框架技术汇总浪尖聊大数据-浪尖数据仓库 hive flume 分布式 scipy makefile crm lighttpd
主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、Gluster
【python】密码字典生成器 HarryXYC 我的Python朋友 python 网络安全密码字典生成
项目源码仓库：harry-passwd-dict-creator:根据简单的表达式生成密码字典文件(gitee.com)一、介绍harry-passwd-dict-creator（下简称pdc）集合了一些哈里自写的密码字典生成工具。二、安装确保已安装gitgitclonehttps://gitee.com/harryxiaocn/harry-passwd-dict-creator.gitcdhar
开源大数据管理平台选型大数据AI 大数据从入门到精通大数据
随着CDH和HDP的闭源，还有国内信创需求，经过前期调研和后期实践，目前主要有两个产品满足要求：apachebigtop和DataSophon符合要求。因为这两个产品都是完全开源的，自助可控。一apachebigtop项目地址：https://bigtop.apache.orgApacheBigtop是一个开源项目，旨在提供一套完整的开源软件栈，用于构建、测试和部署大数据应用程序。该项目的主要目标
16.用Hadoop命令向CDH集群提交MR作业大勇任卷舒
16.1实验环境介绍内容概述环境准备Kerberos环境和非Kerberos集群测试环境Kerberos集群CDH5.11.2，OS为Redhat7.2非Kerberos集群CDH5.13，OS为CentOS6.5前置条件CDH集群运行正常本地开发环境与集群网络互通且端口放通16.2示例这里使用的代码是没有加载CDH集群的xml配置的，因为使用hadoop命令提交时会加载集群的配置信息（如hdfs
[CDH] Spark 属性、内存、CPU相关知识梳理枪枪枪 Spark spark scala big data
version：2.4.0-cdh6.3.0文章目录sparkproperties常用配置sparktasksparktask使用的cpu核数sparkarchitecturesparkmemorysparkonyarn问题1：什么情况下使用spark.executor.memoryOverhead问题2:什么情况下使用spark.executor.memory小总结：归根结底，spark中的cp
大数据分析学习第十五课自建云服务器集群离线安装Ambari2.7.5和HDP3.1.5(一) 猫头鹰数据分析大数据 Java Hive hadoop ambari 大数据 centos hdfs
之前了解了很多关于大数据平台一站式部署管理的工具，比如ApacheAmbari和CDH，目前最新的CDH已经没有了社区版，也就是说以后使用新版本的ClouderaManager和CDH都是要收费的，这对于很多小公司来说，可能无法承受。转向Ambari是他们的一个可选项。Ambari是Apache的一个顶级开源项目，开源是其最大的优势，开源也意味着Ambari可以灵活地进行扩展，集成更多的数据组件，
生产环境下，应用模式部署flink任务，通过hdfs提交但行益事莫问前程 flink flink
前言通过通过yarn.provided.lib.dirs配置选项指定位置，将flink的依赖上传到hdfs文件管理系统1.实践（1）生产集群为cdh集群，从cm上下载配置文件，设置环境exportHADOOP_CONF_DIR=/home/conf/authexportHADOOP_CLASSPATH=`hadoopclasspath` （2）上传flink的lib和plugins、自己
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案 DolphinScheduler社区大数据
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）#切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dcheck
linux7软件选择最小,[CentOS7] - 最小化安装CentOS7后可以选择安装的软件 weixin_39946429 linux7软件选择最小
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
最小化安装centos7配置ip_最小化安装CentOS7后的步骤 h8liu
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案数据库
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dchecks
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
华为OD机试】连续字母长度-python 小念念不唠叨华为od python 开发语言
python-连续字母长度题目代码总结用到知识点代码编写总结题目题目描述给定一个字符串：只包含大写字母：求在包含同一个字母的子串中,长度第k长的子串的长度;相同字母只取最长的那个子串。若子串中只包含同一个字母的子串数小于k;则输出-1.输入描述：第一行有一个字符串：只包含大写字母第二行有一个数字：表示k的值输出描述：输出连续出现次数第k多的字母的次数示例1：输入AAAAHHHBBCDHHHH3输出
FPGA_工程_基于rom的vga显示哈呀_fpga fpga开发 fpga 图像处理学习信号处理系统架构
一框图二代码修改moduleDisplay#(parameterH_DISP=1280,parameterV_DISP=1024,parameterH_lcd=12'd150,parameterV_lcd=12'd150,parameterLCD_SIZE=15'd10_000)(inputwireclk,inputwirerst_n,inputwire[11:0]lcd_xpos,//lcdho
2022-04-13--SecureCRT SSH 失败 Key exchange failed 解决方法 lyx_lyx
1.连接报错:Keyexchangefailed2.仔细看报错提示:3.Nocompatiblekey-exchangemethod.Theserversupportsthesemethods:curve25519-sha256,[email protected],ecdh-sha2-nistp256,ecdh-sha2-nistp384,ecdh-sha2-nistp521
nginx 配置https hibigger
http{server{listen443;server_namewww.qiyuanwang.cn;sslon;roothtml;indexindex.htmlindex.htm;ssl_certificatecert/server.pem;ssl_certificate_keycert/server.key;ssl_session_timeout5m;ssl_ciphersECDHE-RSA-
天猫双十一红包口令玩法 m0_51290176
双十一最强红包攻略来了啦，今年没什么红包雨，只有超级红包。今天是天猫双十一红包加码的日子，大家一定要抓紧时间领取一下天猫双十一红包，中奖概率高达80%以上，有大概率中现金，而且如果你是首次领取的话，那么必中两个现金红包!必中!所以千万不要错过，天猫双十一红包的领取方式如下。天猫红包手机端：￥YkdnciQvcdh$(复制口令打开手淘或天猫即可)电脑端红包地址：https://1111.tmall.
Rust语言入门（4）—— Hello world& Cargo 王丰博 Rust rust 开发语言后端
Helloworld上一篇我们完成了Rust环境的搭建，本章我们会介绍如何创建Rust的第一个工程，以及后续如何使用cargo构建项目1.编写运行Helloworld(1)创建一个hello_world文件夹，然后创建hello_world.rsmkdirhello_worldcdhello_worldtouchhello_world.rs(2)打开hello_world.rs,并输入如下代码：f
Rust入门01——HelloWorld Mungbean Gliese Rust通用入门 rust 开发语言后端
1、简单编译方式打开终端新建名为”hello_world“的工程文件夹mkdirhello_worldcdhello_world在文件夹内创建main.rs，并写上入口函数fnmain(){println!("HelloWorld";)}调用rustc进行编译rustcmain.rs编译后可以看到在目录下有main.exe，在终端执行它即可看到打印的字符串。2、包创建方式编译打开终端新建名为”he
CM 部署，CDH安装一守望的天空_9a6e
一，基础环境配置1，安装一台miniCentos7，完整克隆3台。2，修改静态ip输入ifconfig，查看ip，vi/etc/sysconfig/network-scripts/ifcfg-ens33，修改为静态ip。BOOTPROTO=static设置网卡引导协议为静态ONBOOT=yesIPADDR=192.168.1.111NETMASK=255.255.255.0GATEWAY=192.
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文