leonarding1

PIG安装配置及案例应用

1.各组件版本

Linux ISO：CentOS-6.0-i386-bin-DVD.iso 32位

JDK version："1.6.0_25-ea"

Hadoop software version：hadoop-0.20.205.0.tar.gz

Hbase version：hbase-0.90.5

Pig version：pig-0.9.2.tar.gz http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/pig-0.9.2.tar.gz 北京大学的apache镜像下载，这个版本呢其实不是最新的但和hadoop0.20.2版本匹配，pig版本与hadoop版本也是有配达要求的，请注意你自己的安装的hadoop版本是啥，上网搜索一下对应的版本，当然从上面的网站上可以下载pig全系列，例如pig-0.10.0.tar.gz 这里我就不一一举例了。

2.Pig安装模式

Local模式：实际就是单机模式，pig只能访问本地一台主机，没有分布式，甚至可以不用安装hadoop，所有的命令执行和文件读写都在本地进行，常用于作业实验。

Local模式：只需要配置export

PATH=/usr/java/jdk1.6.0_25/bin:/home/grid/hadoop-0.20.2/bin:/home/grid/pig-0.9.2/bin:$PATH 1个环境变量即可

MapReduce模式：这种模式才是实际应用中的工作模式，它可以将文件上传到HDFS系统中，在使用pig latin语言运行作业时，可以将作业分布在hadoop集群中完成，这也体现了MapReduce的思想，这样我们通过pig客户端连接hadoop集群进行数据管理和分析工作。

需要配置PATH PIG_CLASSPATH hosts文件启动pig

本次主要介绍MapReduce模式安装，因为这种安装模式在实际中最常用也是最有意义的。

Pig作为hadoop的客户端，Pig安装包可以安装在集群任何节点上，它可以在任何节点上提交作业，我这次安装在master节点上为了是方便了解部署架构。

3.验证Hadoop集群状态

使用shell命令行方式验证

[grid@h1 hadoop-0.20.2]$ bin/hadoop dfsadmin -report

Configured Capacity: 19865944064 (18.5 GB)

Present Capacity: 8833888256 (8.23 GB)

DFS Remaining: 8833495040 (8.23 GB)

DFS Used: 393216 (384 KB)

DFS Used%: 0%

Under replicated blocks: 4

Blocks with corrupt replicas: 0

Missing blocks: 0

-------------------------------------------------

Datanodes available: 2 (2 total, 0 dead) --2个节点存活无shutdown

Name: 192.168.2.103:50010 -- slaves h2

Decommission Status : Normal --状态正常

Configured Capacity: 9932972032 (9.25 GB)

DFS Used: 196608 (192 KB)

Non DFS Used: 5401513984 (5.03 GB)

DFS Remaining: 4531261440(4.22 GB)

DFS Used%: 0%

DFS Remaining%: 45.62%

Last contact: Fri Nov 02 18:58:02 CST 2012

Name: 192.168.2.105:50010 -- slaves h4

Decommission Status : Normal --状态正常

Configured Capacity: 9932972032 (9.25 GB)

DFS Used: 196608 (192 KB)

Non DFS Used: 5630541824 (5.24 GB)

DFS Remaining: 4302233600(4.01 GB)

DFS Used%: 0%

DFS Remaining%: 43.31%

Last contact: Fri Nov 02 18:58:02 CST 2012

[grid@h1 hadoop-0.20.2]$ jps master -> hadoop 和 hbase 都启动了

22926 HQuorumPeer

4709 JobTracker

22977 HMaster

4515 NameNode

4650 SecondaryNameNode

31681 Jps

[grid@h2 tmp]$ jps slave1 -> hadoop 和 hbase 都启动了

17188 TaskTracker

22181 Jps

13800 HRegionServer

13727 HQuorumPeer

17077 DataNode

[grid@h4 logs]$ jps slave2 -> hadoop 和 hbase 都启动了

27829 TaskTracker

19978 Jps

26875 Jps

17119 DataNode

11636 HRegionServer

11557 HQuorumPeer

4.Pig安装与配置

（1）把pig-0.9.2.tar.gz上传到h1:/home/grid/目录下并tar解包

[grid@h1 grid]$ pwd

/home/grid

[grid@h1 grid]$ ll

总用量 46832

-rwxrwxrwx. 1 grid hadoop 44 9月 18 19:10 abc.txt

-rwxrwxrwx. 1 grid hadoop 5519 10月 12 22:09 Exercise_1.jar

drwxr-xr-x. 14 grid hadoop 4096 9月 18 07:05 hadoop-0.20.2

drwxr-xr-x. 10 grid hadoop 4096 10月 28 21:13 hbase-0.90.5

-rwxrw-rw-. 1 grid hadoop 47875717 11月 2 06:44 pig-0.9.2.tar.gz

[grid@h1 grid]$ tar -zxvf pig-0.9.2.tar.gz

[grid@h1 grid]$ ll

总用量 46836

-rwxrwxrwx. 1 grid hadoop 44 9月 18 19:10 abc.txt

-rwxrwxrwx. 1 grid hadoop 5519 10月 12 22:09 Exercise_1.jar

drwxr-xr-x. 14 grid hadoop 4096 9月 18 07:05 hadoop-0.20.2

drwxr-xr-x. 10 grid hadoop 4096 10月 28 21:13 hbase-0.90.5

drwxr-xr-x. 2 grid hadoop 4096 9月 16 19:57 input

drwxr-xr-x. 15 grid hadoop 4096 1月 18 2012 pig-0.9.2

-rwxrw-rw-. 1 grid hadoop 47875717 11月 2 06:44 pig-0.9.2.tar.gz

（2）配置Pig的环境变量红色字体都是要修改的

[grid@h1 grid]$ vim .bashrc

export JAVA_HOME=/usr --不要写java目录本身，要写上级目录才生效

export JRE_HOME=/usr/java/jdk1.6.0_25/jre

export

PATH=/usr/java/jdk1.6.0_25/bin:/home/grid/hadoop-0.20.2/bin:/home/grid/pig-0.9.2/bin:$PATH

--添加hadoop软件命令目录和pig软件命令目录，作用告诉shell命令行到哪个目录下去找命令or程序

export CLASSPATH=./:/usr/java/jdk1.6.0_25/lib:/usr/java/jdk1.6.0_25/jre/lib

export PIG_CLASSPATH=/home/grid/hadoop-0.20.2/conf --既然是MapReduce模式，就要让Pig软件找到Hadoop集群，这里是告诉pig软件hadoop的配置文件在哪里，通过一系列配置文件core_site.xml hdfs-site.xml mapred-site.xml 可以找到关键参数NameNode 和 JobTracker 的位置以及端口信息，有了这些信息就可以对整个集群进行控制了。

方法二编辑/home/grid/pig-0.9.2/conf /pig.properties 也可以启动MapReduce模式

添加

fs.default.name= hdfs://h1:9000 找到namenode信息

mapred.job.tracker= h1:9001 找到jobtracker信息

（3）使环境变量生效

[grid@h1 grid]$ source .bashrc 加载环境变量使之生效

（4）查看hosts文件

[grid@h1 grid]$ cat /etc/hosts

192.168.2.102 h1 # Added by NetworkManager

127.0.0.1 localhost.localdomain localhost

::1 h1 localhost6.localdomain6 localhost6

192.168.2.102 h1

192.168.2.103 h2

192.168.2.105 h4

这个文件是主机名和IP地址映射文件，一般在Hadoop集群中都使用主机名进行通信的，在配置文件中也使用主机名进行配置。

（5）启动pig

[grid@h1 grid]$ pig -x mapreduce 也可以只用pig命令进入shell

2012-11-02 20:09:22,149 [main] INFO org.apache.pig.Main - Logging error messages to: /home/grid/pig_1351858162147.log

2012-11-02 20:09:23,314 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://h1:9000 --pig找到namenode

2012-11-02 20:09:27,950 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: h1:9001 --pig找到jobtracker

grunt> quit 退出pig客户端

[grid@h1 grid]$

[grid@h1 grid]$ pig 也可以只用pig命令进入shell

2012-11-02 20:16:17,968 [main] INFO org.apache.pig.Main - Logging error messages to: /home/grid/pig_1351858577966.log

2012-11-02 20:16:18,100 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://h1:9000

2012-11-02 20:16:18,338 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: h1:9001

grunt> help 帮助命令列表

Commands:

<pig latin statement>; - See the PigLatin manual for details: http://hadoop.apache.org/pig

File system commands:

fs <fs arguments> - Equivalent to Hadoop dfs command: http://hadoop.apache.org/common/docs/current/hdfs_shell.html

Diagnostic commands:

describe <alias>[::<alias] - Show the schema for the alias. Inner aliases can be described as A::B.

explain [-script <pigscript>] [-out <path>] [-brief] [-dot] [-param <param_name>=<param_value>]

[-param_file <file_name>] [<alias>] - Show the execution plan to compute the alias or for entire script.

-script - Explain the entire script.

-out - Store the output into directory rather than print to stdout.

-brief - Don't expand nested plans (presenting a smaller graph for overview).

-dot - Generate the output in .dot format. Default is text format.

-param <param_name - See parameter substitution for details.

-param_file <file_name> - See parameter substitution for details.

alias - Alias to explain.

dump <alias> - Compute the alias and writes the results to stdout.

Utility Commands:

exec [-param <param_name>=param_value] [-param_file <file_name>] <script> -

Execute the script with access to grunt environment including aliases.

-param <param_name - See parameter substitution for details.

-param_file <file_name> - See parameter substitution for details.

script - Script to be executed.

run [-param <param_name>=param_value] [-param_file <file_name>] <script> -

Execute the script with access to grunt environment.

-param <param_name - See parameter substitution for details.

-param_file <file_name> - See parameter substitution for details.

script - Script to be executed.

kill <job_id> - Kill the hadoop job specified by the hadoop job id.

set <key> <value> - Provide execution parameters to Pig. Keys and values are case sensitive.

The following keys are supported:

default_parallel - Script-level reduce parallelism. Basic input size heuristics used by default.

debug - Set debug on or off. Default is off.

job.name - Single-quoted name for jobs. Default is PigLatin:<script name>

job.priority - Priority for jobs. Values: very_low, low, normal, high, very_high. Default is normal

stream.skippath - String that contains the path. This is used by streaming.

any hadoop property.

help - Display this message.

quit - Quit the grunt shell.

（6）pig操作命令

自动补全机制（大小写敏感）：就跟linux中的命令自动补全一样，当你输入一半的命令按住tab键就可以输出整个命令，但不能补全文件名哦！

grunt> ls 显示根目录的内容

hdfs://h1:9000/user/grid/in <dir> dir表示目录的意思 <r 3>表示文件的意思

hdfs://h1:9000/user/grid/out1 <dir>

hdfs://h1:9000/user/grid/out2 <dir>

grunt> cd in 进入in子目录

grunt> ls

hdfs://h1:9000/user/grid/in/test_1<r 3> 324 324个字节

hdfs://h1:9000/user/grid/in/test_2<r 3> 134 134个字节

grunt> cat test_1 显示test_1文件内容

Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

Apr 23 11:49:52 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:50 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:44 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:43 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:42 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

grunt> cat test_2 显示test_2文件内容

13599999999 10086

13899999999 120

13944444444 13800138000

13722222222 13800138000

18800000000 120

13722222222 10086

18944444444 10086

在grunt>中全是绝对路径，没有相对路径的显示

在grunt>中引入了当前目录的概念，可以对当前目录进行记忆和管理

在grunt>中直接对HDFS文件系统操作，不用在写烦琐的HDFS命令了

copyFromLocal 把操作系统中的东西->拷贝->HDFS文件系统中

grunt> copyFromLocal /home/grid/access_log.txt pig/access_log.txt

grunt> ls

hdfs://h1:9000/user/grid/in <dir>

hdfs://h1:9000/user/grid/out1 <dir>

hdfs://h1:9000/user/grid/out2 <dir>

hdfs://h1:9000/user/grid/pig <dir>

grunt> cd pig

grunt> ls

hdfs://h1:9000/user/grid/pig/access_log.txt<r 2> 7118627 字节数对的上

copyToLocal 把HDFS文件系统中的东西->拷贝->操作系统中

grunt> copyToLocal test_1 ttt

grunt> ls

hdfs://h1:9000/user/grid/in/test_1<r 3> 324

hdfs://h1:9000/user/grid/in/test_2<r 3> 134

[grid@h1 grid]$ cat ttt 完美拷贝

Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

Apr 23 11:49:52 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:50 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:44 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:43 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:42 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

sh 命令在grunt>里直接运行操作系统命令

grunt> sh pwd

/home/grid

grunt> sh cat ttt

Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

Apr 23 11:49:52 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:50 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:44 hostapd: wlan0: STA cc:af:78:cc:d5:5d

Apr 23 11:49:43 hostapd: wlan0: STA 74:e5:0b:04:28:f2

Apr 23 11:49:42 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

5.Pig案例应用

题目：请使用Pig latin语言处理access_log.txt日志，计算出每个IP的点击数。

我们看一下命令列表，下面是我们常用的pig latin语言

<EOF>

"cat" ...

"fs" ...

"sh" ...

"cd" ...

"cp" ...

"copyFromLocal" ...

"copyToLocal" ...

"dump" ...

"describe" ...

"aliases" ...

"explain" ...

"help" ...

"kill" ...

"ls" ...

"mv" ...

"mkdir" ...

"pwd" ...

"quit" ...

"register" ...

"rm" ...

"rmf" ...

"set" ...

"illustrate" ...

"run" ...

"exec" ...

"scriptDone" ...

"" ...

<EOL> ...

";" ...

grunt> pwd

hdfs://h1:9000/user/grid/pig

grunt> ls

hdfs://h1:9000/user/grid/pig/access_log.txt<r 2> 7118627 这就是我们要处理的文件

grunt> cat access_log.txt 我们来看一下文件的内容之后进行数据分析

119.146.220.12 - - [31/Jan/2012:23:59:51 +0800] "GET /static/js/jquery-1.6.js HTTP/1.1" 404 299 "http://f.dataguru.cn/forum.php?mod=forumdisplay&fid=53&page=1" "Mozilla/5.0 (Windows NT 5.1; rv:8.0.1) Gecko/20100101 Firefox/8.0.1"

119.146.220.12 - - [31/Jan/2012:23:59:52 +0800] "GET /static/js/floating-jf.js HTTP/1.1" 404 300 "http://f.dataguru.cn/forum.php?mod=forumdisplay&fid=53&page=1" "Mozilla/5.0 (Windows NT 5.1; rv:8.0.1) Gecko/20100101 Firefox/8.0.1"

119.146.220.12 - - [31/Jan/2012:23:59:55 +0800] "GET /popwin_js.php?fid=53 HTTP/1.1" 404 289 "http://f.dataguru.cn/forum.php?mod=forumdisplay&fid=53&page=1" "Mozilla/5.0 (Windows NT 5.1; rv:8.0.1) Gecko/20100101 Firefox/8.0.1"

119.146.220.12 - - [31/Jan/2012:23:59:55 +0800] "GET /static/js/smilies.js?AZH HTTP/1.1" 304 - "http://f.dataguru.cn/forum.php?mod=forumdisplay&fid=53&page=1" "Mozilla/5.0 (Windows NT 5.1; rv:8.0.1) Gecko/20100101 Firefox/8.0.1"

119.146.220.12 - - [31/Jan/2012:23:59:55 +0800] "GET /data/cache/common_smilies_var.js?AZH HTTP/1.1" 304 - "http://f.dataguru.cn/forum.php?mod=forumdisplay&fid=53&page=1" "Mozilla/5.0 (Windows NT 5.1; rv:8.0.1) Gecko/20100101 Firefox/8.0.1"

数据算法：

这是一部分dataguru上网日志，从日志内容结构看，ip地址是放在前面的，我们只要抽取出ip地址写入一张ip_text表，然后对ip列进行分组相当于分成若干个小表，每个ip集合为一个小表，再单独算出每个小表总行数即ip点击次数。

（1）加载HDFS文件系统中access_log.txt文件内容放到pig的一个关系(表)里，使用空格作为分隔符，只加载ip列即可。

grunt> ip_text = LOAD 'pig/access_log.txt' USING PigStorage(' ') AS (ip:chararray);

ip_text：代表一个关系，一个表，一个变量，这个表中存放了所有ip记录

LOAD 'pig/access_log.txt'：要加载的文件

USING PigStorage(' ')：使用空格作为分隔符

ip:chararray：表中第一列名ip，数据类型chararray字符型

（2）查看ip_text表结构与内容

一定要仔细，例如命令结尾符不要丢掉，当我们执行一条pig latin语句时，pig自动转换成MapReduce作业对用户来说是透明的，先创建一个jar包，再提交MR job，生成Hadoop job id在执行，最后显示结果！

grunt> DESCRIBE ip_text; 显示表的结构，只有一列，类型为字符型

ip_text: {ip: chararray}

grunt> DUMP ip_text; 显示表的内容，只截取部分内容

creating jar file Job2594979755419279957.jar

1 map-reduce job(s) waiting for submission

HadoopJobId: job_201210121146_0002

(119.146.220.12)

(180.153.227.41)

(180.153.227.44)

(221.194.180.166)

(119.146.220.12)

(220.181.94.221)

(119.146.220.12)

（3）对ip列进行分组，并查看分组后表的内容和结构，注意关键字大小写

把每个ip集合分成一个个小表，把分组后的结果存放在 group_ip 这个表中

grunt> group_ip = GROUP ip_text BY ip; 按照ip进行分组赋给group_ip表

grunt> DESCRIBE group_ip; 查看group_ip表结构

group_ip: {group: chararray,ip_text: {(ip: chararray)}}

我们一眼就看出group_ip表是一个嵌套表，第一个field是group，这就是分组后的ip值

第二个field是一个嵌套的小表又叫包，是前面分组ip的整个集合

grunt> DUMP group_ip; 又提交一个MR job运行

Pig script settings are added to the job Pig脚本自动转换MR job

creating jar file Job2785495206577164389.jar 创建jar包

jar file Job2785495206577164389.jar created jar包创建完毕

map-reduce job(s) waiting for submission. 提交job

HadoopJobId: job_201210121146_0003 job id：job_201210121146_0003

(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),(221.194.180.166),

（4）统计每个小表总行数即ip点击次数

grunt> count_ip = FOREACH group_ip GENERATE group,COUNT($1) AS count_ip;

FOREACH group_ip：逐行扫描group_ip表，赋给count_ip表

GENERATE group：读取分组ip值

COUNT($1) AS count_ip：统计嵌套小表(包)总行数即ip点击次数，把此列取别名叫count_ip方便倒序排列，$1统计第一列，等价于COUNT(ip_text.ip)

grunt> sort_count_ip = ORDER count_ip BY count_ip DESC; 按照count_ip列从大到小排序

# grunt> sort_count_ip = ORDER count_ip BY count_ip ASC; 从小到大排序

（5）查看sort_count_ip表结构和内容

grunt> DESCRIBE sort_count_ip; 显示表的结构，有二列

sort_count_ip: {group: chararray,count_ip: long} 第一个field是group字符型（分组ip值），第二个field是count_ip长类型（ip点击次数）

grunt> DUMP sort_count_ip; 显示表的内容，只截取部分结果，先输出统计信息后显示结果

HadoopVersion PigVersion UserId StartedAt FinishedAt Features

0.20.2 0.9.2 grid 2012-11-03 21:13:05 2012-11-03 21:18:39 GROUP_BY,ORDER_BY

Success!

Input(s):

Successfully read 28134 records (7118627 bytes) from: "hdfs://h1:9000/user/grid/pig/access_log.txt"

Output(s):

Successfully stored 476 records (14515 bytes) in: "hdfs://h1:9000/tmp/temp1703385752/tmp-1916755802"

Counters:

Total records written : 476

Total bytes written : 14515

Spillable Memory Manager spill count : 0

Total bags proactively spilled: 0

Total records proactively spilled: 0

Job DAG:

job_201210121146_0004 -> job_201210121146_0005,

job_201210121146_0005 -> job_201210121146_0006,

job_201210121146_0006

(218.20.24.203,4597)

(221.194.180.166,4576)

(119.146.220.12,1850)

(117.136.31.144,1647)

(121.28.95.48,1597)

(113.109.183.126,1596)

(182.48.112.2,870)

(120.84.24.200,773)

(61.144.125.162,750)

(27.115.124.75,470)

(115.236.48.226,439)

(59.41.62.100,339)

(89.126.54.40,305)

(114.247.10.132,243)

(125.46.45.78,236)

(220.181.94.221,205)

(218.19.42.168,181)

(118.112.183.164,179)

(116.235.194.89,171)

（6）把sort_count_ip表内容写入HDFS文件系统中，即固化到硬盘存入文件

grunt> STORE sort_count_ip INTO 'pig/sort_count_ip';

Counters:

Total records written : 476

Total bytes written : 8051

Spillable Memory Manager spill count : 0

Total bags proactively spilled: 0

Total records proactively spilled: 0

Job DAG:

job_201210121146_0007 -> job_201210121146_0008,

job_201210121146_0008 -> job_201210121146_0009,

job_201210121146_0009

2012-11-03 21:28:41,520 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!

当我们看到Success时就说明我们已经保存成功！

（7）查看保存在HDFS中的结果文件

grunt> ls

hdfs://h1:9000/user/grid/in <dir>

hdfs://h1:9000/user/grid/out1 <dir>

hdfs://h1:9000/user/grid/out2 <dir>

hdfs://h1:9000/user/grid/pig <dir>

grunt> cd pig

grunt> ls

hdfs://h1:9000/user/grid/pig/access_log.txt<r 2> 7118627

hdfs://h1:9000/user/grid/pig/sort_count_ip <dir>

grunt> cat sort_count_ip

218.20.24.203 4597

221.194.180.166 4576

119.146.220.12 1850

117.136.31.144 1647

121.28.95.48 1597

113.109.183.126 1596

182.48.112.2 870

120.84.24.200 773

61.144.125.162 750

27.115.124.75 470

115.236.48.226 439

59.41.62.100 339

89.126.54.40 305

114.247.10.132 243

125.46.45.78 236

220.181.94.221 205

218.19.42.168 181

118.112.183.164 179

116.235.194.89 171

综上我们圆满完成了本次任务

参考文献

http://f.dataguru.cn/forum.php?mod=viewthread&tid=27593&fromuid=303 casliyang

http://f.dataguru.cn/thread-26828-1-3.html sunev_yu

http://f.dataguru.cn/forum.php?mod=viewthread&tid=27866&fromuid=303 chengat1314

http://f.dataguru.cn/thread-27576-1-2.html camel21

http://www.cnblogs.com/siwei1988/archive/2012/07/23/2604710.html

Leonarding
2012.11.3
天津&autumn
分享技术~成就梦想
Blog： http://space.itpub.net/26686207

你可能感兴趣的:(hadoop)

如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
Hadoop入门案例 'Wu' 学习日常大数据 hadoop hdfs 大数据
Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送到相应的DataNode上。当客户端上传一个新文件时（比如输入某些日志），它会被分成固定大小（默认64MB）并进行数据复
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Hadoop WordCount 程序实现与执行指南
HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。这个程序可以在PyCharm中本地测试，也可以部署到远程Hadoop集群上运行。mapper.pyimportsys#从标准输入读取数据forlineinsys.stdin:#移除行首行尾的空白字符line=line.strip()#将行分割为
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践拾光师大数据后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》李哈哈敲代码学习经验分布式 hadoop 自动化大数据 linux
Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2软件列表JDK1.8（！！需要提前上传到software目录下，解压到server目录下）Hadoop3.3.01.3目录规划（注意在根目录下创建export）/export/server#安装目录
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。