萌萌哥的春天

Hadoop知识点总结

一：大数据概述

一、大数据简介

1. 概念：指无法在一定时间范围内使用常规软件工具进项捕捉、管理和处理数据集合，需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

2. 作用：解决海量数据的存储和海量数据的分析计算问题。

3. 大数据与云计算的关系：大数据必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术，有效地处理大量的容忍经过时间内的数据。

二、大数据特征

1. Volume（容量大）：数据的大小决定所考虑的数据的价值和潜在的信息。

2. Velocity（速度快）：获得并处理数据的效率。是区分传统数据挖掘最显著特征。

3. Variety（多样性）：数据类型的多样性。以数据库/文本的结构化数据和以网络日志，图片，音频、视频等为主的非结构化数据。

4. Value（价值）：合理运用大数据，以低成本创造高价值。

5. Variability（可变性）：妨碍了处理和有效地管理数据的过程。

6. Veracity（真实性）：数据的质量。

7. Complexity（复杂性）：数据量巨大，来源多渠道。

三、大数据应用场景

1. 物流仓储：大数据分析系统助力商家精细化运营，提升销量，节约成本。

2. 零售及商品推荐：分析用户消费习惯，给用户推荐可能喜欢的商品，为用户购买商品提供方便。

3. 旅游：深度结合大数据能力和旅游行业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。

4. 保险：海量数据挖掘及风险预测，助力保险行业精准直销，提升精细化定价能力。

5. 金融：多维度体现用户特征，助力金融机构推荐优质用户，防范欺诈风险。

6. 房地产：大数据全面助力房地产行业，打造精准投资与营销，选出更合适的地，建更合适的楼，卖更合适的用户。

7. 人工智能：深度结合大数据能力及人工智能，提供数据资源。

四、大数据部门组织结构

二：Hadoop 概述

一、Hadoop 简介

1. 概念：Hadoop 是由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

2. 作用：解决海量数据的存储和海量数据的分析计算问题。

3. 优点

1. 高可靠性：Hadoop 能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

2. 高扩展性：Hadoop 在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计个节点中。

3. 高效性：Hadoop 可以在节点之间动态并行的移动数据，使得速度非常快。

4. 成本低：Hadoop 通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。

3. 发展历程

1. Hadoop 起源于 Apache Nutch 项目，始于2002年，是 Apache Lucene的子项目之一。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2. 2003年、2004年，Google 发表的"分布式文件系统（GFS）：可用于处理海量网页的存储 " 和 “分布式计算框架（MapReduce）：可用于处理海量网页的索引计算问题” 两篇论文为该问题提供了可行的解决方案。

3. 由于 NDFS 和 MapReduce 在 Nutch 引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并被命名为Hadoop（大数据生态圈，包含很多软件）。

4. 到了2008年年初，Hadoop 已成为 Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司。

4. 三大发行版本

1. Apache Hadoop：免费开源，拥有全世界的开源贡献者，代码更新迭代版本比较快，但难以维护，适合学习使用。

1. 官网地址：http://hadoop.apache.org/releases.html

2. 下载地址：https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop：版本兼容性更好，适用于互联网企业。

1. 官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

2. 下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

3. Hortonworks Hadoop：核心免费开源产品软件HDP（ambari），提供一整套的web管理界面来管理集群。

1. 官网地址：https://hortonworks.com/products/data-center/hdp/

2. 下载地址：https://hortonworks.com/downloads/#data-platform

二、Hadoop 核心架构

1. 历史版本及组成

2. HDFS（Hadoop Distributed File System 分布式文件系统）架构概述

1. NameNode：管理集群当中的各种元数据，如文件名，文件属性（生成时间，副本数等）以及每个文件的块列表和块所在的DataNode等。

2. DataNode：存储集群中的各种块数据到本地文件系统并校验块数据。

3. Secondary NameNode：监控HDFS状态的辅助后台后台程序，每个一段时间获取HDFS元数据快照。

3. Yarn（Yet Another Resource Negotiator 资源管理调度系统）架构概述

4. MapReduce（分布式运算框架）架构概述

三、Hadoop 生态圈

1. HDFS：Hadoop 分布式文件系统（Hadoop Distributed File System），建立在集群之上，适合PB级大量数据的存储，扩展性强，容错性高。

2. MapReduce：Hadoop 的计算框架，由 Map 和 Reduce 两部分组成，由Map生成计算的任务，分配到各个节点上，Reduce执行计算。

3. HBase：源自谷歌的 BigTable，是一个分布式的、面向列存储的开源数据库，性能高，可靠性高，扩展性强。

4. Hive：Hadoop 的数据仓库工具，将个结构化的数据文件映射为一张数据库表，通过类 SQL 语句快速实现简单的 MapReduce 统计，十分适合数据仓库统计。

5. Sqoop：Hadoop 的数据同步工具，将关系型数据库（MySQL、Oracle等）中的数据表和 HDFS 中的文件进性相互导入导出。

6. Flume：Hadoop 的日志收集工具，一个分布式、可靠的、高可用的海量日志聚合系统，用于日志数据收集、处理和传输。

7. Zookeeper：Hadoop 的分布式协作服务，主要作用于统一命名、状态同步、集群管理、配置同步，简化分布式应用协调及其管理难度，提供高性能的分布式服务。

8. Mahout：Hadoop 的机器学习和数据挖掘算法库，实现了大量数据挖掘算法，解决了并行挖掘的问题。

9. Spark：Hadoop 的内存计算框架，为大规模数据处理而设计的快速通用的计算引擎。

10. Pig：Hadoop的大规模数据分析工具，类似于Hive，它提供了 Plight 语言将类 SQL 的数据分析请求转化为一系列经过优化的 MapReduce 运算。

11. Ambari：一种基于Web的工具，支持Hadoop集群的供应、管理和监控等统一部署。

四、Hadoop 实际应用

1. Hadoop+HBase建立NoSQL分布式数据库应用

2. Flume+Hadoop+Hive建立离线日志分析系统

3. Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

4. 在线旅游、移动数据、电子商务、IT安全、医疗保健、图像处理等

三：Hadoop 安装部署（3.1.3版本）

一、伪分布式模式（单节点）

1. 安装并配置 JDK 及 Hadoop

 1 # 安装并配置 JDK
 2 [root@master ~]# tar -zxvf jdk-8u251-linux-x64.tar.gz -C /usr/local/
 3 ......
 4 [root@master ~]# vi /etc/profile 
 5 # JAVA_HOME
 6 export JAVA_HOME=/usr/local/jdk1.8.0_251
 7 export PATH=$PATH:$JAVA_HOME/bin
 8 
 9 # 安装并配置 Hadoop
10 [root@master ~]# tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/
11 ......
12 [root@master ~]# vi /etc/profile 
13 # HADOOP_HOME
14 export HADOOP_HOME=/usr/local/hadoop-3.1.3/
15 export PATH=$PATH:$HADOOP_HOME/bin
16 export PATH=$PATH:$HADOOP_HOME/sbin
17 
18 # 生效配置文件并校验
19 [root@master ~]# source /etc/profile
20 [root@master ~]# java -version
21 java version "1.8.0_251"
22 Java(TM) SE Runtime Environment (build 1.8.0_251-b08)
23 Java HotSpot(TM) 64-Bit Server VM (build 25.251-b08, mixed mode)
24 
25 [root@master ~]# hadoop version
26 Hadoop 3.1.3
27 Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
28 Compiled by ztang on 2019-09-12T02:47Z
29 Compiled with protoc 2.5.0
30 From source with checksum ec785077c385118ac91aadde5ec9799
31 This command was run using /usr/local/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar

2. 部署HDFS（端口：9870）

 1 # 配置集群
 2 ### 配置：hadoop-env.sh
 3 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/hadoop-env.sh
 4 export JAVA_HOME=/usr/local/jdk1.8.0_251
 5 
 6 ### 配置：core-site.xml
 7 [root@master ~]# vi +20 /usr/local/hadoop-3.1.3/etc/hadoop/core-site.xml
 8 
 9    
10    
11        fs.defaultFS
12        hdfs://master:9000
13     
14 
15     
16     
17         hadoop.tmp.dir
18         file:/usr/local/hadoop-3.1.3/data/tmp/
19     
20 
21 
22 ### 配置：hdfs-site.xml
23 [root@master ~]# vi +20 /usr/local/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
24 
25     
26     
27          dfs.replication
28          1
29     
30 
31     
32     
33          dfs.namenode.name.dir
34          file:/usr/local/hadoop-3.1.3/tmp/dfs/name
35     
36 
37     
38     
39          dfs.datanode.data.dir
40          file:/usr/local/hadoop-3.1.3/tmp/dfs/data
41     
42 
43 
44 # 启动集群
45 [root@master ~]# hdfs --daemon start namenode
46 [root@master ~]# hdfs --daemon start datanode
47 [root@master ~]# jps
48 11202 NameNode
49 11322 DataNode
50 11646 Jps
51 
52 # 访问集群web界面（3.1.3版本新端口）
53 [root@master ~]# curl http://master:9870
54 
70 "-//W3C//DTD XHTML 1.0 Strict//EN"
71     "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
72 "http://www.w3.org/1999/xhtml">
73 
74 "REFRESH" content="0;url=dfshealth.html" />
75 Hadoop Administration
76 
77

3. 部署YARN（端口：8088）

 1 # 配置
 2 ### 配置：mapred-site.xml（MR）
 3 [root@master ~]# vi +20  /usr/local/hadoop-3.1.3/etc/hadoop/mapred-site.xml
 4 
 5     
 6     
 7         mapreduce.framework.name
 8         yarn
 9     
10 
11     
12     
13         mapreduce.application.classpath
14         $HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*
15     
16 
17 
18 
19 ### 配置：yarn-site.xml 
20 [root@master ~]# vi +16  /usr/local/hadoop-3.1.3/etc/hadoop/yarn-site.xml   
21 
22     
23     
24         yarn.nodemanager.aux-services
25         mapreduce_shuffle
26     
27 
28     
29     
30         yarn.resourcemanager.hostname
31         master
32     
33 
34     
35     
36         yarn.nodemanager.env-whitelist
37         JAVA_HOME,HADOOP_HOME
38     
39 
40 
41 # 启动集群
42 [root@master ~]# yarn --daemon start resourcemanager 
43 [root@master ~]# yarn --daemon start nodemanager 
44 [root@master ~]# jps
45 12691 DataNode
46 20278 Jps
47 20136 NodeManager
48 12585 NameNode
49 19837 ResourceManager
50 
51 # 查看
52 [root@master ~]# curl http://master:8088/cluster
53 ......

4. 配置历史服务器和日志聚集（端口：19888）

 1 # 配置历史服务器
 2 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/mapred-site.xml
 3 
 4     
 5     
 6        mapreduce.jobhistory.address
 7        master:10020
 8     
 9 
10     
11     
12         mapreduce.jobhistory.webapp.address
13         master:19888
14     
15 
16 
17 # 配置日志聚集
18 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/yarn-site.xml
19 
20     
21     
22         yarn.log-aggregation-enable
23         true
24     
25 
26     
27     
28         yarn.log-aggregation.retain-seconds
29         604800
30      
31 
32 
33 # 启动
34 [root@master ~]# yarn --daemon stop resourcemanager
35 [root@master ~]# yarn --daemon stop nodemanager
36 [root@master ~]# yarn --daemon start resourcemanager
37 [root@master ~]# yarn --daemon start nodemanager
38 [root@master ~]# mapred --daemon start historyserver
39 [root@master ~]# jps
40 12691 DataNode
41 20136 NodeManager
42 20824 Jps
43 12585 NameNode
44 20780 JobHistoryServer
45 19837 ResourceManager

二、完全分布式模式（集群）

1. 配置 xsync 集群分发脚本（关闭防火墙）

 1 # 配置主机地址映射
 2 [root@master ~]# cat /etc/hosts
 3 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
 4 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
 5 10.0.0.18 master
 6 10.0.0.15 slaver1
 7 10.0.0.16 slaver2
 8 
 9 # 配置 xsync 脚本
10 [root@master ~]# vi /usr/local/bin/xsync
11   #! /bin/bash
12 
13   # 1、获取输入参数个数，如果没有参数，直接退出
14   pcount=$#
15   if((pcount==0)); then
16   echo no args;
17   exit;
18   fi
19 
20   #2、获取文件名称
21   p1=$1
22   fname=`basename $p1`
23   echo fname=$fname
24 
25   # 3、获取上级目录到绝对路径
26   pdir=`cd -P $(dirname $p1); pwd`
27   echo pdir=$pdir
28 
29   # 4、获取当前用户名称
30   user=`whoami`
31 
32   # 5、循环
33   for((host=1; host<5; host++)); do
34     echo ------------------- slaver$host --------------
35     rsync -rvl $pdir/$fname $user@slaver$host:$pdir
36   done
37 
38 # 修改执行权限
39 [root@master ~]# chmod 777 /usr/local/bin/xsync
40 
41 # 使用
42 [root@master ~]# xsync /usr/local/jdk1.8.0_251/
43 [root@master ~]# xsync /usr/local/hadoop-3.1.3/
44 [root@master ~]# xsync /etc/profile

2. 配置无密登录及时钟同步

 1 # 生成公钥和私钥
 2 [root@master ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
 3 Generating public/private dsa key pair.
 4 Your identification has been saved in /root/.ssh/id_dsa.
 5 Your public key has been saved in /root/.ssh/id_dsa.pub.
 6 The key fingerprint is:
 7 0c:7d:46:22:0e:d3:b0:1f:31:32:b6:5d:2a:a7:ff:85 root@master
 8 The key's randomart image is:
 9 +--[ DSA 1024]----+
10 |    Bo+ o .      |
11 |   . X.B o       |
12 |    + B . o      |
13 |     = + o       |
14 |    . . S        |
15 |     .   .       |
16 |      . E .      |
17 |       . .       |
18 |        .        |
19 +-----------------+
20 [root@master ~]# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
21 [root@master ~]# chmod 0600 ~/.ssh/authorized_keys
22 
23 # 将公钥拷贝到要免密登录的目标机器
24 [root@master ~]# ssh-copy-id slaver1
25 The authenticity of host 'slaver1 (192.168.200.55)' can't be established.
26 ECDSA key fingerprint is 37:48:34:56:ad:65:08:c1:0b:53:35:ce:fc:4f:c0:3e.
27 Are you sure you want to continue connecting (yes/no)? yes
28 /usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
29 /usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
30 root@slaver1's password:
31 
32 Number of key(s) added: 1
33 
34 Now try logging into the machine, with:   "ssh 'slaver1'"
35 and check to make sure that only the key(s) you wanted were added.
36 
37 # 测试无密登录
38 [root@master ~]# ssh slaver1
39 Last login: Thu Dec 15 14:34:49 2016
40 
41  #########################
42  #  Welcome to XianDian  #
43  #########################
44 
45 [root@slaver1~]#  
46 
47 # 配置 ntp 时钟同步服务器
48 ## 主节点（master）
49 ### 安装 ntp 服务
50 [root@master ~]# yum install -y ntp
51 ...
52 
53 ### 修改ntp 配置文件（删除server和restrict 开头的）
54 [root@master ~]# vi /etc/ntp.conf 
55 server 127.127.1.0
56 fudge 127.127.1.0 stratum 10
57 
58 ## 其他节点进行同步
59 ### 安装同步客户端
60 [root@master ~]# yum install -y ntpdate
61 ### 同步 （-0.xxx以内）
62 [root@slaver1 ~]# ntpdate master
63  3 Jun 11:51:59 ntpdate[1121]: adjust time server 172.16.21.212 offset -0.000439 sec

3. 配置集群

  1 # 配置集群群起：workers（添加从节点）
  2 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/workers
  3 slaver1
  4 slaver2
  5 
  6 # 配置环境变量：hadoop-env.sh
  7 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/hadoop-env.sh
  8 export JAVA_HOME=/usr/local/jdk1.8.0_251
  9 export HADOOP_HOME=/usr/local/hadoop-3.1.3
 10 export HDFS_NAMENODE_USER=root
 11 export HDFS_DATANODE_USER=root
 12 export HDFS_SECONDARYNAMENODE_USER=root
 13 export YARN_RESOURCEMANAGER_USER=root
 14 export YARN_NODEMANAGER_USER=root
 15 
 16 # 核心配置文件：core-site.xml （运行环境）
 17 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/core-site.xml
 18 
 19    
 20    
 21        fs.defaultFS
 22        hdfs://master:9000
 23     
 24 
 25     
 26     
 27         hadoop.tmp.dir
 28         /usr/local/hadoop-3.1.3/data/tmp/
 29     
 30 
 31 
 32 # HDFS配置文件：hdfs-site.xml
 33 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
 34 
 35     
 36     
 37          dfs.name.dir
 38          /usr/local/hadoop-3.1.3/data/tmp/dfs/name
 39     
 40 
 41     
 42     
 43          dfs.data.dir
 44          /usr/local/hadoop-3.1.3/data/tmp/dfs/data
 45     
 46 
 47     
 48     
 49         dfs.namenode.http-address
 50         master:50070
 51     
 52 
 53     
 54     
 55         dfs.namenode.secondary.http-address
 56         slaver2:50090
 57     
 58 
 59     
 60     
 61         dfs.replication
 62         3
 63     
 64 
 65     
 66     
 67         dfs.permissions
 68         false
 69         need not permissions
 70     
 71 
 72 
 73 # YARN配置文件：yarn-site.xml
 74 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/yarn-site.xml
 75 
 76     
 77     
 78         yarn.nodemanager.aux-services
 79         mapreduce_shuffle
 80     
 81 
 82     
 83     
 84         yarn.resourcemanager.hostname
 85         master
 86     
 87 
 88     
 89     
 90         yarn.nodemanager.env-whitelist
 91         JAVA_HOME,HADOOP_HOME
 92     
 93 
 94     
 95     
 96         yarn.application.classpath
 97         /usr/local/hadoop-3.1.3/etc/hadoop:/usr/local/hadoop-3.1.3/share/hadoop/common/lib/*：此处省略很之值
 98     
 99 
100 
101 # MapReduce配置文件：mapred-site.xml
102 [root@master ~]# vi /usr/local/hadoop-3.1.3/etc/hadoop/mapred-site.xml
103 
104     
105     
106         mapreduce.framework.name
107         yarn
108     
109 
110     
111     
112         mapreduce.application.classpath
113         $HADOOP_HOME/share/hadoop/mapreduce/*,$HADOOP_HOME/share/hadoop/mapreduce/lib/*
114     
115 
116 
117 # 分发集群配置文件
118 [root@master ~]# xsync /usr/local/hadoop-3.1.3/etc/
119 ......
120 
121 # 启动
122 [root@master ~]# start-all.sh # 一次性启动
123 # [root@master ~]# start-dfs.sh
124 # [root@master ~]# start-yarn.sh # resourcemanager部署节点启动
125 [root@master ~]# jps 
126 6675 ResourceManager
127 7004 NodeManager
128 6127 NameNode
129 6303 DataNode
130 7471 Jps
131 [root@slaver1 ~]# jps
132 20178 Jps
133 19383 DataNode
134 19563 NodeManager
135 [root@slaver2 ~]# jps
136 17541 SecondaryNameNode
137 16952 DataNode
138 17128 NodeManager
139 17982 Jps

4. 运行 wordcount 案例

 1 # 将本地文件上传
 2 [root@master ~]# hadoop fs -put test.txt /user/input/
 3 ......
 4 
 5 # 运行 wordcount 程序
 6 [root@master ~]# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /user/input/ /user/output/ 
 7 2020-06-04 01:44:45,440 INFO client.RMProxy: Connecting to ResourceManager at master/10.0.0.18:8032
 8 2020-06-04 01:44:45,873 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.staging/job_1591233544175_0002
 9 2020-06-04 01:44:45,935 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
10 2020-06-04 01:44:46,063 INFO input.FileInputFormat: Total input files to process : 1
11 2020-06-04 01:44:46,085 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
12 2020-06-04 01:44:46,118 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
13 2020-06-04 01:44:46,148 INFO mapreduce.JobSubmitter: number of splits:1
14 2020-06-04 01:44:46,266 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
15 2020-06-04 01:44:46,307 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1591233544175_0002
16 2020-06-04 01:44:46,307 INFO mapreduce.JobSubmitter: Executing with tokens: []
17 2020-06-04 01:44:46,489 INFO conf.Configuration: resource-types.xml not found
18 2020-06-04 01:44:46,489 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
19 2020-06-04 01:44:46,549 INFO impl.YarnClientImpl: Submitted application application_1591233544175_0002
20 2020-06-04 01:44:46,577 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1591233544175_0002/
21 2020-06-04 01:44:46,577 INFO mapreduce.Job: Running job: job_1591233544175_0002
22 2020-06-04 01:44:51,703 INFO mapreduce.Job: Job job_1591233544175_0002 running in uber mode : false
23 2020-06-04 01:44:51,705 INFO mapreduce.Job:  map 0% reduce 0%
24 2020-06-04 01:44:55,790 INFO mapreduce.Job:  map 100% reduce 0%
25 2020-06-04 01:45:00,934 INFO mapreduce.Job:  map 100% reduce 100%
26 2020-06-04 01:45:00,956 INFO mapreduce.Job: Job job_1591233544175_0002 completed successfully
27 2020-06-04 01:45:01,079 INFO mapreduce.Job: Counters: 53
28         File System Counters
29                 FILE: Number of bytes read=33
30                 FILE: Number of bytes written=436328
31                 FILE: Number of read operations=0
32                 FILE: Number of large read operations=0
33                 FILE: Number of write operations=0
34                 HDFS: Number of bytes read=118
35                 HDFS: Number of bytes written=19
36                 HDFS: Number of read operations=8
37                 HDFS: Number of large read operations=0
38                 HDFS: Number of write operations=2
39         Job Counters 
40                 Launched map tasks=1
41                 Launched reduce tasks=1
42                 Data-local map tasks=1
43                 Total time spent by all maps in occupied slots (ms)=1369
44                 Total time spent by all reduces in occupied slots (ms)=2565
45                 Total time spent by all map tasks (ms)=1369
46                 Total time spent by all reduce tasks (ms)=2565
47                 Total vcore-milliseconds taken by all map tasks=1369
48                 Total vcore-milliseconds taken by all reduce tasks=2565
49                 Total megabyte-milliseconds taken by all map tasks=1401856
50                 Total megabyte-milliseconds taken by all reduce tasks=2626560
51         Map-Reduce Framework
52                 Map input records=1
53                 Map output records=2
54                 Map output bytes=23
55                 Map output materialized bytes=33
56                 Input split bytes=103
57                 Combine input records=2
58                 Combine output records=2
59                 Reduce input groups=2
60                 Reduce shuffle bytes=33
61                 Reduce input records=2
62                 Reduce output records=2
63                 Spilled Records=4
64                 Shuffled Maps =1
65                 Failed Shuffles=0
66                 Merged Map outputs=1
67                 GC time elapsed (ms)=87
68                 CPU time spent (ms)=830
69                 Physical memory (bytes) snapshot=518791168
70                 Virtual memory (bytes) snapshot=5129560064
71                 Total committed heap usage (bytes)=383254528
72                 Peak Map Physical memory (bytes)=294596608
73                 Peak Map Virtual memory (bytes)=2557661184
74                 Peak Reduce Physical memory (bytes)=224194560
75                 Peak Reduce Virtual memory (bytes)=2571898880
76         Shuffle Errors
77                 BAD_ID=0
78                 CONNECTION=0
79                 IO_ERROR=0
80                 WRONG_LENGTH=0
81                 WRONG_MAP=0
82                 WRONG_REDUCE=0
83         File Input Format Counters 
84                 Bytes Read=15
85         File Output Format Counters 
86                 Bytes Written=19
87 
88 # 查看结果
89 [root@master ~]# hadoop fs -cat /user/output/part-r-00000
90 2020-06-04 01:48:42,894 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
91 Hello   1
92 world!!!        1

四：Hadoop 源码编译

一、环境准备

1. Hadoop ：hadoop-3.1.3-src.tar.gz

2. JDK：jdk-8u231-linux-x64.tar.gz （1.8及以上版本）

3. Maven：apache-maven-3.6.2-bin.tar.gz （3.5及以上版本）

4. Protobuf：protobuf-2.5.0.tar.gz （网页最下面，必须是2.5.0版本）

5. Cmake：cmake-3.13.5.tar.gz（3.13.0及以上版本）

6. Ant：apache-ant-1.10.7-bin.tar.gz（可不安装，版本1.10.8）

7. Findbugs：findbugs-3.0.1.tar.gz （可不安装，3.0.1版本）

二、安装

 1 # 安装下载软件
 2 [root@master ~]# tar -zxvf jdk-8u251-linux-x64.tar.gz -C /usr/local/
 3 [root@master ~]# tar -zxvf hadoop-3.1.3-src.tar.gz -C /usr/local/
 4 [root@master ~]# tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /usr/local
 5 [root@master ~]# tar -zxvf cmake-3.13.5.tar.gz -C /usr/local
 6 [root@master ~]# tar -zxvf apache-ant-1.10.8-bin.tar.gz -C /usr/local/
 7 
 8 # 安装依赖软件（顺序不能乱）
 9 [root@master ~]# yum install -y gcc gcc-c++   
10 [root@master ~]# yum install -y autoconf automake libtool curl 
11 [root@master ~]# yum install -y lzo-devel zlib-devel openssl openssl-devel ncurses-devel
12 [root@master ~]# yum install -y lzo-devel zlib-devel openssl openssl-devel ncurses-devel
13 
14 # 安装Protobuf
15 [root@master ~]# tar -zxvf protobuf-2.5.0.tar.gz
16 [root@master ~]# ./protobuf-2.5.0/configure --prefix=/usr/local/18 [root@master ~]# make && make install #时间很长，耐心等待 20 
21 # 配置环境变量
   [root@master ~]# source /etc/profile
22   # JAVA_HOME
23   export JAVA_HOME=/usr/local/jdk1.8.0_251
24   export PATH=$PATH:$JAVA_HOME/bin
25 
26   # HADOOP_HOME
27   export HADOOP_HOME=/usr/local/hadoop-3.1.3
28   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
29 
30   # MAVEN_HOME
31   export MAVEN_HOME=/usr/local/apache-maven-3.6.3
32   export PATH=$PATH:$MAVEN_HOME/bin
33 
34   # PROTOC_HOME
35   export PROTOC_HOME=
36 
37   # ANT_HOME
38 export ANT_HOME=/usr/local/apache-ant-1.10.8
39 export PATH=$PATH:$ANT_HOME/bin
40 
41 # 生效配置文件并测试
42 [root@master ~]# source /etc/profile
43 [root@master ~]# java -version
44 java version "1.8.0_251"
45 Java(TM) SE Runtime Environment (build 1.8.0_251-b08)
46 Java HotSpot(TM) 64-Bit Server VM (build 25.251-b08, mixed mode)
47 [root@master ~]# mvn -v
48 Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
49 Maven home: /usr/local/apache-maven-3.6.3
50 Java version: 1.8.0_251, vendor: Oracle Corporation, runtime: /usr/local/jdk1.8.0_251/jre
51 Default locale: en_US, platform encoding: UTF-8
52 OS name: "linux", version: "3.10.0-229.el7.x86_64", arch: "amd64", family: "unix"
53 [root@master ~]# protoc --version
54 libprotoc 2.5.0
55 [root@master ~]# ant -version
56 Apache Ant(TM) version 1.10.8 compiled on May 10 2020
57 
58 # 进入 hadoop 源码包执行 Maven 命令(第一次编译需要很长时间，一般在一到二个小时)
59 [root@master hadoop-3.1.3-src]# mvn clean package -DskipTests -Pdist,native -Dtar
60 ......
61 # 编译好的源码包在hadoop-3.1.3-src/hadoop-dist/target里面
62

你可能感兴趣的:(Hadoop知识点总结)

Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
防火墙知识点总结知新zx 服务器网络运维
一、是什么定义：不同区域，安全策略的一台硬件设备二、为什么要用作用：保护内网终端、服务器和一些通信设备的安全三、怎么用（工作原理）分类：传统防火墙、下一代防火墙1、传统防火墙①包过滤工作层次：3/4层原理：类似于路由交换的ACL，路由交换基于端口in/out，防火墙基于区域与区域之间（默认任何区域deny）优缺点：只检测3，4层，处理速度快，开销小，但应用层威胁无法防御或检测，无会画状态跟踪②状态
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
网络基础知识点总结（三）
1.给客户推荐交换机时，从哪些方面进行选型考虑2.MTBF是什么，MTTR是什么MTBF：平均故障时间MTTR：平均故障修复时间3.常见的网络可靠技术1）入侵检测技术IDS（入侵检测系统）：被动监听网络流量，分析异常行为或特征，发现攻击后仅生成告警，不主动干预。IPS（入侵防御系统）：串联在网络链路中，实时检测并主动阻断恶意流量，具备“检测+响应”的主动防御能力。2）访问控制技术（如：ACL）3）
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
【鸿蒙应用开发】知识点总结(零废话无敌精简版、Stage模型) 略萌的程序猿大叔鸿蒙应用开发笔记 harmonyos 华为鸿蒙笔记面试鸿蒙系统
哪些人适合看这篇笔记？如果你想通过这篇笔记了解鸿蒙应用开发的全貌。如果你在看鸿蒙的面试题，但是不知道从哪里开始看。如果你只是想复习一下鸿蒙的知识。如果你想简单了解一下鸿蒙应用开发的基础知识。非常不适合看这篇笔记试图通过该笔记彻底学会鸿蒙应用开发。试图找到开发过程中遇到问题的具体解决方案。几乎无任何基础。相较于看官网文档的好处官网文档的主要风格围绕“指南”和“API”进行陈述，这篇笔记主要目的是为你
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
Java IO流知识点总结 Zonda要好好学习 javaSE java 开发语言
文章目录IO流的定义作用主要应用场景IO流的分类按照流的方向分类按照读取数据方式不同分类重要IO流讲解IO包重点掌握的16中IO包FileInputStream文件拷贝FileReader的使用FileWriter的使用带有缓冲区的字符流BufferedReader节点流和包装流带有缓冲区的字符输出流数据流DataOutputStream和DataInputStream标准输出流日志工具类的封装F
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要